Vyřešení a odevzdání této úlohy je podmínkou pro udělení zápočtu, zápočet je
podmínkou k připuštění ke zkoušce. Práci odevzdávejte v tištěné podobě,
zdrojový kód použitý pro analýzu pošlete e-mailem na
. Úlohu je možno odevzdat na cvičení nebo
na Karlíně ve 4. patře v místnosti 434. Práci přineste v dostatečném časovém předstihu, tj. minimálně
3 pracovní dny před termínem, kdy budete chtít zápočet.
Při posuzování vaší práce bude brán zřetel zejména na pochopení statistického pozadí problematiky. To by mělo být ilustrováno dostatečně srozumitelným komentářem číselných výsledků (představte si například, že se práci snažíte "prodat" člověku, který statistice nerozumí) a vysvětlením použití daného postupu. Nebojte se rozvést vypočtená čísla do slov, pouhý soupis výstupu z Rka rozhodně nebude impulzem k udělení zápočtu. Naopak, s kopírováním softwarového výstupu raději spíše šetřete a uvádějte skutečně jen to nejpodstatnější (pokud vůbec něco). Při samotném řešení se snažte přeformulovat položené otázky do statistického jazyka. Úlohy se vám pak budou řešit lépe (nehledě na to, že v případě, kdy nevím, co počítám, se počítá velmi špatně). Použití programu R není podmínkou, ale je doporučeno. V případě použití jiného software nezapomeňte uvést jeho název a popsat použité funkce. Celé by to mohlo vypadat například nějak takhle.
Dalším hlediskem při posuzování kvality práce bude její grafické zpracování. Práce by měla být zpracována na počítači, její obsah přehledně a esteticky organizován. Doporučuji zvykat si na (La)TeX, stejně v něm pravděpodobně budete jednou psát diplomku.
K analýze použijte soubor data-MAI061.txt. Vzhledem k tomu, že chceme, aby každý dospěl k vlastním závěrům, použijte prosím následující postup, který zaručí, že v proměnné MyData budete mít k dispozici vlastní data o přibližném počtu 100 řádek:
set.seed(c(3112, 1977)) # sem patri Vase datum narozeni ve formatu c(ddmm,yyyy) data<-read.table("data-MAI061.txt",sep=";",header=TRUE) MyData<-data[runif(nrow(data))<0.5,]
Tento soubor obsahuje data z různých oblastí.
První skupina dat byla získána tak, že 190 náhodných posloupností
délky 1 000 bylo seřazeno nejprve klasickým Bubblesortem
a poté modifikovanou verzí (po probublání dolů se pokračuje
probubláním zpátky nahoru). Počet provedených porovnání je uložen
v proměnné Porovn1
, zatímco proměnná Bubble1
resp. BiBubble1
obsahuje časy potřebné k setřízení posloupnosti
klasickou resp. oboustrannou metodou. Celá procedura byla nezávisle provedena
na jiném počítači pro jiné posloupnosti, získané údaje jsou
Porovn2
(počet porovnání), Bubble2
(čas výpočtu
klasickou metodou) a BiBubble2
(čas výpočtu vylepšenou metodou).
Další data byla získána při analýze spolehlivosti jistého software. Jedná se
o doby do poruchy (v hodinách), které jsou obsažené v proměnné
SwRel
.
Další skupina dat je založena na údajích získaných při
kompresi pdf souborů. Sloupce KompCas
,
DekompCas
, Vel
, KompVel
obsahují po řadě čas komprese, čas dekomprese (obojí v sekundách),
velikosti nezkomprimovaného souboru a velikost po komprimaci (obojí
v bajtech).
Zbývající data www1
, www2
a www3
udávájí počet navštívení tří různých kategorií www stránek jedním uživatelem
během jednoho sledovaného dne.
Při práci pamatujte na to, že jména objektů v programu R jsou case-sensitive! Uvědomte si, že vzhledem k různým délkám jednotlivých položek, data obsahují chybějící pozorování!
Úkoly:
1. Odhadněte parametry Weibullova rozdělení metodou maximální věrohodnosti.
2. Do jednoho obrázku nakreslete histogram, hustotu Weibullova
rozdělení s odhadnutými parametry a odhad hustoty z dat.
(Hint: na svislé ose histogramu budou relativní četnosti,
pro odhad hustoty z dat lze použít density()).
Úkoly:
3. Zjistěte, zda je modifikovaná metoda lepší než původní.
4. Testujte hypotézu, že očekávaný počet porovnání je n*(n-1)/4
= 249 750.
5. Rozhodněte, zda se oba počítače liší v rychlosti setřízení.
Y
je vektor časů komprimace,
x
je vektor velikostí souborů před komprimací a ε
je vektor chyb. Předpokládejme, že složky vektoru chyb jsou nezávislé
stejně rozdělené a jejich logaritmus má nulovou střední hodnotu
a konečný rozptyl.
Úkoly:
6. Pomocí lineární regrese odhadněte parametry β0
a β1.
Úkoly:
7. Lze rozdělení počtu návštěv prvního druhu stránek považovat za
Poissonovo?
8. Jsou počty návštěv druhého a třetího druhu stránek nezávislé?
Nedostatečnou účast na cvičení lze nahradit dalšími domácími úkoly.
Úkoly:
9. Odhadněte střední hodnotu, rozptyl, hustotu a distribuční funkci
času dekomprese.
10. Uvažujte jev, že kompresní poměr (tj. podíl KompVel
a Vel
) je méně než 0,75. Sestrojte interval spolehlivosti
pro pravděpodobnost tohoto jevu na hladině spolehlivosti 95%.
11. Zkoumejte, jak čas komprimace a velikost souboru ovlivňuje
výslednou velikost souboru po komprimaci. Obdobně jako v úloze 6
sestavte vhodný model (tentokrát se dvěma vysvětlujícími proměnnými)
a odhadněte jeho parametry.
12. Pro data s dobou selhání najděte odhady parametrů Weibullova
rozdělení metodou momentů a porovnejte je s maximálně věrohodnými
odhady z úkolu 1.
(Hint: vzorečky pro první dva momenty lze najít např.
v help(dweibull))