Cvičení MAI061 -- Zadání samostatné zápočtové úlohy

1. Obecné pokyny

Vyřešení a odevzdání této úlohy je podmínkou pro udělení zápočtu, zápočet je podmínkou k připuštění ke zkoušce. Práci odevzdávejte v tištěné podobě, zdrojový kód použitý pro analýzu pošlete e-mailem na . Úlohu je možno odevzdat na cvičení nebo na Karlíně ve 4. patře v místnosti 434. Práci přineste v dostatečném časovém předstihu, tj. minimálně 3 pracovní dny před termínem, kdy budete chtít zápočet.

Při posuzování vaší práce bude brán zřetel zejména na pochopení statistického pozadí problematiky. To by mělo být ilustrováno dostatečně srozumitelným komentářem číselných výsledků (představte si například, že se práci snažíte "prodat" člověku, který statistice nerozumí) a vysvětlením použití daného postupu. Nebojte se rozvést vypočtená čísla do slov, pouhý soupis výstupu z Rka rozhodně nebude impulzem k udělení zápočtu. Naopak, s kopírováním softwarového výstupu raději spíše šetřete a uvádějte skutečně jen to nejpodstatnější (pokud vůbec něco). Při samotném řešení se snažte přeformulovat položené otázky do statistického jazyka. Úlohy se vám pak budou řešit lépe (nehledě na to, že v případě, kdy nevím, co počítám, se počítá velmi špatně). Použití programu R není podmínkou, ale je doporučeno. V případě použití jiného software nezapomeňte uvést jeho název a popsat použité funkce. Celé by to mohlo vypadat například nějak takhle.

Dalším hlediskem při posuzování kvality práce bude její grafické zpracování. Práce by měla být zpracována na počítači, její obsah přehledně a esteticky organizován. Doporučuji zvykat si na (La)TeX, stejně v něm pravděpodobně budete jednou psát diplomku.

2. Popis dat

K analýze použijte soubor data-MAI061.txt. Vzhledem k tomu, že chceme, aby každý dospěl k vlastním závěrům, použijte prosím následující postup, který zaručí, že v proměnné MyData budete mít k dispozici vlastní data o přibližném počtu 100 řádek:

set.seed(c(3112, 1977)) # sem patri Vase datum narozeni ve formatu c(ddmm,yyyy)
data<-read.table("data-MAI061.txt",sep=";",header=TRUE)
MyData<-data[runif(nrow(data))<0.5,]

Tento soubor obsahuje data z různých oblastí.

První skupina dat byla získána tak, že 190 náhodných posloupností délky 1 000 bylo seřazeno nejprve klasickým Bubblesortem a poté modifikovanou verzí (po probublání dolů se pokračuje probubláním zpátky nahoru). Počet provedených porovnání je uložen v proměnné Porovn1, zatímco proměnná Bubble1 resp. BiBubble1 obsahuje časy potřebné k setřízení posloupnosti klasickou resp. oboustrannou metodou. Celá procedura byla nezávisle provedena na jiném počítači pro jiné posloupnosti, získané údaje jsou Porovn2 (počet porovnání), Bubble2 (čas výpočtu klasickou metodou) a BiBubble2 (čas výpočtu vylepšenou metodou).

Další data byla získána při analýze spolehlivosti jistého software. Jedná se o doby do poruchy (v hodinách), které jsou obsažené v proměnné SwRel.

Další skupina dat je založena na údajích získaných při kompresi pdf souborů. Sloupce KompCas, DekompCas, Vel, KompVel obsahují po řadě čas komprese, čas dekomprese (obojí v sekundách), velikosti nezkomprimovaného souboru a velikost po komprimaci (obojí v bajtech).

Zbývající data www1, www2 a www3 udávájí počet navštívení tří různých kategorií www stránek jedním uživatelem během jednoho sledovaného dne.

Při práci pamatujte na to, že jména objektů v programu R jsou case-sensitive! Uvědomte si, že vzhledem k různým délkám jednotlivých položek, data obsahují chybějící pozorování!

3. Zadání úlohy

Spolehlivostní data

Předpokládejte, že doby do selhání mají Weibullovo rozdělení (viz help(dweibull)).

Úkoly:
1. Odhadněte parametry Weibullova rozdělení metodou maximální věrohodnosti.
2. Do jednoho obrázku nakreslete histogram, hustotu Weibullova rozdělení s odhadnutými parametry a odhad hustoty z dat. (Hint: na svislé ose histogramu budou relativní četnosti, pro odhad hustoty z dat lze použít density()).

Bubblesort

Úkoly:
3. Zjistěte, zda je modifikovaná metoda lepší než původní.
4. Testujte hypotézu, že očekávaný počet porovnání je n*(n-1)/4 = 249 750.
5. Rozhodněte, zda se oba počítače liší v rychlosti setřízení.

Komprimování souborů

Uvažujte následující model: Y = β0 * xβ1 * ε, kde Y je vektor časů komprimace, x je vektor velikostí souborů před komprimací a ε je vektor chyb. Předpokládejme, že složky vektoru chyb jsou nezávislé stejně rozdělené a jejich logaritmus má nulovou střední hodnotu a konečný rozptyl.

Úkoly:
6. Pomocí lineární regrese odhadněte parametry β0 a β1.

Návštěvy stránek

Úkoly:
7. Lze rozdělení počtu návštěv prvního druhu stránek považovat za Poissonovo?
8. Jsou počty návštěv druhého a třetího druhu stránek nezávislé?

4. Úkoly navíc za neúčast na cvičení

Nedostatečnou účast na cvičení lze nahradit dalšími domácími úkoly.

Úkoly:
9. Odhadněte střední hodnotu, rozptyl, hustotu a distribuční funkci času dekomprese.
10. Uvažujte jev, že kompresní poměr (tj. podíl KompVel a Vel) je méně než 0,75. Sestrojte interval spolehlivosti pro pravděpodobnost tohoto jevu na hladině spolehlivosti 95%.
11. Zkoumejte, jak čas komprimace a velikost souboru ovlivňuje výslednou velikost souboru po komprimaci. Obdobně jako v úloze 6 sestavte vhodný model (tentokrát se dvěma vysvětlujícími proměnnými) a odhadněte jeho parametry.
12. Pro data s dobou selhání najděte odhady parametrů Weibullova rozdělení metodou momentů a porovnejte je s maximálně věrohodnými odhady z úkolu 1. (Hint: vzorečky pro první dva momenty lze najít např. v help(dweibull))