Cvičení MAI061 -- Zadání samostatné zápočtové úlohy

1. Obecné pokyny

Vyřešení a odevzdání této úlohy je podmínkou pro udělení zápočtu, zápočet je podmínkou k připuštění ke zkoušce. Práci odevzdávejte v tištěné podobě, zdrojový kód použitý pro analýzu pošlete e-mailem na . Úlohu je možno odevzdat na cvičení nebo na Karlíně ve 4. patře v místnosti 434. Práci přineste v dostatečném časovém předstihu, tj. minimálně 3 pracovní dny před termínem, kdy budete chtít zápočet.

Při posuzování vaší práce bude brán zřetel zejména na pochopení statistického pozadí problematiky. To by mělo být ilustrováno dostatečně srozumitelným komentářem číselných výsledků (představte si například, že se práci snažíte "prodat" člověku, který statistice nerozumí) a vysvětlením použití daného postupu. Nebojte se rozvést vypočtená čísla do slov, pouhý soupis výstupu z Rka rozhodně nebude impulzem k udělení zápočtu. Naopak, s kopírováním softwarového výstupu raději spíše šetřete a uvádějte skutečně jen to nejpodstatnější (pokud vůbec něco). Při samotném řešení se snažte přeformulovat položené otázky do statistického jazyka. Úlohy se vám pak budou řešit lépe (nehledě na to, že v případě, kdy nevím, co počítám, se počítá velmi špatně). Použití programu R není podmínkou, ale je doporučeno. V případě použití jiného software nezapomeňte uvést jeho název a popsat použité funkce. Celé by to mohlo vypadat například nějak takhle.

Dalším hlediskem při posuzování kvality práce bude její grafické zpracování. Práce by měla být zpracována na počítači, její obsah přehledně a esteticky organizován. Doporučuji zvykat si na (La)TeX, stejně v něm pravděpodobně budete jednou psát diplomku.

2. Popis dat

K analýze použijte soubor data-MAI061.txt. Vzhledem k tomu, že chceme, aby každý dospěl k vlastním závěrům, použijte prosím následující postup, který zaručí, že v proměnné MyData budete mít k dispozici vlastní data o přibližném počtu 100 řádek:

set.seed(c(3112, 1977)) # sem patri Vase datum narozeni ve formatu c(ddmm,yyyy)
data<-read.table("data-MAI061.txt",sep=";",header=TRUE)
MyData<-data[runif(nrow(data))<0.5,]

Tento soubor obsahuje data z různých oblastí. První skupina dat byla získána tak, že 190 náhodných posloupností délky 10 000 bylo seřazeno nejprve klasickým Bubblesortem a poté modifikovanou verzí (po probublání dolů se pokračuje probubláním zpátky nahoru). Počet provedených porovnání je uložen v proměnné Porovn1, zatímco proměnná Bubble1 resp. BiBubble1 obsahuje časy potřebné k setřízení posloupnosti klasickou resp. oboustrannou metodou. Celá procedura byla nezávisle provedena na jiném počítači pro jiné posloupnosti, získané údaje jsou Porovn2 (počet porovnání), Bubble2 (čas výpočtu klasickou metodou) a BiBubble2 (čas výpočtu vylepšenou metodou). Další data byla získána při analýze spolehlivosti jistého software. Jedná se o doby do poruchy (v hodinách), které jsou obsažené v proměnné SwRel. Zbývající data www1, www2 a www3 udávájí počet navštívení tří různých kategorií www stránek jedním uživatelem během jednoho sledovaného dne.

Při práci pamatujte na to, že jména objektů v programu R jsou case-sensitive! Uvědomte si, že vzhledem k různým délkám jednotlivých položek, data obsahují chybějící pozorování!

3. Zadání úlohy

Spolehlivostní data

Předpokládejte, že doby do selhání mají Weibullovo rozdělení (viz help(dweibull)).

Úkoly:
1. Odhadněte parametry Weibullova rozdělení metodou maximální věrohodnosti. (Hint: vstupem funkce, kterou optimalizujete, bude dvourozměrný vektor.)
2. Do jednoho obrázku nakreslete histogram a hustotu s odhadnutými parametry. (Hint: na svislé ose histogramu budou relativní četnosti.)

Bubblesort

Úkoly:
3. Zjistěte, zda je modifikovaná metoda lepší než původní.
4. Testujte hypotézu, že očekávaný počet porovnání je n*(n-1)/4 = 249 750.
5. Rozhodněte, zda se oba počítače liší v rychlosti setřízení.

Návštěvy stránek

Úkoly:
6. Jsou počty návštěv jednotlivých druhů stránek nezávislé?
7. Navštíví stránky pouze z jedné ze sledovaných kategorií méně než tři čtvrtiny uživatelů?