# 7. cvičení # ještě jednovýběrový t-test, párový a dvouvýběrový t-test # všechno za předpokladu normality # R pomocí SDI setwd("J:/biostat") library(Rcmdr) # podat data Kojeni # připravit datový soubor KojeniDivky, který obsahuje jen # údaje o dívkách # Data | Active data set | Subset active data set ... # ponechme všechna proměnné # možnosti pro podmínku: # !HochL # hoch==0 # hoch!=1 # Hoch=="divka" # Hoch!="hoch" # pro jistotu hned rovnou také uložit: # Data | Active data set | Save active data set # # Najděte popisné statistiky pro hmotnost dívek # Statistics | Summeries | Numerical summaries # Rozhodněte o nulové hypotéze H0: mu = 7600 % Interpretujte p-hodnotu a interval spolehlivosti # # Expert X. Y. tvrdí, že průměrná hmotnost dívek # ve 24. týdni věku je alespoň 7700 g. # Pokuste se prokázat, že nemá pravdu. # H0: mu >= 7700 (mu = 7700), H1: mu < 7700 # Statistics | Means | Single-sample t-test # nutno nastavit jednostrannou alternativu mu < 7700 # proti hypotéze mu = 7700 (vzhledem k alternativní # hypotéze je to totéž jako mu >= 7700) # (H0 zamítáme, prokázali jsme ..., ) # volba jednostranné alternativy možná jen # NEZÁVISLE NA DATECH, pomocí kterých rozhodujeme # kde je na grafu hustoty t(48) p-hodnota tentokrát? # Distributions | Continuous | abline(v=-2.2207,col="red") # kde je na grafu p-hodnota tentokrát? # (je nalevo od červené čáry, PROČ?) pt(-2.2207,49) # resp. # Distributions | Continious... | t distrib... | t probabilities # dosaď -2.2207 49 Lower tail (víme PROĆ?) # # podejte soubor Kojeni: # poklepat na tlačítko s nápisem KojeniDivky # poklepat na Kojeni # připravte soubor KojeniVenkov o údajích # zjištěných u porodů v mimopražské porodnici # sami zvolte vhodnou podmínku # (máte dostat soubor s 29 řádky) # soubor KojeniVenkov uložte do adresáře data # # Máte porovnat výšku rodičů: # H0: populační průměry jsou stejné # H1: nějak se liší # Statistics | Summaries | Numerical summaries ... # vyska.m vyska.o # ověřit normální rozdělení: # Statistics | Summeries | Shapiro-Wilk test of normality # zvol vyska.m # výsledek NEPOTŘEBUJEME, test můžeme upravit na # test normality pro rozdíl vyska.o-vyska.m # Statistics | Means | Paired t-test # vyska.o vyska.m # interpretovat výslednou p-hodnotu a interval spolehlivosti # rozumnější nulová hypotéza # H0: pop. průměr výšek otců = pop. průměr matek + 12 # Víme, jak dopadne test? # upravit příkaz doplněním mu=12 # # Máte porovnat věk rodičů # popisné statistiky # Statistics | Summaries | Numerical summaries ... # vek.m vek.o # Rozhodněte o hypotéze, že populační průměr (populační medián) # věku otců je o 2 roky větší než populační průměr (populační # medián) věku matek # Lze předpokládat normální rozdělení rozdílů? # Statistics | Summaries | Shapiro-Wilk test of normality ... # zvolte vek.o a nechte test provést (NEPOTŘEBUJEME) # příkaz zkopírujte a upravte na test pro rozdíl vek.o-vek.m # podobně nechte nakreslit pravděpodobnostní diagram # NEBO upravte test normality pro rozdíl výšek # na test normality pro rozdíl věku # (pro malý počet hodnot diagram moc nevypovídá!) # # Wilcoxonův test: # Statistics | Nonparametric tests | Paired-samples Wilcoxon ... # spočítali jsme hypotézu, že vzájemné posunutí je nulové # zkopírujte příkaz a doplňte mu=2 (oddělit čárkou) # rozdíl UŽ NENÍ VÝZNAMNÝ! # # znaménkový test: (n = sum(KojeniVenkov$vek.o!=KojeniVenkov$vek.m+2)) (y=sum(KojeniVenkov$vek.o>KojeniVenkov$vek.m+2)) (z = (y-n/2)/sqrt(n/4)) (zYates = ((y-n/2)-1/2)/sqrt(n/4)*sign(y-n/2)) 2*pnorm(-abs(z)) 2*pnorm(-abs(zYates)) # # DVOUVÝBĚROVÝ t-TEST # # Liší se hmotností ve 24. týdni chlapci a dívky? # Nejprve grafické znázornění a popisné statistiky # Graphs | Boxplot ........... # Graphs | Plot of means ........ # postupně volit Standard deviations, Standard errors, # Confidence intervals (nevede k závěru) # Statistics | Summaries | Numerical summaries # ověření předpokladů dvouvýběrového t-testu: # Statistics | Summaries | Shapiro-Wilk .. # potřebujeme zvlášť pro každé pohlaví! # použít na celý vektor hmotnost (to ale NEPOTŘEBUJEME) # příkaz dvakrát upravit na shapiro.test(KojeniVenkov$hmotnost) shapiro.test(KojeniVenkov$hmotnost[!KojeniVenkov$HochL]) # nebo provést oba testy najednou a SAMOSTATNĚ: with(KojeniVenkov,tapply(hmotnost,Hoch,shapiro.test)) # závěr: normlitu můžeme předpokládat # můžeme předpokládat shodu rozptylů? # Statistics | Variances | Two variances F-test # ANO, můžeme # Statistics | Means | Independent samples t-test # nezapomeňte nastavit Assume equal variances # rozdíl NENÍ VÝZNAMNÝ (neprokázali jsme rozdíl) # # podat znovu původní data Kojeni (chlapce i děvčata) # mohli jsme předpokládat, že se hmotností v 24. týdnu # hoši a děvčata neliší? # H0: stř. hodnota hochů = stř. hodnota dívek # H1: je tu rozdíl # # popisné statistiky: # rozdíl průměrů # ověření předpokladů: # 1) nezávislost zřejmá, není souvislost mezi hochy a dívkami # 2) normální rozdělení # nutno pro každou skupinu ZVLÁŠŤ!!!!!!!!! with(Kojeni,tapply(hmotnost,Hoch,shapiro.test)) # rozdělí data uvedená v 1. argumentu podle 2. argumentu, # pro každou takto vzniklou skupinu provede podle 3. argumentu # (normalitu ani jednou nezamítáme, můžeme ji předpokládat) # 3) stejné rozptyly # Statistics | |Variances | Two variances F-test # (p=54,6 %, můžeme předpokládat shodu) # # Statistics | Means | Independent samples t-test # NEZAPOMEŇTE nastavit Assume equal variances # rozdíl jsme PROKÁZALI # je to ve sporu s rozhodnutím u venkovských porodů? # co je to SÍLA TESTU? # na čem závisí? # porovnejte délky intervalů spolehlivosti pro mu_d - mu_h # # POZNÁMKA: při pochybnostech o shodě rozptylů raději shodu # nepředpokládat a použít Welchův test # # případné porovnání intervalů spolehlivosti (přednáška obr. 141): # Graphs | Plot of means nastavit conf. int # 95% intervaly se nepřekrývají! # # jsou chlapci v 24. týdnu vyšší (delší) než dívky? # Graphs | Boxplot | delka, Hoch (mediány asi stejné) # Graphs | Plot of means | delka, Hoch, std errors (představa o přesnosti) # Graphs | Plot of means | delka, Hoch, conf. int. (protínají se) # proč je na každém grafu jiný sklon úsečky? x (je to vidět při listování grafy) # Statistics | Summaries | Numerical .. | třídit delka podle Hoch # ověření předpokladů: with(Kojeni,tapply(delka,Hoch,shapiro.test)) # Statistics | Variances | Two variance F... (p=0.03225) # Statistics | Means | Independent samples t-test (p = 0.21) # (zvolili jste správnou jednostrannou alternativu?) # (měli jsme předpokládat shodné rozptyly?) # # nezapomeňte ULOŽIT svoji práci