Základy biostatistiky LS 2005/2006
7. cvičení: zopakovat testy o
jednom
výběru,
párové testy, nově dvouvýběrové testy
data Cvic.S0
jednovýběrový t-test pro
TEPLOTA (zadání v CVIC.TXT) H0: mu = 28
- Variables
| Response Var. :
TEPLOTA | Ho
Value: 28
- Reports | Variable Names: Labels | pouze
Probability Plot
- interpretovat
zejména při
oboustranné alternativě
- zde nemáme zkušenost (jako u výšky), že data
mají normální
rozdělení, proto (i když test normality bez problémů) zkusíme postupy,
které normalitu nevyžadují
- Reports | nastav také
Nonparametric Report
- při
interpretaci
výsledků připomenout jak se tvoří kritický obor: obsahuje výsledky,
které svědčí spíš pro alternativu než pro hypotézu, velikost stanovíme
tak, aby chyba 1. druhu nastávala nejvýš s pravděpodobností alfa
- znaménkový test (sign) porovnává počet
naměřených hodnot menších
než mi0 s počtem hodnot větších . Dosažené hladiny (p-hodnoty)
znaménkového test jsou uvedeny pod označením Prob Lower (alternativa >), Prob Higher (alternativa <), Prob Both (oboustranná
alternativa)
- ověřit pravděpodobnosti uvedené u znaménkového
testu pomocí
Probability Calculator (N=10+3=13, R=10)
- Wilcoxonův test navíc bere v úvahu, že některá
měření jsou k mi0
blíže, jiná dál, neměří ale jak daleko
- zvláště
při menších
počtech pozorování je lépe vzít opatrnější
výstup s opravou na spojitost
Analysis
| T-Tests | One-Sample T-Test
POZOR
ve staré verzi (NCSS 6.0, zřejmě také ve volně šiřitelné verzi, která
je částí NCSS 6.0) je výstup znaménkového testu dost zmatený.
Doporučuji v případě párového testu volit takové pořadí proměnných,
aby počet zárorných rozdílů byl menší
než počet kladných rozdílů. Pak aspoň testová statistika pro
oboustrannou alternativu (Prob Both) je správně. Ve verzi NCSS 2001
byly už tyto problémy do jisté míry odstraněny, jen je třeba
zapamatovat si podivné označení p-hodnot při jednostranné alternativě.
Párový test:
jsou otcové v (populačním
smyslu) v průměru o 3 roky starší?
- Analysis | t-tests | Paired T-Tests
- Response … vek_otec | Paired … vek_matka | H0
Value 3
- zde
nemáme zkušenost
(jako u výšky), že data mají normální rozdělení,
proto
(test normality na problém ukazuje!) použijeme postupy,
které normalitu nevyžadují
- Reports
| nastav také Nonparametric Report
- při
interpretaci
výsledků připomenout jak se tvoří kritický obor: obsahuje výsledky,
které svědčí spíš pro alternativu než pro hypotézu, velikost stanovíme
tak, aby chyba 1. druhu nejvýš s pravděpodobností alfa
- znaménkový test (sign) porovnává počet otců
starších než matka a
více než o tři roky s počtem otců starších o méně než o tři roky
(někteří tedy vypadnou)
- výsledná p hodnota je v
Prob. Both
- ověřit
pravděpodobnosti uvedené u znaménkového testu pomocí Probability Calculator
(N=85, R=36, dá
pst, že bude ještě méně případů,
kdy je otec starší o víc než o 3 roky, rovnou 0,192760)
- Wilcoxonův
test navíc bere v úvahu, že některá měření jsou k mi0 blíže, jiná dál,
neměří ale jak daleko
- zvláště při menších počtech pozorování je lépe
vzít opatrnější
výstup s opravou na spojitost
spočítat stejné úlohy zvlášť pro dívky
samostatně s uložením do souboru nechat
studenty rozhodovat o tom, zda lze prokázat, že u dětí vysokoškolaček
jsou otcové aspoň o rok starší
než matky (případně o dva či tři roky, podle úvahy cvičícího)
data: Cvic.S0, popis v souboru CVIC.TXT
(nutný)
zopakovat úlohu o výškách desetiletých
dětí z přednášky, oboustranná alternativa, ukázat postup v NCSS
- Analysis | T-Tests | Two-Sample T-Test
- Response
Variables:
CHLAPCI, DIVKY (jedna ze dvou možností zadání, Goup Variables prázdné)
- Reports | zrušit
Nonparametric Report a
Histogram; Variable Names: Labels, RUN
- popsat
výstup,
zdůraznit, že vždy má smysl sledovat JEDINÝ řádek, ten, který odpovídá
alternativní hypotéze; testy normality do značné míry jen orientační,
závisí i na zkušenosti
- zkusit
zadání pomocí VYSKA a faktoru SKUPINA
- Reports | zvolit Nonparametric Report, RUN
- popsat nové výstupy, zajímavosti výstupu:
- Mann Whitney U obsahuje počty dvojic, kdy hodnota
danéhoho
výběru je větší než hodnota druhého výběru, shody se polovinou
započítají do obou řádků
- W
Sum Ranks obsahuje
běžné součty pořadí (u shod se počítají průměrná pořadí)
- Number
Sets of Ties:
počet skupin shodných hodnot (počet sčítanců v Multiplicity Factor)
- Multiplicity
Factor:
korekční faktor pro adjustaci rozptylu na shody
- Approximation
Withouth
(With) Correction: použita oprava na spojitost, potřebná zejména při
menších
četnostech
test o
pravděpodobnosti alternativního (binomického) rozdělení
lze hrací kostku, u které nám ve 30
hodech padla šestka 8 krát, považovat za symetrickou?
- Analysis | Other | One Proportion
- Sample Size (n): 30, Number of Successes (X): 8,
Hypothesized
Proportion (P0): 0.166667
- co vyjde, pokud šestka padla desetkrát?
- nebereme v úvahu výsledek Normal Approximation
using (P)
- interpretovat;
kdy má smysl jednostranná alternativa?
- opakovat pro dvojnásobky (60 a 16) a
trojnásobky (90 a 24),
porovnat výsledky
příklad Kalous (skripta str. 90)
- n=50, X=33, P0=0.5, jednostranná
alternativa
- ve
skriptech není
použita oprava na spojitost
060411 -KZv.