Základy biostatistiky LS 2002/2003
Následuje schematický popis jednotlivých cvičení, v jednotlivých paralelkách však může docházet k odchylnému průběhu.
cvičení
Spuštění počítače, Windows, poznámky k přednášce
každý student pracuje na svůj účet
doporučuje se, aby si student zřídil ve svém pracovním prostoru adresář pro soubory k biostatistice
stručný text přednášky je dostupný na internetu, lze jej číst pomocí internetového prohlížeče s programem GSview nebo Acrobat Reader
spustit MS Internet Explorer
http://www.karlin.mff.cuni.cz/~zvara
najít odkaz (úsporně *.PS), otevřít (registrace programu Gsview není potřebná) nebo najít odkaz (úsporně *.PDF), otevřít
případně upravit velikost zobrazení v Gsview (Media | Display Settings | Resolution | asi 80)
NCSS (Number Cruncher Statistical Systém)
- vlastní spuštění doporučuji
programu NCSS 2001 doporučuji provést pomocí speciální ikony Biostatistika umístěné na ploše (přepne na tečku jako desetinný oddělovač, zničí zapamatované nastavení šablon)
- NCSS 2001 je licencovaný program, který obsahuje mnoho metod na zpracování dat
- NCSS Junior je volně šiřitelná zjednodušená verze programu; obsahuje většinu toho, co ve výuce budeme potřebovat, je však méně pohodlná
- NCSS
pracuje se dvěma základními okny (Data, Output) a potřebným počtem oken pro šablony (formulujeme požadavky na činnost, kterou požadujeme; NCSS Junior umožňuje otevřít vždy jediné okno s šablonou)
- datové soubory jsou v adresáři
E:\Home2\zvara\biostat
- pro načtení do programu volíme příslušný soubor s příponou S0 (
"es nula", někdy S0Z)
- pokud chceme data zkopírovat jinam, musíme kopírovat dva
soubory, jejichž názvy se liší pouze příponou: *.S0 a *.S1 (případně také *.S2 atd.)
Okno NCSS Data
- načteme deti11.S0 (File | Open)
- okno dá
veškeré informace o datech, manipulace s nimi (uspořádání, transformace, načítání, ukládání)
- Variable Info (nultý list tabulky, datový soubor *.S0) -
informace o veličinách
- název veličiny (nezačínat číslicí, nepoužívat značky matematických operací ani mezeru
…)
- český slovní popis veličiny (Variable Label)
- slovních označení pro hodnoty celočíselných veličin (Value labels)
- určení počtu desetinných míst pro zápis do tabulky (počítá se s původní nezaokrouhlenou hodnotou)
- transformace (logaritmus, součet veličin, jejich podíl atd.)
Sheet1 (když se naplní sloupce, pak Sheet2 atd.) obsahuje vlastní číselné hodnoty
pro veličiny používané ke třídění (nominální měřítko, faktor) lze použít přímo slovní vyjádření
Úprava dat, uspořádání
jaký je věk nejstaršího otce?
Data | Sort | Sort Database by | VEKO | Ascendindg přerovná řádky podle rostoucího věku otců (popis hodnot proměnné SEX, tj. SEX_KOD a SEX_POPIS zůstane na místě!)
jaký je medián věku otců? jaké jsou kvartily? (29, 23,36)
jaký je medián věku matek, jaké jsou kvartily? (data znovu uspořádat,=>23,20,34)
Popisné statistiky
- Analysis | Descriptive Statistic
s | Descriptive Stats otevře šablonu
- v záložce Variables zvolíme proměnou (VEKM
), ostatní políčka musí být prázdná (resp.. NONE)
- Reports: zvolíme pouze Summary Section, Quartile Section, Stem-Leaf Section
- výkonný příkaz (trojúhelník vlevo nahoře) nebo F9 nebo Run | Run Procedure otevře okno Output s výsledky
Okno NCSS Output
- umožňuje pohled do dvou pracovních souborů ve formátu *.RTF (např. MS Word
jej umí číst)
- Current Output se po každém spuštění nějaké procedury přepisuje
, jeho obsah lze připojit na konec zápisníku Log pomocí File | Add Output to Log nebo ikonkou umístěnou nahoře zcela vlevo
- oba tyto pracovní soubory lze pod zvoleným názvem uložit, editovat, tisknout atd.
Popisné statistiky pro VEKM
- vyluštit,
jak je jedenáct hodnot věku matky zapsáno v diagramu Stem-Leaf (lodyha s listy)
- pozor na jednotky (popsány v posledním řádku)
- hloubka (Depth) vyjadřuje vzdálenost od bližšího extrému (minima, maxima), což umožňuje najít medián
přečíst spočítané statistiky, vysvětlit jejich význam (kromě Standard Error, LCL a UCL)
zkontrolovat výpočet zejména mediánu a obou kvartilů, případně doplnit dolní a horní decil
zkusit vložit český popis proměnné pomocí Reports | Variable Names | Labels, případně upravit font (Arial CE)
Grafické znázornění kvartilů a mediánu (Box Plot)
- vrátit se do da
t (například pomocí dolní lišty, okno pro data má žlutočervenou kostku)
- Graphics | Box Plots
- Variables: Variables VEKO | Grouping Variable musí být prázdné | Filter Active nezaškrtnuté
- na grafu identifikujte medián, oba kvartily, konce tykadel
- v šabloně upravte svislé měřítko
- Vertical: Major Ticks 7 (proč?), Minor Ticks 4 (proč?)
- upravený
soubor uložit (do vlastního adresáře?)
Samostatná činnost
vložit soubor deti12.S0
- uspořádat podle věku otce
- samostatně (ručně) spočítat medián a kvartily
(27, 24, 29.75)
nechat spočítat stejné popisné statistiky
nechat nakreslit krabicový diagram (co je jiné?)
Kam až sahá tyka
dlo
- proč jsou zvlášť zobrazeni dva otcové?
- proč je horní tykadlo tak krátké, jak je dlouhé?
(29.75+1.5(29.75-24)=38.375, 24-1.5(29.75-24)=15.375)
- poznamenat (na tabuli)
věk 44letého otce, medián a kvartily
- změnit věk 44letého otce na 32 roků
- změní se průměr a kvartily? (proč?)
- zůstane věk tohoto otce oddělen?
- poznamenat znovu na tabuli
vyzkoušet (se stejnými otázkami) i jiné hodnoty pro věk tohoto otce
jak může být tento otec nejstarší, aby tykadlo sahalo až k němu? (proč právě 38.375?)
Porovnání dvou souborů
- podat soubor deti23.s0, který spojuje data z obou souborů předchozích
- Box Plots nastavit, aby třídil data podle proměnné SEX
- Variables: Vareiable(s) VEKO | Grouping Variable SEX | ostatní prázdné | RUN
- upravit měřítko
Vertical: Major Ticks 8 | Minor Ticks 4 (proč?)
- upravit Titles: Variable Names Labels | Value Labels Value Labels | Top Title zvolit "Krabicový diagram"
interpretovat obrázek
porovnat porodní délky podle pohlaví (kam zmizel medián u chlapců?)
Ukončení práce
podle potřeby uložit data(File | Save nebo File | Save As)
podle potřeby uložit výsledky ze zápisníku ve formátu RTF
odklepnout DOSovské okno
030217-KZv.