Základy biostatistiky & Aplikovaná statistika, LS 2001/2002
Následuje schematický popis jednotlivých cvičení, v jednotlivých paralelkách však může docházet k odchylnému průběhu.
- cvičení
Spuštění počítače, Windows, NCSS 2001
- každý student pracuje na svůj účet
- doporučuje se zřídit si ve
svém pracovním prostoru adresář pro soubory k biostatistice
- stručný text přednášky je dostupný na internetu, lze jej číst pomocí internetového prohlížeče s programem
GSview
- spustit MS Internet Explorer
- http://www.karlin.mff.cuni.cz/~zvara
- najít odkaz (úsporně *.PS), otevřít
, registrace programu Gsview není potřebná
- případně upravit velikost zobrazení v G
sview (Media | Display Settings | Resolution | asi 80)
NCSS (Number Cruncher Statistical Systém)
- velmi se doporučuje
před spuštěním programu NCSS 2001 přepnout v místním nastavení (Start | Nastavení | Ovládací panely) desetinný oddělovač na desetinnou tečku
- spustit program NCSS 2001 (správná ikonka na pracovní ploše)
- NCSS 2001 je licencovaný program, který obsahuje mnoho metod na zpracování dat
- NCSS Junior je volně šiřitel
ná zjednodušená verze programu; obsahuje většinu toho, co ve výuce budeme potřebovat, je však méně pohodlná
- NCSS 2001 pracuje se dvěma základními okny (Data, Output) a potřebným počtem oken pro šablony (formulujeme požadavky na činnost, kterou požadujeme)
- datové soubory jsou
v adresáři F:\zvara\biostat
- p
ro načtení do programu volíme příslušný soubor s příponou S0 (někdy S0Z)
- pokud chceme data zkopírovat jinam, musíme kopírovat dva
soubory, jejichž názvy se liší pouze příponou: *.S0 a *.S1 (případně také *.S2 atd.)
- n
ačteme deti11.S0 (File | Open)
Okno NCSS Data
- veškeré informace o datech
, manipulace s nimi (uspořádání, transformace, načítání, ukládání)
- Variable Info (nultý list tabulky, soubor *.S0)
informace o veličinách
ý slovní popis veličiny (Variable Label)
- slovních
označení pro hodnoty celočíselných veličin (Value labels)
- určení počtu desetinných
míst pro zápis do tabulky (počítá se s původní nezaokrouhlenou hodnotou)
- transformace
(logaritmus, součet veličin, jejich podíl atd.)
Sheet1 (když se naplní sloupce, pak další) obsahuje vlastní číselné hodnoty
pro veličiny používané ke třídění (nominální měřítko, faktor) lze použít přímo slovní vyjádření
Úprava dat, uspořádání
jaký je věk nejstaršího otce?
Data | Sort | Sort Database by | VEKO | Ascendindg přerovná řádky podle rostoucího věku otců (pops hodnot proměnné SEX zůstane na místě!)
jaký je medián věku otců? jaké jsou kvartily?
Popisné statistiky
- Analysis | Descriptive Statistics |
Descriptive Stats otevře šablonu
- v zálo
žce Variables zvolíme proměnou (VEKO), ostatní musí být prázdné (resp.. NONE)
- Reports: zvolíme pouze Summary Section, Quartile Section, Stem-Leaf Section
- výkonný příkaz (trojúhelník vlevo nahoře) nebo
F9 nebo Run | Run Procedure otevře okno Output s výsledky
Okno NCSS Output
- umožňuje pohled do dvou pracovních souborů ve formá
tu *.RTF (např. MS Word umí číst)
- Current Output se po každém spuštění nějaké procedury přepisuje
, jeho obsah lze připojit na konec zápisníku Log pomocí File | Add Output to Log nebo ikonkou umístěnou nahoře zcela vlevo
- oba tyto pracovní soubory lze pod zvoleným názvem uložit, editovat, tisknout atd.
Popisné statistiky pro VEKO
- vyluštit, jak je jedenáct
hodnot věku otce zapsáno v diagramu Stem-Leaf (lodyha s listy)
- pozor na jednotky (popsány v posledním řádku)
- hloubka (Depth)
vyjadřuje vzdálenost od bližšího extrému (minima, maxima), což umožňuje najít medián
přečíst spočítané statistiky, vysvětlit jejich význam (kromě Standard Error, LCL a UCL)
zkontrolovat výpočet zejména mediánu a obou kvartilů, případně doplnit dolní a horní decil
zkusit vložit český popis proměnné pomocí Reports | Variable Names | Labels, případně upravit font (Arial CE)
Grafické znázornění kvartilů a mediánu (Box Plot)
vrátit se do dat (například pomocí dolní lišty, Data má žlutočervenou kostku)
Graphics | Box Plots
Variables: Variables VEKO | Grouping Variable musí být prázdné | Filter Active nezaškrtnuté
na grafu identifikujte medián, oba kvartily, konce tykadel
v šabloně upravte svislé měřítko
- Vertical: Major Ticks 7 (proč?), Minor Tic
ks 4 (proč?)
Samostatná činnost
- zopakovat pro výšku matek
, případně porodní délku či hmotnost
- upravený soubor uložit (do vlastního adresáře
?)
- vlo
žit soubor deti12.S0
- uspořádat podle věku otce
- samostatně (ručně) spočítat medián a kvartily
- nechat
spočítat stejné popisné statistiky
- nakreslit krabicový diagram (co je jiné?)
Kam až sahá tykadlo
proč jsou zvlášť zobrazeni dva otcové?
proč je horní tykadlo tak krátké, jak je dlouhé?
změnit věk 44letého otce na 32 roků
- změní se průměr a kvartily? (proč?)
- zůstane věk tohoto otce oddělen?
vyzkoušet (se stejnými otázkami) i jiné hodnoty pro věk tohoto otce
jak může být tento otec nejstarší, aby tykadlo sahalo až k němu? (29.75+1.5(29.75-24)=29.75+8.625=38.375)
Srovnání dvou souborů
podat soubor deti23.s0, který spojuje data z obou souborů předchozích
Box Plots nastavit, aby třídil data podle proměnné SEX
Variables: Vareiable(s) VEKO | Grouping Variable SEX | ostatní prázdné
Titles: Variable Names Labels | Value Labels Value Labels | Top Title zvolit
Vertical: Major Ticks 8 | Minor Ticks 4
interpretujte obrázek
porovnejte porodní délky podle pohlaví (kam zmizel medián u chlapců?)