Výuka 2009–10

Arnošt Komárek

Dostupnost během léta 2010:

3.7. - 9.7.:  Zahraniční pracovní cesta
10.7. - 25.7.:  Dovolená
26.7. - 28.7.:  Zahraniční pracovní cesta
31.7. - 15.8.:  Dovolená
17.8. - 22.8.:  Zahraniční pracovní cesta
23.8. - 29.8.:  Dovolená
3.9.:  Dovolená
28.9. - 1.10.:  Zahraniční pracovní cesta
  • V těchto obdobích nebudu zpravidla k zastižení v žádné z budov MFF UK a na e-maily mohu odpovídat dosti nepravidelně. Děkuji za pochopení.

Na této stránce k počtení:  Letní semestr 2009-10

NSTP070 (MS710P09 cvičení): Základy biostatistiky

ROZVRH

Cvičení a: Čtvrtek 9:00 v B5 (Viničná 7)   
Cvičení b: Čtvrtek 10:40 v B5 (Viničná 7)   
Cvičení c: Čtvrtek 12:20 v B5 (Viničná 7)   
Cvičení d: Čtvrtek 15:40 v B5 (Viničná 7)   
Cvičení e: Úterý 14:50 v B5 (Viničná 7)    (Mgr. Alena Černíková, Ph.D.)
Cvičení f: Úterý 16:30 v B5 (Viničná 7)    (Mgr. Alena Černíková, Ph.D.)
Cvičení g: Středa 9:50 v B5 (Viničná 7)    (RNDr. Jana Rubešová, Ph.D.)
Cvičení h: Středa 11:30 v B5 (Viničná 7)    (RNDr. Jana Rubešová, Ph.D.)
Přednáška: Úterý 8:10 v B7 (Viničná 7)    (Doc. RNDr. Karel Zvára, CSc.)

ZADÁNÍ PRÁCE PRO CVIČENÍ

1. Seznámení s R pdf soubor (poslední změna 22.2.2010).
2. Popisná statistika pro kvantitativní proměnnou pdf soubor (poslední změna 22.2.2010).
3. Popisná statistika pro dvě kvantitativní proměnné pdf soubor (poslední změna 22.2.2010).
4. Popisná statistika pro kvalitativní proměnné pdf soubor (poslední změna 22.2.2010).
5. Popisná statistika pro dvojici proměnných pdf soubor (poslední změna 22.2.2010).
6. Opakování na větším datovém souboru pdf soubor (poslední změna 22.2.2010).
7. Klasická definice pravděpodobnosti, pravděpodobnostní rozd.,
   CLV, interpretace intervalu spolehlivosti pdf soubor (poslední změna 25.2.2010).
8. Interval spolehlivosti pro střední hodnotu
   normálně rozděleného výběru pdf soubor (poslední změna 16.3.2010).
9. Jednovýběrový t-test pdf soubor (poslední změna 25.3.2010).
10. Dvouvýběrové testy pro kvantitativní data pdf soubor (poslední změna 2.4.2010).
11. Párové testy pro kvantitativní data pdf soubor (poslední změna 20.4.2010).
12. Analýza rozptylu jednoduchého třídění pdf soubor (poslední změna 20.4.2010).
13. Analýza rozptylu dvojného třídění viz cvičení.
14. Korelace pdf soubor (poslední změna 21.4.2010).
15. Lineární regrese I pdf soubor (poslední změna 3.5.2010).
16. Lineární regrese II pdf soubor (poslední změna 3.5.2010).
17. Analýza kategoriálních dat pdf soubor (poslední změna 4.5.2010).
 

SAMOSTATNÁ (DOMÁCÍ) PRÁCE

Sada úloh č. 1 zadání (pdf) data (csv) (poslední změna 20.4.2010).
Sada úloh č. 2 zadání (pdf) data (csv) (poslední změna 20.4.2010).
Ukázka zkouškových příkladů (2008-09) zadání (pdf) data (csv) (zveřejněno 20.4.2010).
   Zimní semestr 2009-10

NSTP191 (cvičení k NSTP201, resp. NSTP001): Matematická statistika

ROZVRH

Paralelka a: Středa 8:10 v K7   
Paralelka b: Čtvrtek 14:00 v K7   
Přednášky: Úterý 12:20 v K2 a čtvrtek 10:40 v K2    (Prof. RNDr. Jiří Andĕl, DrSc.)

DOKUMENTY, INFORMACE atd.

Další příklady k procvičení:  pdf soubor (poslední změna 4.11.2009).
Příklady počítané na cvičení:  pdf soubor (poslední změna 19.8.2009).
Podmínky získání zápočtu:  pdf soubor (zveřejněno 25.9.2009).
 

UKÁZKA PROGRAMU R

Předvánoční cvičení 16./17. prosince 2009 se bude konat v učebně K10B a bude věnováno stručnému seznámení se statistickým programem R (více tady). Před začátkem cvičení si stáhněte na lokální disk soubory s daty (auta04.dat, auta04.csv, auta04.xls), Rkový skript stručný manuál s otázkami a úkoly. Na začátku Rkového skriptu změňte cestu tak, aby vedla do adresáře s uloženými daty. Pokud si popis cvičení s otázkami a úkoly navíc vytisknete (stačí černobíle), zpřehledníte si trochu práci při cvičení.
Stručný manuál a hrátky s R:  pdf (poslední změna 3.12.2009).
R skript z hrátek s R:  R skript (ASCII) (poslední změna 3.12.2009).
Data použitá v manuálu:  auta04.dat (ASCII) auta04.csv (ASCII) auta04.xls (Excel) (poslední změna 3.12.2009).
 

NSTP195 (cvičení k NSTP194, resp. NSTP094): Regrese

ROZVRH

Paralelka a: Středa 17:20 v K11   
Přednášky: Pondělí 9:00 v KPMS a středa 8:10 v K4    (Doc. RNDr. Karel Zvára, CSc.)

DOKUMENTY, INFORMACE atd.

Program cvičení: pdf soubor (poslední změna 6.12.2009).
Podmínky získání zápočtu:  pdf soubor (zveřejněno 25.9.2009).
 

ZADÁNÍ ZÁPOČTOVÉ ÚLOHY

  • Zadání a pokyny naleznete v pdf souboru (zveřejněno 25.11.2009).
  • Potřebná data novorUmrtnost70 máte k dispozici jako ASCII soubor s názvy proměnných na prvním řádku, oddělovačem mezerou a desetinným oddělovačem tečkou.
  • Připomínám, že vypracovanou úlohu je třeba odevzdat vytištěnou na papíře nejpozději na Tři krále roku 2010.

ZADÁNÍ CVIČENÍ

  • Na cvičeních se budeme postupně zabývat řešením problémů popsaných v níže uvedených pdf souborech.
  • Ke každému pdf souboru je k dispozici ASCII soubor s příkazy pro R uvedenými v příslušném pdf.
  • Před cvičením doporučuji vytisknout zadání z pdf na papír a stáhnout si na lokální disk R skript, který je poté možno doplňovat.
  • Na lokální disk dále doporučuji před cvičením stáhnout příslušný datový soubor (budete ho případně moci modifikovat).
  • Data naleznete zde (k přístupu použijte uživatelské jméno a heslo, které jsem vám sdělil na prvním cvičení).
  • Všechny níže uvedené soubory (včetně dat) najdete co nevidět též na disku I v adresáři I:/kpms/komarek/nstp195 v počítačové učebně.
Ukázky regresních závislostí (data Hosi0) zadání (pdf) R skript (ASCII) (poslední změna 25.9.2009).
Ukázky závislostí (data Kojeni) zadání (pdf) R skript (ASCII) (poslední změna 25.9.2009).
Síla testu (data Vysky) zadání (pdf) R skript (ASCII) (poslední změna 25.9.2009).
Pozadí lineární regrese a maticové rozklady zadání (pdf) R skript (ASCII) (poslední změna 9.10.2009).
Pásy spolehlivosti, predikční pásy, (data Dris) zadání (pdf) R skript (ASCII) (poslední změna 15.10.2009).
testy podmodelu
Analýza rozptylu a lineární model (data Koreny) zadání (pdf) R skript (ASCII) (poslední změna 4.11.2009).
Vyšetření možné rovnoběžnosti přímek, (data Listy) zadání (pdf) R skript (ASCII) (poslední změna 11.11.2009).
kalibrace
Porovnání modelů, prověření kvality modelu (data Policie) zadání (pdf) R skript (ASCII) (poslední změna 18.11.2009).
Tvar závislosti, stabilita rozptylu (data Draha) zadání (pdf) R skript (ASCII) (poslední změna 25.11.2009).
Vážená lineární regrese, testování podmodelu (data Hlavy) zadání (pdf) R skript (ASCII) (poslední změna 1.12.2009).
Transformace, kroková regrese, (data Fazekas) zadání (pdf) R skript (ASCII) (poslední změna 6.12.2009).
korelační a parciální korelační koeficient
Analýza rozptylu dvojného třídění (data Howells) zadání (pdf) R skript (ASCII) (poslední změna 6.12.2009).
Celková analýza (data Melanom) zadání (pdf) R skript (ASCII) (poslední změna 6.12.2009).
Multikolinearita (data IQ) zadání (pdf) R skript (ASCII) (poslední změna 6.12.2009).
Autokorelace (data Voda) zadání (pdf) R skript (ASCII) (poslední změna 6.12.2009).
Nelineární regrese (data Hepaga) zadání (pdf) R skript (ASCII) (poslední změna 6.1.2010).
Nelineární regrese (data Puromycin) zadání (pdf) R skript (ASCII) (poslední změna 6.1.2010).
 

NSTP097 (cvičení): Statistika

ROZVRH

Paralelka a: Čtvrtek 15:40 v K7/10   
Paralelka b: Pondělí 10:40 v K4/10    (Ing. Marek Omelka, Ph.D.)
Přednášky: Pondělí 9:00 v K3 a čtvrtek 10:40 v K11    (Mgr. Michal Kulich, Ph.D.)

DOKUMENTY, INFORMACE atd.

Další příklady k procvičení:  pdf soubor (poslední změna 4.11.2009).
Příklady počítané na cvičení:  pdf soubor (poslední změna 3.12.2009).
Přednáška o teorii míry (od Šárky Došlé):  pdf soubor (zveřejněno 29.10.2009).
Podmínky získání zápočtu:  pdf soubor (zveřejněno 8.10.2009).
 

CVIČENí V K10

Cvičení č. 1 (3.12.2009): zadání (pdf) R skript (ASCII) (poslední změna 3.12.2009).
Cvičení č. 2 (10.12.2009): zadání (pdf) R skript (ASCII) (poslední změna 3.12.2009).
Cvičení č. 3 (17.12.2009): zadání (pdf) R skript (ASCII) (poslední změna 4.12.2009).
Cvičení č. 4 (7.1.2010): zadání (pdf) R skript (ASCII) (poslední změna 9.12.2009).
 

UKÁZKA PROGRAMU R

Stručný manuál a hrátky s R:  pdf (poslední změna 3.12.2009).
R skript z hrátek s R:  R skript (ASCII) (poslední změna 3.12.2009).
Data použitá v manuálu:  auta04.dat (ASCII) auta04.csv (ASCII) auta04.xls (Excel) (poslední změna 3.12.2009).
   Materiály k Rku

   Veškeré níže umístěné materiály slouží pouze pro potřeby studentů MFF UK
   a nesmějí být dále šířeny bez písemného souhlasu autora.

R lze zdarma stáhnout z http://www.R-project.org a poté používat při dodržení podmínek GNU GPL licence (nevylučuje komerční využití).

STRUČNÉ MANUÁLY A UČEBNICE

Stručný manuál číslo 1:   pdf soubor
Ukázková data (ASCII soubory):   kamaradi.dat, kamaradi2.dat, kamaradi3.dat, kamaradi4.dat, kamaradi5.dat, kamaradi6.dat
 
Stručný manuál číslo 2:   pdf soubor
Ukázková data (ASCII soubor): car.dat
Tento manuál byl napsán primárně pro studenty FM VŠE.
Ostatní musejí při četbě ignorovat (zejména v oddíle věnovanému instalaci) odkazy na tamní síťové disky K:/PED/KMIH/...
 
Učebnice statistiky s příklady v R:   Stránka s omezeným přístupem
(přihlašovací údaje sdělím na požádání)
 
Další stručné manuály a jiné odkazy:   Stránka Michala Kulicha
 
Úvod do R psaný pro biology:   pdf soubor
(od Karla Zváry)  Diplomová práce vypsaná ve školním roce 2009-10

Téma: Shluková analýza pro funkcionální data

Zadáno 6.10.2009: Barbora Zemanová

Anotace: Práce se bude zabývat statistickými metodami pro řešení například následujícího problému. Máme skupinu subjektů (pacienti, ...) a u nich opakovaně (v čase) měříme nějaký ukazatel (krevní tlak, ...). Pro jeden subjekt máme tedy k dispozici opakovaná měření téhož, přičemž na jednotlivá měření lze též pohlížet jako na funkci času. Odsud termín funkcionální data, kdy jedno pozorování = funkce (času) udávající hodnotu ukazatele (krevního tlaku) pro jeden subjekt (pacienta). Cílem je rozdělit jednotlivé subjekty do skupin (shluků) tak, aby v rámci jednoho shluku byly ty subjekty, pro něž si jsou funkcionální pozorování v jistém smyslu podobná. V případě pacientů a v situaci, kdy má měřený ukazatel nějakou souvislost s danou chorobou, mohou poté shluky reprezentovat různé stupně závažnosti choroby. Na rozdíl od klasické shlukové analýzy, kdy se k tvorbě shluků použije pouze jedno (např. poslední) měření ukazatele pro každý subjekt, se bude DP práce zabývat přístupy, kdy je k vytvoření shluků použito celé historie, tj. všech pozorování daného ukazatele každého subjektu.

Zásady pro vypracování: V posledních cca 15 letech bylo v literatuře publikováno mnoho přístupů ke shlukování na základě funkcionálních či longitudinálních dat. Posluchač aktivně vyhledá relevantní literaturu, kriticky posoudí publikované přístupy a vše při jednotném značení shrne ve své diplomové práci. V případě zájmu je možné některý z dříve publikovaných přístupů zobecnit či jinak vylepšit. Pro mnohé publikované přístupy neexistuje snadno aplikovatelný software. Nedílnou součástí diplomové práce bude proto implementace jednotlivých přístupů v R a aplikace na reálná data. Odborná literatura bude vesměs v angličtině, diplomová práce bude psána česky nebo slovensky.

Literatura:
Verbeke, G. and Lesaffre, E. (1996). A linear mixed-effects model with heterogeneity in the random-effects population. Journal of the American Statistical Association, 91, 217-221.
A další dle dohody.  Bakalářské práce vypsané pro školní rok 2009-10

Téma 1: Statistické testy ekvivalence

Zadáno 5.10.2009: Júlia Klačanská

Anotace: Nejjednoduší statistická nulová hypotéza je tvaru H0: theta = theta0, kde theta je neznámý parametr a theta0 nějaká referenční hodnota. Vzhledem k tomu, že nulovou hypotézu lze pouze zamítnout či nezamítnout, avšak nikdy ji nelze prokázat za platnou, nelze při použití testu s takto formulovanou nulovou hypotézou nikdy prokázat, že theta je skutečně rovno theta0. Potřeba prokázat rovnost je však v praxi poměrně častá. Klasickým případem je klinická studie mající za cíl ukázat, že generický lék je skutečně ekvivalentní svému originálnímu protějšku (theta je hodnotou terapeutického efektu generika a theta0 hodnotou terapeutického efektu originálního léku). V rámci bakalářské práce se student seznámí se základními postupy pro testování ekvivalence, s důrazem na metody odvozené ze statistických testů, jež jsou vyučovány v rámci přednášky NSTP022 (t-testy, testy založené na centrální limitní větě, ...).

Zásady pro vypracování: Jedná se o kompilační práci, v jejímž rámci student nastuduje statistické metody pro testování ekvivalence. Vlastní příspěvek studenta bude spočívat zejména: v přehledném a uceleném popisu nastudovaných metod a jejich statistických vlastností, vše při jednotném značení; v aplikaci nastudovaných metod na reálná data spolu s interpretací získaných výsledků, případně v provedení jednodušší simulační studie. Studijní literatura bude k dispozici v angličtině, práce bude psána v češtině nebo slovenštině.

Alespoň pasivní znalost angličtiny nutná.

Úspěšné absolvování předmětů NSTP022, NMAA001, NMAA002, NMAA003, NMAA004 (či jejich ekvivalentů) do okamžiku zápisu bakalářské práce nutné.

Literatura:
Wellek, S. (2003). Testing Statistical Hypotheses of Equivalence. Boca Raton: Chapman and Hall/CRC. ISBN 1-58488-160-7.

Téma 2: Simpsonův paradox

Zadáno 5.10.2009: Jan Balhar

Anotace: Simpsonův paradox ve statistice byl popsán již koncem 19. století a nemá žádnou souvislost s nejmenovaným animovaným seriálem. Jedná se o situaci, kdy se závislost mezi dvěma znaky kvalitativně změní, jestliže uvážíme vliv znaku třetího. Příkladem může být závislost procenta tělního tuku na výšce, jenž je rostoucí (čím delší člověk, tím více tuku), avšak odstraníme-li vliv hmotnosti, závislost se změní na klesající (při jinak shodné hmotnosti, čím delší člověk, tím méně tuku). Důvodem je silná korelace mezi výškou a hmotností. V případě, že se konzument statistické analýzy snaží chybně používat statistické modely k určování příčinných souvislostí, může Simpsonův paradox vést k nesmyslným závěrům (vyhovujícím požadavkům konzumenta...).

Zásady pro vypracování: Student(ka) se seznámí se Simpsonovým paradoxem, přehledně ho popíše a s pomocí vlastních znalostí statistiky vysvětlí důvody pro jeho výskyt. V literatuře vyhledá a shrne některé jeho případy v praxi. Studijní literatura bude k dispozici v angličtině, práce bude psána v češtině nebo slovenštině.

Alespoň pasivní znalost angličtiny nutná.

Úspěšné absolvování předmětů NSTP022, NMAA001, NMAA002, NMAA003, NMAA004 (či jejich ekvivalentů) do okamžiku zápisu bakalářské práce nutné.

Literatura:
Agresti, A. (2002). Categorical Data Analysis, Second Edition. Hoboken: John Wiley and Sons. ISBN 0-471-36093-7.
Blyth, C. R. (1972). On Simpson's paradox and the sure-thing principle. Journal of the American Statistical Association, 67, 364-366.
Davis, L. J. (1989). Intersection union tests for strictly collapsibility in three-dimensional contingency tables. The Annals of Statistics, 17, 1693-1708.
Dong, J. (1998). Simpson's paradox. Pp. 4108-4110 in Encyclopedia of Biostatistics, vol. 5. Chichester: John Wiley and Sons.
Pavlides, M. G., Perlman, M. D. (2009). How likely is Simpson's paradox? The American Statistician, 63, 226-233.
Samuels, M. L. (1993). Simpson's paradox and related phenomena. Journal of the American Statistical Association, 88, 81-88.
Simpson, E. H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society, Series B, 13, 238-241.
Wagner, C. H. (1982). Simpson's paradox in real life. The American Statistician, 36, 46-48.
Wardrop, R. L. (1995). Simpson's paradox and the hot hand in basketball. The American Statistician, 49, 24-28.

 

View My Stats