(NMST 551) Statistický projektový seminář
Čt: 09:00 - 10:30 | @K9
Všeobecné informácie
Hlavným cieľom Statistického projektového semináru -- NMST551 je získať prax v štatistickej analýze reálných dat a podrobnom vypracovaní záverečnej výzkumnej zprávy -- t.j. príprava odborného textu s výsledkami analýzy interpretáciou výsledkov vo forme správne štrukturovaného komplexnho vedeckého článku (PDF dokument). Počas semestra budú študenti pracovať na konkrétnom probléme (datový súbor, resp. datové súbory), ktorý ma za cieľ odpovedať explicitne formulované vedecké/odborné hypotézy.
V priebehu semestra bude preto nutne jednak spracovať a pripraviť data, vypracovať exploratívnu analýzu, aplikovať štatitistický model (t.j., diskusia nad rôznymi metódami štatistikej analýzy a voľba vhodného pravdepodobnostného/stochastického postupu), implementovať jednotlivé metódy v programe R a vypracovať záverečnú správu s výsledkami analýzy (so všetkými potrebnými formálnymi náležitosťami, ktoré sú neoddeliteľnou súčasťou kvalitného vedeckého článku) a interpretáciou.
Na tejto stránke bude postupne zverejňovaný a priebežne aktualizovaný zoznam špecifických úloh, ktoré bude nutné v danom týždni vypracovať.
Na konci semestra každý študent odovzdá finálny článok -- odborný vedecký text (resp. výskumná správa), vypracovaný podľa jednotlivých úloh, zadávaných v priebehu semetra. Súčastou získania zápočtu je aj vypracovanie stručného oponentského posudku na članok jedného z kolegov/spolužiakov.
Formát výuky
- Jednou týdně společná beseda
- Každý týden samostatná práce dle zadání
- Postupné vypracování písemné zprávy
- Na závěr vzájemná oponentura výzkumných zpráv
Zadanie projektu pre Zimný semester 2024/2025
Zkoumání rizika nakažení virem HIV v Jižní Africe
- Podrobný popis experimentu a expertných hypotéz: zadanie projektu
- Podkladové datové súbory a dokumentácia: v systéme SIS (po prihlásení)
- Ďalšie podrobnosti: Počas prvého semináru
(t.j., vo štvrtok, 03.10.2024, od 09:00, v posluchárni K9)
Sylabus (úlohy pre samostatnú prácu)
- Úkol č.1 | Due to 10/10/24
Samostatne si preštudovať povinnú a doporučenú literatúru uvedenú nižšie (hlavne prvé štyri zdroje). Zo zoznamu odborných článkov uvedenných v sekcii ``Názorné ukážky'' si vybrať jeden konkrétny článok, ktorý kriticky prečítate a zhodnotite (tzn., že explicitne uvediete aspoň jednú pozitívnu vec z članku, ktorá vám príde urobená dobre a aspoň jednú negatívnu vec, ktorú považujete v článku za nezvládnutu). Nejde ale o obecne formulácie typu ``článok je hezky napsaný'', alebo ``vo formulácii anglického textu sa objavuje príliš veľa chýb''. Vaše hodnotenie musí byť špecifické a konkrétne -- napr. ``z uvedených intervalov spoľahlivosti nie je zrejmé, na akej hladine sú spočítané''. Preštudovať dokumentáciu k podkladovým datam a pokúsiť sa porozumieť celkovej štruktúre datových súborov.
- Úkol č.2 | Due to 17/10/24
Načítať do programu R v3etky podkladové datové súbory a podľa identifikačného čísla jednotlivcov (premenná ptid) datové súbory zjednotiť a pripraviť jeden výsledný datový súbor (data.frame). Porozumieť spôsobu náhodného výberu konkrétneho reprezentanta domácnosti, ktorý následne vyplňoval dlhý dotazník (tzv. kish grid výber).
- Úkol č.3 | Due to 23/10/24
Vhodne pripraviť datový súbor na exploratívnu analýzu (t.j., výber relevantných premenných a relevantných pozorovaní, zmena kódovania niektorých faktorových premenných, resp. vysporiadanie sa s rôznymi typmi chýbajúcich pozorovaní) a vypracovať tabuľku so základnými popisnými charakteristikami (z ktorej bude zrejmá aspoň základná štruktúra datového súboru). Výsledný PDF súbor (pripravený v LaTeXu) zaslať emailom na adresy [hlavka, maciak]@karlin.mff.cuni.cz, najneskôr v stredu, 23.10.2024.
- Úkol č.4 | Due to 30/10/24
Dopracovať tabuľky s popisnými charakteristikami krátkeho aj dlhého dotazníku. Tabuľku vždy dopĺniť plnohodnotným popiskom. Spracovať prvú časť sekcie ``Výsledky'' (t.j. výsledky exploratívnej analýzy). Sekcia výsledky---ideálne na cca 0.5 až 1 stranu---by mala obsahovať to najpodstatnejšie z tabuľky z popisnými charakteristikami a priamo na tabuľku odkazovať. Tabuľku aj samotný text zaslať ako PDF súbor emailom obom vyučujúcim najneskôr v stredu, 30.10.2024.
- Úkol č.5 | Due to 06/11/24
Finalizovať tabuľku/tabuľky s popisnými charakteristikami a prvú časť sekcie 'Výsledky' (popis a interpretácia exploratívnej časti analýzy). Report/článok doplniť o sekcie `Úvod` a 'Metódy' (prvú čast sekcie s metódami, ktorá popisuje jednak dizajn experimentu, proces a priebeh získania dat a ich následnú prípravu pre účely štatistického spracovania). Výsledný report zaslať ako PDF súbor emailom, najneskôr v stredu, 06.11.2024 (do 13:00).
- Úkol č.6 | Due to 13/11/24
Opraviť tabuľky s popisnými charakteristikami tak, aby výsledné celkové súčty v jednotlivých podskupinách korespondovali s uvádzaným celkovým počtom pozorovaní. Doriešiť vzťah medzi krátkym a dlhým dotazníkom (napr. prostredníctvom premenných, ktoré sa objavujú v oboch dotazníkoch) a premyslieť vplyv dvojstupňového výberu respondentov dlhého dotazníka na riziko prevalencie HIV. Navrhnúť regresný model, ktorý riziko prevalencie vysvetľuje v závislosti na uvažovaných podskupinách. Výsledný report zaslať ako PDF súbor emailom, najneskôr v stredu, 13.11.2024 (do 13:00).
- Úkol č.7 | Due to 20/11/24
S ohľadom na položené odborné hypotézy zvoliť finálny model (t.j., zvážiť použitie jednotlivých vysvetľujúcich premenných, rôzne špecifikácie kategorických premenných, rôzne parametrizácie spojitých premenných -- za účelom výhodnejšej a jednoduchšej interpretácie -- a premyslieť možnosť interakcií a prípadne náhodných efektov komunity/intervencie). Model sumarizovať prostredníctvom vhodnej a dostatočne podrobnej tabuľky. Sekciu s výsledkami doplniť a paragraf s interpretáciou modelu (s explicitným využitím numerických hodnôt z tabuľky). Výsledný report zaslať ako PDF súbor emailom, najneskôr v stredu, 20.11.2024 (do 13:00).
- Úkol č.8 | Due to 27/11/24
Dopracovať regresný model, interpretáciu modelu a vyslednu tabuľku s modelom. Dopracovať štrukturu članku (t.j., sekcie 'Úvod', 'Metódy', 'Výsledky' a 'Z8ver'). Do reportu pridať obrázok (do sekcie podľa vlastného uváženia) a obrázok doplniť vhodným popiskom a odkazom z príslušného miesta v samotnom članku (podobne ako odkazy na tabuľky). Výsledný report zaslať ako PDF súbor emailom, najneskôr v stredu, 27.11.2024 (do 13:00).
- Úkol č.9 | Due to 04/12/24
Finalizovať interpretáciu modelu, príslušnú tabuľku model (resp. modelov) a dopĺniť abstrakt. Abstrakt by mal obsahovať stručné zhrnutie cieľov, metodológie a dôležitých výsledkov (z ktorých aspoň niektoré by mali byť uvedené explicitne a kvantitatívnne -- t.j., hodnota odhadnutého efektu, jeho významnosť, prípadne p-hodnota). Výsledný report zaslať ako PDF súbor emailom, najneskôr v stredu, 04.12.2024 (do 13:00).
- Úkol č.10 | Due to 12/12/24
Finalizovať celkový report -- dopracovať a definitívne doladiť všetky jednotlivé sekcie (Abstrakt, Úvod, Metódy, Výsledky, Záver a prípadne Apendix). Výsledný report zaslať ako PDF súbor emailom, najneskôr pred začiatkom semináru vo štvrtok, 12.12.2024 (t.j., do 09:00).
- Úkol č.11 | Due to 19/12/24
Podľa náhodného pridelenia článku vypracovať reviznu správu na článok jedného z kolegov. V revízii sa zamerať hlavne na sekciu Metódy (t.j., reprodukovateľnosť experimentu a celkov0ho spracovania), správnosť štatistickej analýzy, vhodnosť použitého modelu a zmysluplnosť a formálnu správnosť výslednej interpretácie. PDF súbor s revízkou článku zaslať emailom, najneskôr pred začiatkom semináru vo štvrtok, 19.12.2024 (t.j., do 08:50).
- Úkol č.12 | Due to 09/01/25
Vypracovať odpoveď na jednotlivé revízie k článku -- v prípade potreby potrebné zmeny zapracovať do článku inou farbou. Všeobecný posudok recenzenta (pre každého stejný) je možné zpracovať, prípadne naformulovať odpoveď recenzentovi, aj vo forme spoločného textu. Výsledný PDF súbor s článkom a odpoveď recenzentom zaslat emialom najneskôr pred začiatkom semináru vo štvrtok, 09.01.2025 (t.j., do 08:50).
Povinná a doporučená literatúra
- Zásady psaní výzkumných zpráv (M.Kulich)
- Ako písať vedecký článok (J.S.Dodd)
- Ako pracovať v LaTeXu s tabuľkami (L.F.Mori)
- Ako pracovať v LaTeXu s obrázkami (D.P.Carlisle)
- The Problem of Numeracy (A.S.C.Ehrenberg)
- Writing Technical Papers or Reports (A.S.C.Ehrenberg)
- The Science of Scientific Writing (G.D.Gopen & J.A.Swan)
- A Case for Simple Tables (M.A.Koschat)
- What Makes a Good Graph? (S.P.Duke)
- Online katalóg LaTeXových balíčkov a dokumentace (LaTeX)
Názorné ukážky niekoľkých (dobrých aj špatných) vedeckých článkov
- Wounding of Whale Calves by Kelp Gulls
- Prediction of Post-Operative Liver Dysfunction
- Physical Activity and Motor Competence in 4-7-Year-Old Children
- Predictors of Career Success
- Native American Ancestry, Body Mass Index and Diabetes Risk
Na záver
The fundamental purpose of scientific discourse is not the mere presentation of information and thought, but rather its actual communication. It does not matter how pleased an author might be to have converted all the right data into sentences and paragraphs; it matters only whether a large majority of the reading audience accurately perceives what the author had in mind.
George Gopen & Judith Swan
Disclaimer
Vrámci platných Pravidiel pro organizaci studia na Matematicko-fyzikální fakultě Univerzity Karlovy (ze dne 23.června, 2023), sa vzhľadom k Čl. 8, dds.2 týchto pravidiel týmto vyhlasuje, že povaha předmětu vylučuje právo studenta na jeden řádny a dva opravné termíny pro získaní zápočtu. Získaní zápočtu sa riadi výhradne pravidlami uvedenými vyššiena tejto web stránke (a tiež na stránke predmetu v SIS).