NMFM334 - Základy regrese
SIS : NMFM334
Cvičení : v úterý 12:20 - 13:50 v učebně K11
Materiály : skripty v prostředí R ve formě Rmarkdown, zde je přehled
Mail : vavraj@karlin.mff.cuni.cz
Přednáška : Matúš Maciak
Zápočet
- Účast na cvičeních: alespoň 10 ze 13 cvičení (přehled o absencích v SISu - Studijní mezivýsledky).
- Zápočtová úloha: student vypracuje a odevzdá cvičícímu řešení v dostatečné kvalitě. (bude upřesněno)
Obecné pokyny k zápočtové úloze
Každý student dostane v SISu zadaný vlastní dataset a upřesněné zadání, na co se má zaměřit. Úlohu bude možno odevzdávat postupně v několika vlnách a reflektovat rady cvičícího. Finálně odezdanou úlohu bude možné předělat pouze jednou pro uspokojivé řešení a získání zápočtu. Student si vezme své finální řešení ke zkoušce, která může být jedním z předmětů debaty se zkoušejícím pro adekvátní stanovení výsledné známky
Společné pokyny:- Formát
- PDF ideálně stvořené pomocí Rmarkdown či Sweave (inspirujte se dostupnými materiály)
- Rkový výstup (testy, tabulky, summary, ...) bude tolerován, ale snažte se jej omezit na podstatné
- každý výstup musí být doplněn komentářem (co z toho plyne pro uvažovaný model atd.)
- zdrojový kód nemusí být vidět, ovšem klíčové (méně standardní) výpočty by bylo dobré zahrnout
- dejte si záležet, aby finální řešení bylo kondenzované do co nejméně stran (4-7)
- z toho plyne zahrnovat jen nejdůležitější tabulky či obrázky
- do obrázku se snažte vložit klidně vícero informací, ať šetříte místem
- slepé uličky nás nezajímají - ne vše, co při analýze datasetu provedete, se má ve finálním reportu objevit
- Explorativní část
- základní seznámení s dostupnými proměnnými
- použití klasických statistických metod pro prověření marginálních vztahů
- základní tabulky či obrázky
- nezahrnovat úplně vše, ale jen to, co se ukáže pro následné modelování podstatné
- Tvorba lineárního modelu
- závěrečná podoba reportu by měla obsahovat pouze jeden finální model
- ovšem student musí nejprve vysvětlit, jak k němu postupně došel
- stačí slovy, případně podpořit výsledky testů, ale není nutné zavádět jiné modely
- finální model zapsat korektně matematicky (ne formulová notace z Rka!)
- interpretovat klíčové parametry modelu a popsat, co model zachycuje a jak
- provést základní diagnostiku modelu
- Speciální zadání spojené s datasetem
- statistický test, predikce, obrázek, napravení nesplněných předpokladů, ...
Termíny odevzdávání:
do 23.3.2026 - první dobrovolný deadline- explorativní analýza zadaného datasetu - zatím klidně zevrubnější, ale už přemýšlejte nad tím, co je to podstatné, co má zůstat i do finálního reportu
- lineární model s jedinou vysvětlující proměnnou - hledání ideální parametrizace
- kondenzovaná explorativní analýza
- nástřel finálního lineárního modelu - zatím klidně se zevrubným postupem, jak se k němu dospělo
- jeho diagnostika
Přehled cvičení
- 17. 2. 2026 - přednáška namísto cvičení
- 24. 2. 2026 - R, Rmd - opakování základních statistických metod
- 3. 3. 2026 - R, Rmd - jednoduchý lineární model s přímkou
- 10. 3. 2026 - R, Rmd - lineární model s jednou vysvětlující proměnnou
- 17. 3. 2026 - R, Rmd - lineární model s vícero vysvětlujícími numerickými proměnnými
- 24. 3. 2026 - diskuze nad zápočtovými úlohami místo přednášky
- 24. 3. 2026 - R, Rmd - aditivní lineární model
- 31. 3. 2026 - R, Rmd - lineární model s interakcemi
- 7. 4. 2026 - R, Rmd - diagnostika lineárního modelu
- 14. 4. 2026 - R, Rmd - inference v normálním lineárním modelu
- 21. 4. 2026 - R, Rmd - logaritmická transformace odezvy
- 28. 4. 2026 - R, Rmd - heteroskedastické modely
- 5. 5. 2026 - R, Rmd - odlehlá a vlivná pozorování
- 12. 5. 2026 - R, Rmd - zobecněné lineární a nelineární modely
- ??. 5. 2026 9:00 - Deadline pro odevzdání zápočtové úlohy
- 19. 5. 2026 - přednášky i cvičení odpadají (kratší semestr pro 3. ročník) - pravděpodobně 1. termín zkoušky namísto toho