NMST539, LS 2015/16

1. zápočtová písomka | Zadanie | 26.04.2016


Popis datového súboru

K dispozícii je dátový súbor ktorý vyhodnocuje výsledky didaktického testu z geografie u žiakov základných škol v Českej republike a na Slovensku. Didaktický test mal za úlohu sledovať mapové zručnosti žíakov v troch rôznych ročníkoch. Konkrétne sa vyhodnocujú zručnosti a znalosti (ročnikovo) 11-ročných žiakov (označených v súbore ako ‘grade1’), (ročnikovo) 15-ročných žiakov (označených v súbore ako ‘grade2’) a pak (ročnikovo) 18-ročných žiakov (v súbore označených ako ‘grade3’).

K dispozícii sú odpovede na celkovo 21 otázek, pričom hodnotenie je percentuálne (každá hodnota značí percentuálny zisk u danej otázky z maximalného počtu bodov, ktorý mohol byť různy u jednotlivých otázek). Otázky v teste boli koncipované s graduovanou náročnosťou, tzn. predpokladalo sa, že žiaci ‘grade1’ by měli bez problémov zvládat náročnosť otázok 1 až 7, žiaci ‘grade2’ by měli mít znalosti na správne zodpovedanie otázok 1 až 14 a žiaci ‘grade3’ by měli mít dostatok znalosti na správne zodpovedání všech 21 otázek.

K dispozici sú výsledky testov od 803 žiakov a sledovaných je dohromady nasledujúcich 28 proměnných:

  • stat - dvou-levelový faktor, který definuje krajinu;
  • rocnik - troj-levelový faktor, ktérý definuje ročnikovú kategóriu;
  • pohlavi - pohlaví (1 - holky, 2 - kluci);
  • znamka - známka z geografie na poslednom vysvedčení;
  • oblibenost - subjektívne hodntenie predmetu geografia, podľa preferencii každého študenta (1 - oblíbený, až 3 - neoblíbený);
  • Q1 - Q21 - percentuálny zisk z maximálneho bodového zisku z každej z 21 otázek;
  • Uspesnost - celková percentuálna úspěšnost z testu;

Dátový súbor načítate do Rka nasledujúcim príkazom:

rm(list = ls())
data <- read.csv("http://msekce.karlin.mff.cuni.cz/~maciak/NMST539/geoData.csv", header = T)
attach(data)
head(data)
##   stat rocnik pohlavi znamka oblibenost        Q1  Q2  Q3  Q4  Q5  Q6  Q7
## 1   sr grade1  female      1          1 100.00000 100 100 100 100 100 100
## 2   sr grade1    male      3          3   0.00000   0   0 100  75  50 100
## 3   cr grade1    male      2          1 100.00000 100   0 100  75  50 100
## 4   sr grade1    male      3          3  66.66667   0   0  50   0  50   0
## 5   cr grade1    male      2          2  66.66667   0 100  50   0 100   0
## 6   cr grade1  female      1          1 100.00000   0 100 100  50 100   0
##    Q8        Q9       Q10 Q11 Q12 Q13 Q14 Q15 Q16 Q17 Q18 Q19 Q20 Q21
## 1 100 100.00000 100.00000 100 100 100 100 100  75 100 100   0   0   0
## 2   0 100.00000 100.00000   0   0 100   0   0   0   0 100   0   0   0
## 3 100  71.42857 100.00000   0  50   0   0 100  75 100 100   0   0   0
## 4   0 100.00000   0.00000   0 100 100  50   0   0   0 100   0   0   0
## 5   0 100.00000  66.66667   0 100 100  50   0   0   0  50   0   0   0
## 6  75 100.00000 100.00000 100 100 100   0   0   0   0 100   0   0   0
##   Uspesnost
## 1     84.52
## 2     34.52
## 3     58.16
## 4     29.37
## 5     37.30
## 6     53.57




Otázky k samostatnému vypracovaniu


Metóda hlavných komponent

  • Uvažujte data o úspěšnoti testu (sloupce ‘Q1’ až ‘Q21’ a prípadne aj sloupec ‘Uspesnost’, podle uvážení). Na data aplikujte metódu hlavných komponent. Aký je Váš názor na potrebný/postačujúci/rozumný počet hlavných komponent, ktorý by bolo dobré uvažovať?

  • Udělejte grafický výstup a pomoci různych fareb (prípadne znakov) sa pokúste odlíšit jednotlivé skupiny (napr. pohlaví, ročník, krajinu). Využijte knižnicu ‘ggbiplot’ a funkci ggbiplot() která jednoduše poskytuje možnosť definovat různe skupiny v datach a v grafu pomoci fareb s využitím dodatočného parametru ‘groups = …’.

  • Uvažujte rozdelení do skupin pomoci více než pouze jedné promenné.
    Napr. pro různe hodnoty pohlaví a jednotlivých ročníku je možne jednoduše definovat novou promňenou

    pohlaviRocnik <- paste(pohlavi, rocnik, sep = "_")
    table(pohlaviRocnik)
    ## pohlaviRocnik
    ## female_grade1 female_grade2 female_grade3   male_grade1   male_grade2 
    ##           120           101           104           159           161 
    ##   male_grade3 
    ##           158
    library(ggbiplot)
    ?ggbiplot() ### help k funkci
    a pak pri volani funkce ggbiplot() použít nastavení parametru jako ‘groups = pohlaviRocnik’.

  • Které skupiny/faktory (ak vůbec některé) považujete za důležité/podstatné pro interpretaci hlavných komponent?
    (navod: využijte pri voláni funkce ggbiplot() aj parameter ‘ellipse = TRUE’, může Vám to usnadnit vizualizaci/interpretaci)

Faktorová analýza

    Uvažujte otázky 1 až 21 (sloupce ‘Q1’ až ‘Q21’, bez sloupce ‘Uspesnost’) a aplikujte faktorovú analýzu. Rozhodněte o správnem počtu faktorů, který považujete za postačujíci/vyhovujúci (použite napr. knižnicu ‘nFactors’ a příkaz plotnScree()).

    library(nFactors)
    ?plotnScree() ### help k funkci
  • Lze nějak intuitivně interpretovat faktor/faktory, které jsou výstupem z faktorovej analýzy? Jak?

  • Využijte výsledky faktorovej analýzy a pomoci lineárnej regrese vysvětlete celkovou úspěšnost (sloupec ‘Uspesnot’). Uvažujte aj dodatočné proměnné, které jsou k dispozici (e.g. ‘stat’, ‘znamka’, ‘oblibenost’, atď.) a pokúste sa zostaviť čo možno najlepší model.

  • Výsledný model alespoň stručne interpretujte a udělejte alespoň nějaky grafický výstup, který vhodným způsobem přiblíži model vizuálně.

Konec samostatnej práce


Závěrečné instrukce

  • Zápočtovú úlohu je nutné vypracovať samostatne.
  • Je nutné odovzdať buď PDF súbor vytvorený pomocov príkazu Sweave, alebo HTML súbor vytvorený pomocov príkazu Knit.
    V prípade prvej varianty je potrebne pripraviť .Rnw soubor, který na záver skompilujete a vytvoríte PDF súbor. V prípade druhej možnosti je potrebné vypracovať .Rmd soubor, který opět na záver skompilujete a vytvoríte HTML súbor.
  • V prípade, že sa rozhodnete pre druhú variantu, můžete přimo využit .Rmd súbor, ktorý bol použitý pre tento R Markdown so zadánim zápočtovej úlohy. Je k dispozícii na adrese

    http://www.karlin.mff.cuni.cz/~maciak/NMST539/pisomka1.Rmd

  • Vypracovanú úloju je nutné zaslať emialom na (alespoň) jednu z nasledujúcich emailových adries:
    • maciak AT ualberta.ca
    • maciak AT karlin.mff.cuni.cz
  • Výsledný súbor s Vaším spracovaním priložte do prílohy pod názvom prijmeni_jmeno.pdf nebo prijmeni_jmeno.html.
  • Email s prílohou je nutné odoslať nejpozději 15 minút po oficiálnom skončení cvičnia, tzn. nejpozději do 10:45.