NMST539, LS 2015/16
1. zápočtová písomka | Zadanie | 26.04.2016
Popis datového súboru
K dispozícii je dátový súbor ktorý vyhodnocuje výsledky didaktického testu z geografie u žiakov základných škol v Českej republike a na Slovensku. Didaktický test mal za úlohu sledovať mapové zručnosti žíakov v troch rôznych ročníkoch. Konkrétne sa vyhodnocujú zručnosti a znalosti (ročnikovo) 11-ročných žiakov (označených v súbore ako ‘grade1’), (ročnikovo) 15-ročných žiakov (označených v súbore ako ‘grade2’) a pak (ročnikovo) 18-ročných žiakov (v súbore označených ako ‘grade3’).
K dispozícii sú odpovede na celkovo 21 otázek, pričom hodnotenie je percentuálne (každá hodnota značí percentuálny zisk u danej otázky z maximalného počtu bodov, ktorý mohol byť různy u jednotlivých otázek). Otázky v teste boli koncipované s graduovanou náročnosťou, tzn. predpokladalo sa, že žiaci ‘grade1’ by měli bez problémov zvládat náročnosť otázok 1 až 7, žiaci ‘grade2’ by měli mít znalosti na správne zodpovedanie otázok 1 až 14 a žiaci ‘grade3’ by měli mít dostatok znalosti na správne zodpovedání všech 21 otázek.
K dispozici sú výsledky testov od 803 žiakov a sledovaných je dohromady nasledujúcich 28 proměnných:
-
stat - dvou-levelový faktor, který definuje krajinu;
-
rocnik - troj-levelový faktor, ktérý definuje ročnikovú kategóriu;
-
pohlavi - pohlaví (1 - holky, 2 - kluci);
-
znamka - známka z geografie na poslednom vysvedčení;
-
oblibenost - subjektívne hodntenie predmetu geografia, podľa preferencii každého študenta (1 - oblíbený, až 3 - neoblíbený);
-
Q1 - Q21 - percentuálny zisk z maximálneho bodového zisku z každej z 21 otázek;
-
Uspesnost - celková percentuálna úspěšnost z testu;
Dátový súbor načítate do Rka nasledujúcim príkazom:
rm(list = ls())
data <- read.csv("http://msekce.karlin.mff.cuni.cz/~maciak/NMST539/geoData.csv", header = T)
attach(data)
head(data)
## stat rocnik pohlavi znamka oblibenost Q1 Q2 Q3 Q4 Q5 Q6 Q7
## 1 sr grade1 female 1 1 100.00000 100 100 100 100 100 100
## 2 sr grade1 male 3 3 0.00000 0 0 100 75 50 100
## 3 cr grade1 male 2 1 100.00000 100 0 100 75 50 100
## 4 sr grade1 male 3 3 66.66667 0 0 50 0 50 0
## 5 cr grade1 male 2 2 66.66667 0 100 50 0 100 0
## 6 cr grade1 female 1 1 100.00000 0 100 100 50 100 0
## Q8 Q9 Q10 Q11 Q12 Q13 Q14 Q15 Q16 Q17 Q18 Q19 Q20 Q21
## 1 100 100.00000 100.00000 100 100 100 100 100 75 100 100 0 0 0
## 2 0 100.00000 100.00000 0 0 100 0 0 0 0 100 0 0 0
## 3 100 71.42857 100.00000 0 50 0 0 100 75 100 100 0 0 0
## 4 0 100.00000 0.00000 0 100 100 50 0 0 0 100 0 0 0
## 5 0 100.00000 66.66667 0 100 100 50 0 0 0 50 0 0 0
## 6 75 100.00000 100.00000 100 100 100 0 0 0 0 100 0 0 0
## Uspesnost
## 1 84.52
## 2 34.52
## 3 58.16
## 4 29.37
## 5 37.30
## 6 53.57
Otázky k samostatnému vypracovaniu
Metóda hlavných komponent
-
Uvažujte data o úspěšnoti testu (sloupce ‘Q1’ až ‘Q21’ a prípadne aj sloupec ‘Uspesnost’, podle uvážení). Na data aplikujte metódu hlavných komponent. Aký je Váš názor na potrebný/postačujúci/rozumný počet hlavných komponent, ktorý by bolo dobré uvažovať?
-
Udělejte grafický výstup a pomoci různych fareb (prípadne znakov) sa pokúste odlíšit jednotlivé skupiny (napr. pohlaví, ročník, krajinu). Využijte knižnicu ‘ggbiplot’ a funkci
ggbiplot() která jednoduše poskytuje možnosť definovat různe skupiny v datach a v grafu pomoci fareb s využitím dodatočného parametru ‘groups = …’.
-
Uvažujte rozdelení do skupin pomoci více než pouze jedné promenné. Napr. pro různe hodnoty pohlaví a jednotlivých ročníku je možne jednoduše definovat novou promňenou
pohlaviRocnik <- paste(pohlavi, rocnik, sep = "_")
table(pohlaviRocnik)
## pohlaviRocnik
## female_grade1 female_grade2 female_grade3 male_grade1 male_grade2
## 120 101 104 159 161
## male_grade3
## 158
library(ggbiplot)
?ggbiplot() ### help k funkci
a pak pri volani funkce ggbiplot() použít nastavení parametru jako ‘groups = pohlaviRocnik’.
-
Které skupiny/faktory (ak vůbec některé) považujete za důležité/podstatné pro interpretaci hlavných komponent?
(navod: využijte pri voláni funkce ggbiplot() aj parameter ‘ellipse = TRUE’, může Vám to usnadnit vizualizaci/interpretaci)
Faktorová analýza
Uvažujte otázky 1 až 21 (sloupce ‘Q1’ až ‘Q21’, bez sloupce ‘Uspesnost’) a aplikujte faktorovú analýzu. Rozhodněte o správnem počtu faktorů, který považujete za postačujíci/vyhovujúci (použite napr. knižnicu ‘nFactors’ a příkaz plotnScree() ).
library(nFactors)
?plotnScree() ### help k funkci
Lze nějak intuitivně interpretovat faktor/faktory, které jsou výstupem z faktorovej analýzy? Jak?
Využijte výsledky faktorovej analýzy a pomoci lineárnej regrese vysvětlete celkovou úspěšnost (sloupec ‘Uspesnot’). Uvažujte aj dodatočné proměnné, které jsou k dispozici (e.g. ‘stat’, ‘znamka’, ‘oblibenost’, atď.) a pokúste sa zostaviť čo možno najlepší model.
Výsledný model alespoň stručne interpretujte a udělejte alespoň nějaky grafický výstup, který vhodným způsobem přiblíži model vizuálně.
Konec samostatnej práce
Závěrečné instrukce
-
Zápočtovú úlohu je nutné vypracovať samostatne.
-
Je nutné odovzdať buď PDF súbor vytvorený pomocov príkazu Sweave, alebo HTML súbor vytvorený pomocov príkazu Knit.
V prípade prvej varianty je potrebne pripraviť .Rnw soubor, který na záver skompilujete a vytvoríte PDF súbor. V prípade druhej možnosti je potrebné vypracovať .Rmd soubor, který opět na záver skompilujete a vytvoríte HTML súbor.
-
V prípade, že sa rozhodnete pre druhú variantu, můžete přimo využit .Rmd súbor, ktorý bol použitý pre tento R Markdown so zadánim zápočtovej úlohy. Je k dispozícii na adrese
http://www.karlin.mff.cuni.cz/~maciak/NMST539/pisomka1.Rmd
-
Vypracovanú úloju je nutné zaslať emialom na (alespoň) jednu z nasledujúcich emailových adries:
-
maciak AT ualberta.ca
-
maciak AT karlin.mff.cuni.cz
-
Výsledný súbor s Vaším spracovaním priložte do prílohy pod názvom prijmeni_jmeno.pdf nebo prijmeni_jmeno.html.
-
Email s prílohou je nutné odoslať nejpozději 15 minút po oficiálnom skončení cvičnia, tzn. nejpozději do 10:45.
|