Letný semester 2024-2025 | Cvičenie 9 | 28.04.2025
Prihlásenie k SAS OnDemand:
https://www.sas.com/en_us/software/on-demand-for-academics.html
Nutná je registrácia s vytvorením vlastného účtu s jedinečným
identifikačným číslom a potvrdenie registrácie prostredníctvom emailu.
Identifikačné číslo užívateľa (vo forme
uXXX, kde
XXX je samotné číslo uživateľa)
sa objavuje v niektorých následujúcich SAS skriptoch. Symbol
XXX v zdrojových kódoch je
potrebné vždy nahradiť príslušným identifikačným číslom užívateľa.
V doterajších častiach cvičenia nás zaujímal hlavne prípad, keď o
závislej premennej \(Y \in \mathbb{R}\)
(t.j., reálna náhodná veličina, ktorá bola opakovane meraná na \(n \in \mathbb{N}\) vzájomne nezávislých
subjektoch) môžeme predpokladať, že je spojitá a prípadne navyše aj
podmienene normálne rozdelená (t.j., základný lineárny regresný model s
náhodnými efektami). Matematicky je tento fakt vyjadrený prostredníctvom
zápisu \[
\boldsymbol{Y}_i | \boldsymbol{b}_i \sim N_{m_i}\Big(
\mathbb{X}_i\boldsymbol{\beta} + \mathbb{Z}_i\boldsymbol{b}_i, \Sigma_i
\Big),
\] kde \(\boldsymbol{Y}_i = (Y_{i1},
\dots, Y_{i m_i})^\top \in \mathbb{R}^{m_i}\) je vektor
opakovaných meraní vrámci \(i\)-teho
subjektu (pre \(i \in \{1, \dots,
n\}\)) a \(\boldsymbol{b}_i = (b_{i1},
\dots, b_{i q})^\top \in \mathbb{R}^q\) je vektor náhodných
(nepozorovaných) efektov vrámci \(i\)-teho subjektu. Väčšinou predpokládame,
že \(\boldsymbol{b}_i \sim N_q(\boldsymbol{0},
\mathbb{D})\). Jednotlivé vektory \(\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_n\)
sú vzájomné nezávislé (v zápise sa niekedy používa výraz \(\boldsymbol{Y}_i | \boldsymbol{b}_i\) a
niekedy spávnejší zápis \(\boldsymbol{Y}_i |
\boldsymbol{X}_{ij},\boldsymbol{b}_i\)).
V praxi sa ale často stane, že predpoklad (mnohorozmerného)
normálneho rozdelenia pre opakovane pozorovania – t.j., náhodné vektory
\(\boldsymbol{Y}_i\), pre \(i =1, \dots, n\) je nerealistický a je
nutné hľadať iný pravdepodobnostný model (napr. pretože sledovaná
závislá premenná informuje výhradne len o úspechu/neúspechu liečby –
binárna premenná – alebo sa všeobecne jedná o realizácie nejakej
diskrétnej náhodnej veličiny, alebo má náhodná veličina síce spojité
rozdelenie, ale nie je možné predpokladať normalitu). Ak je možné naviac
postulovať (predpokladať) konkrétne rozdelenie pre závislú premennú (to
znamená aj možnosť definovať celkovú vierohodnosť), tak je vhodné použíť
tzv. zovšeobecnené lineárne modely s náhodnými efektami
(generalized linear model with random effects). Jedná sa o rozšírenie
triedy zovšeobecnených lineárnych regresných modelov (GLM) v podobnom
zmysle, ako sú lineárne regresné modely s náhodnými efektami
zovšeobecnením klasických lineárnych regresných modelov. Ak nie je možné
apriórne postulovať (predpokladať) nejaké vhodné pravdepodobnostné
rozdelenie pre závislú premennú \(\boldsymbol{Y}\), tak je nutné využiť iné
odhadovacie metódy a postupy (napr. tzv. GEE, ktoré budeme diskutovať
neskôr).
Na rozdiel od klasických lineárnych regresných modelov, ktoré predpokládajú nezávislé pozorovania, je nutné pri modeloch s náhodnými efektami zohľadniť korelačnú štruktúru v rámci opakovaných pozorovaní – čo platí aj pre lineárne regresné modely s náhodnými efektami, aj pre zovšeobecnené lineárne regresné modely s náhodnými efektami. Avšak zatiaľ čo u klasických lineárnych regresných modelov prítomnosť náhodných efektov (viac-menej) nemá vplyv na celkovú interpretáciu odhadnutých parametrov (interpretácia nezávisí na uvažovanej korelačnej štruktúre), u zovšeobecnených regresných modelov môžu rôzne predpoklady o variančnej-kovariančnej (závislostnej) štruktúre viesť k rôznej interpretácii výsledných odhadnutých parametrov.
Pri analýze dat je preto o to dôležitejšie dbať na správnu špecifikáciu korelačnej štruktúry a správny popis jednotlivých zdrojov variability – t.j. variabilita medzi jednotlivými subjektami a variabilita opakovaných pozorovaní v rámci konkrétheho jedinca (vrámci konrétnych subjektov).
PROC GLIMMIX
, PROC GENMOD
,
PROC GEE
, prípadne PROC NLMIXED
. Jednotlivým
procedúram sa budeme podrobnejšie venovať v následujúcich cvičeniach.
Pre základnú syntax, ktorá je vo viacerých smeroch odlišná od procedúry
PROC MIXED
je možné využiť následujúce odkazy:
PROC GLIMMIX
: PROC GENMOD
: PROC GEE
: PROC NLMIXED
: V následujúcich častiach stručne popíšeme hlavne prvé dva z uvedených modelov.
V prvom rade je užitočné pripomenuť si základnú terminológiu modelov
s náhodnými efektami v jednoduchom (lineárnom) prípade.
Marginálny model modeluje podmienenú strednú hodnotu závislej premennej vrámci konkrétnej sub-populácie (t.j., skupiny subjektov, ktoré zdieľajú rovnaké vlastnosti vzhľadom k vysvetľovaným/nezávislým premenným). Stredná hodnota náhodnje veličiny \(Y_{ij}\) (t.j., odpoveď \(i\)-teho subjektu na \(j\)-te opakované meranie) je modelovaná ako (lineárna) funkcia vysvetľujúcich premenných obsiahnutých vo vektore \(\boldsymbol{X}_{ij}\).
Podobnú (marginálnu) vlastnosť majú aj štandardné lineárne regresné modely, ktoré su založené na tzv. ``cross-sectional’’ datach. Interpretácia vektoru odhadnutých parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) v lineárnom regresnom modeli s náhodnými efektami je ideovo totožná s interpretáciou odhadnutých neznámych parametrov v klasickom lineárnom regresnom modeli. Pre GLM zovšeobecnenie teda platí následujúce:
Takto definované GLM modely pre opakované/longitudinálne pozorovania
predstavujú prirodzenú analógiu v rovnakom zmysle, ako GLM modely
zovšeobecňujú model klasickej lineárnej regresie.
Ako jednoduchý ilustračný príklad môžeme uvažovať data \(\{(Y_{ij}, X_{ij})\}_{i = 1}^N\), kde každý subjekt je meraný \(n \in \mathbb{N}\) krát.
Postupne môžeme písať:
PROC GLM
– viď podrobnejší návod napr. na tejto stránke:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glm_toc.htm
Tieto modely predstavujú priame zovšeobecnenie klasického lineárneho regresného modelu s náhodnými efektami určeného pre normálne data na modely ktoré su vhodné pre modelovanie závislej premennej ktorá je diskrétna (a samozrejme obsahuje z8vislostnú štruktúru v rámci jednotivých subjektov – t.j. opakované pozorovania).
Jednoduchý príklad zmienený výššie by sme mohli matematicky formulovať následovne: \[ logit(\mu_{ij}) = (\beta_0^* + b_i) + \beta_1^* X_{ij}, \] kde \(b_i \sim N(0, \nu^2)\) je náhodný efekt (náhodný intercept), ktorý modeluje variabilitu medzi subjektami (heterogenita medzi subjektami \(i = 1, \dots, N\)), Je dôležité si uvedomiť následujúce vlastnost:
Základnou vlastnosťou/schopnosťou GLM modelov s náhodným
efektami je umožnenie modelovať určitu mieru heterogenity medzi
jednotlivými subjektami. Niekedy sa tieto modely nazývajú aj tzv.
latent variable models (pretože náhodné efekty sú obecne
nepozorované – t.j., latentné).
PROC GLIMMIX
– viď podrobnejší návod napr. na
tejto stránke:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glimmix_overview.htm?
Tzv. “transition” modely predpokládajú špeficifickú štruktúru korelácie v rámci opakovaných pozorovaní. Jednotlivé pozorovania závislej premennej \(Y\) sú priamo podmienené predchádzajúcimi hodnotami realizácii v rámci daného subjektu. Exaktnú matematický zápis zavisi od typu podmienenej štruktúry, ktorú pre jednotlivé opakované pozorovania predpokládame (napr. Markovský model prváho radu, resp. autokorelačný model rádu \(k \in \mathbb{N}\)).
Pre jednoduchú ilustráciu je možné predpokladať napr. model \[ g(E[Y_{ij} | \boldsymbol{X}_{ij}, Y_{i(j-1)}]) = \boldsymbol{X}_{ij}^\top\boldsymbol{\beta} + \alpha Y_{i(j-1)}, \] kde \(i = 1, \dots, N\) a \(j = 2, \dots, n_i\). Je samozrejme otázne, akým spôsobom sa vysporiadať s prvým meraním (t.j., napr. baseline hodnota \(Y_{i1}\) v rámci každého subjektu) a samozrejme existujú rôzne návrhy, možnosti, aj modely.
Podstatnou otázkou pri tranzitných modeloch je aj záležitosť
interpretácie—jednak vzhľadom k času \(t\) kedy sú opakované pozorovania v rámci
subjektu uskutočnené a tiež vzhľadom k parametru \(\alpha \in \mathbb{R}\), ktorý modeluje
závislosť na bezprostrednom predchádzajúcom pozorovani.
Cieľom zápočtovej práce je samostatná štatistická analýza longitudinálneho datového súboru a to vuyžitím jednak klasických regresným modelov (pre nezávisle pozorovania) a tiež šírších modelov určených pre opakované pozorovania v rámci subjektov (teda pre korelované pozorovania).
Pre štatistickú analýzu je možné buď využiť vhodný datový súbor (ktorý bude obsahovať aspoň tri opakované pozorovania v rámci jednotlivých subjektov) podľa vlastného výberu, prípadne využiť datový súbpr pacientov so sklerózou multiplex, ktorý bol opakovane použitý na cvičeniach v priebehu semestra.
Datový súbor (vo forme csv dokumentu) obsahuje celkovo 805 (opakovaných/korelovaných) pozorovaní pre 142 subjektoch, o ktorých predpokládame, že sú vzájomne nezávislé. Datový súbor nie je balancovaný (tzn., iný počet opakovaných pozorovaní je k dispozícii pre rôzne subjekty).
Popis premenných
Datový súúbor obsahuje celkovo 16 rôznych
premenných (v jednotlivých stĺpcoch) z toho prvých 14 lze chápať ako
vysvetľujúce premenné a posledné dve sú myslené ako závislé
(vysvetľované) premenné. Podrobný popis jednotlivých premenných je
uvedený nižšie.
M
- muž, F
- žena);
Zadanie práce
Inštrukcie & deadline
Výsledný PDF súbor s celkovým vypracovaním je nutné poslať emailom na
adresu (maciak [AT] karlin.mff.cuni.cz) a to najneskôr 3
až 4 dni pred plánovaným termínom skúšky.