Longitudinální a panelová data

Letný semester 2025-2026 | Cvičenie 7 | 27.04.2026

Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html
Nutná je registrácia s vytvorenie účtu s vlastným identifikačným číslom a potvrdenie registrácie prostredníctvom (univerzitného) emailu zadaného pri registrácii. Identifikačné číslo užívateľa (vo forme uXXX, kde XXX je samotné číslo uživateľa) sa vyskytuje v jednotlivých SAS skriptoch uvedených nižšie (symbol XXX v skriptoch je potrebné nahradiť príslušným identifikačným číslom užívateľa).

Doporučená literatúra a ďalšie užitočné materiály

Diggle, P. J., Heagerty, P., Liang, K. Y., & Zeger, S. (2002). Analysis of longitudinal data. Oxford university press.
Fitzmaurice, G. M., Laird, N. M., & Ware, J. H. (2012). Applied longitudinal analysis. John Wiley & Sons.
Hardin, J.W. and Hilbe, J.M. (2007). Generalized Linear Model and Extensions. StataPress.
Pinheiro, J., & Bates, D. (2006). Mixed-effects models in S and S-PLUS. Springer science & business media.
Jednoduchý (online) SAS tutorial (english)
Základný SAS OnDemand tutorial (english)
Stručný (Český) manuál uživatele SASu na stránke doc. Kulicha
Užitočné aj neužitočné príklady zdrojových kódov v SAS (english)

VII. Zobecnené lineárne modely pre korelované pozorovania

Doteraz nás zaujímal hlavne prípad, keď o závislej premennej \(Y \in \mathbb{R}\) (t.j., reálna náhodná veličina, ktorá bola opakovane meraná na \(N \in \mathbb{N}\) vzájomne nezávislých subjektoch) sa dá predpokladať, že je spojitá a jej podmienene rozdelenie je normálne, alebo aspoň blízke normálnemu rozdeleniu (t.j., základný lineárny regresný model s náhodnými efektami). Matematicky je tento fakt vyjadrený prostredníctvom zápisu \[ \boldsymbol{Y}_i | \boldsymbol{w}_i \sim N_{n_i}\Big( \mathbb{X}_i\boldsymbol{\beta} + \mathbb{Z}_i\boldsymbol{w}_i, \Sigma_i \Big), \] kde \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i n_i})^\top \in \mathbb{R}^{n_i}\) je vektor opakovaných meraní v rámci \(i\)-teho subjektu (pre \(i \in \{1, \dots, N\}\)) a \(\boldsymbol{w}_i = (w_{i1}, \dots, w_{i r})^\top \in \mathbb{R}^r\) je vektor náhodných (nepozorovaných) efektov v rámci \(i\)-teho subjektu. Väčšinou sa navyše predpokladá, že \(\boldsymbol{w}_i \sim N_r(\boldsymbol{0}, \mathbb{G})\). Jednotlivé vektory \(\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_N\) sú vzájomné nezávislé, pričom pri zápise vyššie sa niekedy používa výraz \(\boldsymbol{Y}_i | \boldsymbol{w}_i\) a niekedy korektnejší zápis v tvare \(\boldsymbol{Y}_{i j} | \boldsymbol{X}_{i j},\boldsymbol{w}_i\)

Z takto formulovaného hierarchického modelu je možné jednoducho odvodiť aj tzv. marginálny model \[ \boldsymbol{Y}_i | \mathbb{X}_i \sim N_{n_i}\Big( \mathbb{X}_i\boldsymbol{\beta}, \mathbb{Z}_i \Sigma_i \mathbb{Z}_i^\top \Big), \] pričom interpretácia vektoru neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) je v prípade oboch formulácii totožná.

V praxi sa často stane, že predpoklad (mnohorozmerného) normálneho rozdelenia pre opakované pozorovania – t.j., náhodné vektory \(\boldsymbol{Y}_i \in \mathbb{R}^{n_i}\) pre \(i =1, \dots, N\) – je nerealistický a je nutné hľadať iný pravdepodobnostný model (napr. z dôvodu, že sledovaná závislá premenná informuje výhradne len o úspechu/neúspechu liečby – t.j., binárna závislá premenná – alebo sa všeobecne jedná o realizácie nejakej diskrétnej náhodnej veličiny, prípadne má náhodná veličina síce spojité rozdelenie, ale nie je možné predpokladať normalitu).

Ak je možné naviac postulovať (predpokladať) konkrétne rozdelenie pre závislú premennú (to znamená aj možnosť definovať celkovú vierohodnosť), tak je vhodné použíť tzv. zovšeobecnené lineárne modely s náhodnými efektami (generalized linear model with random effects). Jedná sa o rozšírenie triedy zovšeobecnených lineárnych regresných modelov (GLM) v podobnom zmysle, ako sú lineárne regresné modely s náhodnými efektami zovšeobecnením klasických lineárnych regresných modelov (podrobnejšie o tomto type modelov v následujúcom cvičení). Ak však nie je možné apriórne predpokladať konkrétne pravdepodobnostné rozdelenie pre závislú premennú \(\boldsymbol{Y}\), tak je nutné využiť iné odhadovacie metódy, napr. tzv. pseudo-vierohodnosť, alebo GEE.

Na rozdiel od klasických lineárnych regresných modelov, ktoré predpokládajú nezávislé pozorovania, je nutné pri modeloch pre korelované pozorovania zohľadniť korelačnú štruktúru v rámci opakovaných pozorovaní Avšak zatiaľ čo u klasických lineárnych regresných modelov prítomnosť náhodných efektov (viac-menej) nemá vplyv na výslednú interpretáciu odhadnutých parametrov (t.j., interpretácia \(\boldsymbol{\beta} \in \mathbb{R}^p\) nezávisí na uvažovanej korelačnej štruktúre), u zovšeobecnených regresných modelov môžu rôzne predpoklady o variančnej-kovariančnej (závislostnej) štruktúre opakovaných pozorovaní (resp. iné modely) viesť k inej interpretácii výsledných odhadnutých parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\).

Pri analýze dat je preto dôležité dbať na správnu špecifikáciu korelačnej štruktúry a správny popis jednotlivých zdrojov variability. Na druhu stranu, variančná-kovariančná štruktúra je často implikovaná modelom pre podmienenú strednú hodnotu a konkrétnym rozdelením z rodiny rozdelení exponenciálneho typu.

V odbornej literatúre existujú rôzne modifikácie GLM modelov pre data s korelovanými (longitudinálnymi/opakovanými) pozorovaniami. V praxi sa ale najčastejšie používajú niektoré z následujúcej postupov:

Marginálne GLM modely
GLM modely s náhodnými efektami
Tranzitné mdeoly (resp. tzv.``transition’’ modely)

V podstate pre všetky typy vyššie uvedených modelov slúžia v programe SAS procedúry PROC GLIMMIX, PROC GENMOD, PROC GEE, prípadne PROC NLMIXED. Jednotlivým procedúram sa budeme podrobnejšie venovať v následujúcich cvičeniach. Pre základnú syntax, ktorá je vo viacerých smeroch odlišná od procedúry PROC MIXED je možné využiť následujúce odkazy:

PROC GLIMMIX:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glimmix_toc.htm
PROC GENMOD:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_genmod_toc.htm
PROC GEE:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_gee_toc.htm
PROC NLMIXED:
https://documentation.sas.com/doc/en/pgmsascdc/v_062/statug/statug_nlmixed_toc.htm

V následujúcej časti sa podrobnejšie pozrieme na prvý typ modelov, tzv. marginálne modely (pre korelované pozorovania a nenormálne rozdelenú závislú premennú).

1. Marginálny GLM model

V prvom rade je užitočné pripomenuť si základnú terminológiu modelov s náhodnými efektami v jednoduchom modeli (za predpokladu normality):

Rozdiel medzi hierarchickou a marginálnou formuláciou jednoduchého lineárneho regresného modelu;
Význam jednotlivých parametrov (a ostatných symbolov) uvedených v zápise modelu (t.j. pozorované vs. latentné premenné);
Výhody a nevýhody jednotlivých formulácii a spôsob implementácie v programe SAS.

Obecně platí, že marginálny model modeluje podmienenú strednú hodnotu závislej premennej v rámci konkrétnej sub-populácie (t.j., skupiny subjektov, ktoré zdieľajú rovnaké vlastnosti vzhľadom k vysvetľovaným/nezávislým premenným zaznamenaných vo vektore regresorov \(\boldsymbol{X} \in \mathbb{R}^p\)). Stredná hodnota náhodnej veličiny \(Y_{ij}\) (t.j., odpoveď \(i\)-teho subjektu na \(j\)-te opakované meranie) je modelovaná ako (lineárna) funkcia vysvetľujúcich premenných obsiahnutých vo vektore \(\boldsymbol{X}_{ij} \in \mathbb{R}^p\).

Tento princíp štandardne funguje pre lineárne regresné modely, ktoré su založené na tzv. ‘’cross-sectional’’ datach (resp. na tzv. ‘’cross-sekčnom’’ porovnávaní). Interpretácia vektoru odhadnutých parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) v marginálnom lineárnom regresnom modeli pre nenormálne rozdelené data je principiálne totožná s interpretáciou odhadnutých neznámych parametrov v klasickom lineárnom regresnom modeli. Pre GLM zovšeobecnenie teda platí následujúce:

Neznáma stredná hodnota \(\mu_{ij} \in \mathbb{R}\) náhodnej (závislej) veličiny \(Y_{i j}\) (chápané vždy podmienene vzhľadom k vektoru vysvetľujúcich premenných \(\boldsymbol{X}_{ij}\)) je funkciou vhodnej lineárnej kombinácie daných vysvetľujúcich premenných a vektoru neznámych parametrov, teda \[ \mu_{ij} = E\Big[ Y_{i j} | \boldsymbol{X}_{ij}\Big]= g^{-1}(\boldsymbol{X}_{ij}^\top\boldsymbol{\beta}), \] kde pre funkciu \(g(\cdot)\) sa v literatúre používa označenie linková funkcia (tzv. ``link function’‘) – napr. logit funkcia pre binárne data, logaritums pre celočíselné (kladné) počty, atď. V modernej machine-learning terminológii sa používa aj onačenie pre funkciu \(g\) ako tzv.’‘domain-respecting function’’.
Variabilita náhodnej veličiny \(Y_{ij}\) je modelovaná ako vhodná funkcia strednej hodnoty prostredníctvom rozptylovej funkcie a prípadne tzv. škálovacieho (disperzného) parametru \(\phi > 0\). Pre rozptyl náhodnej veličiny \(Y_{i j}\) teda platí, že \[ Var Y_{ij} \equiv Var[Y_{ij}|\boldsymbol{X}_{ij}] = v(\mu_{ij}) \phi, \] kde \(v(\cdot)\) je známa funkcia (vyplývajúca z konkrétneho rozdelenia v rámci rozdelení exponenciálneho typu).
V prípade opakovaných pozorovaní je navyše nutné modelovať aj koreláciu v závislých meraní, pričom korelácia medzi náhodnými veličinami \(Y_{ij}\) a \(Y_{i k}\) (t.j., korelácia medzí dvoma opakovanými pozorovaniami v rámci \(i\)-teho subjektu uskutočnenými v časoch \(t_i\) a \(t_k\)) je modelovaná ako funkcia príslušných stredných hodnôt a prípadne nejakých neznámych parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^l\). Formálne to lze vyjadriť zápisom \[ Cor(Y_{ij}, Y_{ik}) \equiv Cov[ (Y_{ij}, Y_{ik}) | \boldsymbol{X}_{ij}, \boldsymbol{X}_{ik}]= \rho(\mu_{ij}, \mu_{ik}, \boldsymbol{\alpha}), \] kde funkcia \(\rho(\cdot, \cdot, \boldsymbol{\alpha})\) opäť predstavuje nejakú vhodnú (známu) funkciu.

Takto definované GLM modely pre opakované/longitudinálne/zhlukované pozorovania predstavujú prirodzenú analógiu podobne ako GLM modely zovšeobecňujú model klasickej lineárnej regresie pre nenormálne rozdelené data.

Pre jednoduchú ilustráciu uvedieme data \(\{(Y_{ij}, X_{ij})\}_{i = 1}^N\), kde každý z \(N \in \mathbb{N}\) subjektov je meraný \(n \in \mathbb{N}\) krát a závislá premenná je binárna, t.j., \(Y_{i,j} \in \{0,1\}\), teda platí:

Stredná hodnota: \(logit(\mu_{ij}) = log \frac{\mu_{ij}}{1 - \mu_{ij}} = \beta_0 + \beta_1 x_{ij}\);
Rozptyl \(Var Y_{ij} = \mu_{ij} (1 - \mu_{i j})\);
Korelácia opakovaných pozorovaní: \(Cor(Y_{ij}, Y_{ik}) = \alpha \in (-1,1)\);

Užitočné

Zaujímavé zhrnutie niektorých dôležitých regresných postupov (a nielen tých) v rôznych štatistických programoch je môžné nájsť prehľadne napr. na stránke https://stats.oarc.ucla.edu/other/dae/.
V programe SAS lze marginálne GLM modely odhadovať pomocou procedúry PROC GLM – viď podrobnejší návod napr. na tejto stránke: https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_glm_toc.htm

Pre vektor opakovaných (korelovaných) pozorovaní \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i n_i})^\top \in \mathbb{R}^{n_i}\) pre daný subjekt \(i \in \{1, \dots, N\}\) a príslušné vektory vysvetľujúcich (nezávislých) premenných (t.j., stĺpce matice) \(\mathbb{X}_i = (\boldsymbol{X}_{i1}, \dots, X_{i n_i})^\top \in \mathbb{R}^{n_i \times p}\) chceme odhadnúť združené (podmienené) rozdelenie \[ P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \] resp. združenú podmienenú strednú hodnotu \(\boldsymbol{\mu}_i = E[\boldsymbol{Y}_i | \mathbb{X}_i]\) a to ako nelineárnu funkciu (prostredníctvom prelinkovania – tzv. linkovej funkcie) lineárneho prediktoru \(\mathbb{X}_i \boldsymbol{\beta}\) pre vektor neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\). V prípade závislej premennej, ktorá má alternatívne rozdelenie (i.e., \(Y_{ij} \in \{0, 1\}\)), dokonca platí \[ \boldsymbol{\mu}_i = E[\boldsymbol{Y}_i | \mathbb{X}_i] = P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \]

Variančná matica, resp. korelačná štruktúra opakovaných pozorovaní, teda \(Var[\boldsymbol{Y}_i |\mathbb{X}_i] = \mathbb{V}_i(\boldsymbol{\alpha})\) je odhadnutá priamo pomocou vzťahu medzi prvým a druhým momentom (na základe predpokladaného alternativného rozdelenia z exponenciálnej rodiny rozdelení) a marginálnych rozdelení, napr. \(P[Y_{ij} = y_{j}, Y_{ik} = y_k |\mathbb{X}_{i}]\) pre \(i = 1, \dots, N\) a \(j,k \in \{1, \dots, n_i\}\), kde \(j \neq k\), ale napr. aj marginálných rozdelení vyšších rádov, t.j., napríklad pomocou marginálnych pravdepodobností \(P[Y_{ij} = y_{j}, Y_{ik} = y_{k}, Y_{il} = y_{l} | \mathbb{X}_i]\) pre \(j \neq k \neq l\) a vektor \(\boldsymbol{y} = (y_1, \dots, y_{n_i})^\top\).

V literatúre existujú rôzne modely a odhadovacie postupy pre marginálne modely. V následujej časti je diskutovaná tzv. GEE metóda (postavená na využití marginálov prvého rádu pre odhad parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a marginálov vyššich rádov pre odhad parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^q\)).

Zobecněné odhadovacie rovnice – GEE

Zobecňené odhadovacie rovnice (GEE – resp. ``Generalized Estimating Equations’’) predstavené v článku Liang and Zeger (1986) [Longitudinal Data Analysis Using Generalized Linear Models, Biometrika, 73(1),13–22] definujú jeden z metodologických postupov, ako odhadovať marginálne regresné modely (pre závislú premennú s obecným rozdelením exponenciálneho typu) na základe korelovaných/longitudinálných dat. Jedná sa teda o prípady, ktoré by sme za predpokladu nekorelovanosti (resp. nezávislostí) analyzovali pomocou klasických GLM regresných modelov (t.j. data, o ktorých nie je možné predpokládať normálne rozdelenie, prípadne uvažovať spojitý charakter závislej premennej).

GLM pre nezávisle data (náhodný výber)

Pre stručné pripomenutie, v prípade GLM modelov uvažujeme nezávisle pozorovania \(\{(Y_i, \boldsymbol{X}_i);~i = 1, \dots, N\}\) pričom pre správne odhadnutie modelu je nutné špecifikovať dve konkrétne časti – systematickú a stochastickú (podmieňenú strednú hodnotu a rozptyl):

Systematická časť modelu
Predstavuje (podmienenú) strednú hodnotu \(\mu_{i}\) náhodnej veličiny \(Y_{i}\) a je modelovaná ako funkcia vhodnej (ale neznámej) lineárnej kombinácie vysvetľujúcich premenných vo vektore \(\boldsymbol{X}_i \in \mathbb{R}^p\) a vektoru neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\), teda \[ \mu_{i} = E\Big[Y_{i} | \boldsymbol{X}_i\Big]= g^{-1}(\boldsymbol{X}_{i}^\top\boldsymbol{\beta}); \]
Stochastická časť modelu
Predstavuje konkrétnu špecifikáciu rozdelenia náhodnej veličiny \(Y_{i}\), pričom sa predpokladá, že toto rozdelenie patrí do rodiny exponenciálných rozdelení (napr. binomické rozdelenie, Poissonovo rozdelenie, gamma rozdelenie, inverzné Gaussovo rozdelenie, ale do rodiny exponenciálnych rozdelení patrí aj normálne—Gaussovo rozdelenie). Konkrétny distribučný predpoklad v stochastickej časti modelu zároveň implikuje predpokládanú variančnú štruktúru, resp. platí, že \[ Var[Y_{i}] = \phi v(\mu_i). \] V prípade binomického rozdelenia náhodnej veličiny \(Y_{i}\) dostaneme \(\phi v(\mu_i) = \mu_i (1 - \mu_i)\) (pre \(\phi = 1\)), resp. v prípade Poissonového rozdelenia platí \(\phi v(\mu_i) = \mu_i\) (opäť pre \(\phi = 1\)).

Predpoklad konkrétneho rozdelenia umožňuje formulovať explicitné podmienky (t.j. rovnice) pre prvý a druhý (podmienený) moment. Odhad neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) preto získame riešením \(p\) nelineárnych (momentových) rovníc v tvare \[ \sum_{i = 1}^n \frac{\partial \mu_{i}}{\partial \boldsymbol{\beta}} v_i^{-1}(Y_{i} - \mu_i) = \boldsymbol{0}, \] kde \(v_i = \phi v(\mu_i)\). Rovnice sa typicky riešia napríklad pomocou iteračného Newton-Raphson algoritmu.
Málokedy majú totíž rovnice explicitné riešenie.

Analógia pre longitudinálne/korelované data

Základný princíp odhadovania modelov na základe longitudinálných pozorovaní zostáva rovnaký, ako v prípade klasických GLM modelov pre nezávislé data. Pre longitudinálne data \(\{(Y_{ij}, \boldsymbol{X}_{ij}); i = 1, \dots, N; j = 1, \dots, n_i\}\) merané na \(N \in \mathbb{N}\) nezávislých subjektov (pričom celkový počet pozorovaní je \(\mathcal{N} = \sum_{i = 1}^N n_i\) a \(\boldsymbol{X}_{ij} \in \mathbb{R}^p\)) špecifikujeme analogické podmienky pre (podmienenú) strednú hodnotu \[ \mu_{i j} = E\Big[Y_{i j} | \boldsymbol{X}_{ij}\Big]= g^{-1}(\boldsymbol{X}_{ij}^\top\boldsymbol{\beta}); \] resp. vyjadrené vektorovo/maticovo pre jednotlivé (nezávsilé) subjekty ako \[ \boldsymbol{\mu}_i = (\mu_{i1}, \dots, \mu_{i n_i})^\top = E\Big[\boldsymbol{Y}_{i}| \mathbb{X}_{i}\Big] = g^{-1}\big(\mathbb{X}_i \boldsymbol{\beta}\big) \] s variančnou-kovariačnou maticou \(\mathcal{V}_i = Var \boldsymbol{Y}_i \in \mathbb{R}^{n_i \times n_i}\). Spolu s predpokladom konkrétneho rozdelenia pre náhodné veličiny \(Y_{ij}\) (t.j. stochastická časť modelu) to vedie na riešenie nelineárnych rovníc (ktoré opäť špecifikujú prvé dva momenty) \[ \sum_{i = 1}^n \frac{\partial \boldsymbol{\mu}_{i}^\top}{\partial \boldsymbol{\beta}} \mathcal{V}_i^{-1}(\boldsymbol{Y}_{i} - \boldsymbol{\mu}_i) = \boldsymbol{0}. \]

Korelovanosť opakovaných pozorovaní je zohľadnená v štruktúre variančnej-kovariančnej matice \(\mathcal{V}_i\), ktorú je ale na rozdiel GLM modelov pre nekorelované pozorovania nutné odhadovať navyše. To sa robí pomocou tzv. matice pracovných korelácii (resp. tzv. ``working correlation matrix’’). Základný pricíp je rozložiť variančnú-kovariančnú maticu náhodného vektoru \(\boldsymbol{Y}_i = (Y_{i 1}, \dots, Y_{i n_i})^\top\) do tvaru \[ \mathcal{V}_i = \phi \mathcal{A}_i^{1/2} \mathcal{R}(\boldsymbol{\alpha})\mathcal{A}_i^{1/2}, \] kde \(\mathcal{A}_i \in \mathbb{R}^{n_i \times n_i}\) je diagonálna matica s prvkami \(v(\mu_{i j})\) pre \(j = 1, \dots, n_i\) na diagonále a matica \(\mathcal{R}(\boldsymbol{\alpha}) \in \mathbb{R}^{m_i \times m_i}\) je matica korelácii opakovaných pozorovaní vo vektore \(\boldsymbol{Y}_i\), ktorá závisí na parametroch \(\boldsymbol{\alpha} \in \mathbb{R}^\ell\) (a na diagonále má hodnoty jedna).

Užitočné

GEE predstavujú historicky staršiu metodológiu na odhadovanie GLM modelov s korelovanými/opakovanými pozorovaniami, ako sú GLM modely s náhodnými efektami. GEE modely sú výhradne určené pre marginálne modelovanie—t.j. interpretácia odhadnutých parametrov v rámci sub-populácii, ktoré sú determinované konrétnymi hodnotami nezávislých premenných (regresorov), \(\boldsymbol{X}_{ij} \in \mathbb{R}^{n_i}\).
GLM modely s náhodnými efektami predstavujú komplexnejší, modernejší, teoreticky robustnejší, ale aj výpočetne a interpretačne náročnejší postup, ako GEE, ale prímárne umožňujú tzv. podmienenú (resp. hierarchickú) interpretáciu v rámci konkrétneho subjektu. Marginálnu interpretáciu je možné získať následne z hierarchického modelu integrovánim, ktoré ale nie je úplne priamočiare (a vo väčšíne prípadov má za následok zmenu interpretácie odhadnutých parametrov pre pevné efekty).
GEE metodológia umožňuje konzistentne odhadovať vektor neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a to aj v prípade, že korelačná štruktúra (t.j., matica \(\mathcal{R}_i(\boldsymbol{\alpha})\)) nie je správne špefikovaná. Nezávisle na špecifikácii korelačnej štruktúry sú navyše získané odhady \(\widehat{\boldsymbol{\beta}} \in \mathbb{R}^p\) asymptoticky normálne (asymptotický rozptyl ale na špecifikácii korelačnej štruktúry už závisí – tzn., že správna/nesprávna špecifikácia korelačnej štruktúry má za následok výslednú eficienciu odhadu);
Zaujímavé a užitočné porovnanie GEE postupu a GLM modelov s náhodnými efektami je napr. v tomto článku.

Korelované data ale nie nutne vznikajú iba v prípade opakovaných pozorovaní (t.j., longitudinálne profily pre \(N \in \mathbb{N}\) vzájomne nezávislých subjektov). Analogicky sa môže jednať o nezávislé subjekty združené do niekoľkých skupín – tzv. clustrov — v rámci ktorých je možne považovať subjekty za vzájomne korelované. Takúto koreláciu medzi jednotlivými pozorovaniami je nutné správne zohľadníť, ak je cieľom štatistickej analýzy následná inferencia (intervaly spoĽahlivosti, prípadne štatistické testy nulovej a alternatívnej hypotézy).

V programe SAS sú k dispozícii dve hlavné/základné procedúry, ktoré umožňujú odhadovať regresné modely pre nenormálne data na základe GEE metodológie:

Procedúra PROC GENMOD – podrobná implementácia procedúry napr. tu:
https://documentation.sas.com/doc/en/statug/15.2/statug_genmod_toc.htm
Procedúra PROC GEE – podrobná implementácia procedúry napr. tu:
https://documentation.sas.com/doc/en/statug/15.2/statug_gee_toc.htm

a) Procedúra `PROC GENMOD`

Základná procedúra v programe SAS pre odhadovanie GLM modelov pre opakované/korelovaná pozorovania, ktoré námajú normálny charakter. Procedúra je určená hlavne pre prípady, keď sú dostupné data plne sledované, prípadne chýbajúce pozorovania sú plne náhodné (tzn. tzv. ``missing completely at random – MCAR’’ patern).

Idea algoritmu je postavená na následujúcom iteračnom princípe:

inicializačný odhad vektoru parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) napr. pomocou GLM modelu pre nekorelované/nezávislé pozorovania;
korelačná štruktúra—t.j., matice \(\mathcal{R}_i(\boldsymbol{\alpha})\), pre \(i = 1, \dots, N\) sú následne odhadnuté pomocou rezídui (ktoré závisia na \(\widehat{\boldsymbol{\beta}}\)) \[ r_{ij} = \frac{Y_{ij} - \widehat{\mu}_{ij}}{\sqrt{v(\widehat{\mu}_{ij})}}; \]
variančná-kovariančná matica \(\mathbb{V}_i(\boldsymbol{\alpha}) = \phi \mathcal{A}_i^{1/2} \mathcal{R}(\boldsymbol{\alpha})\mathcal{A}_i^{1/2}\), pre \(\boldsymbol{\alpha} \in \mathbb{R}^q\) je odhadnutá s využitím odhadnutej korelačnej matice \({\mathcal{R}}_i(\widehat{\boldsymbol{\alpha}})\);
updatovaný odhad vektoru neznámých parametrov sa získa využitím odhadnutej variančnej-kovariančnej matice \(\mathbb{V}_{i}(\widehat{\boldsymbol{\alpha}})\), pre \(i = 1, \dots, N\) pomocou vzťahu \[ \widehat{\boldsymbol{\beta}}^{(k + 1)} = \widehat{\boldsymbol{\beta}}^{(k)} - \Big[ \sum_{i = 1}^N \mathbb{D}_{i}^\top \mathbb{V}_i^{-1}(\widehat{\boldsymbol{\alpha}}) \mathbb{D}_i \Big]^{-1} \Big[ \sum_{i = 1}^N \mathbb{D}_i^\top \mathbb{V}^{-1}(\widehat{\boldsymbol{\alpha}})^{-1} \big(\boldsymbol{Y}_i - \widehat{\boldsymbol{\mu}}\big)\Big], \] kde \(\mathbb{D}_i = \Big(\frac{\partial \boldsymbol{\mu}_{ij}}{\partial \boldsymbol{\beta}}\Big)_{j, k = 1}^{n_i, p}\).

Užitočné

Podrobný help k SAS procedúre PROC GENMOD je na stránke:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_genmod_overview.htm
K dispozícii je množstvo rôznych volieb pre tzv. ``working-correlation matrix’’ – teda voľbu matice \(\mathcal{R}_{i}(\boldsymbol{\alpha})\), pre nejaké \(\boldsymbol{\alpha} \in \mathbb{R}^q\);
Často používané voľby sú napr. identita (\(\mathcal{R}(\boldsymbol{\alpha}) \equiv \mathbb{I}_{n_i \times n_i}\)), apriórne definovaná korelačná štruktúra (\(\mathcal{R}(\boldsymbol{\alpha}) \equiv \mathbb{R}(\boldsymbol{\alpha})\), pro \(\boldsymbol{\alpha} \in \mathbb{R}^{n_i(n_i - 1)/2}\)), m-závislosť (\(Corr(Y_{ij}, Y_{i j + t}) = \alpha_t\), pre \(t = 1, \dots, m\) a \(Corr(Y_{ij}, Y_{i j + t}) = 0\) inak), exchangable (\(Corr(Y_{ij},Y_{ik}) = \alpha\) pre \(j \neq k\)), prípadne tzv.unstructured matica (\(Corr(Y_{ij}, Y_{ik}) = \alpha_{jk}\));
pre voľbu \(\mathcal{R}(\boldsymbol{\alpha}) \equiv \mathbb{I}_{n_i \times n_i}\), prípadne ak \(n_i = 1\) pre všetky \(i = 1, \dots, N\), tak GEE postup odhadovania sa redukuje na klasický GLM model pre nezávislé pozorovania;

Jednoduchý (marginálny, teda populačný) GEE model pre pacientov so sklerózou multiplex (kde ako závislú premennú budeme uvažovať veličinu NEDA – No Evidence of Disease Activity) získame následujúcim spôsobom:

libname sm '/home/uXXX/sasuser.v94';
filename reffile '/home/uXXX/sasuser.v94/data/sm_data2.csv';

proc import datafile=reffile
    dbms=csv
    out=sm.data
    replace;
    getnames=yes;
run;

data sm.data;
set sm.data;
timeCls = time;
run;

proc print data=sm.data; 
run; 

proc genmod data=sm.data;
class id gender timeCls;
model NEDA = gender age time / d=binomial link=logit;;
repeated subject = id / withinsubject = timeCls corrw covb type=exch modelse;
run;

Podstatná čast zdrojového kódu vyššie je tzv. repeated statement – riadok, ktorý explicitne špecifikuje oparkované/korelované pozorovania a tým pádom aj použitie GEE metódy. Podstatné je aj porovnanie oboch tabuliek s odhadnutými pevnými efektami (Empirical estimates vs. Model-based estimates). Empirické odhady sú správne, ak je správne špecifikovaná podmienená stredná hodnota (jedná sa o tzv. robustný sandwichový odhad). Odhady založené na modeli výchadzajú zo špecifikovanej variančnej-kovariačnej (resp. korelačnej) matice.

Porovnajte model pre opakované/korelované pozorovania so štandardným GLM modelom pre nula/jedna závislú premennú:

proc genmod data=sm.data;
class id gender timeCls;
model NEDA = gender age time / d=binomial;
run;

Základný postup pri modelovaní longitudinálnych dat o ktorých nie je možné predpokládať normálne rozdelenie (a teda využiť klasický lineárny model s náhodnými efektami) by sa asi dal formalizovať v následujúcich krokoch:

voľba konkrétneho teoretického rozdelenia na základe povahy dat a špecifikácia link funkcie;
špecifikácia prvého momentu – podmienenej strednej hodnoty – v závilosti na uvažovaných regresoroch a vyjadrený prostredníctvom link funkcie;
špecifikácia pracovnej korelačnej štruktúry – tzv. working correlation matrix;
analýza výsledného modelu momocou vhodných goodness-of-fit kritérii;

Pre ilustráciu využijeme ešte procedúru PROC GENMOD pre regresiu Posonových počtov, kde hodnotu EDSS budeme interpretovať ako celočíselný kladný ukazateľ stavu nemoci:

proc genmod data=sm.data;
class id gender timeCls;
model EDSS = gender age time / d=poisson;
repeated subject = id / withinsubject = timeCls corrw covb type=ar(1) modelse;
run;

Porobnajte posledný model (s korelačnou štruktúrou modelovanou pomocou \(AR(1)\)) s analogickým modelom, kde korelačná štruktúra bude špecifikovaná pomocou type = unstr a vysvetlite rozdiely.

Samostatne

Interpretujte jednotlivé odhadnuté parametre a vysvetlite ich význam;
Pokuste sa model vylepšiť zahrnutím iných premenných, resp. uvažovaním komplexnejšej štruktúry podmienenej strednej hodnoty;.
Porovnajte rozdiely v jednotlivých odhadnutých modeloch v závislosti na uvažovanej pracovnej korelačnej štruktúre, t.j., matici \(\mathcal{R}_i(\boldsymbol{\alpha})\) — dodatočný parameter corrw v REPEATED STATEMENT.

b). Procedúra `PROC GEE`

Analogicky ako v prípade procedúry PROC GENMOD, aj procedúra PROC GEE implementuje základné zobecnené odhadovacie rovnice navrhnuté v članku Liang and Zeger (1986). Odhadovaný model je teda marginálnym modelom (t.j. populačným modelom). Procedúry PROC GENMOD a PROC GEE sú za predpokladu konceptu MCAR ekvivalentné, avšak štandardná implementácia GEE odhadovacích rovníc vedie v prípade MAR konceptu (tzv. “Missing At Random”) k nekonzistentným odhadom a nutná je tzv. vážená verzia obecných odhadovacích rovníc — ktorá je práve implementovaná v procedúre PROC GEE (tzv. weighted GEE, predstavené v článku Fitzmaurice, Laird, and Ware (2011)).

Procedúra PROC GEE navyše implementuje aj tzv. alternujúcu logistickú regresiu (ALS), kde sa využívajú logaritmi pomerov šancí.

Užitočné

SAS dokumentácia k procedúre PROC GEE:
https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_gee_toc.htm
Zaujímavý návod k použitiu procedúry PROC GEE je aj na tejto stránke;

Porovnajte následujúci výstup z procedúry PROC GEE s predchádzajúcim výstupom z procedúry PROC GENMOD.

proc gee data=sm.data;
    class id gender timeCls;
    model NEDA = gender age time / dist=binomial link=logit;
    repeated subject=id / within=timeCls type=exch corrw covb modelse;
run;

Analogický model pre Poissonovú regresiu:

proc gee data=sm.data;
    class id gender timeCls;
    model EDSS = gender age time / dist=poisson link=log;
    repeated subject=id / within=timeCls type=exch corrw covb modelse;
run;

Užitočné

Procedúra PROC GENMOD využíva iteratívne postupy k získaniu odhadov pre pevné efekty, ale aj pre odhady korelačnej štruktúry. Naproti tomu procedúra PROC GEE môže využívať neiteratívne postupy;
Pre konzistentné odhady je často vhodnejšie (a doporučované) využiť procedúru PROC GENMOD, ktorá ale môže byť výpočetne náročnejšia;
Pre uvažované modely sú oba výstupy ekvivalentné. Pokúste sa model vylepšiť a jednotlivé modely vzájomne porovnať.

Samostatne

Aká je interpretácia jednotlivých parametrov vo vyššie odhadnutom modely?
Pozrite sa na dokumntáciu procedúry PROC GEE – všimnite si rozdielnp syntax v porovnaní so syntaxou procedúry PROC GENMOD.
Pre uvažované modely sú oba výstupy ekvivalentné. Pokúste sa model vylepšiť a jednotlivé modely vzájomne porovnať.

c). Procedúra `PROC GLIMMIX`

Alternatívna možnosť pre marginálny model je využiť procedúru PROC GLIMMIX – podrobná syntax napr. na tejto stránke: https://documentation.sas.com/doc/en/pgmsascdc/v_062/statug/statug_glimmix_syntax01.htm. Jedná sa ale uý o SAS procedúru, ktorá umožňuje aj implementáciu náhodných efektov.

Odhadovanie finálneho modelu pomocou procedúry PROC GLIMMIX je založené na linearizácii a následnom použití (residuálnej) pseudo-vierohodnosti pričom korelačná štruktúra je odhadovaná zo získaných rezídui (špecifikácia type=cs znamená tzv. exchangeable korelačnú štruktúru).

Pseudo-vierohodnosť – vychádza z klasickej vierohodnostnej funkcie, ale pre “nespočítateľnosť” (intractability) sa využíva nejaká vhodná aproximácia združenej vierohodnosti, napr. pomocou marginálnych vierohodnosti, alebo pomocou podmienených vierohodnosti (GLIMMIX, Laplace, RMPL, …). Inferencia založená na princípe vierohodností je približná.

Kvázi-vierohodnosť – nevyužíva vierohodnosť ako takovú (t.j., není potrebná špecifikácia (združeného) rozdelenia), ale vychádza pouze zo špecifikácie prvých dvoch momentov. Štandardné postupy založené na vierohodnosti (GENMOD, AIC, testy pomerom vierohodnosti, …) nie sú aplikovateľné.

proc glimmix data=sm.data method=RMPL;
   class id gender timeCls;
   model NEDA = gender age time / dist=binomial link=logit solution;
   random _residual_ / subject=id type=cs;   /* CS = exchangeable */
run;

Procedúra PROC GLIMMIX môže byť teda využitá pre aproximáciu GEE modelu. GEE využíva odhadovacie rovnice a špecifikáciu prvých dvoch momentov (kvázi-vierohodnosť). Odhady variančnej-kovariančnej štruktúry sú štandardne získavané pomocou robustných sandwichových odhadov. Naproti tomu proc PROC GLIMMIX využíva pseudo-vierohodnosť a linearízaciu. GEE (PROC GENMOD a PROC GEE) vyžaduje špecifikáciu opakovaných pozorovaní a tzv. working correlation matrix prostredníctvom repeated statement. PROC GLIMMIX koreláciu rezídui v lineárnom parametrickom modeli.

Samostatne

Porovnajte jednotlivé modely pomocou PROC GENMOD, PROC GEE a PROC GLIMMIX ale pre nezávislé pozorovania – t.j. bez použitia repeated statementu.
Odhadnite pomocou PROC GLIMMIX regresný model pre Poissonové počty a výsledky porovnajte s ostatnými SAS procedúrami.

2. Porovnanie GENMOD/GEE/GLIMMIX pre marginálny model

V mnohých prípadoch sú modely získane z PROC GENMOD, PROC GEE a PROC GLIMMIX veľmi podobné, ale je medzi nimi zásadnú rozdiel. Procedúry PROC GENMOD a PROC GEE využívajú princíp odhadovacách rovníc (GEE) a nie su postavené na princípe maximalizácie vierohodnosti. Z výpočetného hľadiska sa jedná o pomerne rýchle algoritmy, ktoré sú určené aj pre rozsiahle datové súbory.

Naproti tomu procedúra PROC GLIMMIX využíva celkovú vierohodnosť a odhady parametrov sú získané metódou maximálnej vierohodnosti. V ilustrácii použitej vyššie sa síce jedná o marginálny model, ktorý koreláciu opakovaných pozorovaní modeluje len pomocou vzájomne korelovaných rezídíí (viď random _residual_ / subject=id type=cs;), ale samotná procedúra umožňuje aj odhadovanie hierarchyckých modelov s náhodnými efektami. Z výpočetného hľadiska sa ale jedná o výrazne zložitejší algoritmus.

Porovnanie všetkých troch zmienených SAS procedúr pre prípad marginálnych modelov:

Source: ChatGPT

Longitudinální a panelová data – NMST422

VII. Zobecnené lineárne modely pre korelované pozorovania

1. Marginálny GLM model

Užitočné

Zobecněné odhadovacie rovnice – GEE

Užitočné

a) Procedúra PROC GENMOD

Užitočné

Samostatne

b). Procedúra PROC GEE

Užitočné

Užitočné

Samostatne

c). Procedúra PROC GLIMMIX

Samostatne

2. Porovnanie GENMOD/GEE/GLIMMIX pre marginálny model

a) Procedúra `PROC GENMOD`

b). Procedúra `PROC GEE`

c). Procedúra `PROC GLIMMIX`