Longitudinální a panelová data – NMST422

Letný semester 2023-2024 | Cvičenie 8 | 29.04.2024



Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html

Doporučená literatúra a ďalšie užitočné materiály




VIII. Zobecnené lineárne modely s náhodnými efektami

V doterajších častiach cvičenia nás zaujímal hlavne prípad, keď o závislej premennej \(Y \in \mathbb{R}\) (t.j., reálna náhodná veličina, ktorá bola opakovane meraná na \(n \in \mathbb{N}\) vzájomne nezávislých subjektoch) môžeme predpokladať, že je spojitá a prípadne navyše aj podmienene normálne rozdelená (t.j., základný lineárny regresný model s náhodnými efektami). Matematicky je tento fakt vyjadrený prostredníctvom zápisu \[ \boldsymbol{Y}_i | \boldsymbol{b}_i \sim N_{m_i}\Big( \mathbb{X}_i\boldsymbol{\beta} + \mathbb{Z}_i\boldsymbol{b}_i, \Sigma_i \Big), \] kde \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i m_i})^\top \in \mathbb{R}^{m_i}\) je vektor opakovaných meraní vrámci \(i\)-teho subjektu (pre \(i \in \{1, \dots, n\}\)) a \(\boldsymbol{b}_i = (b_{i1}, \dots, b_{i q})^\top \in \mathbb{R}^q\) je vektor náhodných (nepozorovaných) efektov vrámci \(i\)-teho subjektu. Väčšinou predpokládame, že \(\boldsymbol{b}_i \sim N_q(\boldsymbol{0}, \mathbb{D})\). Jednotlivé vektory \(\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_n\) sú vzájomné nezávislé (v zápise sa niekedy používa výraz \(\boldsymbol{Y}_i | \boldsymbol{b}_i\) a niekedy spávnejší zápis \(\boldsymbol{Y}_i | \boldsymbol{X}_{ij},\boldsymbol{b}_i\)).

V praxi sa ale často stane, že predpoklad (mnohorozmerného) normálneho rozdelenia pre opakovane pozorovania – t.j., náhodné vektory \(\boldsymbol{Y}_i\), pre \(i =1, \dots, n\) je nerealistický a je nutné hľadať iný pravdepodobnostný model (napr. pretože sledovaná závislá premenná informuje výhradne len o úspechu/neúspechu liečby – binárna premenná – alebo sa všeobecne jedná o realizácie nejakej diskrétnej náhodnej veličiny, alebo má náhodná veličina síce spojité rozdelenie, ale nie je možné predpokladať normalitu). Ak je možné naviac postulovať (predpokladať) konkrétne rozdelenie pre závislú premennú (to znamená aj možnosť definovať celkovú vierohodnosť), tak je vhodné použíť tzv. zovšeobecnené lineárne modely s náhodnými efektami (generalized linear model with random effects). Jedná sa o rozšírenie triedy zovšeobecnených lineárnych regresných modelov (GLM) v podobnom zmysle, ako sú lineárne regresné modely s náhodnými efektami zovšeobecnením klasických lineárnych regresných modelov. Ak nie je možné apriórne postulovať (predpokladať) nejaké vhodné pravdepodobnostné rozdelenie pre závislú premennú \(\boldsymbol{Y}\), tak je nutné využiť iné odhadovacie metódy a postupy (napr. tzv. GEE, ktoré budeme diskutovať neskôr).

Na rozdiel od klasických lineárnych regresných modelov, ktoré predpokládajú nezávislé pozorovania, je nutné pri modeloch s náhodnými efektami zohľadniť korelačnú štruktúru v rámci opakovaných pozorovaní – čo platí aj pre lineárne regresné modely s náhodnými efektami, aj pre zovšeobecnené lineárne regresné modely s náhodnými efektami. Avšak zatiaľ čo u klasických lineárnych regresných modelov prítomnosť náhodných efektov (viac-menej) nemá vplyv na celkovú interpretáciu odhadnutých parametrov (interpretácia nezávisí na uvažovanej korelačnej štruktúre), u zovšeobecnených regresných modelov môžu rôzne predpoklady o variančnej-kovariančnej (závislostnej) štruktúre viesť k rôznej interpretácii výsledných odhadnutých parametrov.

Pri analýze dat je preto o to dôležitejšie dbať na správnu špecifikáciu korelačnej štruktúry a správny popis jednotlivých zdrojov variability – t.j. variabilita medzi jednotlivými subjektami a variabilita opakovaných pozorovaní v rámci konkrétheho jedinca (vrámci konrétnych subjektov).



V určitom zmysle existujú rôzne modifikácie GLM modelov pre data s korelovanými (longitudinálnymi/opakovanými) pozorovaniami. V praxi sa ale najčastejšie používajú
  • Marginálne GLM modely
  • GLM modely s náhodnými efektami
  • Tranzitné (i.e., ``transition’’) modely



V následujúcich častiach stručne popíšeme hlavne prvé dva z uvedených modelov.



1. Marginálny model

V prvom rade je užitočné pripomenuť si základnú terminológiu modelov s náhodnými efektami v jednoduchom (lineárnom) prípade.

Užitočné

  • Pripomeňte si hierarchicku a marginálnu formuláciu jednoduchého lineárneho regresného modelu.
  • Ktoré kvantity explicitne uvedené v zápise jednotlivých modelov sú známe (t.j. pozorovaná) a ktoré sú latentné (t.j., nepozorované)?
  • Aký je základný rozdiel medz hierarchickou a marginálnou formuláciou modelu. Ktorý model lze považovať za detailnejší (podrobnejši)?



Marginálny model modeluje podmienenú strednú hodnotu závislej premennej vrámci konkrétnej sub-populácie (t.j., skupiny subjektov, ktoré zdieľajú rovnaké vlastnosti vzhľadom k vysvetľovaným/nezávislým premenným). Stredná hodnota náhodnje veličiny \(Y_{ij}\) (t.j., odpoveď \(i\)-teho subjektu na \(j\)-te opakované meranie) je modelovaná ako (lineárna) funkcia vysvetľujúcich premenných obsiahnutých vo vektore \(\boldsymbol{X}_{ij}\).

Podobnú (marginálnu) vlastnosť majú aj štandardné lineárne regresné modely, ktoré su založené na tzv. ``cross-sectional’’ datach. Interpretácia vektoru odhadnutých parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) v lineárnom regresnom modeli s náhodnými efektami je ideovo totožná s interpretáciou odhadnutých neznámych parametrov v klasickom lineárnom regresnom modeli. Pre GLM zovšeobecnenie teda platí následujúce:

  • Neznáma stredná hodnota \(\mu_{ij}\) náhodnej veličiny \(Y_{i j}\) je funkciou vhodnej lineárnej kombinácie vysvetľujúcich premenných a vektoru neznámych parametrov, teda \[ \mu_{ij} = E\Big[ Y_{i j} \Big]= g^{-1}(\boldsymbol{X}_{ij}^\top\boldsymbol{\beta}), \] kde pre funkciu \(g(\cdot)\) sa v literatúre používa označenie linková funkcia (tzv. ``link function’’) – napr. logit funkcia pre binárne data, logaritus pre Poissonové počty, atď.
  • Variabilita náhodnej veličiny \(Y_{ij}\) je modelovaná ako vhodná funkcia strednej hodnoty prostredníctvom tzv. škálovacieho (disperzného) parametru \(\phi > 0\). Pre rozptyl náhodnej veličiny \(Y_{i j}\) teda platí, že \[ Var Y_{ij} = b(\mu_{ij}) \phi, \] kde funkcia \(v(\cdot)\) je známa funkcia.
  • V poslednom rade je pre opakované pozorovania nutné modelovať aj koreláciu vrámci závislých pozorovaní – pričom korelácia medzi náhodnými veličinami \(Y_{ij}\) a \(Y_{i k}\) (t.j., korelácia medzí dvoma opakovanými pozorovaniami v rámci \(i\)-teho subjektu uskutočnenými v časoch \(t_i\) a \(t_k\)) je modelovaná ako funkcia príslušných stredných hodnôt a prípadne nejakých neznámych parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^l\). Formálne to lze vyjadriť zápisom \[ Cor(Y_{ij}, Y_{ik}) = \rho(\mu_{ij}, \mu_{ik}, \boldsymbol{\alpha}), \] kde funkcia \(\rho(\cdot, \cdot, \boldsymbol{\alpha})\) opäť predstavuje nejakú vhodnú (známu) funkciu.



Takto definované GLM modely pre opakované/longitudinálne pozorovania predstavujú prirodzenú analógiu v rovnakom zmysle, ako GLM modely zovšeobecňujú model klasickej lineárnej regresie.

Ako jednoduchý ilustračný príklad môžeme uvažovať data \(\{(Y_{ij}, X_{ij})\}_{i = 1}^n\), kde každý subjekt je meraný \(m \in \mathbb{N}\) krát.

Postupne môžeme písať:

  • Stredná hodnota: \(logit(\mu_{ij}) = log \frac{\mu_{ij}}{1 - \mu_{ij}} = \beta_0 + \beta_1 x_{ij}\);
  • Rozptyl \(Var Y_{ij} = \mu_{ij} (1 - \mu_{i j})\);
  • Korelácia opakovaných pozorovaní: \(Cor(Y_{ij}, Y_{ik}) = \alpha \in (-1,1)\);



Užitočné



Samostatne

  • Aká je interpretácia jednotlivých parametrov v logistickom modely explicitne uvedenom vyššie?
  • Aká je uvažovaná teoretická kovariančná štruktúra medzi opakovanými pozorovaniami v rámci konkrétneho subjektu?
  • Aká je predpokládana závislostná štruktúra medzi jednotlivými subjektami?
  • Aké sú základné výhody a hlavné limitácie uvedeného marginálneho GLM modelu?



2. GLM model s náhodnými efektami

Tieto modely predstavujú priame zovšeobecnenie klasického lineárneho regresného modelu s náhodnými efektami určeného pre normálne data na modely ktoré su vhodné pre modelovanie závislej premennej ktorá je diskrétna (a samozrejme obsahuje z8vislostnú štruktúru v rámci jednotivých subjektov – t.j. opakované pozorovania).

Jednoduchý príklad zmienený výššie by sme mohli matematicky formulovať následovne: \[ logit(\mu_{ij}) = (\beta_0^* + b_i) + \beta_1^* X_{ij}, \] kde \(b_i \sim N(0, \nu^2)\) je náhodný efekt (náhodný intercept), ktorý modeluje variabilitu medzi subjektami (heterogenita medzi subjektami \(i = 1, \dots, n\)), Je dôležité si uvedomiť následujúce vlastnost:

  • podmienene pri náhodnom efekte \(b_i\) sú jednotlivé opakované merania \(Y_{i1}, \dots, Y_{im_i}\) vzájomne nezávislé a majú hustotu (exponenciálneho typu) v tvare \[ Y_{ij} \sim f(y | b_i) = exp\{ (y \theta_{ij} \psi(\theta_{ij}))/\phi + c(y, \phi) \}, \] pričom platí (analogicky ako v prípade GLM modelov), že podmienené momenty \(\mu_{ij} = E[Y_{ij}|b_i] = \psi'(\theta_{ij})\), a \(Var [Y_{ij}|b_i] = \psi''(\theta_{ij})\phi\) a tiež \(g(\mu_{ij}) = \boldsymbol{X}_{ij}\boldsymbol{\beta} + \boldsymbol{Z}_{ij}\boldsymbol{b}_i\).
  • Náhodné efekty \(b_1, \dots, b_{n}\) sú vzájomne nezávislé so stejným rozdelením \(F\) (najčastejšie sa predpokladá normálne rozdelnie).



Základnou vlastnosťou/schopnosťou GLM modelov s náhodným efektami je umožnenie modelovať určitu mieru heterogenity medzi jednotlivými subjektami. Niekedy sa tieto modely nazývajú aj tzv. latent variable models (pretože náhodné efekty sú obecne nepozorované – t.j., latentné).



Samostatne

  • Aká je interpretácia jednotlivých parametrov v GLM modeli s náhodnými efektami?
  • Akým spôsobom ovplyňuje prítomnosť náhodnúch efektov výslednú podmieňenú strednú hodnotu?
  • Pomocou helpu v programe SAS sa podívajte a naštudujte, ako fitovať GLM model s náhodnými efektami.



Užitočné



3. Transition modely

Tzv. “transition” modely predpokládajú špeficifickú štruktúru korelácie v rámci opakovaných pozorovaní. Jednotlivé pozorovania závislej premennej \(Y\) sú priamo podmienené predchádzajúcimi hodnotami realizácii v rámci daného subjektu. Exaktnú matematický zápis zavisi od typu podmienenej štruktúry, ktorú pre jednotlivé opakované pozorovania predpokládame (napr. Markovský model prváho radu, resp. autokorelačný model rádu \(k \in \mathbb{N}\)).



Pre jednoduchú ilustráciu je možné predpokladať napr. model \[ g(E[Y_{ij} | \boldsymbol{X}_{ij}, Y_{i(j-1)}]) = \boldsymbol{X}_{ij}^\top\boldsymbol{\beta} + \alpha Y_{i(j-1)}, \] kde \(i = 1, \dots, n\) a \(j = 2, \dots, m_i\). Je samozrejme otázne, akým spôsobom sa vysporiadať s prvým meraním (t.j., napr. baseline hodnota \(Y_{i1}\) v rámci každého subjektu) a samozrejme existujú rôzne návrhy, možnosti, aj modely.



Podstatnou otázkou pri tranzitných modeloch je aj záležitosť interpretácie—jednak vzhľadom k času \(t\) kedy sú opakované pozorovania v rámci subjektu uskutočnené a tiež vzhľadom k parametru \(\alpha \in \mathbb{R}\), ktorý modeluje závislosť na bezprostrednom predchádzajúcom pozorovani.

Užitočné

  • Uvažujte jednoduchú (korelovanú) postupnosť \(\{Y_{t_i}\}_{i = 1}^{N}\) realizovanú v časových okamžikoch \(t_1 < \dots t_N\) a pozrite sa na jednoduchý scatterplot vzhľadom k času, t.j., scatterplot bodov \((Y_{t_i}, t_i)\) pre \(i = 1, \dots, N\) a tiež scatterplot bodov \((Y_{t_i}, Y_{t_{i -1}})\) pre \(i = 2, \dots, N\)
  • V predchádzajúcom príklade uvažujte rôzne typy postupnosti (napr., AR model, MA model, ARMA model) a tiež rôzne modely pre rozdelenie náhodných inovácii.
  • Transition modely v programe SAS je možné modelovať napr. ako marginálne modely, kde sa vhodne definuje matica modelu \(\boldsymbol{X}\)
  • Jednoduché varianty modelov sú popísané napr. na tejto stránke https://support.sas.com/kb/24/494.html