Letný semester 2024-2025 | Cvičenie 10 | 05.05.2025
Prihlásenie k SAS OnDemand:
https://www.sas.com/en_us/software/on-demand-for-academics.html
Nutná je registrácia s vytvorením vlastného účtu s jedinečným
identifikačným číslom a potvrdenie registrácie prostredníctvom emailu.
Identifikačné číslo užívateľa (vo forme
uXXX, kde
XXX je samotné číslo uživateľa)
sa objavuje v niektorých následujúcich SAS skriptoch. Symbol
XXX v zdrojových kódoch je
potrebné vždy nahradiť príslušným identifikačným číslom užívateľa.
Regresné modely pre opakované/korelované pozorovania so závislou
premennou, ktorá je diskrétna, prípadne spojitá, ale nie je možné
uvažovať normálne rozdelenie (napr. výrazné zošikmenie podmienenej
hustoty a pod.). Marginálne regresné modely modelujú podmienenú strednú
hodnotu výhradne prostredníctvom pevných efektov (t.j., jednoduchšia
interpretácia výsledného modelu), pričom závislostný charakter
opakovaných pozorovaní je zohľadnení pri odhadovaní
variančnej-kovariančnej matice.
Pre vektor opakovaných (korelovaných) pozorovaní \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i n_i})^\top\) pre daný subjekt \(i \in \{1, \dots, N\}\) a príslušné vektory vysvetľujúcich (nezávislých) premenných (t.j., stĺpce matice) \(\mathbb{X}_i = (\boldsymbol{X}_{i1}, \dots, X_{i n_i})^\top \in \mathbb{R}^{n_i \times p}\) chceme odhadnúť združené (podmienené) rozdelenie \[ P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \] resp. združenú podmienenú strednú hodnotu \(\boldsymbol{\mu}_i = E[\boldsymbol{Y}_i | \mathbb{X}_i]\) ako nelineárnu funkciu (link) lineárneho prediktoru \(\mathbb{X}_i \boldsymbol{\beta}\) pre vektor neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\). V prípade závislej premennej, ktorá má alternatívne rozdelenie (i.e., \(Y_{ij} \in \{0, 1\}\)), dokonca platí \[ \boldsymbol{\mu}_i = E[\boldsymbol{Y}_i | \mathbb{X}_i] = P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \]
Variančná matica, resp. korelačná štruktúra opakovaných pozorovaní, teda \(Var[\boldsymbol{Y}_i |\mathbb{X}_i] = \mathbb{V}_i(\boldsymbol{\alpha})\) je odhadnutá pomocou automatick0ho vzťahu medzi prvým a druhým momentom (na základe predpokladaného rozdelenia z exponenciálnej rodiny) a marginálnych rozdelení, napr. \(P[Y_{ij} = y_{j}, Y_{ik} = y_k |\mathbb{X}_{i}]\) pre \(i = 1, \dots, N\) a \(j,k \in \{1, \dots, n_i\}\), kde \(j \neq k\), ale napr. aj marginálných rozdelení vyšších rádov, t.j., napríklad pomocou marginálnych pravdepodobností \(P[Y_{ij} = y_{j}, Y_{ik} = y_{k}, Y_{il} = y_{l} | \mathbb{X}_i]\) pre \(j \neq k \neq l\) a vektor \(\boldsymbol{y} = (y_1, \dots, y_{n_i})^\top\).
V literatúre existujú rôzne modely a modelovacie postupy. V následujúcom sa zameriame na marginálne modely odhadované pomocou GEE (postavené na využití marginálov prvého rádu pre odhad parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a marginálov vyššich rádov pre odhad parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^q\)).
Zobecňené odhadovacie rovnice (GEE – resp. ``Generalized Estimating
Equations’’) predstavené v článku Liang and Zeger (1986)
[Longitudinal Data Analysis Using Generalized Linear Models,
Biometrika, 73(1),13–22] definujú jeden z metodologických postupov,
ako odhadovať regresné modely (pre závsilú premennú s obecným rozdelením
exponenciálneho typu) na základe korelovaných/longitudinálných dat.
Jedná sa teda o prípady, ktoré by sme za predpokladu nekorelovanosti
(resp. nezávislostí) analyzovali pomocou klasických GLM regresných
modelov (t.j. data, o ktorých nie je možné predpokládať normálne
rozdelenie, prípadne uvažovať spojitý charakter závislej premennej).
GLM pre nezávisle data (náhodný výber)
Predpoklad konkrétneho rozdelenia umožňuje formulovať explicitné
podmienky (t.j. rovnice) pre prvý a druhý (podmienený) moment. Odhad
neznámych parametrov \(\boldsymbol{\beta} \in
\mathbb{R}^p\) preto získame riešením \(p\) nelineárnych (momentových) rovníc v
tvare \[
\sum_{i = 1}^n \frac{\partial \mu_{i}}{\partial \boldsymbol{\beta}}
v_i^{-1}(Y_{i} - \mu_i) = \boldsymbol{0},
\] kde \(v_i = \phi v(\mu_i)\).
Rovnice sa typicky riešia napríklad pomocou iteračného Newton-Raphson
algoritmu.
Málokedy majú totíž rovnice explicitné riešenie.
Analógia pre longitudinálne data
Základný princíp odhadovania modelov na základe longitudinálných pozorovaní zostáva rovnaký, ako v prípade klasických GLM modelov pre nezávislé data. Pre longitudinálne data \(\{(Y_{ij}, \boldsymbol{X}_{ij}); i = 1, \dots, N; j = 1, \dots, n_i\}\) merané na \(N \in \mathbb{N}\) nezávislých subjektov (pričom celkový počet pozorovaní je \(\mathcal{N} = \sum_{i = 1}^N n_i\) a \(\boldsymbol{X}_{ij} \in \mathbb{R}^p\)) špecifikujeme analogické podmienky pre (podmienenú) strednú hodnotu \[ \mu_{i j} = E\Big[Y_{i j} | \boldsymbol{X}_{ij}\Big]= g^{-1}(\boldsymbol{X}_{ij}^\top\boldsymbol{\beta}); \] resp. vyjadrené vektorovo/maticovo pre jednotlivé (nezávsilé) subjekty ako \[ \boldsymbol{\mu}_i = (\mu_{i1}, \dots, \mu_{i n_i})^\top = E\Big[\boldsymbol{Y}_{i}| \mathbb{X}_{i}\Big] = g^{-1}\big(\mathbb{X}_i \boldsymbol{\beta}\big) \] s variančnou-kovariačnou maticou \(\mathcal{V}_i = Var \boldsymbol{Y}_i \in \mathbb{R}^{n_i \times n_i}\). Spolu s predpokladom konkrétneho rozdelenia pre náhodné veličiny \(Y_{ij}\) (t.j. stochastická časť modelu) to vedie na riešenie nelineárnych rovníc (ktoré opäť špecifikujú prvé dva momenty) \[ \sum_{i = 1}^n \frac{\partial \boldsymbol{\mu}_{i}^\top}{\partial \boldsymbol{\beta}} \mathcal{V}_i^{-1}(\boldsymbol{Y}_{i} - \boldsymbol{\mu}_i) = \boldsymbol{0}. \]
Korelovanosť opakovaných pozorovaní je zohľadnená v štruktúre
variančnej-kovariančnej matice \(\mathcal{V}_i\), ktorú je ale na rozdiel
GLM modelov pre nekorelované pozorovania nutné odhadovať navyše. To sa
robí pomocou tzv. matice pracovných korelácii (resp. tzv.
``working correlation matrix’’). Základný pricíp je rozložiť
variančnú-kovariančnú maticu náhodného vektoru \(\boldsymbol{Y}_i = (Y_{i 1}, \dots, Y_{i
n_i})^\top\) do tvaru \[
\mathcal{V}_i = \phi \mathcal{A}_i^{1/2}
\mathcal{R}(\boldsymbol{\alpha})\mathcal{A}_i^{1/2},
\] kde \(\mathcal{A}_i \in
\mathbb{R}^{n_i \times n_i}\) je diagonálna matica s prvkami
\(v(\mu_{i j})\) pre \(j = 1, \dots, n_i\) na diagonále a matica
\(\mathcal{R}(\boldsymbol{\alpha}) \in
\mathbb{R}^{m_i \times m_i}\) je matica korelácii opakovaných
pozorovaní vo vektore \(\boldsymbol{Y}_i\), ktorá závisí na
parametroch \(\boldsymbol{\alpha} \in
\mathbb{R}^\ell\) (a na diagonále má hodnoty jedna).
Korelované data ale nie nutne vznikajú iba v prípade opakovaných pozorovaní (t.j., longitudinálne profily pre \(N \in \mathbb{N}\) vzájomne nezávislých subjektov). Analogicky sa môže jednať o nezávislé subjekty združené do niekoľkých skupín – tzv. clustrov — v rámci ktorých je možne považovať subjekty za vzájomne korelované. Takúto koreláciu medzi jednotlivými pozorovaniami je nutné správne zohľadníť, ak je cieľom štatistickej analýzy následná inferencia (intervaly spoĽahlivosti, prípadne štatistické testy nulovej a alternatívnej hypotézy).
V programe SAS sú k dispozícii dve hlavné/základné procedúry, ktoré umožňujú odhadovať regresné modely pre nenormálne data na základe GEE metodológie:
PROC GENMOD
– podrobná implementácia procedúry
napr. tu: PROC GEE
– podrobná implementácia procedúry napr.
tu: PROC GENMOD
PROC GENMOD
je na
stránke:Jednoduchý (marginálny, teda populačný) GEE model pre pacientov so
sklerózou multiplex (kde ako závislú premennú budeme uvažovať veličinu
NEDA
– No Evidence of Disease Activity) získame
následujúcim spôsobom:
libname sm '/home/uXXX/sasuser.v94';
filename reffile '/home/uXXX/sasuser.v94/data/sm_data2.csv';
proc import datafile=reffile
dbms=csv
out=sm.data
replace;
getnames=yes;
run;
data sm.data;
set sm.data;
timeCls = time;
run;
proc print data=sm.data;
run;
proc genmod data=sm.data;
class id gender timeCls;
model NEDA = gender age time / d=binomial link=logit;;
repeated subject = id / withinsubject = timeCls corrw covb type=exch modelse;
run;
Podstatná čast zdrojového kódu vyššie je tzv.
repeated
statement – riadok, ktorý explicitne špecifikuje
oparkované/korelované pozorovania a tým pádom aj použitie GEE metódy.
Podstatné je aj porovnanie oboch tabuliek s odhadnutými pevnými efektami (
Empirical
estimatesvs.
Model-based estimates`). Empirické odhady sú
správne, ak je správne špecifikovaná podmienená stredná hodnota (jedná
sa o tzv. robustný sandwichový odhad). Odhady založené na modeli
výchadzajú zo špecifikovanej variančnej-kovariačnej (resp. korelačnej)
matice.
Porovnajte model pre opakované/korelované pozorovania so štandardným GLM modelom pre nula/jedna závislú premennú:
proc genmod data=sm.data;
class id gender timeCls;
model NEDA = gender age time / d=binomial;
run;
Základný postup pri modelovaní longitudinálnych dat o ktorých nie je
možné predpokládať normálne rozdelenie (a teda vyuiť klasický lineárny
model s náhodnými efektami) by sa asi dal formalizovať v následujúcich
krokoch:
Pre ilustráciu využijeme ešte procedúru PROC GENMOD
pre
regresiu Posonových počtov, kde hodnotu EDSS budeme interpretovať ako
celočíselný kladný ukazateľ stavu nemoci:
proc genmod data=sm.data;
class id gender timeCls;
model EDSS = gender age time / d=poisson;
repeated subject = id / withinsubject = timeCls corrw covb type=ar(1) modelse;
run;
corrw
v
REPEATED STATEMENT
.
PROC GEE
Analogicky ako v prípade procedúry PROC GENMOD
, aj
procedúra PROC GEE
implementuje základné zobecnené
odhadovacie rovnice navrhnuté v članku Liang and Zeger (1986).
Odhadovaný model je teda marginálnym modelom (t.j. populačným modelom).
Procedúry PROC GENMOD
a PROC GEE
sú za
predpokladu konceptu MCAR ekvivalentné, avšak štandardná implementácia
GEE odhadovacích rovníc vedie v prípade MAR konceptu (tzv. “Missing At
Random”) k nekonzistentným odhadom a nutná je tzv. vážená verzia
obecných odhadovacích rovníc — ktorá je práve implementovaná v procedúre
PROC GEE
(tzv. weighted GEE, predstavené v článku
Fitzmaurice, Laird, and Ware (2011)).
Procedúra PROC GEE
implementuje aj tzv. alternujúcu
logistickú regresiu (ALS), kde sa využívajú logaritmi pomerov šancí.
PROC GEE
:PROC GEE
je aj na
tejto
stránke;
Porovnajte následujúci výstup z procedúry PROC GEE
s
predchádzajúcim výstupom z procedúry PROC GENMOD
.
proc gee data=sm.data;
class id gender timeCls;
model NEDA = gender age time / dist=binomial link=logit;
repeated subject=id / within=timeCls type=exch corrw covb;
run;
Analogický model pre Poissonovú regresiu:
proc gee data=sm.data;
class id gender timeCls;
model EDSS = gender age time / dist=poisson link=log;
repeated subject=id / within=timeCls type=exch corrw covb;
run;
PROC GENMOD
využíva iteratívne postupy k získaniu
odhadov pre pevné efekty, ale aj pre odhady korelačnej štruktúry.
Naproti tomu procedúra PROC GEE
môže využívať neiteratívne
postupy
PROC GENMOD
, ktorá ale môže byť výpočetne
náročnejšia..
PROC GEE
– všimnite si
rozdielnp syntax v porovnaní so syntaxou procedúry
PROC GENMOD
.
PROC GLIMMIX
Alternatívna možnosť pre marginálny model je využiť procedúru
PROC GLIMMIX
– podrobná syntax napr. na tejto stránke:
https://documentation.sas.com/doc/en/pgmsascdc/v_062/statug/statug_glimmix_syntax01.htm
Odhadovanie finálneho modelu pomocou procedúry
PROC GLIMMIX
je ale založené na linearizácii a následnom
použití (residuálnej) pseudo-vierohodnosti pričom korelačná štruktúra je
odhadovaná zo získaných rezídui (špecifikácia type=cs
znamená tzv. exchangeable korelačnú štruktúru).
Pseudo-vierohodnosť – vychádza z klasickej vierohodnostnej
funkcie, ale pre “nespočítateľnosť” (intractability) sa využíva nejaká
vhodná aproximácia združenej vierohodnosti, napr. pomocou marginálnych
vierohodnosti, alebo pomocou podmienených vierohodnosti (GLIMMIX,
Laplace, RMPL, …). Inferencia založená na princípe vierohodností je
približná.
Kvázi-vierohodnosť – nevyužíva vierohodnosť ako takovú (t.j., není potrebná špecifikácia (združeného) rozdelenia), ale vychádza pouze zo špecifikácie prvých dvoch momentov. Štandardné postupy založené na vierohodnosti (GENMOD, AIC, testy pomerom vierohodnosti, …) nie sú aplikovateľné.
proc glimmix data=sm.data method=RMPL;
class id gender timeCls;
model NEDA = gender age time / dist=binomial link=logit solution;
random _residual_ / subject=id type=cs; /* CS = exchangeable */
run;
Procedúra PROC GLIMMIX
môže byť teda využitá pre
aproximáciu GEE modelu. GEE využíva odhadovacie rovnice a špecifikáciu
prvých dvoch momentov (kvázi-vierohodnosť). Odhady
variančnej-kovariančnej štruktúry sú štandardne získavané pomocou
robustných sandwichových odhadov. Naproti tomu proc
PROC GLIMMIX
využíva pseudo-vierohodnosť a linearízaciu.
GEE (PROC GENMOD
a PROC GEE
) vyžaduje
špecifikáciu opakovaných pozorovaní a tzv. working correlation matrix
prostredníctvom repeated
statement.
PROC GLIMMIX
koreláciu rezídui v lineárnom parametrickom
modeli.
PROC GENMOD
,
PROC GEE
a PROC GLIMMIX
ale pre nezávislé
pozorovania – t.j. bez použitia repeated
statementu.
PROC GLIMMIX
regresný model pre
Poissonové počty a výsledky porovnajte s ostatnými SAS procedúrami.
|
Source: ChatGPT |