Longitudinální a panelová data – NMST422

Letný semester 2023-2024 | Cvičenie 9 | 06.05.2024



Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html

Doporučená literatúra a ďalšie užitočné materiály




IX. Marginálne (zobecnené) regresné modely

Regresné modely pre opakované/korelované pozorovania so závislou premennou, ktorá je diskrétna, prípadne spojitá, ale nie je možné uvažovať normálne rozdelnie (napr. výrazné zošikmenie podmienenej hustoty a pod.).

Pre vektor opakovaných (korelovaných) pozorovaní \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i m_i})^\top\) pre daný subjekt \(i \in \{1, \dots, n\}\) a príslušné vektory vysvetľujúcich premenných (t.j., stĺpce matice) \(\mathbb{X}_i = (\boldsymbol{X}_{i1}, \dots, X_{i m_i})^\top \in \mathbb{R}^{m_i \times p}\) chceme odhadnúť združené (podmienené) rozdelenie \[ P[\boldsymbol{Y}_i = \boldsymbol{y} | \mathbb{X}_i] \] resp. združenú podmienenú strednú hodnotu \(E[\boldsymbol{Y}_i | \mathbb{X}_i]\) ako nelineárnu funkciu (link) lineárneho prediktoru \(\mathbb{X}_i \boldsymbol{\beta}\) pre vektor neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a korelačnú štruktúru opakovaných pozorovaní, teda \(Var[\boldsymbol{Y}_i |\mathbb{X}_i] = \mathbb{V}_i(\boldsymbol{\alpha})\) a s využitím marginálnych rozdelení, napr. \(P[Y_{ij} = y_{j} |\mathbb{X}_i]\) pre \(j \in \{1, \dots, m_i\}\), ale napr. aj marginálných rozdelení vyšších rádov, narp. \(P[Y_{ij} = y_{j}, Y_{ik} = y_{k}, Y_{il} = y_{l} | \mathbb{X}_i]\) pre \(j \neq k \neq l\) a vektor \(\boldsymbol{y} = (y_1, \dots, y_{m_i})^\top\).


V literatúre existujú rôzne modely a modelovacie postupy. V následujúcom sa zameriame na marginálne modely odhadované pomocou GEE (postavené na využití marginálov prvého rádu pre odhad parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a marginálov vyššich rádov pre odhad parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^q\)).



1. Zobecněné odhadovacie rovnice – GEE

Zobecňené odhadovacie rovnice (GEE – resp. ``Generalized Estimating Equations’’) predstavené v článku Liang and Zeger (1986) [Longitudinal Data Analysis Using Generalized Linear Models, Biometrika, 73(1),13–22] definujú další z metodologických postupov, ako odhadovať modely na základe longitudinálných (resp. korelovaných) dat. Špeciálne sa jedná o také data, ktoré by sme za predpokladu nekorelovanosti (resp. nezávislostí) analyzovali pomocou klasických GLM modelov (teda data, o ktorých nie je možné predpokládať normálne rozdelenie, prípadne uvažovať spojitý charakter).

Pre stručné pripomenutie, v prípade GLM modelov uvažujeme nezávisle pozorovania \(\{(Y_i, \boldsymbol{X}_i);~i = 1, \dots, n\}\) pričom je nutné špecifikovať dve konkrétne časti modelu – systematickú a stochastickú:
  • Systematická časť modelu
    Predstavuje strednú hodnotu \(\mu_{i}\) náhodnej veličiny \(Y_{i}\) a je modelovaná ako funkcia vhodnej (ale neznámej) lineárnej kombinácie vysvetľujúcich premenných vo vektore \(\boldsymbol{X}_i \in \mathbb{R}^p\) a vektoru neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\), teda \[ \mu_{i} = E\Big[Y_{i} | \boldsymbol{X}_i\Big]= g^{-1}(\boldsymbol{X}_{i}^\top\boldsymbol{\beta}); \]
  • Stochastická časť modelu
    predstavuje konkrétnu špecifikáciu rozdelenia náhodnej veličiny \(Y_{i}\), pričom sa predpokláda, že toto rozdelenie patrí do rodiny exponenciálných rozdelení (napr. binomické rozdelenie, Poissonovo rozdelenie, gamma rozdelenie, inverzné Gaussovo rozdelenie, ale do rodiny exponenciálnych rozdelení patrí aj normálne—Gaussovo rozdelenie);

Konkrétny distribučný predpoklad v stochastickej časti modelu zároveň implikuje predpokládanú variančnú štruktúru, resp. platí, že \(Var[Y_{i}] = \phi v(\mu_i)\). V prípade binomického rozdelenia náhodnej veličiny \(Y_{i}\) dostaneme \(\phi v(\mu_i) = \mu_i (1 - \mu_i)\) (pre \(\phi = 1\)), resp. v prípade Poissonového rozdelenia platí \(\phi v(\mu_i) = \mu_i\) (opäť pre \(\phi = 1\)).

Predpoklad konkrétneho rozdelenia umožňuje formulovať explicitne podmienky (t.j. rovnice) pre prvý a druhý moment. Odhad neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) preto získame riešením \(p\) nelineárnych rovníc (momentových) v tvare \[ \sum_{i = 1}^n \frac{\partial \mu_{i}}{\partial \boldsymbol{\beta}} v_i^{-1}(Y_{i} - \mu_i) = \boldsymbol{0}, \] kde \(v_i = \phi v(\mu_i)\). Rovnice sa typicky riešia napríklad pomocou iteračného Newton-Raphson algoritmu.



Analógia pre longitudinálne data

Základný princíp odhadovania modelov na základe longitudinálných pozorovaní zostáva rovnaký, ako v prípade klasických GLM modelov pre nezávislé data. Pre longitudinálne data \(\{(Y_{ij}, \boldsymbol{X}_{ij});i = 1, \dots, n; j = 1, \dots, m_i\}\) merané na \(n \in \mathbb{N}\) nezávislých subjektov (pričom celkový počet pozorovaní je \(N = \sum_{i = 1}^n m_i\)) špecifikujeme analogické podmienky pre strednú hodnotu \[ \mu_{i j} = E\Big[Y_{i j} | \boldsymbol{X}_{ij}\Big]= g^{-1}(\boldsymbol{X}_{ij}^\top\boldsymbol{\beta}); \] resp. vyjadrené vektorovo/maticovo pre jednotlivé subjekty ako \[ E\Big[\boldsymbol{Y}_{i}| \mathbb{X}_{i}\Big] = \boldsymbol{\mu}_i = (\mu_{i1}, \dots, \mu_{i m_i})^\top \] s variančnou-kovariačnou maticou \(\mathcal{V}_i = Var \boldsymbol{Y}_i\). Spolu s predpokladom konkrétneho rozdelenia pre náhodné veličiny \(Y_{ij}\) (t.j. stochastická časť modelu) to vedie na riešenie nelineárnych rovníc (ktoré opäť špecifikujú prvé dva momenty) \[ \sum_{i = 1}^n \frac{\partial \boldsymbol{\mu}_{i}^\top}{\partial \boldsymbol{\beta}} \mathcal{V}_i^{-1}(\boldsymbol{Y}_{i} - \boldsymbol{\mu}_i) = \boldsymbol{0}. \]

Korelovanosť opakovaných pozorovaní je zohľadnená v štruktúre variančnej-kovariančnej matice \(\mathcal{V}_i\), ktorú je ale na rozdiel GLM modelov pre nekorelované pozorovania nutné odhadovať navyše. To sa robí pomocou tzv. matice pracovných korelácii (resp. tzv. ``working correlation matrix’’). Základný pricíp je rozložiť variančnú-kovariančnú maticu náhodného vektoru \(\boldsymbol{Y}_i = (Y_{i 1}, \dots, Y_{i m_i})^\top\) do tvaru \[ \mathcal{V}_i = \phi \mathcal{A}_i^{1/2} \mathcal{R}(\boldsymbol{\alpha})\mathcal{A}_i^{1/2}, \] kde \(\mathcal{A}_i \in \mathbb{R}^{m_i \times m_i}\) je diagonálna matica s prvkami \(v(\mu_{i j})\) pre \(j = 1, \dots, m_i\) na diagonále a matica \(\mathcal{R}(\boldsymbol{\alpha}) \in \mathbb{R}^{m_i \times m_i}\) je matica korelácii opakovaných pozorovaní vo vektore \(\boldsymbol{Y}_i\), ktorá závisí na parametroch \(\boldsymbol{\alpha} \in \mathbb{R}^\ell\).

Užitočné

  • GEE predstavujú historicky staršiu metodológiu na odhadovanie GLM modelov s korelovanými/opakovanými pozorovaniami, ako sú GLM modely s náhodnými efektami. GEE modely sú výhradne určené pre marginálne modelovanie—t.j. interpretácia odhadnutých parametrov v rámci sub-populácie, ktorá je determinovaná konrétnymi hodnotami nezávislých premenných (regresorov).
  • GLM modely s náhodnými efektami predstavujú komplexnejší, modernejší, teoreticky robustnejší, ale aj výpočetne a interpretačne náročnejší postup, ako GEE, ale prímárne umožňujú tzv. podmienenú (resp. hierarchickú) interpretáciu v rámci konkrétneho subjektu. Marginálnu interpretáciu je možné získať následne z hierarchického modelu integrovánim.
  • GEE metodológia umožňuje konzistentne odhadovať vektor neznámych parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) a to aj v prípade, že korelačná štuktúra (t.j., matica \(\mathcal{R}_i(\boldsymbol{\alpha})\)) nie je správne špefikovaná. Nezávisle na špecifikácii korelčnej štruktúry sú navyše získané odhady asymptoticky normálne (asymptotický rozptyl ale na špecifikácii korelačnej štruktúry už závisí);
  • Zaujímavé a užitočné porovnanie GEE postupu a GLM modelov s náhodnými efektami je napr. v tomto článku.



Korelované data ale nie nutne vznikajú iba v prípade opakovaných pozorovaní (t.j., longitudinálne profily pre \(n ňin \mathbb{N}\) vzájomne nezávislých subjektov). Analogicky sa môže jednať o nezávislé subjekty združené do niekoľkých skupín – tzv. clustrov — v rámci ktorých je možne považovať subjekty za vzájomne korelované. Takúto korelácia medzi jednotlivými popzorovaniami je nutné správne zohľadníť, ak je cieľom štatistickej analýzy následná inferencia.

V programe SAS sú k dispozícii dve procedúry, ktoré umožňujú odhadovať regresné modely pre nenormálne data na základe GEE metodológie:

  • Procedúra PROC GENMOD
  • Procedúra PROC GEE





a) Procedúra PROC GENMOD

Základná procedúra v programe SAS pre odhadovanie GLM modelov pre opakované/korelovaná pozorovania. Procedúra je určená hlavne pre prípady, keď sú dostupné data plne sledované, prípadne chýbajúce pozorovania sú plne náhodné (tzn. tzv. ``missing completely at random – MCAR’’ patern).

Idea algoritmu je postavená na následujúcom iteračnom princípe:

  • inicializačný odhad vektoru parametrov \(\boldsymbol{\beta} \in \mathbb{R}^p\) napr. pomocou GLM modelu pre nekorelované/nezávislé pozorovania;
  • korelačná štruktúra—matice \(\mathcal{R}_i(\boldsymbol{\alpha})\), pre \(i = 1, \dots, n\) sú odhadnuté pomocou rezídui \[ r_{ij} = \frac{Y_{ij} - \widehat{\mu}_{ij}}{\sqrt{v(\widehat{\mu}_{ij})}}; \]
  • variančná-kovariančná matica \(\mathcal{V}_i = \phi \mathcal{A}_i^{1/2} \mathcal{R}(\boldsymbol{\alpha})\mathcal{A}_i^{1/2}\) je odhadnutá s využitím odhadnutej korelačnej matice \(\widehat{\mathcal{R}}_i(\widehat{\boldsymbol{\alpha}})\);
  • updatovaný odhad vektoru neznámých parametrov sa získa využitím odhadnutej variančnej-kovariančnej matice \(\widehat{\mathcal{V}}_i\), pre \(i = 1, \dots, n\);



Užitočné

  • Popdrobný help k SAS procedúre PROC GENMOD je na stránke:
    https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_genmod_overview.htm
  • K dispozícii je množstvo rôznych volieb pre tzv. ``working-correlation matrix’’ – teda voľbu matice \(\mathcal{R}_{i}(\boldsymbol{\alpha})\), pre nejaké \(\boldsymbol{\alpha} \in \mathbb{R}^\ell\);
  • často používané voľby sú napr. identita (\(\mathcal{R}(\boldsymbol{\alpha}) \equiv \mathbb{I}_{m_i \times m_i}\)), apriórne definovaná korelačná štruktúra (\(\mathcal{R}(\boldsymbol{\alpha}) \equiv \mathbb{R}(\boldsymbol{\alpha})\), pro \(\boldsymbol{\alpha} \in \mathbb{R}^{m_i(m_i - 1)/2}\)), m-závislosť (\(Corr(Y_{ij}, Y_{i j + t}) = \alpha_t\), pre \(t = 1, \dots, m\) a \(Corr(Y_{ij}, Y_{i j + t}) = 0\) inak), exchangable (\(Corr(Y_{ij},Y_{ik}) = \alpha\) pre \(j \neq k\)), prípadne tzv.unstructured matica (\(Corr(Y_{ij}, Y_{ik}) = \alpha_{jk}\));
  • pre voľbu \(\mathcal{R}(\boldsymbol{\alpha}) \equiv \mathbb{I}_{m_i \times m_i}\), prípadne ak \(m_i = 1\) pre všetky \(i = 1, \dots, n\), tak GEE postup odhadovania sa redukuje na klasický GLM model pre nezávislé pozorovania;



Jednoduchý (marginálny, teda populačný) GEE model pre pacientov so sklerózou multiplex (kde ako závislú premennú budeme uvažovať veličinu NEDA – No Evidence of Disease Activity) získame následujúcim spôsobom:

libname sm '/home/u63241636/sasuser.v94';
filename reffile '/home/u63241636/sasuser.v94/data/sm_data2.csv';

proc import datafile=reffile
    dbms=csv
    out=sm.data
    replace;
    getnames=yes;
run;
    
proc genmod data=sm.data;
class id gender;
model NEDA = gender age EDSS / d=binomial;
repeated subject = id / corrw covb type=exch;
run;



Základný postup pri modelovaní longitudinálnych dat o ktorých nie je možné predpokládať normálne rozdelenie (a teda vyuiť klasický lineárny model s náhodnými efektami) by sa asi dal formalizovať v následujúcich krokoch:

  1. voľba konkrétneho teoretického rozdelenia na základe povahy dat a špecifikácia link funkcie;
  2. špecifikácia prvého momentu – podmienenej strednej hodnoty – v závilosti na uvažovaných regresoroch a vyjadrený prostredníctvom link funkcie;
  3. špecifikácia pracovnej korelačnej štruktúry – tzv. working correlation matrix;
  4. analýza výsledného modelu momocou vhodných goodness-of-fit kritérii;



Samostatne

  • Pokúste sa interpretovať jednotlivé odhadnuté parametre a vysvetliť ich význam. </li}
  • Pokuste sa model vylepšiť zahrnutím iných premenných.
  • Pozrite sa na rozdiely v jednotlivých odhadnutých modeloch v závislosti na uvažovanej pracovnej korelačnej štruktúre – matici \(\mathcal{R}_i(\boldsymbol{\alpha})\) — dodatočný parameter corrw v REPEATED STATEMENT.



b). Procedúra PROC GEE

Procedúra PROC GEE implementuje základné zobecnené odhadovacie rovnice navrhnuté v članku Liang and Zeger (1986). Odhadovaný model je teda marginálnym modelom (t.j. populačným modelom). Procedúry PROC GENMOD a PROC GEE sú za predpokladu konceptu MCAR ekvivalentné, avšak štandardná implementácia GEE odhadovacích rovníc vedie v prípade MAR konceptu (tzv. “Missing At Random”) k nekonzistentným odhadom a nutná je tzv. vážená verzia obecných odhadovacích rovníc — ktorá je práve implementovaná v procedúre PROC GEE (tzv. weighted GEE, predstavené v článku Fitzmaurice, Laird, and Ware (2011)).



Procedúra PROC GEE implementuje aj tzv. alternujúcu logistickú regresiu (ALS), kde sa využívajú logaritmi pomerov šancí.



Užitočné



Porovnajte následujúci výstup z procedúry PROC GEE s predchádzajúcim výstupom z procedúry PROC GENMOD.

proc gee data=sm.data;
class id gender;
model NEDA = gender age EDSS / dist=binomial solution;
repeated subject=id / type=exch covb corrw;
run;



Samostatne

  • Aká je interpretácia jednotlivých parametrov vo vyššie odhadnutom modely?
  • Pozrite sa na dokumntáciu procedúry PROC GEE – všimnite si rozdielnp syntax v porovnaní so syntaxou procedúry PROC GENMOD.
  • Pre uvažované modely sú oba výstupy ekvivalentné. Pokúste sa model vylepšiť a jednotlivé modely vzájomne porovnať.



2. Alternujúca logistická regresia/regresie (ALR)

ALR (Alternating logistic regressions) predstavuje špecifický prípad zobecněných odhadovacích rovníc (GEE pre modely s korelovanými, t.j., závislými/opakovanými pozorovaniami) určených pre data s binárnou závislou premennou (t.j., logistický regresný model). Namiesto modelovania (okrem podmienenej strednej hodnoty a rozptylu) korečnej štruktúry medzi opakovanými pozorovaniami v rámci daného subjektu je v prípade ALR modelovaný pomer šancí \[ OR(p_{ij}, p_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] P[Y_{ij} = 0 \wedge Y_{ik} = 0]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0] P[Y_{ij} = 0 \wedge Y_{ik} = 1]}, \] kde \(p_{ij} = P[Y_{ij} = 1]\) a \(p_{ik} = P[Y_{ik} = 1]\). Na tento pomer šančí lze z interpretačného hľadiska nazerať aj prostredníctvom ekvivalentného vyjadrenia \[ OR(p_{ij}, p_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] P[Y_{ij} = 0 \wedge Y_{ik} = 0]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0] P[Y_{ij} = 0 \wedge Y_{ik} = 1]} = \frac{\frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1]}{P[Y_{ij} = 1 \wedge Y_{ik} = 0]}}{\frac{P[Y_{ij} = 0 \wedge Y_{ik} = 1]}{P[Y_{ij} = 0 \wedge Y_{ik} = 0]}} = \frac{\frac{P[Y_{ik} = 1 | Y_{ij} = 1] P[Y_{ij} = 1]}{P[Y_{ik} = 0 | Y_{ij} = 1] P[Y_{ij} = 1]}}{\frac{P[Y_{ik} = 1 | Y_{ij} = 0]P[Y_{ij} = 0]}{P[Y_{ik} = 0 | Y_{ij} = 0] P[Y_{ij} = 0]}}, \] kde predpokládame, že závislá premenná \(Y_{ij}\) a \(Y_{ik}\) nameraná na tom istom, \(i\)-tom subjekte (pre \(i = 1, \dots, n\)) v časových okamžikoch \(t_{j}\) a \(t_{k}\), pričom \(t_j < t_k\). V takomto prípade vyššie uvedený pomer šancí lze interpretovať ako pomer doch šancí na úspech (úspech v zmysle, že sledujeme \(Y_{ik} = 1\)) medzi dvoma ``skupinami’’ definovanými náhodnými javmi \(\{Y_{ij} = 1\}\) a \(\{Y_{ik} = 0\}\).



Teoretická korelácie (ktorú typicky musíme zohľadniť a modelovať v prípade opakovaných/korelovaných pozorovaní) je v prípade dvoch binárnych veličín definovaná výrazom \[ Cor(Y_{ij}, Y_{ik}) = \frac{P[Y_{ij} = 1 \wedge Y_{ik} = 1] - p_{ij}p_{ik}}{\sqrt{p_{ij}p_{ik}(1 - p_{ij})(1 - p_{ik})}} \] pričom táto korelácie je nad rámec klasického obmedzenia (hodnota z intervalu \([-1,1]\)) navyše obmedzená aj (pomerne komplikovaným výrazom) prostredníctvom marginálnych pravdepodobnosti \(p_{ij}\) a \(p_{ik}\), pretože platí, že \[ max(0, p_{ij} + p_{ik} - 1) \leq P[Y_{ij} = 1 \wedge Y_{ik} = 1] \leq min(p_{ij}. p_{ik}). \] Oproti tomu je uvedený pomer šancí \(OR(p_{ij}, p_{ik})\) obecně z intervalu \((0, \infty)\) (bez dodatočných obmedzení vzhľadom k marginálnym rozdeleniam \(Y_{ij}\) s \(Y_{ik}\)) a príslušný logaritmus pomeru šancí je z intervalu \((-\infty, \infty)\) a je rovný hodnote nula ak sú náhodné veličíny \(Y_{ij}\) a \(Y_{ik}\) vzájomne nekorelované.



Alternujúca logistická regresia (Alternating logistic regresion(s)) modeluje práve tento logaritmus pomeru šancí pomocou lineárnej kombinácie subject-specific prediktorov a neznámych parametrov \[ log(OR(p_{ij}, p_{ik})) = \boldsymbol{z}_{ijk}^\top \boldsymbol{\alpha}, \] pre vektor neznámych parametrov \(\boldsymbol{\alpha} \in \mathbb{R}^p\) a príslušný vektor \(\boldsymbol{z}_{ijk} \in \mathbb{R}^p\).



Užitočné

  • ALR metodológiu je možné okrem logistickej regresie zovšeobecniť aj na prípad kategorickej (ordinálnej) závislej premennej.
  • Výsledný model je získaný riešením GEE rovníc. Je nutné špecifrikovať jednak štruktúru podmienenej strednej hodnoty (ako v klasickom logistickom, alebo GEE modeli) a namiesto korelácie medzi opakovanými pozorovaniami je dodatočne špecifikovaný model pre logaritmus pomeru šancí.



Implementácia v programe SAS

ALR modely sú v programe SAS implementované prostredníctvom procedúry PROC GEE. Model pre logaritmus pomeru šancí je špecifikovaný v rámci REPEATED STATEMENT.



Užitočné

  • Pri odhadovani ALR modelu pomocou riešenia GEE je nutné špecifikovať štruktúru podmienenej strednej hodnoty (pomocou tzv. MODEL STATEMENT) a koreláciu vrámci opakovaných pozorovaní prostredníctvom modelu pre logaritmus pomeru šancí (v rámci tzv. REPEATED STATEMENT a parametru LOGOR = ...).
  • Pri fitovaní GEE modelu je v REPEATED STATEMENT nutné pre korelované (opakované) pozorovania špecifikovať buď korelačnú štrúktúru (pomocou parametra type = ...), alebo model pre logaritmus pomeru šancí (pomocou parametra logor = ...).
  • Podrobná SAS dokumentácia pre fitovanie alternujúcej logistickej regresie je na stránke https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_gee_details06.htm

Načítanie datového súboru s pacientami so sklerózou multiplex:

libname sm '/home/u63241636/sasuser.v94';
filename reffile '/home/u63241636/sasuser.v94/data/sm_data2.csv';

proc import datafile=reffile
    dbms=csv
    out=sm.data
    replace;
    getnames=yes;
run;

Porovnajte následujúce tri modely:

proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = exch;
run;

proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = logorvar(gender);
run;

proc gee data=sm.data descending;
class id gender;
model NEDA = gender age EDSS / dist=binomial;
repeated subject=id / logor = fullclust;
run;



Samostatne

  • Porovnajte GEE model odhadnutou korelačnou štruktúrou (pomocou parametru type = ...) a vhodný model alternujúcej logistickej regresie, kde špecifikujete formu pre logaritmus pomerov šancí (parameter logor = ...).
  • Diskutujte základné rozdiely medzi modelmi – výhody/nevýhody.



3. Zadanie samostatnej zápočtovej práce

Hlavným cieľom samostatnej zápočtovej práce je štatistická analýza súboru pacientov so sklerózou multiplex. Datový súbor (vo forme csv dokumentu) obsahuje celkovo 805 (opakovaných/korelovaných) pozorovaní na 142 subjektoch, o ktorých predpokládame, že sú vzájomne nezávislé. Datový súbor je nebalancovaný (t.j., iný počet pozorovaní je k dispozícii pre rôzne subjekty – pacientov),





Popis premenných
Datový súúbor obsahuje celkovo 16 rôznych premenných (v jednotlivých stĺpcoch) z toho prvých 14 lze chápať ako vysvetľujúce premenné a posledné dve sú myslené ako závislé (vysvetľované) premenné. Podrobný popis jednotlivých premenných je uvedený nižšie.

  • id – identifikátor jednotlivých pacientov;
  • time – čas jednotlivých návštev u lekára (v rokoch) pričom čas \(t = 0\) odpovedá prvej návšteve u lekára, začiatok sledovania pacienta a podanie špecifickej liečby – lieky s názvom Lemtrada (Alemtuzumab). Čas \(t = 1\) odpovedá návšteve lekára po prvom roku liečby, atd…;
  • gender – pohlavie pacienta (M - muž, F - žena);
  • age – vek pacienta pri prvej kontrole u lekára (\(t = 0\)) ;
  • lem1 – rok prvej návštevy u lekára (\(t = 0\));
  • LEMsum – celkový počet dávok Lemtrady (hodnota 1 znamená podanie liečby v čase \(t = 0\); hodnota 2 znamená podanie liečby v čase \(t = 0\) a \(t = 1\); hodnota 3 znamená podanie liečby v čase \(t = 0\), \(t = 1\) a \(t = 2\));
  • timeBef – počet rokov, koľko sa pacient liečil na sklerózu multiplex pred prvým podanim lieku Lemtrada;
  • numBef – počet rôznych typov liečby (iných, ako Lemtrada) pred prvým podaním lieku Lemtrada;
  • typeAfter – kategorická premenná indikujúca iné formy liečby, ktorá pacient absolvoval po prvom podaní Lemtrady (hodnota 0 znamená, že okrem Lemtrady pacient už iný typ liečby neabsolvoval);
  • sideEf – identifikátor prípadných vedľajších efektov liečby (\(1\) - ano, \(0\) - ne);
  • relapse – počet nových SM atakov zaregistrovaných po liečbe (\(1\) - ano, \(0\) - ne);
  • fRelapse – identifikátor nových SM atakov (\(1\) - ano, \(0\) - ne);
  • newObj – identifikátor nových nálezov postihnutých ložísk v mozgu (\(1\) - ano, \(0\) - ne);
  • EDSSini – hodnota EDSS (expanded disability status scale) priprvej návšteve u lekára (\(t = 0\));


  • EDSS – hodnota EDSS zisťovaná pri danej kontrole (vyššia hodnota znamená horší zddraotný stav a celkové zhoršenie priebehu SM);
  • NEDA – binárna premenná (No Evidence of Disease Activity), ktorá indikuje prítomnosť nemoci (\(1\) - ano, \(0\) - ne) zisťovaná pri jednotlivých kontrolách;





Zadanie práce

  1. Pokúste sa analyzovať datový súbor s dôrazom na priebeh nemoci u jednotlivých pacientoch, resp. u konkrétných skupín pacientov.
  2. Použijte jednoduchú exploratívnu analýzu a následne vhodnú konfirmačnú analýzu.
  3. Analyzujte data (t.j. odhadnite jeden konkrétny model) za využitia predpokladu nezávyslých pozorovaní – t.j., použijte vhodný spôsob sumarizácie opakovaných pozorovaní vrámci subjektov a analyzujete získanú charakteristiku vrámci nezávislých pacientov.
  4. Použijte aspoň jeden model, ktorý vhodným spôsobom zohľadní korelovanosť/závislosť opakovaných pozorovaní.



Deadline: Výsledný PDF súbor s analýzou je nutné poslať emailom (maciak [AT] karlin.mff.cuni.cz) najneskôr 4 dni pred skúškou.