Longitudinální a panelová data – NMST422

Letný semester 2022-2023 | Cvičenie 14 | 18.05.2023



Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html

Doporučená literatúra a ďalšie užitočné materiály




XI. Problém chýbajúcich longitudinálnych pozorovaní

Doteraz sme sa venovali analýze longitudinálnych dat (resp. vzájomne korelovaných pozorovaní), pričom sme apriórne predpokládali, že prípadné chýbajúce pozorovania vznikajú náhodné – tvz. ‘’Missing Completely At Random (MCAR)’’ koncept. V praxi býva ale zvyčajne situácia zložitejšía a je nutné vysporiadať sa s datami – analyzovať data – ktoré sú v určitom zmysle nekompletné. To môže zahrňať jednak tzv. chýbajúce pozorovania, ktoré z akéhokoľvek dôvodu nie sú k dispozícii (tzv. ``NA’’), ale aj neexistujúce merania, ktorô vznikli následkom dizajnu experimentu (napr. ak u jedného pacienta je plánovaná kontrola na ročnej báze, zatiaľ čo u druhého pacienta sú kontroly plánované na polročnej báze). Takéto data sú v určitom zmysle nekompletné, resp. nevyvážené (unbalanced).



Niektoré z doteraz spomínaných metód určených pre exploráciu a analýzu longitudinálnych dat sú apriorne určené len pre balancované datové súbory a nekompletné data predstavujú určitú komplikáciu, s ktorou je nutné sa vhodne (štatisticky) vysporiadať.



Samostatne

  • Pripomeňte si exploratívne a konfirmačné štatistické metódy (a pravdepodobnostné modely), ktoré sú výhradne určené pre analýzu balancovaných datových súborov.
  • Ktoré z doteraz diskutovaných postupov sú vhodné aj na nebalancované datavé súbory?
  • Zamyslite sa nad základným principiálnym rozdielom tzv. ‘’missing completely at random’’ konceptom a ‘’missing not at random’’ conceptom.
  • Je dobré a v odbornej literatúre sa aj rozlišuje pojem chýbajúcich pozorovaní (missing obseravtions, NA) a neúplných pozorovaní (incomplete observations, unbalanced).



V následujúcej časti stručne prediskutujeme niektoré štatistické postupy a modely, ktoré su v prípade chýbajúcich/neuplných pozorovaní vhodné pre korektnú analýzu.

1. Analýza chýbajúcich pozorovaní

V zásade rozlišujeme tri základné koncepty chýbajúcich/neúplných pozorovaní:

  • Missing completely at random (MCAR)
  • Missing at random (MAR)
  • Missing not at random (MNAR)

Z hĹadiska formálneho matematického zápisu je možné tieto tri koncepty rozlíšiť aj pomocou nasledujúceho schématu: Predpokldádajme, že sledované data sú reprezerntované náhodným vektorom \(\boldsymbol{Y}^o\), zatial čo chýbajúce/neúplné pozorovania sú reprezentované náhodným vektorom \(\boldsymbol{Y}^m\). Kompletný datavý súbor by sme v tomto zmysle mohli reprezentovať pomocou združeného náhodného vektoru \(\boldsymbol{Y} = (Y_{1} \dots, Y_{N})^\top= (\boldsymbol{Y}^{o\top}, \boldsymbol{Y}^{m\top})^\top\). Ak navyše bude \(\boldsymbol{R}\) reprezentovať náhodný vektor identifikátorov, ktoré informujú o tom, či dané pozorovanie patrí do \(\boldsymbol{Y}^o\) (pozorovanie, ktoré máme k dispozícii pre analýzu), alebo do \(\boldsymbol{Y}_m\) (pozorovanie, ktoré je chýbajúce a to už z akéhokoľvek dôvodu), tak združené rozdelenie (i.e., napr. hustotu) háhodného vektoru \((\boldsymbol{Y}^{o\top}, \boldsymbol{Y}^{m\top}, \boldsymbol{R}^\top)\) môžeme vyjadriť v tvare \[ f(\boldsymbol{y}^{o}, \boldsymbol{y}^{m}, \boldsymbol{r}) = f(\boldsymbol{y}^{o}, \boldsymbol{y}^{m}) \cdot f(\boldsymbol{r} | \boldsymbol{y}^{o}, \boldsymbol{y}^{m}) \] a preintegrovaním pravej strany rovnosti cez argument \(\boldsymbol{y}^{m}\) dostaneme \[ f(\boldsymbol{y}^{o}, \boldsymbol{r}) = \int f(\boldsymbol{y}^{o}, \boldsymbol{y}^{m}) \cdot f(\boldsymbol{r} | \boldsymbol{y}^{o}, \boldsymbol{y}^{m}) \mbox{d}\boldsymbol{y}^m. \]



Uvedené tri koncepty chýbajúcich pozorovaní (MCAR, MAR, MNAR) v stochastickom zmysle definované následujúcim spôsobom:

  • MCAR – rozdelenie náhodného vektoru \(\boldsymbol{R}\) je nezávisleé na \(\boldsymbol{Y}\), t.j. nezávislé na \(\boldsymbol{Y}^o\) aj na \(\boldsymbol{Y}^m\);
  • MAR – rozdelenie náhodného vektoru \(\boldsymbol{R}\) je nezávislé na \(\boldsymbol{Y}^m\);
  • MNAR – rozdelenie náhodného vektoru \(\boldsymbol{R}\) závisí na \(\boldsymbol{Y}^m\) (tzv. informative missingness);



Pre prvé dva koncepty (MCAR a MAR) preto dostávame pre vierohodnosť sledovaných dat (vzľadom k nezávislosti \(\boldsymbol{R}\) a \(\boldsymbol{Y}^m\)), žš \[ f(\boldsymbol{y}^{o}, \boldsymbol{r}) = f(\boldsymbol{r} | \boldsymbol{y}^o) \int f(\boldsymbol{y}^o, \boldsymbol{y}^m) \mbox{d}\boldsymbol{y}^m = f(\boldsymbol{r} | \boldsymbol{y}^o) f(\boldsymbol{y}^o), \] pretože z nezávislosti za predpokladov MCAR a MAR máme \(f(\boldsymbol{r} | \boldsymbol{y}^{o}, \boldsymbol{y}^{m}) = f(\boldsymbol{r} | \boldsymbol{y}^{o})\). Následná štatistická vierohodnosť založená na pozorovaných datach – teda rozdelení \(f(\boldsymbol{y}^{o}, \boldsymbol{r})\) sa preto redukuje pouze na maximalizáciu druheho člena, teda maximalizáciu vzhľadom k \(f(\boldsymbol{y}^o)\). Z tohto dôvodu sa v praxi preto niekedy ani formálne nerozlišuje medzi konceptom chýbajúcich pozorovaní, ktoré su ‘’missing completely at random’’ a ktoré sú ‘’missing at random’’.



Užitočné

  • Technické predpoklady navyše vyžaduju, že parametrizácia podmieneného rozdelenia \(f(\boldsymbol{r} | \boldsymbol{y}^o)\) je obecně iná (t.j., využíva iné parametre) ako rozdelenie \(f(\boldsymbol{y}^o)\);
  • Vyššie zmienený princíp ‘’rovnocennosti’’ oboch konceptov chýbajúcich pozorovaní – t.j. MCAR a MAR – je ale odvodený v rámci teórie maximálnej vierohodnosti a nie je platný v napríklad v prípade odhadovania modelov na základe zobecnených odhadovacích rovníc (GEE);
  • Pre modely odhadované pomocou GEE je nutný silnejší predpoklad – vyžaduje sa princíp MCAR;
  • Chýbajúce/neúplné pozorovania je ale nutnú odlíšiť napr. od cenzorovaných pozorovaní. Napr. pre konkrétny subjekt \(i \in \{1, \dots, n\}\) máme vektor opakovaných/korelovaných pozorovaní \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i n_i})^\top\), pričom niektoré z pozorovaní \(Y_{ij}\) pre \(j \in \{1, \dots, n_i\}\) môže byť chýbajúce. Avšak v prípade tzv. cenzorovaných pozorovaní platí, že ak je chýbajúce pozorovanie \(Y_{i j}\), pre nejaké \(j \in \{1, \dots, n_\}\), tak potom sú chýbajúce aj následné pozorovania \(Y_{ik}\), pre \(k = j + 1, \dots, n_i\);
  • Problematika cenzorovaných pozorovaní je teoreticky aj prakticky o niečo zložitejšia a podrobnejšie sa jej venuje napr. predment Analýza prežitia;



2. Štatistický test pre MCAR/MAR koncept

Z explorativného hľadiska je dobré vedieť rozlíšiť (alebo sa o to aspoń pokúsiť) medzi jednotlivými konceptmi chýbajúcich pozorovaní. V princípe je väčšinou MNAR koncept odlíšiteľný od zvyšných dvoch ‘’random’’ konceptov na základe povahy samotného experimentu. Medzi zostavajúcimi dvoma konceptmi (MCAR a MAR) je niekedy možné použiť vhodné exploratívne, alebo konfirmačné štatistické nástroje.

Z hĺadiska inferenčných metód je k dispozícii napr. Littleho štatistický test, ktorý je pomerne sofistikovaný a je určený na rozlíšenie MCAR a MAR konceptov (teoretické podrobnosti sú v tomto článku). Test vychádza z predpokladu normality a testuje nulovú hypotézu \[ H_0: \boldsymbol{Y}_{i}^o | \boldsymbol{R}_i \sim N(\boldsymbol{\mu}_j, \Sigma_j), \] pre vektor stredných hodnôt $_j, ktorý tvorí podvektor celkového vektoru \(\boldsymbol{\mu} \in \mathbb{R}^n\) a \(i \in I_{j}\), kde \(I_j\) predstavuje indexovu množinú pozorovaných meraní pre nejaký konkrétny chýbajúci profil \(j\). Alternatíva môže byť formulovaná ako \[ H_A: \boldsymbol{Y}_{i}^o | \boldsymbol{R}_i \sim N(\boldsymbol{\nu}_j, \Sigma_j), \]



Tradičné explortatívne a konfirmačné postupy

Alternatívou k Littleho štatistickému testu môžu byť tradičné štatistické metódy – napr. dvojvýberový \(t\)-test, alebo \(\chi^2\) test nezávislosti. Základný pricíp spočíva v tom, že pre konkrétnu premennú vytvoríme tzv. dummy premennu, ktorá bude indikovať, či daneé pozorovanie je odsledované, alebo je chýbajúce. Následne je možné súvislosť medzi chýbajúcimi/neúplnými pozorovaniami a inými premennými v datovom súbore analyzovat pomocou \(t\)-testu (v prípade, že sa jedná o spojité premenné), alebo \(\chi^2\) testom nezávislosti (ak sa jedná o diskrétne premenné).

Analogickým spôsobom je samorejme môžné výužitˇ rôzne grafické a vizualizačné nástroje.



Samostatne

  • Pokúste sa postupne analyzovať v konrétnom datovom súbore všetky tri koncepty chýbajúcich pozorovaní (MCAR, MAR a MNAR). Postupovať môžete napr. nasledovne:
    1. MCAR – v konkrétnom datovom súbore s kompletne sledovanými pozorovaniami (balancovaný datový súbor) náhodne ‘’vymažete’’ niektoré pozorovania, čim vytvoríte datový súbor s chýbajúcimi pozorovaniami v súlade s konceptom ‘’missing completely at random’’.
    2. MAR – vzhľadom ku konkrétnej premennej, ktorá je plne sledovaná ‘’vymažete’’ niektoré pozorovania inej premennej v závislosti na hodnotách prvej premennej, čim vytvoríte datový súbor s chýbajúcimi pozorovaniami v súlade s konceptom ‘’missing at random’’.
    3. MNAR – systematicky ‘’vymažete’’ pozorovania v určitej premennej v závislosti na hodnotách tej istej premennej, čim vytvoríte datový súbor s chýbajúcimi pozorovaniami v súlade s konceptom ‘’missing not at random’’.
  • Následne sa pokúste jednotlivé datovú súbory analyzovať jednak pomocou vhodných (grafických/vizuálnych) explorativných nástrojov a tiež pomocou štatistických testov – napr. \(t\)-testu, alebo \(\\chi^2\) testu dobrej zhody.



V programe SAS je k dispozícii procedúra PROC MCMC, ktorá umožnuje analyzovať chýbajúce pozorovania a uskutočniť štatistický test, či koncept chýbajúcich pozorovaní je náhodný. Teoretické podrobnosti lze nájsť napr. v tomto článku.



Užitočné



3. Vážené odhadovacie rovnice (weighted GEE)

Všeobecné odhadovacie rovnice – GEE – boli predstavené ako (v určitom zmysle) robustná odhadovacia metóda, ktorá garantuje konzistentný odhad podmienenej strednej hodnoty (za predpokladu, že je táto podmienená stredná hodnota dobre špecifikovaná) a to aj v prípade, že korelačná štruktúra špecifikovaná v modeli je nesprávna (vedie to k určitej strate efektivity, ale nie k strate konzistencie ako takovej). Na druhej strane ale štandardné zovšeobecnené odhadovacie rovnice (GEE) predpokládajú, že akékoľvek chýbajúce/neúplné pozorovania sú v rámci princípu ‘’missing completely at random (MCAR)’’. V opačnom prípade nie je garantovaná ani konzistencia odhadovanej podmienenej strednej hodnoty.

Klasické odhadovacie rovnice môžeme formulovať ako sústavu rovníc \[ \sum_{i = 1}^n \Big( \frac{\partial \boldsymbol{\mu}_i}{\partial \boldsymbol{\beta}}\Big)^\top [Var \boldsymbol{Y}_i]^{-1} (\boldsymbol{Y}_i - \boldsymbol{\mu}_i) = \boldsymbol{0}, \] kde \(i = 1, \dots, n\) predstavuje jednotlivé nezávislé subjekty s vektorom stredných hodnot \(\boldsymbol{\mu}_i = (\mu_{i1}, \dots, \mu_{i m_i})^\top \in \mathbb{R}^{m_i}\) a vektorom subject-specific pozorovaní \(\boldsymbol{Y}_i = (Y_{i1}, \dots, Y_{i m_i})^\top\). Ak označíme \(p_{ij} \in [0,1]\) pravdepodobnosť, že \(i\)-ty subjekt bude mať \(j\)-té pozorovanie \(Y_{ij}\) chýbajúce, tak ku garancii konzistencie odhadu neznámeho (vektorového) parametru \(\boldsymbol{\beta} \in \mathbb{R}^p\) je nutné kompenzovať príspevok pozorovania \(Y_{ij}\) inverznou hodnotou \(p_{ij}\) a teda riešiť tzv. vážené odhadovacie rovnice (weighted general estimating equations – wGEE) v tvare

\[ \sum_{i = 1}^n \Big( \frac{\partial \boldsymbol{\mu}_i}{\partial \boldsymbol{\beta}}\Big)^\top \Big[[Var \boldsymbol{Y}_i] \cdot \mathbb{W}_i\Big]^{-1} (\boldsymbol{Y}_i - \boldsymbol{\mu}_i) = \boldsymbol{0}, \] kde \(\mathbb{W}_i\) je váhova diagonálna matica s nenulovými prvkami \(r_{ij} p_{ij}\) pre \(j = 1, \dots, m_i\) na diagonále.



V programe SAS sú k dispozícii dve rôzne implemenátacie vážených odhadovacích rovníc (wGEE):
  1. Observation-specific weights
    Metóda používa maticu váh \(\mathbb{W}_i\), ktorá mú na diagonále prvky \(r_{ij} p_{ij}\), pre \(j = 1, \dots, m_i\) a \(i = 1, \dots, n\);
  2. Subject-specific weights
    Metóda používa jednu váhu \(w_i > 0\) pre všetky pozorovania v rámci \(i\)-teho subjektu, teda predchádzajúca rovnica sa redukuje na \[ \sum_{i = 1}^n \Big( \frac{\partial \boldsymbol{\mu}_i}{\partial \boldsymbol{\beta}}\Big)^\top \Big[[Var \boldsymbol{Y}_i] \cdot w_i\Big]^{-1} (\boldsymbol{Y}_i - \boldsymbol{\mu}_i) = \boldsymbol{0}; \]

Užitočné

  • Existujú samozrejme rôzne postupy, ako neznáme pravdepodobnosti \(p_{ij} \in [0,1]\) odhadovať, prípadne modelovať;
  • V programe SAS sú vážené odhadovacie rovnice (wGEE) implementované v procedúre PROC GEE;
  • Podrobný návod na použitie vážených všeobecných odhadovacích rovníc (weighted GEE) je napr. v tomto PDF dokumente;
  • Podrobný SAS tutoriál k procedúre PROC GEE je na stránke
    https://documentation.sas.com/doc/en/pgmsascdc/9.4_3.4/statug/statug_gee_syntax01.htm
  • V prípade, že data sú plne pozorované a žiadne merania nie sú chýbajúce, tak vážené zobecnené odhadovacie rovnice dávajú ekvivalentný model, ako štandardna GEE metóda implementovaná v SAS procedúrach PROC GEE a PROC GENMOD;



4. Missing value imputation

Existujú samozrejme rôzne štatistické aj neštatistické postupy, ako si poradiť s chýbajúcimi pozorovanimi. Niektoré sú jednoduché, až triviálne (napr. nedělat nic), jiné sú pomerne sofistikované a komplexné (napr. imputácia pomocou neuronových sieťi). Na záver aspoň stručne zhrnieme niektoré z nich. Základným cieľom ale nie je vysvetliť teoreticky background konkrétnej metódy, ale pouze poskytnúť určitý (a nie komleptný) prehľad niektorých existujúcich postupov.

Medzi najčastejšie používané metódy patria napríklad:

  • Chýbajúce pozorovania ignorovať
    Najjednoduchší prístup k chýbajúcim/neúplným pozorovaniam, ktorý môže byť niekedý celkom efektívny a inokedy zbýtočne spôsobuje stratu celkovej sily dat;
  • Doplnenie jednoduchými odhadmi
    K doplneniu chýbajúcich pozorovaní sa využije celkový, alebo skupinový odhad strednej hodnoty, alebo podobnej charakteristiky (napr. median). Nadmerné použitie ale vedie k umelému a neopodstatnenému zväčšeniu celkovej síly dat;
  • Imputácia pomocou najčastejšej hodnoty (modus)
    Tento spôsob imputovania chýbajúcich/neúplných pozorovaní je vhodný špecialne v prípade kategorických dat, ale na druhej strane môže ľahko viesť k celkovému vychýleniu odhadov;
  • Imputácia pomocou vierohodnosti
    Pomerne transparentná metóda, ktorá ale predpoklada znalosť rozdelenia pre konkrétnú premennú, pre ktorú chýbajúce hodnoty imputujeme;

  • Imputácia pomocou tzv. najbližsích susedov
    Postup je založený na určitom prirodzenom usporiadaní jednotlivých pozorovaní, ktore umožní definovať blizke/susedné pozorovania – metóda može byť vhodná napr. pre časovo/priestorovo závislé pozorovania;

  • Interpolácia
    Pomerne široka trieda rôznych metód a postupov – od klasickej interpol8cie medzi dvoma pozorovaniami v tradičnom geometrickom zmysle, až po interpoláciu v rámci rôznych komplexných regresných modelov;

  • Imputácia s využitím mnohorozmerných metód a simulácii
    Jednotlivé pozorovania sú považované za náhodné vektory z určitého/konkretného mnohorozmerného rozdelenia a simulované hodnoty z daného rozdelenia sú využité na doplnenie chýbajúcich/neúplných pozorovaní;

  • Neuronové siete, deep learning metody
    V dnešnej dobe pomerne populárne a často využívané metódy s pomerne dobrými empirickými vlastenosťami, ale vpodstate s nulovou matematickou/štatistickou transparentnosťou;