Longitudinální a panelová data – NMST422

Letný semester 2024 | Cvičenie 4 | 18.03.2024



Prihlásenie k SAS OnDemand: https://www.sas.com/en_us/software/on-demand-for-academics.html

Doporučená literatúra a ďalšie užitočné materiály




IV. Inferencia longitudinálných profilov dvoch skupín

Nad rámec jednoduchého \(t\)-testu, ktorý je možné efektívne využiť pre analýzu longitudinálných (resp. korelovaných/závislých) dat (viď napr. predchádzajúce cvičenie), je možné využiť niektoré (mnohorozmerné) štatistické testy – napr. testy založené na (asymptoticky) mnohorozmernom normálnom rozdelení.

Na rozdiel od párového \(t\)-testu, ktorý umožňoval analyzovať a testovať pouze dvojicu meraní vrámci jedného subjektu (napr. test rozdiely response pred liečbou a po liečbe – t.j. veľkosti inkrementov vrámci subjektu za určitú časovú jednotku), je možné testy založené na mnohorozmernom normálnom rozdelení aplikovať aj longitudinálne profily, ktoré sú tvorené väčším počtom opakovaných (t.j., vájomne korelovaných/závislých) pozorovaní.

Špeciálne sa zameriame na porovnanie dvoch stredných (očakávaných) longitudinálných profilov v dvoch vzájomne nezávislých skupinách. Uvažujúc datový súbor so sklerózou multiplex (datový súbor sm_data2.csv), môže nás napríklad zaujímať (okrem iného), či časový priebeh nemoci (napr. v zmysle Expanded Disability Status Scale, teda veličiny EDSS) je rovnaký u mužského a ženského pacienta. Príslušné dve skupiny lze ale definovať aj iným spôsobom.

libname sm '/home/u63241636/sasuser.v94';
filename reffile '/home/u63241636/sasuser.v94/data/sm_data2.csv';

proc import datafile=reffile
    dbms=csv
    out=sm.data
    replace;
    getnames=yes;
run;
    
proc print datafile = sm.data; 
run;

Jednotlivé longitudinálne (tzv. subject-specific) profily získame napr. pomocou následujúceho SAS kódu:

title "Response Profiles by Gender";
proc sgplot data=sm.data;
   series x=time y=EDSS / group=id groupLC=gender break lineattrs=(pattern=solid)
                       attrid=Treat;

   legenditem type=line name="P" / label="Male" lineattrs=GraphData1; 
   legenditem type=line name="A" / label="Female" lineattrs=GraphData2; 
   keylegend "A" "P";
   xaxis values=(0 1 4 6) grid;
run;

A príslušné priemerné profily pre dve vzájomne nezávislé skupiny – mužov a ženy – získame (napríklad) následujúcim spôsobom:

proc sgplot data=sm.data;
   vline time / response=EDSS group=gender stat=mean limitstat=stderr;
run;

Porovnajte predchádzajúci výstup aj s následujúcim grafom a vysvetlite rozdielnosť záverov:

proc sgplot data=sm.data;
   vline time / response=EDSS group=gender;
run;



Samostatne

S použitim grafu vytvoreného pomocou vyššie uvedeného SAS kódu sa pokuste analyzovať rozdiely medzí odhadnutým mužským a ženským longitudinálnym profilom a pomocou vhodného štatistického testu otestujte následujúce nulové hypotézy:
    ´
  • Je štatisticky významný rozdiel medzi očakávanou hodnotou EDSS u mužského a ženského pacienta v čase podania prvej liečby (t.j. v čase \(t = 0\))?
  • Ak existuje nejaký časový okamžík vrámci uvažovaného follow-up obdobia, ktorý by mohol mať za následok zamietnutie nulovej hypotézy o rovnosti očakávaných hodnot EDSS u mužského a ženského pacienta v niektorom konkrétnom čase, ktorý moment vrámci follow-up obdobia by to bol?
  • Akým spôsobom by ste otestovali, že celkové očakávané longitudinálne profily medzi mužmi a ženami sa vzájomne nelíšia?



V následujúcej časti sa zameriame na tri konkrétne štatistické testy, ktoré sa v súvislosti s analýzou longitudinálnych dat často vyuívajú.

  • štatistický test rovnobežnosti longitudinálnych profilov
    (t.j. nie je vzájomná interakcia medzi časom a skupinami)
  • štatistický test rovnosti profilov
    (má zmyslel pouze za predpokladu, že profily sú rovnobežné)
  • štatistický test nulovosti efektu (napr. liečby)
    (ak sú profily rovnobežné, lze najít alespoň nejaký efekt?)



1. Test rovnobežnosti longitudinálnych profilov

Z matematického hľadiska je možné štatistický test rovnobežnosti longitudinálnych profilov formulovať aj ako štatistický test rovnosti jednotlivých inkrementov (v ľubovolných časových okamžikoch) medzi dvoma skupinami.

Uvažujme náhodný výber (mužský pacienti) \(\boldsymbol{X}_1, \dots, \boldsymbol{X}_n\) z mnohorozmerného normálneho rozdelnia \(N_{p}(\boldsymbol{\mu}_1, \Sigma)\) a na ňom nezávislý druhý náhodný výber (ženský pacienti) \(\boldsymbol{Y_1}, \dots, \boldsymbol{Y}_m\) z mnohorozmerného normálneho rozdelenia \(N_{p}(\boldsymbol{\mu}_2, \Sigma)\).

Všimnite si, že predpokladané rozdelenia jednotlivých náhodných výberov sú stejné až na vektor stredných hodnôt (rovnaká dimenzia, rovnaká variančná-kovariančná matica). Každé jednotlivé pozorovanie – napr. \(\boldsymbol{X}_i\) (resp. \(\boldsymbol{Y}_j\)) predstavuje jeden individuálny longitudinálny profil o celkovej dĺžke \(p \in \mathbb{N}\) opakovaných (korelovaných, resp. závislých) pozorovaní vrámci daného subjektu. Uvažovaný model – t.j. variančna kovariančena matica \(\Sigma\) je pozitívne definitná, ale inak bližšie nešpecifikovaná. Umožňuje preto modelovať koreláciu medzi jednotlivými opakovanými pozorovaniami.

Je nutné sí uvedomiť, že vhľadom k predpokladu rovnakej variančnej-kovariančnej matice je nutné, aby boli pozorovania balancované v rámci oboch skupín dohromady.

V takto formulovanom pravdepodobnostnom modeli je štatistický test rovnobežnosti longitudinálnych profilov pre \(\boldsymbol{X} \sim N_p(\boldsymbol{\mu}_1, \Sigma)\) a \(\boldsymbol{Y} \sim N_p(\boldsymbol{\mu}_2, \Sigma)\) ekvivalentný s nulovou hypotézou \[ H_0: \mathbb{C}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2) = \boldsymbol{0}, \] oproti obecnej alternatíve, že nulové hypotéza \(H_0\) neplatí. Rovnosť v \(H_0\) je myslená po zložkách a matica \(\mathbb{C}\) predstavuje maticu kontrastov v tvare \[ \mathbb{C} = \left( \begin{array}{ccccc} 1 & -1 & 0 & \dots & 0\\ 0 & 1 & -1 & \dots & 0\\ \vdots & \vdots & \ddots & \ddots & \vdots\\ 0 & 0 & \dots & 1 & -1 \end{array} \right). \] Za platnosti nulovej hypotézy lze ukázať, že testová štatistika definovaná predpisom \[ T = \frac{n m}{(n + m)^2} (n + m - 2)\Big[\mathbb{C}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2) \Big]^\top \Big( \mathbb{C}\mathcal{S}\mathbb{C} \Big)^{-1} \Big[\mathbb{C}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2) \Big] \] má Hotellingovo \(T^2\) rozdelenie s \(p - 1\) a \(n + m - 2\) stupňami voľnosti. Matica \(\mathcal{S} \in \mathbb{R}^{(p - 1) \times p }\) predstavuje výberovú variančnú-kovariančnú maticu spočítanu z celkového náhodného výberu \(\boldsymbol{X}_1, \dots, \boldsymbol{X}_n, \boldsymbol{Y}_1, \dots, \boldsymbol{Y}_m\) (tzv. ``pooled covariance matrix’’).

Užitočné

  • Pripomeňte si obecný vzťah medzi Hotellingovým \(T^2\) rozdelenim a Fisherovým \(F\) rozdelením. Obecne platí, že ak náhodná veličina \(T\) má Hotellingovo \(T^2\) rozdelenie s \(p\) a \(n\) stupňami voľnosti, tak potom platí, že \[ \frac{n - p + 1}{np} T \sim F_{p, n - p + 1}, \] teda príslušná transformovaná náhodná veličina ma Fisherovo \(F\) rozdelenie s \(p\) a \(n - p + 1\) stupňami voľnosti.
  • Pripomeňte si, ako je definované Hotellingovo \(T^2\) rozdelenie a aké náhodné veličiny maju takéto rozdelenie. Pre zopakovanie lze použíť napr. túto web stránku z predmetu NMST539.



Samostatne

  • Pomocou programu SAS navrhnite test nulovej hypotézy, že longitudinálne profily mužov a žien sú rovnaké.
  • Aplikujte test (buď s využitím Hotellingovho rozdelenia, alebo Fisherovho rozdelenia) a interpretujte výsledok testu.



2. Test rovnosti úrovní medzi skupinami

Druhým zaujímavým testom v súvislosti s analýzou longitudinálnych profilov medzi dvoma nezávislými skupinami je porovnanie jednotlivých profilov v zmysle vzájomnej rovnosti. Je dôležité si ale uvedomiť, že tento test nemá dobrý zmysel v prípade, že predchádzajúci test o rovnobežnosti profilov zamietol nulovú hypotézu. V takom prípade totíž dve skupiny reaguju v priebehu času rozdielne (napr. skupina reagujúca na liečbu a kontrolná skupina reagujúca na placebo, alebo v súvislosti s pacientami na sklerózu jedna skupina predstavuje mužských pacientov, tá druhá ženských pacientov).

Nulová hypotéza može byť formálne zapísana ako \[ H_0: \boldsymbol{1}^\top (\boldsymbol{\mu}_1 - \boldsymbol{\mu_2}) = 0, \] oproti obecnej alternatíve \[ H_1: \boldsymbol{1}^\top (\boldsymbol{\mu}_1 - \boldsymbol{\mu_2}) \neq 0. \] V prípade alternatívy teda existuje aspoň jeden časový okamžík z uvažovaného follow-up obdobia (o celkovej dĺžke \(p in \mathbb{N}\)), pre ktorý platí, že stredná hodnota \(\boldsymbol{X}\) je v danej dimenzii odlišná od strednej hodnoty \(\boldsymbol{Y}\) (v tej istej dimenzii).

Štatistický test nulovej hypotézy \(H_0\) je opäť založený na testovej štatistike, ktorá ma zaplatnosti nulovej hypotézy Hotellingovo \(T^2\) rozdelenie. V privom rade platí, že skupinové vyberové priemerý majú postupne mnohorozmerné normálne rozdelenie \[ \overline{\boldsymbol{X}}_n \sim N_{p}(\boldsymbol{\mu}_1, \frac{1}{n} \Sigma) \] a tiež \[ \overline{\boldsymbol{Y}}_{m} \sim N_{p}(\boldsymbol{\mu}_2, \frac{1}{m}\Sigma). \] Z obecných vlastností mnohorozmerného normálneho rozdelenia (a tiež vzájomnej nezávislosti medzi \(\boldsymbol{X}_i\) a \(\boldsymbol{Y}_j\)) zároven platí \[ \big(\overline{\boldsymbol{X}}_n - \overline{\boldsymbol{Y}}_m\big) \sim N_{p}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2, \frac{n + m}{nm}\Sigma), \] a taktiež \[ \boldsymbol{1}^\top \big(\overline{\boldsymbol{X}}_n - \overline{\boldsymbol{Y}}_m\big) \sim N_{p}(\boldsymbol{1}^\top (\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2), \frac{n + m}{nm} \boldsymbol{1}^\top \Sigma \boldsymbol{1}). \]

Variančná-kovariančná matica \(\Sigma\) je ale obecne neznáma a preto je potrebné ju pomocou dat odhadnúť. Nech \(\mathcal{S}_1\) je výberová variančná-kovariančná matica spočítaná z náhodného výberu \(\boldsymbol{X}_1, \dots, \boldsymbol{X}_n\) a analogicky \(\mathcal{S}_2\) je výberová variančná-kovariančná matica spočítaná z náhodného výberu \(\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_m\). Pripomeňme, že platí následujúce: \[ n \mathcal{S}_1 = \mathbb{X}^\top \mathcal{H}_n \mathbb{X} \sim W_{p}(\Sigma, n - 1) \] a \[ m \mathcal{S}_2 = \mathbb{Y}^\top \mathcal{H}_m \mathbb{Y} \sim W_{p}(\Sigma, m - 1), \] kde \(\mathbb{X}= (\boldsymbol{X}_1, \dots, \boldsymbol{X}_n)^\top\) a \(\mathbb{Y} = (\boldsymbol{Y}_1, \dots, \boldsymbol{Y}_m)^\top\) a \(\mathcal{H}_n = \mathbb{I}_n - \frac{1}{n}\boldsymbol{1}_n\boldsymbol{1}_n^\top\) a \(\mathcal{H}_m = \mathbb{I}_m - \frac{1}{m}\boldsymbol{1}_m\boldsymbol{1}_m^\top\) sú tzv. centrovacie štvorcové matice typu \(n \times n\) a \(m \times m\) respective.

Z vlastnosti Wishartovho rozdelenia a tiež z nezávislosti \(n\mathcal{S}_1\) a \(m\mathcal{S}_m\) plynie tiež \[ n \mathcal{S}_1 + m \mathcal{S}_2 \sim W_{p}(\Sigma, n + m - 2), \] pričom tzv. ``pooled’’ odhad variačnej-kovariačnej matice \(\Sigma\) získame ako \(\mathcal{S} = (n + m)^{-1} \cdot (n\mathcal{S}_1 + m\mathcal{S}_2)\). Preto tiež platí, že \[ (n + m) \boldsymbol{1}_p^\top \mathcal{S} \boldsymbol{1}_p \sim W_{1}(\boldsymbol{1}_p^\top \Sigma \boldsymbol{1}_p, n + m - 2), \] čo je vlastne \(\chi^2\) rozdelenie s \(n + m - 2\) degrees of freedom.



Test nulovej hypotézy \(H_0\) lze uskutočniť pomocou testovej štatistiky (analogicky, ako v jednorozmernom prípade u klasického \(t\)-testu) \[ T = \frac{n m}{n + m} (n + m - 2) \frac{\Big[ \boldsymbol{1}_p^\top (\overline{\boldsymbol{X}}_n - \overline{\boldsymbol{Y}}_m) \Big]^2}{\boldsymbol{1}_p^\top \mathcal{S} \boldsymbol{1}_p}, \] ktorá ma za platnosti nulovej hypotézy Hotellingovo \(T^2\) rozdelenie s \(1\) a \(n + m - 2\) stupňami voľnosti (čo je vlastne taktiež Fisherovo \(F\) rozdelenie s \(1\) a \(n + m - 2\) stupňami voľnosti).



Samostatne

  • Pomocou programu SAS implementujte daný test.
  • Pre vhodne zvolenú dĺžku follow-up obdobia (napr. na základne exploratívnej analýzy a vhodných popisných charakteristík) otestujte nulovú hypotézu, že priebeh nemoci (skleróza multiplex) je v prvých rokoch po podaní liečby (t.j. v čase \(t = 0\)) rovnaký u mužov aj u žien.



3. Test nulovosti tzv. ``treatment’’ efektu

V prípade, že štatisticky test rovnobežnosti profilov zamietne nulovú hypotézu, tak následný štatistický model by buď mal zahrnúť interakčný člen medzi časom (jednotlivými meraniami vrámci uvažovaného follow-up obdobia) a príslušnými skupinami, prípadne (ako alternatívu) uvažovať dva samostatné štatistické modely – jeden pre každú z dvoch skupín.

V opačnom prípade, ak nulová hypotéza rovnobežnosti profilov zamietnutá nie je, tak je následne možne pokúsiť sa zo spoločných dat (obe uvažovane skupiny súčastne) urobiť inferenciu ohľadom celkového effektu (napr. nejakej konkrétnej liečby) vrámci uvažovaného času (a to aj v prípade, že jednotlivé úrovne profilov sú vzájomne odlišné, podstatné je, že sú, zo štatistického hľadiska rovnobežné).

Takáto nulová hypotéza nulovosti príslušného efektu môže byť matematicky vyjadrená ako \[ H_0: \mathcal{C}(\boldsymbol{\mu}_1 + \boldsymbol{\mu}_2) = \boldsymbol{0}, \] kde matica \(\mathcal{C} \in \mathbb{R}^{(p - 1) \times p}\) je matica vájomných kontrastov definovaná predpisom \[ \mathbb{C} = \left( \begin{array}{ccccc} 1 & -1 & 0 & \dots & 0\\ 0 & 1 & -1 & \dots & 0\\ \vdots & \vdots & \ddots & \ddots & \vdots\\ 0 & 0 & \dots & 1 & -1 \end{array} \right). \]

Z formálneho hľadiska sa vpodstate jedná o testovanie nulovosti jednotlivých priemerných inkrementov (t.j., priemerné inkrementy vrámci združeného – priemerného profilu). Pre priemerný profil (v prípade datového súboru pacientov so sklerózou sa vlastne jedná o model, ktorý neberie do úvahy informáciu o pohlaví pacienta) platí, že \[ \overline{\boldsymbol{X}}_{n + m} = \frac{n \overline{\boldsymbol{X}}_n + m \overline{\boldsymbol{Y}}_m}{n + m} \sim N_p \Big( \frac{n \boldsymbol{\mu}_1 + m \boldsymbol{\mu}_2}{n + m}, \frac{1}{n + m} \Sigma. \Big) \]

Ak sú longitudinálne profily vrámci oboch skupín vzájomne paralelné (nulov8 hypotéza o rovnobežnosti profilov nebola zamietnutá), tak za platnosti nulovej hypotézy \(H_0\) (t.j. oba profily su navyše aj horizontálne) jednoducho platí, že \[ \mathcal{C} \Big( \frac{n \boldsymbol{\mu}_1 + m \boldsymbol{\mu}_2}{n + m}\Big) = 0 \] a z vlastnosti normálneho rozdelenia aj \[ \sqrt{n + m} \mathcal{C \overline{\boldsymbol{X}}_{n + m} \sim N_{}(boldsymol{0}, \mathcal{C}^\top \Sigma \mathcal{C}) \] a s využitím príslušnej výberovej matice \(\mathcal{S}\) (odhad variančnej-kovariačnej matice \(\Sigma\)) môžeme definovať testovú štatistiku \[ T = (n + m -2) \big( \mathcal{C} \overline{\boldsymbol{X}}_{n + m} \big)^\top \Big(\mathcal{C}^\top \mathcal{S}\mathcal{C} \Big)^{-1} \mathcal{C}\overline{\boldsymbol{X}}_{n + m}, \] ktorá má za platnosti nulovej hypotézy \(H_0\) opäť Hotellingovo \(T^2\) rozdelenie s \(p - 1\) a \(n + m - 2\) stupňami voľnosti (resp. Fisherovo \(F\) rozdelenie s \(p - 1\) a \(n + m - p\) stupňami voľnosti).

Užitočné

  • Analogické štatistické testy (t.j. test rovnobežnosti longitudinálnych profilov, test rovnosti jednotlivých úrovni a test nulovosti celkového efektu) je možné implementovať aj prostredníctvom vhodne formulovaného lineárneho regresného modelu (s príslušnými interakčnými členmi) a následným \(F\) testom na podmodel (resp. \(t\) testom v niektorých prípadoch).
  • Analogické vysledky lze napr. získať aj opakovanou analyzou nezávislych pozorovaní v jednom konkrétnom časovom bode vrámci uvažovaného follow-up obdobia a danu analýzu opakovať pre jednotlivé uvažované okamžiky. Vrámci dodržania celkovej hladiny testu je ale vhodné upraviť príslušnú hladinu testovania – napr. jednoduchovu Bonferroniho korekciou (ktorá ale býva často hodne konzervatívna).





Samostatná domáca úloha \(|\) (deadline: 08.04.2024)

Použijte vhodný datový súbor (napr. datový súbor pacientov so sklerózou multiplex) a pomocou Vami zvoleného programu (napr. SAS, R, alebo Python) explicitne otestujte (t.j. implementujte) štatistický test:

  • či sú jednotlivé profily pre dve explicitne definované nezávislé skupiny vzájomne rovnobežné;
  • V prípade, že štatistický test nulovú hypotézu rovnobežnosti profilov nezamieta, rozhodnite, či lze považovať profily za totožné, resp. či lze preukázať nejaký štatistický rozdiel (t.j. test celkového efektu).

  • Vhodnými štatistickými nástrojmi sa pokuste analyzovať (t.j. exploratívna analýza) kovariančnú štruktúru longitudinálnych profilov.
    Použijte vhodné popisné charakteristiky a vhodné ilustračné/vizualizačné metódy. Zamerajte sa na závislosť a korelovanosť opakovaných merení.