Informace o diplomové práci

Arnošt Komárek

Podstránky

Domácí | Diplomové práce |

Klasifikace na základě longitudinálních pozorování

Vypsáno:2010–11
Zadáno:11.10.2010
Obhájeno:14.5.2012
Řešitel:Lukáš Tichý (Bandas)

Anotace

S longitudinálními pozorováními se setkáváme všude tam, kde u jednotek zahrnutých do studie opakovaně (nejčastěji v čase) zjišťujeme údaje, které nás zajímají. Napozorované hodnoty lze následně použít pro klasifikaci jednotek do skupin obdodobně jako v rámci klasické diskriminační či shlukové analýzy. Tyto metody v jejich klasické formě založené na náhodném výběru z vícerozměrného normálního rozdělení však obvykle nelze použít a to z toho důvodu, že typická longitudinální data se vyznačují dvěma hlavními rysy:

  1. počet pozorování u jednotlivých jednotek (subjektů) není konstantní,
  2. jednotlivá pozorování nejsou prováděna ve stejných časech pro všechny jednotky.
Nelze tudíž předpokládat, že náhodné vektory reprezentující napozorovaná data u jednotlivých jednotek tvoří náhodný výběr z vícerozměrného rozdělení. V průběhu posledních 15 let však bylo v literatuře popsáno nespočet přístupů pro klasifikaci na základě longitudinálních dat vesměs kombinujících v nějaké formě lineární smíšený model s klasickými přístupy ke klasifikaci. Aplikace lze nalézt jak v medicíně (určení diagnózy či prognózy na základě opakovaných měření jistého ukazatele) tak ve financích (určení schopnosti splácet úvěr na základě historických údajů souvisejících s bonitou klienta), ale i jinde.

Zásady pro vypracování

Posluchač během prvního roku studia, v návaznosti na absolvování předmětu Regrese (NSTP194+195), samostatně nastuduje problematiku lineárních smíšených modelů, jež jsou základem pro modelování longitudinálních pozorování. Následně budou v literatuře nastudovány dostupné přístupy pro klasifikaci longitudinálních pozorování založené na lineárním smíšeném modelu. V závislosti na zájmu posluchače je možné se více zaměřit buď na diskriminační analýzu (k dispozici tréninková data) nebo na shlukovou analýzu (nejsou k dispozici tréninková data). Jednotlivé přístupy budou v práci precizně matematicky popsány při jednotném značení, vybrané vlastnosti budou detailně odvozeny a zdůvodněny. Práce bude též obsahovat aplikaci na reálná data či simulační studii porovnávající jednotlivé přístupy.

V průběhu 1. ročníku navazujícího magisterského studia nutno absolvovat následující předměty

  • Regrese včetně cvičení (NSTP194+195)
  • Mnohorozměrná statistická analýza (NSTP018)

Odborná literatura bude vesměs v angličtině, diplomová práce bude psána česky nebo slovensky.

Literatura

Brant, L. J., Sheng, S. L., Morrell, C. H., Verbeke, G. N., Lesaffre, E., and Carter, H. B. (2003). Screening for prostate cancer by using random-effects models. Journal of the Royal Statistical Society, Series A, 166, 51-62.
De la Cruz-Mesía, R., Quintana, F. A., and Marshall, G. (2008). Model-based clustering for longitudinal data. Computational Statistics and Data Analysis, 52, 1441-1457.
James, G. M. and Sugar, C. A. (2003). Clustering for sparsely sampled functional data. Journal of the American Statistical Association, 98, 397-408.
Marshall, G. and Barón, A. E. (2000). Linear discriminant models for unbalanced longitudinal data. Statistics in Medicine, 19, 1969-1981.
Marshall, G., De la Cruz-Mesa, R., Quintana, F. A., and Baron, A. E. (2009). Discriminant analysis for longitudinal data with multiple continuous responses and possibly missing data. Biometrics, 65, 69-80.
Morrell, C. H., Brant, L. J., and Sheng, S. (2007). Comparing approaches for predicting prostate cancer from longitudinal data. In 2007 Proceedings of the American Statistical Association, Biometrics Section, pages 127-133, Alexandria, 2007. American Statistical Association.
Tomasko, L., Helms, R. W., and Snapinn, S. M. (1999). A discriminant analysis extension to mixed models. Statistics in Medicine, 18, 1249-1260.
Villarroel, L., Marshall, G., and Barón, A. E. (2009). Cluster analysis using multivariate mixed effects models. Statistics in Medicine, 28, 2552-2565.
Verbeke, G. and Lesaffre, E. (1996). A linear mixed-effects model with heterogeneity in the random-effects population. Journal of the American Statistical Association, 91, 217-221.
Verbeke, G. and Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data. New York: Springer. ISBN 0-387-95027-3.
Wernecke, K.-D., Kalb, G., Schink, T., and Wegner, B. (2004). A mixed model approach to discriminant analysis with longitudinal data. Biometrical Journal, 46, 246-254.

 

View My Stats