Individuální úlohy (STP094: Regrese, 2003/2004)

Ve zvolené úloze ověřte, zda k vysvětlení závisle proměnné
potřebujete všechny navržené regresory. Podle možností také ověřte
(graficky či testem, podle situace), zda jsou splněny běžné
předpoklady, zda nejsou výsledky příliš ovlivněny existencí odlehlého
(odlehlých) pozorování. Vše inteligentně sepište, pokuste se
o interpretaci odhadů regresních koeficientů. Nebojte se vyjadřovat
vlastními slovy, názorně. Z počítačových výstupů uveďte jen to, co
bezprostředně potřebujete. Představujte si, že píšete pro sběhlého
zákazníka, ne pro kantora.


SMSA.DTA        (6 úloh)
Na základě údajů o 60 městských aglomeracích v USA se vyjádřete
k možné závislosti věkově standardizované úmrtnosti (mortality)
na dané veličině. Vzhledem k charakteru veličin popisujících
znečištění zvažte, zda nepracovat s jejich logaritmy.

a)    Jako regresor použijte xSO2Pot.
b)    Jako regresor použijte xHCPot.
c)    Jako regresor použijte xNOxPot.

V úlohách a)-c) vezměte přitom v úvahu možnou závislost na struktuře
osídlení, jak je charakterizována veličinami education, popDensity,
pctNonWhite.

d)    Jako regresor použijte xSO2Pot.
e)    Jako regresor použijte xHCPot.
f)    Jako regresor použijte xNOxPot.

V úlohách d)-f) vezměte přitom v úvahu možnou závislost na podnebí,
jak je charakterizováno veličinami janTemp, julyTemp,relHum, rain.


PASSENG.DTA
Rozhodněte, zda spotřeba automobilu závisí na jeho výkonu hp, když
přihlédnete k hmotnosti a maximální rychlosti. Uvažujte o možnostech
pro vyjádření spotřeby, u regresorů se nemusíte omezovat na lineární
funkce.


NUCLEAR.DAT       
Do jaké míry lze předpovídat náklady na výstavbu lehkovodních
jaderných elektráren? Na základě údajů o 31 elektrárnách
(s VÝJIMKOU pořadového čísla 26) najděte vhodný model (rozhodněte
se, zda budete modelovat náklady nebo jejich logaritmus).
Odtud spočítejte interval spolehlivosti pro skutečné náklady
pro vynechanou elektrárnu číslo 26 a konfrontujte tento interval
se skutečností.


PUBLIC.DAT        (2 úlohy)

a)    Rozhodněte o závislosti veřejných výdajů v jednotlivých
státech USA (ex) na ekonomické výkonnosti charakterizované
veličinou ecab. Je tato závislost stejná v obou částech země
(východ - západ)? Lze považovat stát NV za odlehé pozorování?

b)    Vyšetřete závislost proměnné ex na ecab, když vezmeme
v úvahu také údaje o obyvatelstvu: met - procento obyvatel
žijících ve velkých městech a grow - procentní přírůstek obyvatel
za období. Naopak, neberte v úvahu zeměpisnou polohu jednotlivých států.
Lze považovat stát NV za odlehé pozorování?


HOMEPRI.DAT        (5 úlohy)

a)    Rozhodněte o závislosti cen obytných budov na jejich stáří,
když vezmete v úvahu také velikost bytu. Liší se závislost
v severovýchodní části města od jiných částí? Zvažte, zda lépe
vysvětlíte ceny nebo jejich logaritmus.

b)    Rozhodněte o závislosti cen obytných budov na počtu
"hvězdiček" (feats), když vezmete v úvahu také velikost bytu.
Liší se závislost v severovýchodní části města od jiných částí?
Zvažte, zda lépe vysvětlíte ceny nebo jejich logaritmus.

c)    Rozhodněte o závislosti cen obytných budov na velikosti
bytu, když vezmete v úvahu daňové zatížení. Dostanete stejnou
závislost pro domy na rohu a pro ostatní domy?

d)    Rozhodněte o závislosti cen obytných budov na velikosti
bytu, když vezmete v úvahu daňové zatížení. Dostanete stejnou
závislost pro domy se známým a s neznámým stářím?

e)    Nalezněte model, který vysvětluje stáří budovy pomocí
proměnných tax, sqft, feats a Ne. Uvažte vhodné transformace
stáří budovy.


TEPLOTY.DAT
Popište závislost průměrné lednové minimální teploty (°F)
na zeměpisných souřadnicích. Uvažte, zda vystačíte s lineární
závislostí na zeměpisných souřadnicích. Popište vlivná pozorování.
U modelu lineární závislosti na souřadnicích se pokuste nalézt 
další faktor, který ovlivňuje sledovanou teplotu.


ACORNS.DAT
V datovém souboru jsou uvedeny průměrné hodnoty pro objem žaludů,
výšku stromů a velikost plochy, na níž rostou. Ověřte představu, že
velké žaludy jsou na dubech, které rostou na velké ploše. Je možné,
že studovaná závislost je ovlivněna také tím, kde stromy rostou.
Uvažte možnou potřebu transformace objemu žaludů.
(Při čtení dat pomocí read.table() použijte prametr sep, při
odstraňování nadbytečných mezer funkce trim() z jisté knihovny.)


Crash.RData, CRASH.TXT        (4 úlohy)

Data popisují výsledky nárazových testů automobilů (při
rychlosti 35 mil za hodinu). Proměnné head.IC, chest.decel, l.leg
a r.leg hodnotí zatížení (tlak?, u hrudníku zpomalení) zjištěná
na figurínách. Lze rozlišit způsob ochrany, hmotnost a druh (velikost)
vozidla. (Data ve verzi pro R)

a) Rozhodněte, zda se liší různé způsoby ochrany (Protection).,
když nejdřív vezmenme v úvahu hmotnost vozidla?
Liší se zjištěná závislost u řidiče a spolujezdce (D.P)?

b) Rozhodněte, zda stupeň poškození hlavy (head.IC) souvisí s rokem
výroby vozidla (Year), když vezmeme v úvahu různé výrobce (Make).
Liší se zjištěná závislost u řidiče a spolujezdce (D.P)?

c) Rozhodněte o závislosti poškození pravé nohy (tlaku r.lef)
na roku výroby (ok) a způsobu ochrany (Protection). Vyhoví
model všem výrobcům (Make)? Přepočítejte model bez vybočujícího
výrobce.

d) Rozhodněte o závislosti poškození levé nohy (tlaku l.lef)
na roku výroby (ok) a způsobu ochrany (Protection). Vyhoví
model všem výrobcům (Make)? Přepočítejte model bez vybočujícího
výrobce.


MERCURY.DAT
Znečištění povrchových vod rtutí ohrožuje životní prostředí.
Data popisují situaci na 53 různých jezerech Floridy.
Rozhodněte o závislosti standardizového množství rtuti
(odhad pro tříletou rybu) na koncentraci chlorofylu ve
vodě. Zvažte, zda vysvětlovat místo množství rtuti jeho
logaritmus.


BRAINS.DAT    (3 úlohy)

a)    Rozhodněte o závislosti velikosti mozku (xMRI) na třech
mírách IQ. Stačilo by místo jednotlivých hodnot IQ vzít jejich
průměr nebo součet?

b)    Rozhodněte o závislosti relativní velikosti mozku
(mri_count/height) na třech mírách IQ. Je rozdíl mezi oběma
pohlavími?

c)    Rozhodněte o závislosti relativní velikosti mozku
(mri_count/weight) na třech mírách IQ nebo na jejich souctu.
Je rozdíl mezi oběma pohlavími?


CASE0902.DAT    (4 úlohy)
U jednotlivých živočichů se sledují hmotnost mozku (brain),
hmotnost těla (body), délka březosti (gest), průměrná
velikost vrhu (litter). Vylepší se váš model, když vyjádřite
hmotnost mozku jako díl celkové hmotnosti? Zamyslete se
nad možností použít u některých veličin logaritmy či odmocninu,
případně jejich součin či mocninu.

a)    Vyšetřit závislost doby březosti (gest) na velikosti
mozku a hmotnosti těla.

b)    Vyšetřit závislost doby březosti (gest) na velikosti
mozku a velikosti vrhu.

c)    Vyšetřit závislost hmotnosti mozku na hmotnosti těla
a velikosti vrhu.

d)    Vyšetřit závislost hmotnosti těla na délce březosti
a velikosti vrhu.


EX1014.DAT
Sleduje se toxicita zinku a mědi tak, že se zjišťuje
množství proteinu u larev, na které předtím působila
po určitou dobu zvolená koncentrace zinku a mědi.
Uvažujte interakce (součin koncentrací, případně
druhé mocniny). Je vhodnější pracovat se zjištěným
množstvím proteinu nebo s jeho logaritmem?


CASE1201.DAT    (3 úlohy)
Data popisují možnou závislost testu vloh ke studiu (sat)
na veličinách, které by výsledky testu mohly ovlivnit:
takers - procento studentů, kteří test dělali,
income - medián příjmů rodin účastníků testu,
years - průměrný počet let studia sociálních věd,
přírodních věd a humanitních předmětů,
public - procento testovaných z veřejných středních škol,
expend - náklady státu na střední školy připadající
na jednoho studenta,
rank - medián percentilů pořadí testovaných mezi spolužáky
jejich tříd.
Uvažte, zda nalezený model je vhodný také pro Aljašku,
kde jsou zřejmě podstatně odlišné podmínky, než v ostatních
státech.

a)    Závisí sat na výdajích daného státu na studenta,
když vezmeme v úvahu rank a years?

b)    Závisí sat na výdajích daného státu na studenta,
když vezmeme v úvahu procento studentů, kteří test dělali
a years?

c)    Závisí expend na public, rank, income a sat?

G-Q TEST    (1 úloha)
Cílem je porovnat sílu Goldfeldova-Quandtova testu pro různé
způsovy dělení dat na dvě či tři části. Podrobnější zadání
po dohodě.


TESTY NORMALITY    (1 úloha)
Úkol spočívá v porovnání síly několika testů normality
(W, d'Agostino, případně W') při použití různých reziduí.
Podrobnější zadání po dohodě.


Prosím studenty, kteří mají přednášku STP094: Regrese zapsánu,
aby si po vzájemné dohodě vybrali úlohu a k označení zvolené
úlohy zapsali své jméno. Seznam úloh je vyvěšen na katedrální
nástěnce.

Data jsou k disposici také v adresáři I:\kpms\zvara\public\read\samost,
své řešení mi prosím pošlete zazipované jako přílohu emailu, případně
vhoďte do schránky před sekretariátem katedry.

Připomínám, že individuální příklad (případně další příklady u těch,
kteří si nenašli dost času k návštěvě cvičení) musím mít NEJPOZDĚJI
dva pracovní dny před zkouškou.

Budete-li mít se zvolenou úlohou nějaký problém (také chybička se
může vloudit), dejte, prosím, vědět.

Během semestru mám konzultační hodiny ve středu v době od 14:00
do 15:00 hodin, v případě potřeby se pokusíme najít jiný vhodný čas.

031216          
                                                                            Karel Zvára