Individuální
úlohy (STP094: Regrese, 2003/2004)
Ve zvolené úloze ověřte, zda k vysvětlení
závisle proměnné
potřebujete všechny navržené regresory. Podle možností
také ověřte
(graficky či testem, podle situace), zda jsou splněny běžné
předpoklady, zda nejsou výsledky příliš ovlivněny
existencí odlehlého
(odlehlých) pozorování. Vše inteligentně sepište,
pokuste se
o interpretaci odhadů regresních koeficientů. Nebojte se
vyjadřovat
vlastními slovy, názorně. Z počítačových
výstupů uveďte jen to, co
bezprostředně potřebujete. Představujte si, že píšete pro
sběhlého
zákazníka, ne pro kantora.
SMSA.DTA
(6
úloh)
Na základě údajů o 60 městských
aglomeracích v USA se vyjádřete
k možné závislosti věkově standardizované
úmrtnosti (mortality)
na dané veličině. Vzhledem k charakteru veličin
popisujících
znečištění zvažte, zda nepracovat s jejich logaritmy.
a) Jako regresor použijte xSO2Pot.
b) Jako regresor použijte xHCPot.
c) Jako regresor použijte xNOxPot.
V úlohách a)-c) vezměte přitom v úvahu možnou
závislost na struktuře
osídlení, jak je charakterizována veličinami
education, popDensity,
pctNonWhite.
d) Jako regresor použijte xSO2Pot.
e) Jako regresor použijte xHCPot.
f) Jako regresor použijte xNOxPot.
V úlohách d)-f) vezměte přitom v úvahu možnou
závislost na podnebí,
jak je charakterizováno veličinami janTemp, julyTemp,relHum,
rain.
PASSENG.DTA
Rozhodněte, zda spotřeba automobilu závisí na jeho
výkonu hp, když
přihlédnete k hmotnosti a maximální rychlosti.
Uvažujte o možnostech
pro vyjádření spotřeby, u regresorů se nemusíte
omezovat na lineární
funkce.
NUCLEAR.DAT
Do jaké míry lze předpovídat náklady na
výstavbu lehkovodních
jaderných elektráren? Na základě údajů o 31
elektrárnách
(s VÝJIMKOU pořadového čísla 26) najděte
vhodný model (rozhodněte
se, zda budete modelovat náklady nebo jejich logaritmus).
Odtud spočítejte interval spolehlivosti pro skutečné
náklady
pro vynechanou elektrárnu číslo 26 a konfrontujte tento
interval
se skutečností.
PUBLIC.DAT
(2 úlohy)
a) Rozhodněte o závislosti veřejných
výdajů v jednotlivých
státech USA (ex) na ekonomické výkonnosti
charakterizované
veličinou ecab. Je tato závislost stejná v obou
částech země
(východ - západ)? Lze považovat stát NV za
odlehé pozorování?
b) Vyšetřete závislost proměnné ex na
ecab, když vezmeme
v úvahu také údaje o obyvatelstvu: met - procento
obyvatel
žijících ve velkých městech a grow -
procentní přírůstek obyvatel
za období. Naopak, neberte v úvahu zeměpisnou polohu
jednotlivých států.
Lze považovat stát NV za odlehé pozorování?
HOMEPRI.DAT
(5 úlohy)
a) Rozhodněte o závislosti cen obytných
budov na jejich stáří,
když vezmete v úvahu také velikost bytu. Liší se
závislost
v severovýchodní části města od jiných
částí? Zvažte, zda lépe
vysvětlíte ceny nebo jejich logaritmus.
b) Rozhodněte o závislosti cen obytných
budov na počtu
"hvězdiček" (feats), když vezmete v úvahu také velikost
bytu.
Liší se závislost v severovýchodní
části města od jiných částí?
Zvažte, zda lépe vysvětlíte ceny nebo jejich logaritmus.
c) Rozhodněte o závislosti cen obytných
budov na velikosti
bytu, když vezmete v úvahu daňové zatížení.
Dostanete stejnou
závislost pro domy na rohu a pro ostatní domy?
d) Rozhodněte o závislosti cen obytných
budov na velikosti
bytu, když vezmete v úvahu daňové zatížení.
Dostanete stejnou
závislost pro domy se známým a s
neznámým stářím?
e) Nalezněte model, který vysvětluje
stáří budovy pomocí
proměnných tax, sqft, feats a Ne. Uvažte vhodné
transformace
stáří budovy.
TEPLOTY.DAT
Popište závislost průměrné lednové
minimální teploty (°F)
na zeměpisných souřadnicích. Uvažte, zda vystačíte
s lineární
závislostí na zeměpisných souřadnicích.
Popište vlivná pozorování.
U modelu lineární závislosti na
souřadnicích se pokuste nalézt
další faktor, který ovlivňuje sledovanou teplotu.
ACORNS.DAT
V datovém souboru jsou uvedeny průměrné hodnoty pro objem
žaludů,
výšku stromů a velikost plochy, na níž rostou. Ověřte
představu, že
velké žaludy jsou na dubech, které rostou na velké
ploše. Je možné,
že studovaná závislost je ovlivněna také
tím, kde stromy rostou.
Uvažte možnou potřebu transformace objemu žaludů.
(Při čtení dat pomocí read.table() použijte prametr sep,
při
odstraňování nadbytečných mezer funkce trim() z
jisté knihovny.)
Crash.RData, CRASH.TXT
(4 úlohy)
Data popisují výsledky nárazových testů
automobilů (při
rychlosti 35 mil za hodinu). Proměnné head.IC, chest.decel,
l.leg
a r.leg hodnotí zatížení (tlak?, u hrudníku
zpomalení) zjištěná
na figurínách. Lze rozlišit způsob ochrany, hmotnost a
druh (velikost)
vozidla. (Data ve verzi pro R)
a) Rozhodněte, zda se liší různé způsoby ochrany
(Protection).,
když nejdřív vezmenme v úvahu hmotnost vozidla?
Liší se zjištěná závislost u řidiče a spolujezdce
(D.P)?
b) Rozhodněte, zda stupeň poškození hlavy (head.IC)
souvisí s rokem
výroby vozidla (Year), když vezmeme v úvahu různé
výrobce (Make).
Liší se zjištěná závislost u řidiče a spolujezdce
(D.P)?
c) Rozhodněte o závislosti poškození pravé nohy
(tlaku r.lef)
na roku výroby (ok) a způsobu ochrany (Protection).
Vyhoví
model všem výrobcům (Make)? Přepočítejte model bez
vybočujícího
výrobce.
d) Rozhodněte o závislosti poškození levé nohy
(tlaku l.lef)
na roku výroby (ok) a způsobu ochrany (Protection).
Vyhoví
model všem výrobcům (Make)? Přepočítejte model bez
vybočujícího
výrobce.
MERCURY.DAT
Znečištění povrchových vod rtutí ohrožuje
životní prostředí.
Data popisují situaci na 53 různých jezerech Floridy.
Rozhodněte o závislosti standardizového množství
rtuti
(odhad pro tříletou rybu) na koncentraci chlorofylu ve
vodě. Zvažte, zda vysvětlovat místo množství rtuti jeho
logaritmus.
BRAINS.DAT
(3 úlohy)
a) Rozhodněte o závislosti velikosti mozku
(xMRI) na třech
mírách IQ. Stačilo by místo jednotlivých
hodnot IQ vzít jejich
průměr nebo součet?
b) Rozhodněte o závislosti relativní
velikosti mozku
(mri_count/height) na třech mírách IQ. Je rozdíl
mezi oběma
pohlavími?
c) Rozhodněte o závislosti relativní
velikosti mozku
(mri_count/weight) na třech mírách IQ nebo na jejich
souctu.
Je rozdíl mezi oběma pohlavími?
CASE0902.DAT
(4
úlohy)
U jednotlivých živočichů se sledují hmotnost mozku
(brain),
hmotnost těla (body), délka březosti (gest), průměrná
velikost vrhu (litter). Vylepší se váš model, když
vyjádřite
hmotnost mozku jako díl celkové hmotnosti? Zamyslete se
nad možností použít u některých veličin logaritmy
či odmocninu,
případně jejich součin či mocninu.
a) Vyšetřit závislost doby březosti (gest) na
velikosti
mozku a hmotnosti těla.
b) Vyšetřit závislost doby březosti (gest) na
velikosti
mozku a velikosti vrhu.
c) Vyšetřit závislost hmotnosti mozku na
hmotnosti těla
a velikosti vrhu.
d) Vyšetřit závislost hmotnosti těla na
délce březosti
a velikosti vrhu.
EX1014.DAT
Sleduje se toxicita zinku a mědi tak, že se zjišťuje
množství proteinu u larev, na které předtím
působila
po určitou dobu zvolená koncentrace zinku a mědi.
Uvažujte interakce (součin koncentrací, případně
druhé mocniny). Je vhodnější pracovat se zjištěným
množstvím proteinu nebo s jeho logaritmem?
CASE1201.DAT
(3 úlohy)
Data popisují možnou závislost testu vloh ke studiu (sat)
na veličinách, které by výsledky testu mohly
ovlivnit:
takers - procento studentů, kteří test dělali,
income - medián příjmů rodin účastníků
testu,
years - průměrný počet let studia sociálních věd,
přírodních věd a humanitních předmětů,
public - procento testovaných z veřejných
středních škol,
expend - náklady státu na střední školy
připadající
na jednoho studenta,
rank - medián percentilů pořadí testovaných mezi
spolužáky
jejich tříd.
Uvažte, zda nalezený model je vhodný také pro
Aljašku,
kde jsou zřejmě podstatně odlišné podmínky, než v
ostatních
státech.
a) Závisí sat na výdajích
daného státu na studenta,
když vezmeme v úvahu rank a years?
b) Závisí sat na výdajích
daného státu na studenta,
když vezmeme v úvahu procento studentů, kteří test dělali
a years?
c) Závisí expend na public, rank,
income a sat?
G-Q TEST (1 úloha)
Cílem je porovnat sílu Goldfeldova-Quandtova testu pro
různé
způsovy dělení dat na dvě či tři části.
Podrobnější zadání
po dohodě.
TESTY NORMALITY (1 úloha)
Úkol spočívá v porovnání síly
několika testů normality
(W, d'Agostino, případně W') při použití různých
reziduí.
Podrobnější zadání po dohodě.
Prosím studenty, kteří mají přednášku
STP094: Regrese zapsánu,
aby si po vzájemné dohodě vybrali úlohu a k
označení zvolené
úlohy zapsali své jméno. Seznam úloh je
vyvěšen na katedrální
nástěnce.
Data jsou k disposici také v adresáři
I:\kpms\zvara\public\read\samost,
své řešení mi prosím pošlete zazipované
jako přílohu emailu, případně
vhoďte do schránky před sekretariátem katedry.
Připomínám, že individuální příklad
(případně další příklady u těch,
kteří si nenašli dost času k návštěvě cvičení)
musím mít NEJPOZDĚJI
dva pracovní dny před zkouškou.
Budete-li mít se zvolenou úlohou nějaký
problém (také chybička se
může vloudit), dejte, prosím, vědět.
Během semestru mám konzultační hodiny ve středu v době od
14:00
do 15:00 hodin, v případě potřeby se pokusíme
najít jiný vhodný čas.
031216
Karel Zvára