Biostatistika a plánování ekologických pokusů
Semestr: zimní
SIS: MB120P147
Celkový rozsah: 2/1
Další přednášející: Zdeněk Janovský (vedení praktik)
Co je potřeba znát před přednáškou: podmínkou z zápisu je mít absolvovanou
přednášku Biostatistika,
již přednáší Karel
Zvára. Je třeba vědět, že informace o světě kolem se získávají sběrem dat
a že tato data je třeba umět sebrat a zpracovat.
Přednáška chce poskytnout přehled běžných statistických technik pro zpracování
ekologických dat pro uživatele. Snaží
se intuitivně vysvětlit smysl, povahu a možnosti používaných metod a ilustrovat
je příklady.
Součástí přednášky jsou několik dvouhodinových praktik na zpracování dat. Účast
na praktikách není povinná - chápu ji jako rozšiřující možnost naučit se předmět,
nikoli jako podmínku ke zkoušce. Praktika probíhají v jazyce R - možná to pro
start bude náročnější, ale získáte (i) úvod do programu/jazyka, který se dnes
stává standardem ve statistickém zpracování dat, (ii) má ohromné možnosti v
množství existujících knihoven, a (iii) je zcela zdarma (GNU licence).
Účast na přednáškách samozřejmě taky není povinná (i když přednášejícího potěší)
- tu chápu jako možnost poslechnout si můj pokus vysvětlit taje statistického
uvažování a technik, nikoliv jako způsob jak se poznámkami domoci vlastní malé
učebnice statistiky (čím víc člověk píše, tím méně poslouchá...) . Ze
stejného důvodu k přednášce nejsou připraveny žádné presentační materiály; v
literatuře i na internetu existuje k předmětu dostatek
informací. Rozsah přednášky (také zkoušky) je dán syllabem
níže - ten prosím konsultujte, chcete-li vědět, co a v jakém rozsahu budu přednášet.
Časový rozvrh v roce 2014/2015
V tomto školním roce přednáška poběží v pondělí v 12,25 (prosím přesně) v
Benátské 2, 2. mezipatro. Přednáška končí ca. ve 13,45.
6.10. |
Úvod, typy statistických problémů , typy biologických veličin,
exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie
pravděpodobnosti.
|
13.10. |
Zásady statistické inference. Odhad parametrů
jako předpoklad pro statistické testování, vlastnosti odhadu, střední chyba
odhadu, interval spolehlivosti. |
20.10. |
Zásady statistického modelování. Odhad parametrů
modelu, testování modelu, residuály. |
27.10. |
přednáška se nekoná |
3.11. |
Zásady statistického rozhodování:
formulace a testování hypotéz, testové kritérium, chyba I a II druhu, hladina
signifikance. |
10.11. |
Regrese a korelace. Regresní
analýza kvantitativních dat: Mnohonásobná regrese. Výběr nejvhodnějšího
modelu. |
17.11. |
přednáška se koná ve státní svátek
Parciální regrese. Nelineární data v regresi, nelineární
regrese. Regresní diagnostika.
|
24.11. |
Analýza variance: úvod, jednocestná
ANOVA, mnohonásobná porovnávání, dvoucestná ANOVA, interakce. |
1.12. |
Další situace řešené analýzou variance (hierarchická
ANOVA, split-plot designs, opakovaná měření, pevné a náhodné efekty).
|
8.12. |
Neparametrické testy. Analýza
frekvencí: kontingenční tabulky. |
15.12. |
Analýza frekvencí: logistická regrese. Zobecnělé
lineární modely. |
5.1. |
Přehled testů na různé typy ekologických problémů.
Přehled běžného softwaru. Obecné zásady pro zpracování
dat v ekologii |
bude domluveno |
Základy plánování ekologických pokusů. Metodologické
zásady sběru dat. |
letos nepřednáším |
Úvod do mnohorozměrných technik:
analýza hlavních komponent, korespondenční analýza, kanonické techniky.
Úvod do analýzy dat v čase a prostoru. |
datum bude stanoveno |
Konzultační přednáška. Přijďte a připravte si
otázky. (Sám nic nebudu říkat.) |
Termíny praktik (vede Zdeněk Janovský):
|
Základy zacházení s R; Grafické zobrazení a popis
jedné proměnné |
|
Základy zacházení s R – pokračování; Grafické
zobrazení vztahů více proměnných – základy explorační analysy dat |
|
Explorační analysa dat – pokračování; Korelace |
|
Lineární regrese - základy |
|
Opakování, první průběžný test |
|
Mnohonásobná regrese s postupným výběrem proměnných, analysa
variance |
|
Interakce nezávislých proměnných, post hoc testy
mnohonásobných porovnávání v analyse variance |
|
Analysy variance se složitějším designem – split-plot ANOVA,
analysy s náhodnými faktory |
|
Opakování, druhý průběžný test |
|
Analysa frekvenčních dat – klasické testy, logistická regrese |
|
Analysa positivně šikmých celočíselných proměnných; analysa
vícecestných kontingenčních tabulek |
|
Analysa nadměrně rozptýlených dat za pomoci zobecněných lineárních
modelů |
|
Opakování, třetí průběžný test |
Data jsou na Moodlu.
(1) Úvod, typy statistických problémů , typy biologických
veličin, exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie
pravděpodobnosti
- Variabilita. Systematická ("deterministická") a náhodná složka
nějaké proměnné. Příklad: výška stromů v lesech různého stáří. Zkoumání systematické
složky, zkoumání náhodné složky.
- Potíže, které s sebou při zkoumání systematické složky nese fakt, že existuje
i náhodná složka.
- Statistika řeší dva základní problémy:
- (i) jak vypadá jev - zjednodušit a popsat. Zajímají mě vztahy, obrázky,
numerické hodnoty (kolikrát/o kolik je to větší než ono). Statistické
modelování, oddělení náhodné a systematické složky variability, odhad
parametrů, visualisace dat, nalezení pattern v komplikované situaci
("mnohorozměrná" data).
- (ii) je to, co vidím ve svých datech náhoda nebo ne? Pojem základního
souboru a výběru. Statistická inference - statistické testování. Zajímá
mě tvrzení typu Ano/Ne (efekt existuje, efekt neexistuje).
- [sloužit jako vodítko pro návrh sběru dat, a zakládání pokusů]
- Jde o dva odlišné směry ve statistice (prolínají se, člověk používá pořád
oba, ale rozdíl důrazu)
- Pojmy veličina, znak, parametr, objekt.
- Tři typy problémů pokud jde o složitost:
- Zkoumání jedné proměnné: sama o sobě. Střední hodnota a odchylka od
ní. Rozložení hodnot a jeho popis: průměr, medián, rozptyl atd.
- Zkoumání jedné proměnné: v jakém je vztahu k jiné/jiným proměnným. Náhodná
a systematická složka hodnot sledované proměnné. Statistické modelování.
- Zkoumání více proměnných současně: v jakém vztahu k sobě vzájemně a
příp. k nějakým dalším proměnným (mnohorozměrná statistika).
- Typy biologických veličin: kategoriální (má smysl modus), ordinální (má
smysl medián a kvantily), intervalová (má smysl průměr a rozptyl), poměrová.
Proměnné spojité a nespojité.
- Organizace dat při zpracování.
- Visualisace dat: Frekvenční histogram, kvantily - jak je definována osa
X pro různé případy.
- Krabicové diagramy.
- Statistické momenty: Průměr, medián; rozptyl/směrodatná odchylka, šikmost.
- Co se sešikmenými daty: log, sqrt
- Vzájemná nezávislost objektů. Obecný předpoklad statistického zpracování.
Potíže s daty v čase a prostoru.
- Pravděpodobnost a frekvence. Frekvenční histogram, pravděpodobnostní rozložení
(formální podobnost, zásadní rozdíly). Histogram je empirický popis konkrétních
dat, pravděpodobnostní rozložení je výsledek teoretického procesu. K čemu
se co používá.
- Binomické a normální rozdělení pravděpodobností. Pojem parametru rozdělení.
- Binomické rozdělení (nespojité proměnné): model hodu mincí. Dva parametry:
počet elementárních hodů, pravděpodobnost jedné varianty.
- Normální rozdělení (spojité proměnné): současné působení mnoha nezávislých
vlivů: většinou se kompensují, někdy ne (to jsou ty 100:0 v binomickém). Dva
parametry: střední hodnota a rozptyl.
- Standardní normální rozdělení: nezávisí na použitých jednotkách veličiny
x. Jak převést standardní normální rozdělení na obecné normální rozdělení
a zpátky.
- Pojem kvantilu: alfa-procentní kvantil je číslo, které dělí rozdělení (zleva)
v poměru alfa:(100-alfa). Medián je 50% kvantil.
- Jak zjistit rozdělení výchozích dat: není to zcela triviální otázka. Histogramy.
Q-Q plot: kvantily mého rozložení proti kvantilům standardního normálního
rozložení. Lineární, pokud je rozložení normální. sešikmené: konvexní nebo
konkávní. špičaté: sigmoidní. Více později.
(2) Zásady statistické inference. Odhad parametrů jako předpoklad
pro statistické testování, vlastnosti odhadu, střední chyba odhadu, interval
spolehlivosti
- Základní soubor a výběr, náhodný výběr (každý má stejnou pravděpodobnost
býti tažen). Příklad: průzkum veřejného mínění vs. volby.
- Statistická inference: usuzování na parametry základního souboru pomocí
parametrů výběru. Spolehlivost tohoto odhadu. Výpovědní hodnota parametrů
takto odhadnutých. Aplikace teorie pravděpodobnosti.
- Dva požadavky na odhad: nevychýlený a spolehlivý. Co to znamená.
- Příklad: je třeba určit skutečný průměr základního souboru na základě
výběru (ta náhodnost je ve faktu výběru ze souboru s nenulovou variabilitou).
Současně je třeba kvantifikovat nejistotu, která je s tím odhadem spojená.
- V běžných situacích je základní soubor nedostupný: (i) příliš veliký, (ii)
sběr dat destruktivní (testování léčiv), (iii) základní soubor je jen potenciálně
existující. Jediné co mohu udělat je provést výběr a zkoumat jedince ve výběru.
- Provedu výběr (n - počet prvků ve výběru, zjistím výběrový průměr, výběrovou
směrodatnou odchylku). Co s tím?
- Jak zkoumat spolehlivost výběru o dané velikosti pro zjištění průměru základního
souboru. Myšlenkový pokus: jak se výběr chová, pokud by takto činěný výběr
mnohokrát opakoval (chování výběru jako náhodné proměnné, cf. teoretické chování
házení korunou) -> střední chyba průměru (tj. směrodatná odchylka teoretického
rozdělení hodnot výběrového průměru).
- Jak to provést: (i) Lze vyčíslit za předpokladu, že znám rozdělení základního
souboru (normální), (ii) simulačně.
- Výběrový průměr z normálního rozdělení má také normální rozdělení. Směrodatná
odchylka rozdělení výběrových průměrů: střední chyba odhadu průměru
- Co tento postup znamená pro možnost určení průměru základního souboru a
s ním spojené nejistoty:
- výběrový průměr je (nevychýleným) odhadem průměru základního souboru
- výběrový průměr leží s pravděpodobností alfa v intervalu: průměr základního
souboru +- střední chyba * kritická hodnota standardního normálního rozložení
pro pravděpodobnost alfa/2 (dělím dvěma, protože jde o oboustranný test;
kritická hodnota je 1.96).
- jednoduchá algebraická úprava: skutečný průměr základního souboru leží
s pravděpodobností alfa v intervalu: výběrový průměr +- střední chyba *
kritická hodnota standardního normálního rozložení pro pravděpodobnost alfa/2.
- Konfidenční interval - interval spolehlivosti (závisí na zvolené pravděpodobnosti):
oblast hodnot, kde se nalezá zjišťované číslo (skutečný průměr základního
souboru) se stanovenou pravděpodobností. K čemu se tato pravděpodobnost vztahuje:
ne ke konkrétní situaci! Neposuzuji jednotlivý případ sám o sobě, ale posuzuji
jej jako člena velkého souboru myslitelných případů: to je smysl té alfa-procentní
(ne)jistoty.
- Všechno je jednoduché, pokud znám sigma - pak mohu sigma použít a výběrový
průměr má normální rozdělení. Ovšem sigma zpravidla neznám. Jak si pomůžeme,
když neznáme sigma: je třeba učinit odhad parametru disperse (místo sigma)
z výběru (výběrová směrodatná odchylka).
- Vychýlený a nevychýlený odhad směrodatné odchylky z dat.
- Počet stupňů volnosti: počet nezávislých pozorování (= "ještě nepoužité
informace"), které mám k disposici pro odhad nějakého parametru (kolik nezávislých
pozorování mám k disposici pro míru disperse u dvoučlenného souboru?). Důležité:
d.f. se vždy vztahuje k odhadu nějakého parametru.
- Vztah mezi přesností a jistotou: jedno manipuluji, druhé jde s sebou. Čím
chceme mít větší jistotu, že se zjišťované číslo nenalézá mimo interval (tj.
zvyšujeme pravděpodobnost - jistotu), tím se rozšiřuje konfidenční interval
(tj. snižujeme přesnost). Nejistotu lze zmenšit zvýšením počtu opakování.
Vztah mezi počtem měření, mírou variability (variance, střední chyba průměru)
a přesností zjištění a jistotou. Sami musíme posoudit rizika (a odhadnout
potřebný počet měření).
- Výše uvedený postup lze zobecnit pro libovolné parametry (místo průměru
rozptyl, medián, cokoli). Je také základem statistického testování (další
přednáška.)
- Zásady odběru vzorků. Co lze usoudit z výběru, který není vybrán náhodně.
(3) Zásady statistického rozhodování: formulace a testování
hypotéz, testové kritérium, chyba I a II druhu, hladina signifikance
- Rozhodování v podmínkách neurčitosti: kvantifikace nejistoty: a na základě
toho se rozhodnu (čili: nerozhoduje za mě). Z čeho pochází neurčitost: je
důsledkem toho, že základní soubor je mi nedostupný a má nenulovou variabilitu
ve sledované proměnné.
- Problém, zda se dvě skupiny dat liší (co to znamená: nikoliv že se liší
tato konkrétní data, ale že representují dva odlišné základní soubory). Reformulace
otázky: zda pocházejí ze stejného základního souboru. Nulová hypotéza.
- Testové kritérium/statistika (např. vyjadřující rozdíl mezi oběma skupinami;
míra rozdílu). Použiju k popisu zjištěného rozdílu. Analogie úvahy minule:
jak se teoreticky bude testové kritérium chovat za předpokladu, že oba oba
výběry pocházejí ze stejného základního souboru
- Jak se zjistí teoretické chování testového kritéria za platnosti nulové
hypotézy: analyticky (programy, tabulky), Monte Carlo techniky (simulace mnohokrát
opakovaného výběru na počítači). Jaké předpoklady jsou třeba.
- Dosažená hladina signifikance: Pravděpodobnost sebraných dat za podmínky
neexistence závislosti (platnosti nulové hypotézy)
|
Pravý stav věcí (základní soubor)
|
Náš závěr (rozhodnutí)
|
Závislost neexistuje (výběry pocházejí ze stejného základního souboru)
|
Závislost existuje (výběry pocházejí ze dvou odlišných souborů)
|
Závislost neexistuje
|
Správné rozhodnutí
|
Chyba II. druhu (beta)
|
Závislost existuje
|
Chyba I. druhu (alfa)
|
Správné rozhodnutí
|
- Chyba I a II druhu, stanovení beta (závisí na síle závislosti).
- Chyba I druhu hrozí pouze v případě, zamítám-li nulovou hypotézu, chyba
II druhu hrozí pouze v případě, když nulovou hypotézu nezamítám. Problém nesignifikantních
závislostí.
- Zvláštní postavení nulové hypotézy: nepředpokládá nic dodatečného. Ke kvantifikaci
beta potřebuji znát intenzitu vztahu.
- Rozdíl mezi nulovou hypotézou a badatelskou hypotézou.
- Opět: neposuzuji jednotlivý případ sám o sobě, ale posuzuji jej jako člena
velkého souboru myslitelných případů. Tvrzení "zavrhujeme nulovou hypotézu
na hladině pravděpodobnosti alfa" znamená: v situaci, že efekt neexistuje,
dostaneme daný výsledek (při myšleném mnohonásobném opakování) s pravděpodobností
menší než alfa. Rozhodování pouze na základě levé části tabulky (tam platí
nulová hypotéza).
- Vztah mezi alfa, beta, počtem stupňů volnosti, silou závislosti a silou
testu. Čím chceme mít větší jistotu, že se nedopustíme chyby I. druhu (tj.
neoprávněně tvrdit něco positivního), tím více zvyšujeme pravděpodobnost chyby
II. druhu (tj. neoprávněně lpět na něčem negativním). Je to otázka volby.
Konservativní přístup, progresivní/liberální přístup. Nejistotu lze zmenšit
zvýšením počtu opakování, nebo snížením variability.
- Signifikance kriticky závisí na počtu případů: opatrnost při interpretaci
výsledku testu. Signifikance vs. konfidenční interval velikosti efektu (effect
size).
- Závislost na předpokladech: robustnost testu.
- Pozor: Klasická statistika udává pravděpodobnost mých dat za předpokladu
platnosti nulové hypotézy, nikoli obráceně.
- Jak se domoci pravděpodobnosti nulové hypotézy za předpokladu mých dat (Bayesovská
statistika).
(4) Zásady statistického modelování. Odhad parametrů modelu,
testování modelu, residuály. Regrese a korelace.
- Statistické modelování: Zkoumání vztahu mé sledované proměnné k nějakým
dalším proměnným.
- Problém: závislost dvou kvantitativních veličin. Nezávislá proměnná: prediktor,
kovariáta. Závislá proměnná: response variable.
- Jak zobrazit taková data: obě osy spojité.
- Regrese. Asymetrický případ (vím, která je závislá a která ne).
- Statistický model: vyjadřuji sledovanou proměnnou jako funkci nějakých jiných
proměnných a náhodné složky. yi = f(xi)
+ epsi. Náhodná a systematická složka variability Y.
- Náhodnou složku variability předpokládám jen u závislé proměnné!
- Jak může vypadat funkce f. Závisí na znalosti jevu, ale ta často
schází.
- Occamova břitva: nejjednodušší závislost je lineární. To neznamená, že
předpokládám, že svět se chová lineárně, ale to, že jej mohu lineárním modelem
aproximovat (v určitém rozsahu hodnot). Přímka má taky málo parametrů.
- Statistický model lineární regrese. Očekávaná hodnota y je lineární
funkcí prediktorů: Eyi = bxi + a.
- Rozložení hodnot y kolem očekávané hodnoty je normální, yi
= bxi + a + epsi, kde eps je normálně
rozložená náhodná proměnná se střední hodnotou 0.
- Jak najít parametry přímky? Hledám: parametry, které poskytnou nejlepší
shodu s daty. Definice kritéria shody s daty.
- Metoda nejmenších čtverců: minimalizace kritéria shody. (Fitting,
fit.) a a b lze pak přímo získat z matice dat.
- [Metoda maximum likelihood.]
- Regresní koeficient a úsek na ose Y. Rozměr regresního koeficientu a úseku
na ose Y. Numerická hodnota regresního koeficientu proto závisí na použitých
jednotkách - bez této znalosti není interpretovatelná. Standardizovaný regresní
koeficient (beta).
- Střední chyba odhadu regresního koeficientu a jeho konfidenční interval.
- Predikce vs. pozorovaná hodnota, residuály: zkoumání vhodnosti modelu.
Residuály: definice, interpretace, použití. Residuály a náhodná variabilita
mají smysl jen pro proměnnou y (závislou).
- Parametry regrese jsou citlivé k odlehlým hodnotám. Jejich identifikace,
dva typy odlehlých hodnot: odlehlé na ose X (špatný výběr a pokrytí rozsahu
nezávislé proměnné), odlehlé na ose Y (chyba měření nebo neznámý jev).
- Regresní techniky jsou použitelné jen v intervalu, kde byly odvozeny koeficienty
(extrapolace obvykle neproveditelná)
- Testování signifikance v regresi: Testuji hypotézu: regresní koeficient
v základním souboru (obvykle se značí beta) = 0. Znázornění obrázkem.
- Rozklad variance poté, co mám nalezenou regresní přímku. Co je systematická
a co náhodná složka rozptylu.
- Testové kritérium: F-statistika. Poměr variancí: systematické a residuální
(dva parametry stupňů volnosti). Převedení na test: pravděpodobnostní rozložení
F statistiky za předpokladu platnosti nulové hypotézy.
- Korelace: Symetrický případ (nevím, která je závislá a která ne)
-> korelace. Proč v takovém případě nelze použít regresi. Pojem kovariance,
korelační koeficient. Rozměr korelačního koeficientu.
- Koeficient determinace. Podíl variability jedné proměnné vysvětlené změnami
druhé proměnné. R2 = SSregrese / SScelk.
Podíl sumy čtverců vysvětlené regresí k celkové sumě čtverců.
- Testování signifikance korelačního koeficientu: převedení na t-test. Rozdíl
mezi mírou intensity vztahu (korelační koeficient) a pravděpodobností toho,
že vztah je/není důsledkem náhody. Jaká je nulová hypotéza. Dvoustranný vs.
jednostranný test.
- Vztah intenzity závislosti ( korelační koeficient) a signifikance (test
- F-statistika, t-statistika) - bez přímého vztahu (signifikance je vždy krom
intensity závislosti ovlivněna počtem případů)
- Korelace (statistický vztah dvou proměnných) neznamená samozřejmě vliv jedné
proměnné na druhou.
(5a) Regresní analýza kvantitativních dat: Mnohonásobná
regrese. Výběr nejvhodnějšího modelu.
- Testy signifikance v regresi: formulace nulové hypotézy. Testuji
hypotézu: regresní koeficient v základním souboru (obvykle se značí beta)
= 0. Znázornění obrázkem.
- F-statistika: Rozklad variance poté, co mám nalezenou regresní přímku. Co
je systematická a co náhodná složka rozptylu.
- Testové kritérium: F-statistika. Poměr variancí: systematické a residuální
(dva parametry stupňů volnosti). Převedení na test: pravděpodobnostní rozložení
F statistiky za předpokladu platnosti nulové hypotézy.
- Signifikance korelačního koeficientu.
- Mnohonásobná regrese: zobecnění jednoduché regrese na více prediktorů,
posun z roviny (y ~ x, tj. dva rozměry) do mnohorozměrného prostoru (y ~ x1
+ x2 + x3 ...; pro každou další vysvětlující proměnnou
jeden další rozměr). Geometrické znázornění pro dva prediktory v trojrozměrném
prostoru. Obecně pro n prediktorů n+1 rozměrný prostor.
- Počet parametrů v mnohonásobné regresi: každá další vysvětlující proměnná
znamená jeden parametr navíc (v zásadě regresní koeficient závislé proměnné
na této vysvětlující proměnné). Model: závislost očekávané hodnoty y na všech
prediktorech. Složitost modelu - počet prediktorů v modelu.
- Hledání hodnot parametrů (regresních koeficientů - jeden pro každou nezávislou
proměnnou). Pozorované hodnoty y, očekávané hodnoty y jako v jednoduché regresi.
- Odhadnuté hodnoty regresních koeficientů závisí na všech ostatních proměnných
v rovnici (model dependence).
- Počet stupňů volnosti modelu: = počet odhadovaných parametrů. Residuální
počet stupňů volnosti v regresi: = počet pozorování počet odhadovaných
parametrů.
- Koeficient mnohonásobné korelace R, determinace: R2.
- Testy v mnohorozměrné regresi.
- Celkový test modelu: F-statistika.
- Testy regresních koeficientů (pomocí t=kritéria jako v obyčejné regresi).
Závislost na modelu: signifikance je mj. závislá na dalších členech, které
v modelu jsou (nebo nejsou).
- Mnohonásobná regrese je málo informativní v případě, když nezávislé proměnné
jsou korelované.
- Problém korelace mezi nezávislými proměnnými. Jakou informaci data obsahují
(a neobsahují) pokud jsou prediktory korelované.
- Postupná regrese, výběr nejvhodnějšího modelu.
- Hledání nejvhodnějšího modelu (...nejlepší kombinace prediktorů) technikami
postupné regrese. Typicky v situaci, kdy mám potenciálně mnoho prediktorů,
a hledám těch několik málo, které jsou pro vysvětlení variability závislé
proměnné nejdůležitější.
- Postupná regrese: přidávání nebo ubírání členů modelu a srovnávání dvojic
mnodelů.
- Přidávání členů v postupné regresi: jak identifikovat prediktor, který mám
přidat.
- Srovnávání modelů. Vždy srovnávám dva modely, které se liší právě jedním
členem. Jak poznat, že přidávaný člen vysvětlí už dost málo variability (a
tudíž by neměl být přidán).
- "Naivní" možné kritérium pro srovnání modelů: rozdíl v koeficientu
mnohonásobné determinace. Testování není nejvhodnější - opakované použití
dat pro několik testů.
- Problém počtu parametrů v modelu: čím více parametrů, tím lépe může model
vysvětlovat (ta konkrétní) data. Geometrická analogie. Větší počet parametrů
nutně umožňuje lepší fit (shodu modelu s daty). Nicméně zvýšení počtu
parametrů znamená nutně také snížení residálních počtů stupňů volnosti, a
tedy nízkou prediktivní sílu (pokud se z modelu vypočte očekávaná hodnota
závislé proměnné pro objekt, který nebyl v datech, nebude poskytovat dobrou
informaci o skutečné hodnotě závislé proměnné daného objektu).
- Overparameterised model: model s malým počtem residuálních d.f.,
s dobrých fitem na konkrétní data, ale jinak bezcenný - při rozšíření datového
souboru nefunguje.
- Koeficient mnohonásobné determinace nezohledňuje počet parametrů modelu
a není tedy nejvhodnější.
- Nárůst R2 u složitějších modelů může být důsledkem jak toho, že model je
lepší (postihuje skutečné vztahy mezi proměnnými), tak i toho, že složitý
model nutně lépe popisuje stávající data, ale právě jen je (což nemá nic společného
s popisem skutečných vztahů mezi proměnnými). Jak tyhle dva jevy odlišit.
- Adjusted R2. Podíl sumy čtverců vysvětlené regresí k celkové sumě čtverců
je třeba snížit, protože pokud model má hodně parametrů, suma čtverců vysvětlená
regresí bude nutně vyšší. Ke korekci se používá poměr počtu stupňů volnosti:
čím víc parametrů je v modelu relativně vůči počtu pozorování, tím nižší bude
Adjusted R2. Adjusted R2 = 1-(SSerror / SScelk)
* (dfcelk / dferror).
- Jiný postup: AIC (Akaike's information criterion): -2*log(věrohodnost
modelu) + 2*(počet parametrů + 1). U dobrých modelů jsou obě složky malé (jsou
věrohodné a mají málo parametrů). AIC znevýhodňuje ("penalizuje")
modely, které pro danou věrohodnost potřebují hodně parametrů (tj. mají menší
prediktivní schopnost).
- Srovnávání modelů pomocí AIC: Nejlepší model jen ten, který má nejmenší
hodnotu AIC (největší věrohodnost pro daný počet parametrů, nejmenší počet
parametrů pro dabou věrohodnost).
- AIC neříká nic o tom, jak vybraný model dobře popisuje data (je důsledně
jen relativní míra na srovnání mezi modely). Je pro třeba doprovodit nějakou
mírou síly efektu, např. R2
- [Věrohodnost je míra toho, jak dobře daný model s danými parametry popisuje
data. Používá se například k hledání nejlepších hodnot parametrů pro daný
datový soubor.]
- Backward stepping, forward stepping.
- Způsoby výběru nejlepších prediktorů (postupná regrese): nemusí nutně vést
ke globálně nejlepšímu řešení. Existují rafinovanější algoritmy. Výhody Backward
stepping.
(5b) Regresní analýza kvantitativních dat: pokračování.
Parciální regrese. Nelineární data v regresi, nelineární regrese. Lokální regrese.
Regresní diagnostika.
- Parciální regrese.
- Efekty jednotlivých prediktorů se mohou maskovat: jak najít "čistý"
efekt nějakého prediktoru.
- Parciální regrese: regrese po odstranění vlivu vybraných proměnných (přes
známou třetí veličinu). Parciální regrese předpokládá, že vím, která závislá
proměnná mě zajímá vic (pro tu počítám parciální regresi) a která míň (vliv
té odstraňuju). Regrese residuálů (z regrese na nezajímavé proměnné) k zajímavé
proměnné.
- Parciální regresní koeficient, parciální korelační koeficient.
- Problém korelace mezi nezávislými veličinami (prediktory) v regresi: korelace
znamená, že ne všechny kombinace prediktorů existují (že pro ně jsou k disposici
pozorování závislé veličiny). Korelované prediktory a postupná regrese. Jsou-li
prediktory korelované, statisticky nelze rozlišit, kterému z nich připsat
"skutečný" vliv na závislou proměnnou.
- Nelineární regrese.
- Předpoklad linearity v regresi.
- Když není splněn, ale znám nebo mohu předpokládat typ závislosti (protože
znám mechaniku sledovaného procesu nebo geometrii závlosti). Např. u radioaktivního
rozpadu vím, že počet rozpadů exponenciálně klesá s časem. Pak typická otázka
je často po odhadu numerické velikosti koeficientu (např. intensity radioaktivního
rozpadu), případně test toho, zda jsou data s daným modelem kompatibilní nebo
ne (zda se od něj signifikantně liší/neliší). Možné postupy:
- (i) linearizace transformací (exponenciální, log, power, reciproký
model, arsin transformace podle toho, jak vypadá očekávaná závislost)
- (ii) nelineární regrese (fituji přímo netransformovanou závislost, zpravidla
jen numericky)
- Poznámka. Tvary Ey = axb a log
(E y) = log a + b log x jsou sice matematicky
ekvivalentní, ale statisticky ne, protože transformace závislé proměnné
znamená i transformaci kritéria pro sumu čtverců a reziduálů, což vede
k (trochu) jiným odhadům parametrů. Nelineární regrese (tj. bez transformace)
je proto zpravidla lepší.
- Když není splněn, ale o závislosti nic nevím (tj. mám k disposici jen empirické
zjištění nelinearity v obrázku): pak typická otázka je buď predikce (zjistit
hodnoty y pro nějaké další x), nebo popis dat nebo identifikace
typu zakřivení ("jaká nelinearita", a zda vůbec data poskytují podklad
pro tvrzení, že závislost je nelineární).
- transformace (odmocninová, log(x+1)). U logaritmu pozor na velikost
aditivní konstanty - "1" znamená jednu jednotku v níž je x
měřeno a musí tedy mít smysl ve vztahu k měřeným hodnotám.
- Polynomická regrese: aplikace mnohonásobné regrese. Potíže s interpretací
koeficientů, overparameterization. Jak identifikovat vhodný model
postupnou regresí. Velmi vhodná pro test toho, zda v datech vůbec nelinearita
je (test signifikance členu druhého řádu)
- Lokální regrese: zásady, použití. Residuály. LOESS smoother.
Empirický (data-driven) postup, velmi flexibilní (jako polynomická
regrese), ale málo vysvětlující (generování hypotéz). Méně náročný na
počet parametrů. Parametry LOESS.
- Regresní diagnostika.
- Identifikace vhodnosti modelu pomocí residuálů (a standardizovaných reziduálů)
- rozložení residuálů (pokud není normální, model není asi vhodný), závislost
residuálů na hodnotě prediktoru nebo na očekávané hodnotě (pokud závislost
existuje, model asi není vhodný).
- Cookova vzdálenost daného objektu: jeho vliv na hodnotu parametrů regrese.
Extrémní hodnoty znamenají ty objekty, které mají disproporčně velký vliv
- Odlehlé hodnoty: odlehlé na ose x i na ose y (typicky mají velkou Cookovu
vzdálenost): špatné pokrytí hodnot prediktoru. Víceméně rovnoměrné pokrytí
hodnot prediktoru je předpoklad regrese. Náhodnost výběru: jen v rámci kategorií
prediktoru.
- Odlehlé hodnoty: odlehlé jen na ose y (také mají velkou Cookovu vzdálenost,
ale ne tolik): ty jsou obzvlášť podezřelé - možnost chyby v datech, možnost
důležité ale nezahrnuté další proměnné.
(6) Analýza variance: úvod, jednocestná ANOVA, mnohonásobná
porovnávání, dvoucestná ANOVA, interakce.
- Jednocestná (one-way) ANOVA
- Problém: závislá proměnná kvantitativní (např. výnos), ale nezávislá proměnná
kategoriální (ošetření, faktor),
- Terminologie: ošetření (treatment), faktor (=nezávislá proměnná),
hladina faktoru, replikace (opakování - pozor, to není opakované měření na
jednom objektu), sledovaná (= závislá proměnná), response variable
- Zobrazení dat: x-osa kategoriální, y-osa kvantitativní (box-and-whisker
plots, průměry a střední chyby)
- Suma čtverců a její rozklad: systematická, residální. Mean square. Parametry
stupňů volnosti: m-1 pro systematickou a n-m pro residuální;
m počet hladin faktoru, n počet případů
- F statistika: poměr "variancí": systematické a residuální
(dva parametry stupňů volnosti: m-1 v čitateli a n-m ve jmenovateli).
Převedení na test: pravděpodobnostní rozložení F statistiky za předpokladu
platnosti nulové hypotézy.
- Statistický model jednocestné ANOVA. Vztah mezí ANOVA a regresí.
- Předpoklady: normální rozdělení, homogenita variancí. Jak je robustní. Možná
náhrada pomocí pořadového testu.
- Testy homogenity variancí: Bartlett, Levene. Grafické zkoumání. Transformace
k zísakání přibližné homogenity avriancí.
- Případ s více hladinami nezávislé proměnné: ANOVA říká, že hodnoty se od
sebe liší, ale neříká, které. Přitom to je zpravidla ta důležitá otázka.
- Mnohonásobná porovnávání: Proč nelze párově testovat. Počet stupňů volnosti
- jednotlivá srovnání na sobě nejsou nezávislá (stane-li se něco s jednou
plochou, ovlivní to nejméně dvě srovnání). Proč nemohu vybrat páry pro testování
ex post: směšování vytváření hypotéz s testováním (plánovaná a neplánovaná
srovnání - pro plánovaná srovnání musí být hladiny, jež mají být srovnávány
vybrány na základě úvah, učiněných dříve, než je znám výsledek pokusu - tj.
apriorně, nikoli aposteriorně).
- Testy mnohonásobných porovnávání (Multiple range tests): Tukeyův HSD test,
Schefféův test, LSD, mnohočetné srovnání s kontrolou: Dunnettův test
- Jaký smysl mají hladiny nezávislé proměnné. Model I (pevné efekty) a Model
II (náhodné efekty) ANOVA. Model I: hladiny faktoru dané experimentem nebo
povahou věci, nemůže jich být více; u model II jde o náhodný vzorek většího
universa možností. U model I nulová hypotéza rovnost průměrů (přitom efekty
mohou být nenulové, jen jsou stejné), u Model II zanedbatelnost variance mezi
hladinami faktoru (průměr efektů je nula). U model II myšlenka sampling (je
to vzorek z mnoha hladin), u model I jiné hladiny nemají dobrý smysl. Mnohonásobná
srovnání: má smysl u model I ANOVA (protože tam vím, která hladina je která),
ale ne u model II ANOVA. Někdy záleží na volbě, jaký model to je: Klíč: zvolím
stejné hladiny v opakovaném pokusu?
- Dvoucestná ANOVA: dva nezávislé kombinované faktory.
- Interakce: vliv faktoru 1 a faktoru 2 nejsou aditivní: potřebuju vědět
hladinu faktoru 1 pro to, abych dokázal říci, jak působí faktor
2.
- Jak zobrazit tato data: graf průměrů, jednotlivých objektů, box-and-whisker
plots. Jak ukázat interakci (čáry spojující průměry nejsou rovnoběžné).
- Rozklad variance na složky s interakcí a bez ní. Konstrukce F-statistik,
tabulka analýzy variance. Vliv zahrnutí interakce na residuální sumu čtverců.
- Statistický model vícecestné ANOVA s interakcemi.
(6) Analýza variance: Další situace řešené analýzou variance
- Hierarchická (nested) ANOVA. Hierarchie variancí. Příklad:
hierarchie variancí při měření pH v půdě: přesnost měření jednoho výluhu,
výluhy z jednoho vzorku, vzorky z jednoho odběru, víc odběrů na stanovišti.
- Rozklad variance na složky. F-statistika v hierarchické ANOVA: residuální
variance na nejbližší nižší úrovni (residuální počet stupňů volnosti: kolik
nezávislých objektů mám k disposici pro testování efektu, který mě
zajímá?). Residuální variance n-té úrovně je systematickou složkou
n+1 úrovně. Nižší úrovně mají zpravidla smysl náhodných faktorů; nejvyšší
úroveň může být náhodná i pevná.
- Split-plot ANOVA: Hierarchická struktura dat. Jednotlivé
nezávislé proměnné jsou definovány na různých úrovních. To určuje to, kolik
nezávislých objektů (~d.f.) má člověk k disposici pro provedení testu té příslušné
proměnné (počet objektů je dán počtem nezávislých opakování ve vztahu
k dané proměnné).
- Testy ve split plot ANOVA: residuální počty stupňů volnosti podle toho,
na jaké úrovni hierarchie je proměnná definována. Interakce ve split-plot
ANOVách.
- Opakovaná měření (repeated measurements) téhož objektu: pozor!
nejsou to nezávislé hodnoty. Opakovaným měřením se nezvyšuje počet případů
ani počet stupňů volnosti pro stanovení vlivu treatmentu. Jde o speciální
případ split-plot analýz.
- Obvykle se používají pro hodnocení měření v čase, ale nepředpokládají uspořádanost
hladin faktoru (záznamových časů) za sebou. Co dělat, pokud je třeba testovat
trend v čase (orthogonální polynomy).
- Použití ANOVA s opakovanými měřeními při vyhodnocení pokusů: záznam výchozího
stavu na jednotlivých plochách (před ošetřením), 1 nebo více záznamů po ošetření.
Nejdůležitější test vlivu ošetření je pak test interakce ošetření*čas (tj
test divergence vývoje sledované veličiny na oštřených a neošetřených plochách).
- Složitější modely s Model I (pevné efekty) a Model II (náhodné efekty),
smíšené modely.
- Problém: nezávislá proměnná kvalitativní a kvantitativní, závislá proměnná
kvantitativní: analýza kovariance (ANCOVA). Test sklonu a shody průměrů
(hlavní efekty) a test shody sklonů (interakce mezi nezávislými proměnnými).
- Statistický model ANCOVA s interakcemi. Smysl jednotlivých členů modelu.
(7) Neparametrické testy
- Princip, použití, omezení. Umožňují test, ale neumožňují fit statistického
modelu s parametry.
- Neparametrické testy korelace: Spearmanův test, Kendallův test. Jediný předpoklad:
monotónní závislost.
- Kruskal-Wallisův test jako analogie jednocestné ANOVA
- Friedmannův test (dvoucestná ANOVA)
(8) Analýza frekvencí: kontingenční tabulky, logistická
regrese
- Problém: kvalitativní odpověď (dvouhodnotová, vícehodnotová): Problém je
zejména v tom, že rozložení závislé proměnné není možné aproximovat normálním
rozdělením. Nelze proto použít statistický model s eps normálně rozloženým.
- Prozatím: jen data s nezávislou proměnnou kvalitativní (lze sestavit frekvenční
tabulku). Typ dat, výpočet frekvenční tabulky. Marginální frekvence: počty
událostí jedné proměnné (bez ohledu na hodnoty druhé proměnné)
- Frekvenční tabulka (obecný případ, speciální případ 2x2).
- Dva typy použití:
- (i) síla vazby proměnných v tabulce 2x2: nezávisí na počtu jedinců.
Analogie korelačního koeficientu.
- (ii) test nenáhodnosti v obecné tabulce: závisí na počtu jedinců.
- Konstrukce očekávaných frekvencí ve frekvenční tabulce: násobení pravděpodobností.
Předpoklad náhodnosti: očekávané a pozorované frekvence se neliší
- Odbočka. Genetika: jak testovat shodu pozorovaných dat (žlutých a zelených
semen) s modelem (3:1): Testy dobré shody (Goodness of fit).
- Chi2, vychází ze součtu čtverců odchylek pozorovaných
a očekávaných (vypočtených z očekávaného poměru 3:1 v jednoduchém mendelistickém
případě) frekvencí. Chi2 rozdělení.
- log likelihood ratio test: srovnání dvou pravděpodobností získání
pozorovaných dat: jejich pravděpodobnosti za předpokladu testovaného modelu
(3:1 v jednoduchém mendelistickém případě) a nejlepšího možného modelu
(takového, kde "teoretický" poměr se odhadne přímo z dat). -2*
ln (poměr těchto pravděpodobností). Různá označení: G-test, LLR
test. Má také Chi2 rozdělení.
- Počet stupňů volnosti: počet buněk - počet parametrů, jež je třeba mít
k výpočtu očekávaných frekvencí.
- Testy ve frekvenční tabulce: Chi2, vychází ze součtu
čtverců odchylek pozorovaných a očekávaných dat. Chi2 :
počet stupňů volnosti
- log likelihood ratio test: srovnání dvou pravděpodobností získání
pozorovaných dat: jejich pravděpodobnosti za předpokladu testovaného modelu
(v tomto případě nezávislosti, čili očekávaných na základě marginálních frekvencí)
a nejlepšího možného modelu (který vysvětluje data úplně, čili bere v úvahu
i závislost jedná proměnné na druhé)
- Problém nespojitých dat (pozorované frekvence jsou vždy celočíselné, zatímco
očekávané frekvence nikoli) a shody s očekáváním: potřeba korekce (Yatesova
korekce)
- Fisherův exaktní test: jen v tabulkách 2x2, test bez testového kritéria:
pravděpodobnost se přiřazuje tabulce přímo. Předpoklad: uspořádání tabulek
na ose síly vazby.
- Residuály - odchylky od očekávané hodnoty. Lze použít též identifikovat,
jaká políčka nejvíc přispívají k nenáhodnosti
- Poznámka: jak jsou určeny marginální frekvence: dané pro obě (model III,
Fisherův exaktní test), dané pro jedno, daný jen celkový počet případů.
- Závislosti více veličin: mnohonásobná kontingenční tabulka, marginální
tabulky, parciální tabulky (řezy tabulkou), strukturní nuly. Lze zobecnit
testování pomocí srovnání očekávaných a pozorovaných frekvencí (log-lineární
model).
- Další problém: kategoriální veličina závisí na spojitých (frekvence jevu
jako funkce nějakých spojitých parametrů).
- Nelze analyzovat pomocí ANOVA: statistický model musí být formulován tak,
aby závislá proměnná (tj. ta kategoriální) měla náhodnou složku variability
(nikoli tak, aby náhodnou složku variability měla ta spojitá, jako je tomu
v případě ANOVA.)
- Je třeba použít analogii regrese, ale to se setkává s následujícími potížemi:
- Závislost očekávané hodnoty y na x není (ani trochu!) lineární
- Chyby nejsou normálně rozděleny (rozptyl závisí na očekávané hodnotě
y)
- Logistická regrese: sigmoidní křivka. p = ea+bx
/ (1+ea+bx).
- Odds ratio: poměr úspěchů k neúspěchům pro danou kombinaci prediktorů.
- Alternativní formulace statistického modelu logistické regrese: logit(p)
= log(p/(1-p)) = a+bx.
- Binomické rozdělení hodnot závislé proměnné (model házení korunou, kdy pravděpodobnost
toho, že padne hlava, závisí na hodnotách nezávislých proměnných).
- Testování jednotlivých členů modelu. Analogie postupné regrese.
- Deviance jako míra fitu jednotlivých modelů: vychází z log likelihood
ratio -2 ln [(pravděpodobnost dat za teoretického modelu) / (pravděpodobnost
dat za saturovaného modelu)]. Saturovaným modelem se myslí nejlepší myslitelný
model (který vysvětlí data nejlépe). Vlastnost aditivity: rozdíl deviancí
mezi dvěma do sebe vřazenými modely (tj. lišícími se zahrnutím jednoho nebo
několika parametrů) má také Chi2 rozdělení s počtem stupňů
volnosti daných počtem těchto parametrů. Použití jako test signifikance těchto
parametrů (při daném modelu)
(9) Zobecnělé lineární modely.
- Požadavek na typ rozdělení se týká jen závislé proměnné (je
to rozložení jejích skutečných hodnot kolem očekávané hodnoty). Je proto třeba
zkoumat rozdělení hodnot závislé proměnné pro danou kombinaci hodnot
nezávislých proměnných (nikoli rozdělení bez ohledu na hodnoty nezávislých
proměnných). Zkoumání rozdělení hodnot y bez dalšího proto není vždy dost
informativní, je lépe zkoumat residuály (ale ty už závisí na použitém modelu...).
- Jak zjistit rozdělení výchozích dat I: Testy shody s teoretickým rozdělením
(chi2 nebo jiný test dobré shody, Kolmogorov-Smirnov, Shapiro-Wilks).
Problém: je-li případů málo, test není signifikantní ani v případě velké odchylky,
je-li případů mnoho, je signifikantní, i když odchylka je tak malá, že neovlivní
statistickou inferenci.
- Jak zjistit rozdělení výchozích dat II: Grafické postupy jsou lepší. Histogramy,
Q-Q plot: kvantily mého rozložení proti kvantilům standardního normálního
rozložení.
- Jak zjistit rozdělení výchozích dat III: Rovněž je důležitá úvaha o generujícím
procesu, možná přítomnost nulových hodnot, to, zda mají smysl i neceločíselné
hodnoty, reakce na transformaci (log, sqrt) - graficky.
- Jak naložit s daty, která nejsou normálně rozložena:
1. Neparametrické testy. Typicky nepředpokládají žádné specifické rozdělení,
ale bývají slabší.
2. Převést na normální rozdělení. Log, sqrt, mocninná transformace. Vhodné
zejména pokud v datech je hierarchie variancí (split-plot design, opakovaná
měření, atd.), protože tam lze hůř použít GLIM. Někdy není možné - nuly, binární
data, nespojitá data. [Dva důvody transformací ve statistice: (i) linearizace
závislostí (tam jak x tak y podle potřeby, (ii) úprava rozdělení
závislé proměnné (tam jen y)]
3. Randomizační testy. Velmi robustní, ale testují trochu jinou nulovou hypotézu.
Na rozdělení dat v zásadě nezávisí. Ve složitějších případech může být jejich
provedení obtížnější a nejednoznačné.
4. Zobecněný lineární model - Generalized linear model. Pracuje se
specifickými rozděleními (jako lineární model), ale umožňuje pracovat s poměrně
rozmanitými rozděleními.
- Generalized linear model.
- Příklady závislých proměnných s jiným než normálním rozdělením:
- binomické: počet "hlav" z celkového počtu hodů (např. počet
rostlin, které vykvetly, pokud znám celkový počet rostlin),
- Poissonovo: počet (např. počet potomků na jedince),
- Gamma (mnoho sešikmených biologických rozdělení, např. velikost),
- exponenciální (doba života - modely přežívání).
- Projevem toho je mj. závislost rozptylu na průměru. Jak v různých teoretických
rozděleních závisí rozptyl na očekávané hodnotě y: binomické - unimodální,
Poissonovo - lineární, Gamma - kvadratická (Gaussovo/normální - rozptyl na
očekávané hodnotě y nezávisí)
- Použití modelu s nějakým rozložením nepředpokládá, že data to rozložení
musí mít, ale to, že je možné je jím aproximovat.
- Opakování: Co to je statistický model. Obecný lineární model (general
linear model, GLM): očekávaná hodnota y je lineární funkcí prediktorů.
Ey = ax+b. Rozložení hodnot y kolem očekávané hodnoty je normální,
y = ax+b + eps, kde eps je normálně rozložená náhodná
proměnná se střední hodnotou 0.
- Opakování terminologie: Nezávislá proměnná: prediktor, faktor, kovariáta
(tak se jí říká obvykle v případě, že mě nezajímá a chci její vliv odfiltrovat
pomocí parciální analýzy). Závislá proměnná: response variable
- Zobecnění principu logistické regrese (nelineární závislost očekávaných
hodnot na x, jiné než normální rozdělení hodnot y)
- Zobecněné lineární modely (generalized linear models, GLIM): dva
rozdíly proti lineárním modelům:
- Zavedení transformační funkce (link function): g(Ey)
= ax+b. Ta umožní převést rozsah hodnot lineárního prediktoru (všechna
reálná čísla) na rozsah hodnot závislé proměnné, které mají smysl (viz
tabulka).
- Rozložení hodnot proměnné kolem očekávané hodnoty pro danou kombinaci
nezávislých proměnných není normální/Gaussovo, ale takové, aby
umožnilo postihnout právě závislost rozptylu na očekávané hodnotě y (binomické,
Poissonovo, Gamma).
- Často používané typy zobecněných lineárních modelů:
Model |
Rozdělení |
Závislost rozptylu na Ey |
Povolené hodnoty Ey |
Obvyklá link function |
Typická data |
Logistická regrese |
binomické |
unimodální, s maximem v intervalu (0,1) |
<0,1>, spojité |
logit
|
počet "úspěchů", včetně nulových hodnot, z předem
známého počtu pozorování. Maximální počet je omezen počtem pozorování.
(např. počet rostlin v pokusu, které vykvetly) |
Poissonovská regrese |
Poissonovo |
lineárně rostoucí |
<0,+inf), celočíselné |
log |
počty, včetně nulových hodnot, ale bez omezení seshora (např.
počet potomků na jedince) |
Gamma regrese |
Gamma |
kvadraticky rostoucí |
(0,+inf), spojité |
1/x |
spojitá sešikmená data, bez nulových hodnot (např. biomasy,
velikostní rozměry ap., zejména pokud rozsah hodnot je velký - přes více
řádů) |
Obecný lineární model |
normální (Gaussovo) |
konstantní |
(-inf,+inf), spojité |
identita |
spojitá symetricky rozložená data (např. biomasy
nebo velikostní rozměry, pokud rozsah hodnot je malý) |
- NB. Obecný lineární model (ANOVA, lineární regrese jednoduchá i mnohonásobná,
ANCOVA) je speciální případ GLIMu (normální rozdělení, identity link).
[V ANOVA/ANCOVA je nezávislá proměnná kategoriální, ale to nevadí.]
- NB. Hodnoty x: residuály a náhodná variabilita mají smysl jen pro proměnnou
y (závislou). Proto rozložení má cenu zkoumat jen u závislé proměnné.
- NB. "Rozdělení" není rozdělení všech hodnot závislé proměnné,
ale rozdělení hodnot závislé proměnné pro danou kombinaci prediktorů (rozdělení
hodnot y kolem Ey)
- Srovnání očekávaných a pozorovaných hodnot: deviance (log likelihood
ratio; - 2* log poměru pravděpodobnosti pozorovaných dat za testovaného
a saturovaného modelu). Chi2 rozdělení. Použitá míra deviance závisí
na použitém rozdělení (to určuje pravděpodobnosti pozorovaných dat, a zohledňuje
závislost rozptylu na průměru)
- Odhad parametrů v zobecnělém lineárním modelu: zobecnění postupu nejmenších
čtverců (proč je třeba zobecňovat), numerické postupy.
- Použití specifických rozdělení (Poissonovo, binomické, gamma) klade speciální
požadavky na dispersi dat (protože rozptyl je funkcí průměru, tj. očekávaných
hodnot). Empiricky se ale často ukazuje, že disperse dat je jiná (typicky
větší) než předpokládá model. "Overdispersed data." To může
být důsledkem toho, že důležité prediktory (= zdroje variability) nejsou v
modelu zahrnuty, nebo toho, že proces generující variabilitu není v daném
případě přesně takový, jako model předpokládá (třeba binomický nebo Poissonovský).
Příklad: zero-inflated Poisson. Jak zacházet s takovýmito daty.
- Mnohonásobná zobecnělá regrese: zobecnění jednoduché regrese. Koeficienty
závisí na všech ostatních proměnných v rovnici (model dependence).
- Počet parametrů: větší počet parametrů nutně umožňuje lepší fit (shodu
modelu s daty).
- Testování jednotlivých členů v modelu pomocí rozdílu deviancí. Aditivita
deviancí: rozdíl deviancí mezi dvěma do sebe vřazenými modely (tj. lišícími
se zahrnutím jednoho nebo několika parametrů) má Chi2 rozdělení
s počtem stupňů volnosti daných počtem těchto parametrů.
- Test signifikance členu modelu je rozdíl deviancí mezi dvěma modely lišícími
se právě tímto členem. Test členu proto v obecném případě závisí na struktuře
modelu (tj. na tom, jaké další členy jsou přítomny). [Poznámka. Nezávisí na
něm právě v případě, kdy všechny nezávislé proměnné jsou orthogonální, tj.
zcela na sobě nezávislé.] (Ale pozor na problém z postupné regrese: opakované
testy na týchž datech.)
- Problém počtu parametrů v modelu: čím více parametrů, tím lépe může model
vysvětlovat (ta konkrétní) data. Nicméně zvýšení parametrů znamená nutně snížení
residálních počtů stupňů volnosti, a tedy malou sílu testu (a špatnou prediktivní
sílu). Overparameterised model: model s malým počtem residuálních d.f.,
s dobrých fitem na konkrétní data, ale jinak bezcenný.
- AIC (Akaike's information criterion): znevýhodnit modely, které mají
hodně parametrů. To je výhoda proti rozdílům deviancí. Nevýhoda: Numerické
hodnoty nemají žádnou interpretaci: pokud jsou všechny modely špatné, stejně
vybere ten relativně nejlepší.
- Hledání nejvhodnějšího modelu. Problém identifikace nejvhodnějšího modelu:
postupné techniky, analogicky lineárním modelům.
- Interakce v modelech: je možné definovat podobně jako v analýze variance.
Smysl je stejný. "Hierarchický" model (neplést s hierarchickou ANOVA)
je takový, který pokud obsahuje nějakou interakci (např. A*B) obsahuje i její
složky (tedy nezávisle A i B).
- Potíže s odhadovaním podílu vysvětlené variability (analogie koeficientu
determinace).
- Má cenu vůbec používat lineární model (ANOVA, lineární regrese)? Nevýhoda
GLIM: nejsou příliš vhodné pro data s hierarchií variancí (repeated measurements,
split-plot, nested data).
- Má cenu vůbec používat GLIM? Některá data zatvrzele vzdorují transformacím
(to jsou zejména data o počtech s nulovými hodnotami (Poissonovo nebo binomické
rozdělení).
- Terminologie Obecný lineární model vs. zobecnělý lineární model.
(10) Přehled testů na různé typy ekologických problémů.
Přehled běžného softwaru.
Struktura nezávislých proměnných |
Závislá proměnná
|
|
Kvantitativní, nepříliš sešikmená |
(Dvoustavová) kategoriální |
Obecná proměnná (typicky sešikmené proměnné, příp. s
nulami, vzdorující transformaci) |
|
Normální rozdělení |
Binomické rozdělení |
Obecné rozdělení |
jedna kvantitativní |
jednoduchá regrese (lineární nebo ne) |
logistická regrese |
Zobecněný lineární model s příslušným rozdělením chyb |
více kvantitativních |
mnohonásobná regrese, parciální regrese, postupná regrese |
(postupná) logistická regrese |
jedna kategoriální dvoustavová |
analýza variance, t-test |
chi2 test nebo LR test v kontingenční tabulce,
Fisherův exaktní test |
jedna kategoriální vícestavová |
analýza variance, testy mnohonásobných porovnávání |
chi2 test nebo LR test v kontingenční tabulce |
více kategoriálních |
analýza variance, testy interakce |
loglineární model, logistická regrese |
jedna nebo více kategoriálních, opakované záznamy v čase |
analýza variance s opakovanými měřeními |
zobecněné lineární modely nejsou příliš vhodné
pro data s hierarchickou strukturou
|
jedna nebo více kategoriálních, hierarchická struktura dat |
hierarchická (nested) analýza variance |
kvantitativní i kvalitativní |
analýza kovariance |
(postupná) logistická regrese |
Zobecněný lineární model s příslušným rozdělením chyb |
- Důležitá poznámka: je-li víc závislých proměnných, je třeba použít mnohorozměrné
testy.
- Statistický software: uživatelsky příjemné "menší" balíky, "velké"
balíky, statistické jazyky. Nepoužívat programy bez dobré znalosti metod.
(11) Základy plánování ekologických pokusů.
- Otázka: zjistit vliv nějakého faktoru. Otázka formulovaná dopředu.
- Smysl manipulativního experimentu: experimentální faktor učinit nezávislý
na všech ostatních - paralela s parciální regresí/korelací. Ostatní odkázat
do sféry náhody (důsledek vymezení otázky dopředu). Všechno ostatní musí být
stejné. Jak to zajistit.
- Kontrola: bez experimentálního zásahu. No control, no conclusion.
Kdy chybění zásahu je také zásah. Vliv na výběr statistických testů (Dunnettův
test)
- Vliv pozorování (vliv označení na růst odnoží), změny v kontrolách (kdy
žádné ošetření je také ošetření)
- Replikace: kolik opakování uvnitř jednoho ošetření - odhad residuální variance
(vliv na alfa; vztah k síle testu): Power analysis: vztah mezi alfa,
beta, intensitou efektu a počtem opakování.
- Jaký je žádoucí počet opakování/počet stupňů volnosti pro stanovení residuální
variance. i. zdroje (finance), ii. variabilita měření, iii. struktura ošetření,
iv. velikost efektu, v. význam párových srovnání. Správná detekce systematické
složky variance je závislá na odhadu residuální variance.
- Pseudoreplikace: korelace uvnitř ošetření mezi "opakováními".
Pseudoreplikace neumožňuje správnou separaci efektu ošetření a náhodné variability
(zmenšuje složku residuální variance) a vede k příliš liberálnímu testu. Rozdělení
ploch na podplochy není replikace.
- Omezení residuální variance: bloky: možné případy, jednoduchá dělba mezi
bloky. Jakou ANOVu použít. Blok je nezajímavý faktor bez interakce s ostatními
faktory - slouží jen k omezení residuální variance.
- Orthogonální: ve všech blocích musí být zastoupeny treatmenty ve stejném
poměru. Pak lze uvažovat treatmenty nezávisle na blocích.
- Testování dvou faktorů: potřebujeme studovat víc vlivů současně (např.
vliv hnojení a sekání na louku). Vyskytují se všechny kombinace. Kompletní,
Vyvážený (vyrovnaný) design.
- Vyšší počty faktorů: opakování uvnitř jednoho ošetření není nutné. Předpoklady:
(i) nezajímají mě všechny interakce, (ii) je možné určit sigma z průměrných
čtverců vyšších interakcí (tj. efekty interakcí jsou malé). "Occamovský
princip": čím nižší řád interakce, tím více významný.
- Komplikované případy (přirozená velikost bloků a nejsou tam všechna ošetření).
Latinský čtverec.
- Split plot designs: dvojí struktura: pokud ošetření se vztahuje k různým
experimentálním jednotkám (např. políčka a rostliny). Vyšší úroveň (whole
plots): hlavní efekt, residuální suma čtverců; nižší úroveň (split
plots): hlavní efekt, interakce, residuální suma čtverců.
Několik metodologických zásad sběru dat
- Výpověď o nějakém jevu je možné dát jen na základě srovnání. Umožní
říci, jak moc je moc (srovnání numerických hodnot/velikostí), jak vzácné je
vzácné (srovnání četností výskytu) a podobně. Je důležité, aby se srovnávaly
srovnatelné objekty (tj. takové, které se liší pouze, nebo hlavně studovaným
jevem a v ostatních parametrech jsou si podobné).
- Každý experiment musí být proveden s patřičnou kontrolou. Obě varianty
se musí lišit právě jen tímto faktorem - jinak je pokus špatně založen. Proto
pro každý experiment je důležité rozhodnout, jak musí kontrola vypadat, a
podle toho jej naplánovat a provést.
- Opakování studovaného jevu. Každý případ je unikátní; unikáty nejsou
vhodné pro formulování obecných tvrzení. Obecnější tvrzení lze formulovat
teprve se znalostí mnoha případů studovaného jevu, které umožní odlišit obecné
od zvláštností každého případu (techniku jak to provést poskytuje biostatistika).
Proto každý pokus/pozorování musí být proveden v několika identických opakováních.
- Pozor na pseudoreplikace. Mám-li malý počet objektů jednoho typu,
není možné to dohnat tím, že na každém odeberu mnoho vzorků. Těchto deset
vzorků si bude velmi podobných (právě proto, že pocházejí z jednoho objektu).
Jedinou skutečně správnou cestou je vyrazit do terénu a hledat další, nezávislé
objekty.
- Pozor na past malého počtu opakování. (i) jeden objekt, hledání
vnitřní struktury a závislostí uvnitř tohoto objektu: základní jednotky studia
budou menší plochy uvnitř. (ii) velké množství objektů, vztahy mezi těmito
objekty, ignorovat jejich vnitřní strukturu: základními jednotkami pak budou
celé objekty. (iii) nebezpečná zóna malého počtu objektů (dejme tomu 4-7):
je jich příliš mnoho na studium jako unikát; příliš málo pro studium jako
souboru objektů (protože 4-7 pozorování je prostě málo).
- Pozor na záměnu korelace s kausalitou. zkusit identifikovat důvody
jejich společného výskytu; manipulativní pokus. na začátku práce zvážit, zda
zvolený způsob sběru dat neposkytne pouze informaci o korelaci mezi jevy,
která se později může ukázat jako obtížně interpretovatelná.
- Co s negativními výsledky? člověk zpravidla neví dopředu, zda zjistí
nějakou závislost, či skončí se zcela negativním výsledkem. Negativní výsledky
jsou více typů. Negativní výsledek I: lze s rozumnou mírou jistoty říci, že
proces skutečně nepůsobí (síla testu je dostatečná). Jen tady lze říci, že
negativní výsledek je také výsledek. Negativní výsledek II: dat je příliš
málo (síla testu je malá, takže nelze říci skoro nic). Je v zásadě bezcenný
- počet opakování byl špatně naplánován. Negativní výsledek III: experiment
je chybný či pochybný: je špatně vždy (ať je výsledek negativní či gativní).
(12) Úvod do mnohorozměrných technik: analýza hlavních
komponent, korespondenční analýza, kanonické techniky
(jen informativní přednáška - ke zkoušce není požadováno)
- Úvod: typy problémů, typická datová struktura. Opět dva problémy: zjednodušení
a popis (model fitting) a test
- Srovnání analýzy jednorozměrných a mnoho rozměrných dat. Podobnosti a rozdíly.
- Základní struktura je tabulka druhy x stanoviště (jiná typická struktura:
znaky x taxony/individua). Representace stanovišť jako bodů v prostoru vymezeném
druhy jako osami.
- Jak v této tabulce najít strukturu (co to je struktura: například korelace
mezi proměnnými). To je možné jen tehdy, jsou-li mezi proměnnými (např. výskyty
různých druhů) nějaké vztahy (korelace, ale ne nutně lineární).
- Analýza hlavních komponent jako příklad mnohorozměrné techniky
- Korelace: body nejsou v prostoru umístěny náhodně, lze jimi proložit (např.)
přímku. Použití takovéto přímky k transformaci soustavy souřadnic.
- Podíl variability vysvětelný osami. Závisí na počtu proměnných (a i počtu
případů). Důvody.
- Nové osy. Vlastnosti nových os: jsou nekorelované (na sebe kolmé), uspořádané
podle klesajícího podílu na variabilitě souboru (variabilitu je možné rozkládat
na osy právě proto, že tyto jsou nekorelované).
- Jaké jsou jednotky nově nalezených os, kde jsou nuly.
- Co je výsledkem PCA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu
determinace, 2. vztah nových a starých os (m x m matice) - jak přepočítat
souřadnice, 3. skóry bodů/objektů - transformované souřadnice (n x m matice).
- Grafy, Biplot. Jak je číst, typy biplotů.
- Interpretace os: je třeba na základě vnější informace (znalost ekologie
druhů, znalost stanovišť). Pozor na argumentaci kruhem.
- Standardisace proměnných (korelace, kovariance). Standardisace po stanovištích.
- Předpoklad PCA: linearita. Jaké typické nelinearity je třeba ošetřit.
- Ekologické gradienty: Unimodální techniky. CA, DCA
- Korelace os s měřenými daty o prostředí.
- Přímé techniky: použití informace o dalších nezávislých proměnných při konstrukci
hlavních os
- PCA, DCA: identifikace gradientu pouze z dat o druzích (za lineárního nebo
unimodálního modelu) a jeho dodatečná korelace s pasivními parametry prostředí
(regrese na hlavních komponentách). Korelace s daty o prostředí
- Analogie regrese (jednoduchá, mnohonásobná), mnohorozměrný analog: více
závislých proměnných
- Kanonické techniky: lineární RDA (kanonická varianta PCA) a unimodální CCA
(kanonická varianta CA) : získání hlavních os s dodatečnou podmínkou: ten
směr největší variability souboru druhů, který je korelován s proměnnými prostředí.
Pracuje se o oběma tabulkami: jak najít vztah mezi oběma a strukturu v obou.
- Kanonická ordinace: kanonické (constrained) osy, nekanonické osy. Počet
proměnných a počet kanonických os. Rozklad celkové variability.
- Dvojí použití mnohorozměrných technik: Vytváření hypotéz (starší), testování
hypotéz (Monte Carlo testy, kovariáty).
- Co je třeba mít na paměti: mnoho rozhodovacích kroků. Je třeba vědět, co
rozhodnutími ovlivňuji, a musím vědět, proč činím jaké volby. Projekci vícerozměrného
objektu na plátno lze učinit mnoha ekvivalentními způsoby.
- Výpočet nelze provést "špatně", lze jen deformovat prostor vztahů mezi druhy
a stanovišti různým způsobem
Pro zájemce: mnohorozměrným technikám je věnována speciální
přednáška. Zde je její syllabus.
(13) Analýza dat v čase a prostoru
(jen informativní přednáška - ke zkoušce není požadováno)
- Vzájemná nezávislost objektů. Obecný předpoklad statistického zpracování.
- Prostorová data. Objekty, které si jsou blíž, jsou si obvykle podobnější
(jednotlivá měření nejsou nezávislá). Autokorelace v prostoru. Časové řady.
Co s tím.
- I. Speciální techniky pro identifikaci vztahu podobnosti a prostorové pozice.
Činí z prostorové variability svůj předmět.
- Autokorelace a autoregrese. Časový nebo prostorový posuv: lag. Průměr, variance,
autokovariance, autokorelace, semivariance (variance rozdílu hodnot vzdálených
o lag=h)
- Autokorelogram a semivariogram. Identifikace dosahu korelace, residuální
variance. Periodické struktury.
- Jak se liší výpočet autokorelace od výpočtu korelace (počty případů se liší
v závislosti na vzdálenosti, problém okrajového efektu)
- Stacionarita: autokorelace jsou nezávislé na posici. Y= průměr + náhodná
prostorově korelovaná chyba + náhodná chyba. Stacionarita závisí na měřítku.
- Vztah dvou veličin v prostoru: cross-korelace. (Například: dvě proměnné
měřené na jednom objektu, jedna proměnná měřená po časovém intervalu). Posun
(lag) v cross-korelaci.
- Mantelův test. Vztahy mezi dvěma maticemi (z nich je jedna typicky matice
vzdáleností ve fysickém prostoru). Test pomocí randomisační procedury. Neidentifikuje
dosah korelace, jen fakt korelace
- II. testy použitelné v případě, že je třeba autokorelace odstranit.
- Typicky: testy vztahu dvou proměnných (cross-korelace)
- Jřeba zohlednit prostorovou strukturu při konstrukci chování testového kritéria
za předpokladu nezávislosti. Vhodné zejména permutační testy (nulová hypotéza:
každé uspořádání má stejnou šanci), Monte Carlo techniky (výběr z permutací
- pokud je jich moc) a konstrukce očekávaného rozložení testovacího kritéria.
- Omezené permutace: odstraní se cross-korelace, ale zachovají se autokorelace:
posun, rotace, reflexe.
Obecné zásady pro zpracování dat v ekologii
- Při plánování pokusu či sběru dat je třeba mít na mysli, že data se jednou
budou statisticky zpracovávat
- Při zapisování dat do protokolů mít na paměti, že je bude třeba nějak zpracovat.
Řádky musí být jednotlivé objekty (cases), sloupce musí být proměnné
- Rozhodnout, co je závislá/é a co nezávislá/é proměnné
- Mít jistotu, že zkoumané proměnné spolu nejsou v nějakém matematickém vztahu
- Nakreslit si vhodný obrazek a ukázat vztah mezi závislou a nezávislými proměnnými.
- Pomocí obrázku zkoumat rozložení závislé proměnné
- Vybrat si vhodný test (hlavně na základě znalosti o povaze závislých a nezávislých
proměnných) a rozhodnout se pro něj před provedením vlastní analýzy (nikoli
zkoušet mnoho testů naslepo a vybrat si ten, jehož výsledek se mi nejvíc líbí)
- Při provádění analýzy zkoumat, zda vypočtený residuální počet stupňů volnosti
(residual d.f., error d.f.) odpovídá počtu nezávislých zkoumaných objektů
- Po provedení testu zkoumat, jak je výsledek robustní, tj. zda zásadní tvrzení
zůstanou stejná např. při odstranění extrémních hodnot, transformaci dat (ovšem
že ale ne takové, která dramaticky mění rozdělení závislé proměnné) a podobně
- Je-li nezbytné provést větší množství testů, je třeba mít na paměti, že
je třeba provést nějakou korekci signifikance
- Při testování nezapomenout, že nejdůležitější zjištění je odhad typu a intensity
závislosti; test je jen předpokladem toho, aby bylo možné se o typu a intensitě
závislosti vůbec bavit
- Chybějící hodnoty: nepříjemná univerzální vlastnost datových souborů
- Typy chybějících hodnot I:
- neznámé (přístroj se rozbil, experimentator zaspal...)
- nesmyslné (obsah fosforu v půdě nemá smysl pro stanoviště, kde žádná
půda není)
- nulové (nejsou v pravém slova smyslu chybějící)
- Typy chybějících hodnot II:
- chybějící zcela náhodně (nezávisí na hodnotě proměnné ani na jiných
proměnných): vadí nejméně
- chybějící náhodně po korekci na hodnotu nějaké jiné proměnné: lze provést
nějakou korekci
- chybějící nenáhodně (např. zaznamenávám hloubku vody v půdě, a vyhnu
se všech vlhčím místům protože nemám holinky): vážný problém
- Co s chybějícími daty: skutečně chybějící hodnoty
- úplné případy (vyloučit všechny řádky, kde alespoň jedna proměnná je
chybějící). Může být drastický zásah do dat, ale v některých případech
nezbytné.
- pairwise deletion (potíže: vychýlené odhady, nepoužitelná korelační
matice...)
- data imputation (průměr, distribuce, regrese s dalšími proměnnými),
případné opakovaní postupu. Potíže: Narcissus effect, počet d.f.
- Co s chybějícími daty: nesmyslné hodnoty
- analýza celého datového souboru obvykle nemá smysl, vyloučit a modifikovat
analýzy
Doporučená základní literatura:
- Lepš J. Biostatistika. Skripta BF JčU.
- Sokal R.R a Rohlf J.F. (1981): Biometry. W.H. Freeman, San Francisco.
- PEKÁR, S., BRABEC, M. (2009). Moderní analýza biologických dat. 1. Zobecněné
lineární modely v prostředí R. Scientia, Praha.
- Crawley M.J. (2002): Statistical computing. An introduction to data analysis
using S-Plus. John Wiley & Sons, Chichester.
Doporučená rozšiřující literatura :
- Havránek T. (1993): Statistika pro biologické a lékařské vědy. Academia,
Praha.
- Jongman R.H.G., ter Braak C.J.F., van Tongeren (1995): Data analysis in
community and landscape ecology. Pudoc, Wageningen.
- MathSoft (2000): S-plus. Guide to statistics, vol. 1 a 2.
- Mead R. (1988): The design of experiments. Statistical principles for practical
application. CUP, Cambridge.
- Meloun M. & Militký J. (2002): Kompendium statistického zpracování
dat. Academia, Praha
- Scheiner S.M. & Gurevitch J. (1993): Design and analysis of ecological
experiments. Chapman & Hall, New York.
- Underwood A.J. (1997): Experiments in ecology. Their logical design and
interpretation using analysis of variance. CUP, Cambridge.
- Zar J. H. (1984): Biostatistical analysis. Prentice Hall, Englewood Cliffs.
Literatura k disposici v elektronické formě:
učebnice/příručky
Zkouška
je písemná a sestává z doplňovacího test s 12 otázkami.
Praktický návod pro zájemce o statistické
zpracování dat
Praktický návod pro zájemce o porozumění
práci s počítačem
O skriptech a prezentačních materiálech
Termíny a výsledky zkoušky v roce 2014/2015
Termíny zkoušek:
Termín si vyhrazuji právo zrušit, pokud přihlášených bude méně než čtyři (neučiním
tak pro poslední termín ve školním roce, obvykle zářijový). Zápis je třeba učinit
prostřednictvím SIS
(ale přijdete-li nepřihlášeni, asi Vás nevyhodíme - jen možná budete muset čekat
déle). Výsledky zkoušek bývají známy obvykle do týdne až deseti dnů. Do
klasifikovaných testů je samozřejmě možné po domluvě nahlédnout.
Zkoušku hodnotím pomocí skóre z testu (Skóre je podíl dosažených bodů k maximálnímu
počtu bodů). Podmínka pro absolvování zkoušky je skóre vyšší než 0.5 z testu.
Překladač skóre na známky: 1-0.83: jednička, 0.83- 0.67: dvojka, 0.67-0.50:
trojka.
Výsledky zkoušek jsou zde.
Poslední aktualisace
17.11.2014
Domovská stránka