Biostatistika a plánování ekologických pokusů
Semestr: zimní
SIS: B120P31
Celkový rozsah: 2/1
Další přednášející (alternující vedení praktik): Petr
Sklenář, Jan Pergl (praktikum)
Co je potřeba znát před přednáškou: je dobré mít absolvovanou přednášku
Biostatistika,
již přednáší Karel
Zvára. Je třeba vědět, že informace o světě kolem se získávají sběrem dat
a že tato data je třeba umět sebrat a zpracovat.
Přednáška chce poskytnout přehled běžných statistických technik pro zpracování
ekologických dat pro uživatele. Snaží
se intuitivně vysvětlit smysl, povahu a možnosti používaných metod a ilustrovat
je příklady. Součástí přednášky jsou několik dvouhodinových praktik na zpracování
dat. Účast na praktikách není povinná - chápu ji jako rozšiřující možnost naučit
se předmět, nikoli jako podmínku ke zkoušce.
Účast na přednáškách samozřejmě taky není povinná (i když přednášejícího potěší)
- tu chápu jako možnost poslechnout si můj pokus vysvětlit taje statistického
uvažování a technik, nikoliv jako způsob jak se poznámkami domoci vlastní malé
učebnice statistiky (čím víc člověk píše, tím méně poslouchá...) . Ze
stejného důvodu k přednášce nejsou připraveny žádné presentační materiály; v
literatuře i na internetu existuje k předmětu dostatek
informací. Rozsah přednášky (také zkoušky) je dán syllabem
níže - ten prosím konsultujte, chcete-li vědět, co a v jakém rozsahu budu přednášet.
Časový rozvrh v roce 2006/2007
V tomto školním roce přednáška poběží v pondělí v 12,30 (prosím přesně) v
Benátské 2, 2. mezipatro. Přednáška končí ve 13,45, nejpozději ve 13,50.
(Časový rozvrh je zatím předběžný.)
9.10. |
Úvod, typy statistických problémů , typy biologických veličin,
exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie
pravděpodobnosti.
|
16.10. |
Zásady statistické inference. Odhad parametrů
jako předpoklad pro statistické testování, vlastnosti odhadu, střední chyba
odhadu, interval spolehlivosti. |
23.10. |
Zásady statistického rozhodování: formulace a
testování hypotéz, testové kritérium, chyba I a II druhu, hladina signifikance.
|
30.10. |
Zásady statistického modelování. Odhad parametrů
modelu, testování modelu, residuály. Regrese a korelace. |
6.11. |
Regresní analýza kvantitativních
dat: Mnohonásobná regrese. Výběr nejvhodnějšího modelu. Nelineární data. |
13.11. |
Analýza variance: úvod, jednocestná ANOVA, mnohonásobná
porovnávání, dvoucestná ANOVA, interakce. |
20.11. |
Další situace řešené analýzou variance
(hierarchická ANOVA, split-plot designs, opakovaná měření, pevné a náhodné
efekty). Neparametrické testy. |
27.11. |
přednáška se nekoná |
4.12. |
Analýza frekvencí: kontingenční tabulky, log-lineární
model, logistická regrese. |
11.12. |
přednáška se nekoná |
18.12. |
Zobecnělé lineární modely. Přehled
testů na různé typy ekologických problémů. Přehled běžného softwaru. |
8.1. |
Základy plánování ekologických pokusů. Několik
metodologických zásad sběru dat. |
15.1. (dodatečná přednáška) |
Úvod do mnohorozměrných technik:
analýza hlavních komponent, korespondenční analýza, kanonické techniky.
Úvod do analýzy dat v čase a prostoru. |
??? |
Konsultační přednáška (nebudu nic říkat sám, ale
pouze odpovídat na Vaše dotazy. proto si je přípravte... Nicméně třeba má
cenu přijít i bez nich, protože je třeba bude mít někdo jiný). |
Termíny praktik (vede Jan Pergl):
27.10. |
Grafické zobrazení jednorozměrných dat, odhady parametrů,
úvod do prostředí Splus |
3.11. |
Regrese a korelace: jednoduchá regrese, linearisace
dat, korelace |
10.11. |
Regrese a korelace: mnohonásobná regrese, postupná regrese,
výběr nejvhodnějšího modelu, parciální regrese |
24.11. |
Analýza variance: jednocestná ANOVA, mnohonásobná porovnávání |
1.12. |
Analýza variance: dvoucestná ANOVA s interakcí a bez interakce,
hierarchická ANOVA, opakovaná měření |
8.12. |
Zpracování kategoriálních dat: frekvenční tabulky, logistická
regrese |
5.1. |
Zobecnělé lineární modely: výběr rozložení, výběr nejvhodnějšího
modelu, testování |
12.1. |
Opakování, samostatné řešení příkladů |
Praktika jsou vždy v pátek, ve dvou po sobě následujících skupinách (rozdělení
do skupin proběhne na přednášce 23.10.). První skupina začíná v 10,00, druhá
ve 12,00.
K praktikům jsou k disposici řešené příklady na této
stránce.
Syllabus přednášky:
- (1) Úvod, typy statistických problémů , typy biologických veličin,
exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie pravděpodobnosti
- (2) Zásady statistické inference. Odhad parametrů
jako předpoklad pro statistické testování, vlastnosti odhadu, střední chyba
odhadu, interval spolehlivosti
- (3) Zásady statistického rozhodování: formulace
a testování hypotéz, testové kritérium, chyba I a II druhu, hladina signifikance
- (4) Zásady statistického modelování. Odhad parametrů modelu,
testování modelu, residuály. Regrese a korelace.
- (5) Regresní analýza kvantitativních dat:
Mnohonásobná regrese. Výběr nejvhodnějšího modelu.Nelineární data.
- (6) Analýza variance: úvod, jednocestná ANOVA, mnohonásobná
porovnávání, dvoucestná ANOVA, interakce. Další situace řešené analýzou variance
( hierarchická ANOVA, split-plot designs, opakovaná měření, pevné a náhodné
efekty)
- (7) Neparametrické testy
- (8) Analýza frekvencí: kontingenční tabulky, log-lineární model,
logistická regrese
- (9) Zobecnělé lineární modely.
- (10) Přehled testů na různé typy ekologických problémů. Přehled
běžného softwaru.
- (11) Základy plánování ekologických pokusů. Několik metodologických
zásad sběru dat
- (12) Úvod do mnohorozměrných technik: analýza hlavních komponent,
korespondenční analýza, kanonické techniky
- (13) Analýza dat v čase a prostoru
- Obecné zásady pro zpracování dat v ekologii
(1) Úvod, typy statistických problémů , typy biologických
veličin, exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie
pravděpodobnosti
- Variabilita. Systematická ("deterministická") a náhodná složka
nějaké proměnné. Příklad: výška stromů v lesech různého stáří. Zkoumání systematické
složky, zkoumání náhodné složky.
- Potíže, které s sebou při zkoumání systematické složky nese fakt, že existuje
i náhodná složka.
- Statistika řeší dva základní problémy:
- (i) jak vypadá jev - zjednodušit a popsat. Zajímají mě vztahy, obrázky,
numerické hodnoty (kolikrát/o kolik je to větší než ono). Statistické
modelování, oddělení náhodné a systematické složky variability, odhad
parametrů, visualisace dat, nalezení pattern v komplikované situaci
("mnohorozměrná" data).
- (ii) je to, co vidím ve svých datech náhoda nebo ne? Pojem základního
souboru a výběru. Statistická inference - statistické testování. Zajímá
mě tvrzení typu Ano/Ne (efekt existuje, efekt neexistuje).
- [sloužit jako vodítko pro návrh sběru dat, a zakládání pokusů]
- Jde o dva odlišné směry ve statistice (prolínají se, člověk používá pořád
oba, ale rozdíl důrazu)
- Pojmy veličina, znak, parametr, objekt.
- Tři typy problémů pokud jde o složitost:
- Zkoumání jedné proměnné: sama o sobě. Střední hodnota a odchylka od
ní. Rozložení hodnot a jeho popis: průměr, medián, rozptyl atd.
- Zkoumání jedné proměnné: v jakém je vztahu k jiné/jiným proměnným. Náhodná
a systematická složka hodnot sledované proměnné. Statistické modelování.
- Zkoumání více proměnných současně: v jakém vztahu k sobě vzájemně a
příp. k nějakým dalším proměnným (mnohorozměrná statistika).
- Typy biologických veličin: kategoriální (má smysl modus), ordinální (má
smysl medián a kvantily), intervalová (má smysl průměr a rozptyl), poměrová.
Proměnné spojité a nespojité.
- Organizace dat při zpracování.
- Visualisace dat: Frekvenční histogram, kvantily - jak je definována osa
X pro různé případy.
- Krabicové diagramy.
- Statistické momenty: Průměr, medián; rozptyl/směrodatná odchylka, šikmost.
- Vzájemná nezávislost objektů. Obecný předpoklad statistického zpracování.
Potíže s daty v čase a prostoru.
- Pravděpodobnost a frekvence. Frekvenční histogram, pravděpodobnostní rozložení
(formální podobnost, zásadní rozdíly). Histogram je empirický popis konkrétních
dat, pravděpodobnostní rozložení je výsledek teoretického procesu. K čemu
se co používá.
- Binomické a normální rozdělení pravděpodobností. Pojem parametru rozdělení.
- Binomické rozdělení (nespojité proměnné): model hodu mincí. Dva parametry:
počet případů, pravděpodobnost jedné varianty.
- Normální rozdělení (spojité proměnné): současné působení mnoha nezávislých
vlivů: většinou se kompensují, někdy ne (to jsou ty 100:0 v binomickém). Dva
parametry: střední hodnota a rozptyl. Standardní normální rozdělení: nezávisí
na použitých jednotkách veličiny x.
- Jak zjistit rozdělení výchozích dat: není to zcela triviální otázka. Histogramy.
Q-Q plot: kvantily mého rozložení proti kvantilům standardního normálního
rozložení. Lineární, pokud je rozložení normální. sešikmené: konvexní nebo
konkávní. špičaté: sigmoidní. Více později.
(2) Zásady statistické inference. Odhad parametrů jako předpoklad
pro statistické testování, vlastnosti odhadu, střední chyba odhadu, interval
spolehlivosti
- Základní soubor a výběr, náhodný výběr (každý má stejnou pravděpodobnost
býti tažen). Příklad: průzkum veřejného mínění vs. volby.
- Statistická inference: usuzování na parametry základního souboru pomocí
parametrů výběru. Spolehlivost tohoto odhadu. Výpovědní hodnota parametrů
takto odhadnutých. Aplikace teorie pravděpodobnosti.
- Dva požadavky na odhad: nevychýlený a spolehlivý. Co to znamená.
- Příklad: je třeba určit skutečný průměr základního souboru na základě
výběru (ta náhodnost je ve faktu výběru ze souboru s nenulovou variabilitou).
Současně je třeba kvantifikovat nejistotu, která je s tím odhadem spojená.
- V běžných situacích je základní soubor nedostupný: (i) příliš veliký, (ii)
sběr dat destruktivní (testování léčiv), (iii) základní soubor je jen potenciálně
existující. Jediné co mohu udělat je provést výběr a zkoumat jedince ve výběru.
- Provedu výběr (n - počet prvků ve výběru, zjistím výběrový průměr, výběrovou
směrodatnou odchylku). Co s tím?
- Jak zkoumat spolehlivost výběru o dané velikosti pro zjištění průměru základního
souboru. Myšlenkový pokus: jak se výběr chová, pokud by takto činěný výběr
mnohokrát opakoval (chování výběru jako náhodné proměnné, cf. teoretické chování
házení korunou) -> střední chyba průměru (tj. směrodatná odchylka teoretického
rozdělení hodnot výběrového průměru).
- Jak to provést: (i) Lze vyčíslit za předpokladu, že znám rozdělení základního
souboru (normální), (ii) simulačně.
- Výběrový průměr z normálního rozdělení má také normální rozdělení. Směrodatná
odchylka rozdělení výběrových průměrů: střední chyba odhadu průměru
- Co tento postup znamená pro možnost určení průměru základního souboru a
s ním spojené nejistoty:
- výběrový průměr je (nevychýleným) odhadem průměru základního souboru
- výběrový průměr leží s pravděpodobností alfa v intervalu: průměr základního
souboru +- střední chyba * kritická hodnota standardního normálního rozložení
pro pravděpodobnost alfa/2 (dělím dvěma, protože jde o oboustranný test;
kritická hodnota je 1.96).
- jednoduchá algebraická úprava: skutečný průměr základního souboru leží
s pravděpodobností alfa v intervalu: výběrový průměr +- střední chyba *
kritická hodnota standardního normálního rozložení pro pravděpodobnost alfa/2.
- Konfidenční interval - interval spolehlivosti (závisí na zvolené pravděpodobnosti):
oblast hodnot, kde se nalezá zjišťované číslo (skutečný průměr základního
souboru) se stanovenou pravděpodobností. K čemu se tato pravděpodobnost vztahuje:
ne ke konkrétní situaci! Neposuzuji jednotlivý případ sám o sobě, ale posuzuji
jej jako člena velkého souboru myslitelných případů: to je smysl té alfa-procentní
(ne)jistoty.
- Všechno je jednoduché, pokud znám sigma - pak mohu sigma použít a výběrový
průměr má normální rozdělení. Ovšem sigma zpravidla neznám. Jak si pomůžeme,
když neznáme sigma: je třeba učinit odhad parametru disperse (místo sigma)
z výběru (výběrová směrodatná odchylka).
- Vychýlený a nevychýlený odhad směrodatné odchylky z dat.
- Počet stupňů volnosti: počet nezávislých pozorování (= "ještě nepoužité
informace"), které mám k disposici pro odhad nějakého parametru (kolik nezávislých
pozorování mám k disposici pro míru disperse u dvoučlenného souboru?). Důležité:
d.f. se vždy vztahuje k odhadu nějakého parametru.
- Vztah mezi přesností a jistotou: jedno manipuluji, druhé jde s sebou. Čím
chceme mít větší jistotu, že se zjišťované číslo nenalézá mimo interval (tj.
zvyšujeme pravděpodobnost - jistotu), tím se rozšiřuje konfidenční interval
(tj. snižujeme přesnost). Nejistotu lze zmenšit zvýšením počtu opakování.
Vztah mezi počtem měření, mírou variability (variance, střední chyba průměru)
a přesností zjištění a jistotou. Sami musíme posoudit rizika (a odhadnout
potřebný počet měření).
- Výše uvedený postup lze zobecnit pro libovolné parametry (místo průměru
rozptyl, medián, cokoli). Je základem i statistického testování (další přednáška.)
- Zásady odběru vzorků. Co lze usoudit z výběru, který není vybrán náhodně.
(3) Zásady statistického rozhodování: formulace a testování
hypotéz, testové kritérium, chyba I a II druhu, hladina signifikance
- Rozhodování v podmínkách neurčitosti: kvantifikace nejistoty: a na základě
toho se rozhodnu (čili: nerozhoduje za mě). Z čeho pochází neurčitost: je
důsledkem toho, že základní soubor je mi nedostupný a má nenulovou variabilitu
ve sledované proměnné.
- Problém, zda se dvě skupiny dat liší (co to znamená: nikoliv že se liší
tato konkrétní data, ale že representují dva odlišné základní soubory). Reformulace
otázky: zda pocházejí ze stejného základního souboru. Nulová hypotéza.
- Testové kritérium/statistika (např. vyjadřující rozdíl mezi oběma skupinami;
míra rozdílu). Použiju k popisu zjištěného rozdílu. Analogie úvahy minule:
jak se teoreticky bude testové kritérium chovat za předpokladu, že oba oba
výběry pocházejí ze stejného základního souboru
- Jak se zjistí teoretické chování testového kritéria za platnosti nulové
hypotézy: analyticky (programy, tabulky), Monte Carlo techniky (simulace mnohokrát
opakovaného výběru na počítači). Jaké předpoklady jsou třeba.
- Dosažená hladina signifikance: Pravděpodobnost sebraných dat za podmínky
neexistence závislosti (platnosti nulové hypotézy)
|
Pravý stav věcí (základní soubor)
|
Náš závěr (rozhodnutí)
|
Závislost neexistuje (výběry pocházejí ze stejného základního souboru)
|
Závislost existuje (výběry pocházejí ze dvou odlišných souborů)
|
Závislost neexistuje
|
Správné rozhodnutí
|
Chyba II. druhu (beta)
|
Závislost existuje
|
Chyba I. druhu (alfa)
|
Správné rozhodnutí
|
- Chyba I a II druhu, stanovení beta (závisí na síle závislosti).
- Chyba I druhu hrozí pouze v případě, zamítám-li nulovou hypotézu, chyba
II druhu hrozí pouze v případě, když nulovou hypotézu nezamítám. Problém nesignifikantních
závislostí.
- Zvláštní postavení nulové hypotézy: nepředpokládá nic dodatečného. Ke kvantifikaci
beta potřebuji znát intenzitu vztahu.
- Rozdíl mezi nulovou hypotézou a badatelskou hypotézou.
- Opět: neposuzuji jednotlivý případ sám o sobě, ale posuzuji jej jako člena
velkého souboru myslitelných případů. Tvrzení "zavrhujeme nulovou hypotézu
na hladině pravděpodobnosti alfa" znamená: v situaci, že efekt neexistuje,
dostaneme daný výsledek (při myšleném mnohonásobném opakování) s pravděpodobností
menší než alfa. Rozhodování pouze na základě levé části tabulky (tam platí
nulová hypotéza).
- Vztah mezi alfa, beta, počtem stupňů volnosti, silou závislosti a silou
testu. Čím chceme mít větší jistotu, že se nedopustíme chyby I. druhu (tj.
neoprávněně tvrdit něco positivního), tím více zvyšujeme pravděpodobnost chyby
II. druhu (tj. neoprávněně lpět na něčem negativním). Je to otázka volby.
Konservativní přístup, progresivní/liberální přístup. Nejistotu lze zmenšit
zvýšením počtu opakování, nebo snížením variability.
- Závislost na předpokladech: robustnost testu.
- Pozor: Klasická statistika udává pravděpodobnost mých dat za předpokladu
platnosti nulové hypotézy, nikoli obráceně.
(4) Zásady statistického modelování. Odhad parametrů modelu,
testování modelu, residuály. Regrese a korelace.
- Statistické modelování: Zkoumání vztahu mé sledované proměnné k nějakým
dalším proměnným.
- Problém: závislost dvou kvantitativních veličin. Nezávislá proměnná: prediktor,
kovariáta. Závislá proměnná: response variable.
- Jak zobrazit taková data: obě osy spojité.
- Asymetrický případ (vím, která je závislá a která ne) -> regrese.
- Statistický model: vyjadřuji sledovanou proměnnou jako funkci nějakých jiných
proměnných a náhodné složky. yi = f(xi)
+ epsi. Náhodná a systematická složka variability Y.
- Náhodnou složku variability předpokládám jen u závislé proměnné!
- Jak může vypadat funkce f. Závisí na znalosti jevu, ale ta často
schází.
- Occamova břitva: nejjednodušší závislost je lineární. To neznamená, že
předpokládám, že svět se chová lineárně, ale to, že jej mohu lineárním modelem
aproximovat (v určitém rozsahu hodnot). Přímka má taky málo parametrů.
- Statistický model lineární regrese. Očekávaná hodnota y je lineární
funkcí prediktorů: Eyi = bxi + a.
- Rozložení hodnot y kolem očekávané hodnoty je normální, yi
= bxi + a + epsi, kde eps je normálně
rozložená náhodná proměnná se střední hodnotou 0.
- Jak najít parametry přímky? Hledám: parametry, které poskytnou nejlepší
shodu s daty. Definice kritéria shody s daty. Metoda nejmenších čtverců: minimalizace
kritéria shody. (Fitting, fit.) a a b lze pak přímo získat
z matice dat.
- Regresní koeficient a úsek na ose Y. Rozměr regresního koeficientu a úseku
na ose Y. Numerická hodnota regresního koeficientu proto závisí na použitých
jednotkách - bez této znalosti není interpretovatelná.
- Predikce vs. pozorovaná hodnota, residuály: zkoumání vhodnosti modelu.
Residuály: definice, interpretace, použití. Residuály a náhodná variabilita
mají smysl jen pro proměnnou y (závislou).
- Parametry regrese jsou citlivé k odlehlým hodnotám. Jejich identifikace,
dva typy odlehlých hodnot: odlehlé na ose X (špatný výběr a pokrytí rozsahu
nezávislé proměnné), odlehlé na ose Y (chyba měření nebo neznámý jev).
- Regresní techniky jsou použitelné jen v intervalu, kde byly odvozeny koeficienty
(extrapolace obvykle neproveditelná)
- Testování signifikance v regresi: Testuji hypotézu: regresní koeficient
v základním souboru (obvykle se značí beta) = 0. Znázornění obrázkem.
- Rozklad variance poté, co mám nalezenou regresní přímku. Co je systematická
a co náhodná složka rozptylu.
- Testové kritérium: F-statistika. Poměr variancí: systematické a residuální
(dva parametry stupňů volnosti). Převedení na test: pravděpodobnostní rozložení
F statistiky za předpokladu platnosti nulové hypotézy.
- Korelace: Symetrický případ (nevím, která je závislá a která ne) -> korelace.
Proč v takovém případě nelze použít regresi. Pojem kovariance, korelační koeficient.
Rozměr korelačního koeficientu.
- Koeficient determinace. Podíl variability jedné proměnné vysvětlené změnami
druhé proměnné.
- Testování signifikance korelačního koeficientu: převedení na t-test. Rozdíl
mezi mírou intensity vztahu (korelační koeficient) a pravděpodobností toho,
že vztah je/není důsledkem náhody. Jaká je nulová hypotéza. Dvoustranný vs.
jednostranný test.
- Vztah intenzity závislosti ( korelační koeficient) a signifikance (test
- F-statistika, t-statistika) - bez přímého vztahu (signifikance je vždy krom
intensity závislosti ovlivněna počtem případů)
(5) Regresní analýza kvantitativních dat: Mnohonásobná regrese.
Výběr nejvhodnějšího modelu. Nelineární data.
- Mnohonásobná regrese: zobecnění jednoduché regrese. Koeficient determinace,
regresní koeficienty závisí na všech ostatních proměnných v rovnici (model
dependence).
- Problém korelace mezi nezávislými veličinami (prediktory) v regresi: korelace
znamená, že ne všechny kombinace prediktorů existují (že pro ně jsou k disposici
pozorování závislé veličiny).
- Mnohonásobná korelace: párové testy, problémy při interpretaci signifikance
- Parciální regrese: regrese po odstranění vlivu vybraných proměnných (přes
známou třetí veličinu). Parciální regrese předpokládá, že vím, která závislá
proměnná mě zajímá vic (pro tu počítám parciální regresi) a která míň (vliv
té odstraňuju). Regrese residuálů na třetí proměnné.
- Hledání nejvhodnějšího modelu technikami postupné regrese. Vždy srovnávám
dva modely, které se liší právě jedním členem.
- Kritéria pro srovnání modelů: rozdíl v koeficientu mnohonásobné korelace
nebo v F-statistice. Testování (není nejvhodnější - opakované použití dat
pro několik testů), konvenční hladina kritéria.
- Počet parametrů v mnohonásobné regresi: větší počet parametrů nutně umožňuje
lepší fit (shodu modelu s daty). Proto koeficient mnohonásobné korelace
nebo v F-statistika nejsou taky nejvhodnější.
- Jak moc je moc. AIC: Akaike information criterion.
- Backward stepping, forward stepping.
- Způsoby výběru nejlepších prediktorů (postupná regrese): nemusí nutně vést
ke globálně nejlepšímu řešení. Výhody Backward stepping.
- Předpoklad linearity v regresi.
- Když není splněn, ale znám nebo mohu předpokládat typ závislosti (protože
znám mechaniku sledovaného procesu). Např. u radioaktivního rozpadu vím, že
počet rozpadů exponenciálně klesá s časem. Pak typická otázka je často po
odhadu numerické velikosti koeficientu (např. intensity radioaktivního rozpadu).
Možné postupy:
- (i) linearizace (exponenciální, power, reciproký model, arsin transformace)
- potíže s variancí
- (ii) nelineární regrese (fituji přímo netransformovanou závislost, zpravidla
jen numericky)
- Když není splněn, ale o závislosti nic nevím (tj. jen empirické zjištění
nelinearity v obrázku): pak typická otázka je obvykle predikce, nebo identifikace
typu zakřivení.
- transformace (odmocninová, log(x+1)). U logaritmu pozor na velikost
aditivní konstanty - musí být ve vztahu k měřeným hodnotám.
- Polynomická regrese: aplikace mnohonásobné regrese. Potíže s interpretací
koeficientů, overparameterization. Jak identifikovat vhodný model
postupnou regresí.
- Lokální regrese: zásady, použití. Residuály. LOESS smoother.
Empirický (data-driven) postup, velmi flexibilní (jako polynomická
regrese), ale málo vysvětlující (generování hypotéz). Méně náročný na
počet parametrů. Parametry LOESS.
- Počet stupňů volnosti v regresi: počet pozorování – počet odhadovaných
parametrů.
- Mám-li víc měření pro jedno X: Rozlišení Lack of fit (rozdíly mezi
ski>, opakovaná měření, pevné
a náhodné efekty)
- Problém: závislá proměnná kvantitativní (např. výnos), ale nezávislá proměnná
kategoriální (ošetření, faktor),
- Terminologie: ošetření (treatment), faktor (=nezávislá proměnná), hladina
faktoru, replikace (opakování - pozor, to není opakované měření na jednom
objektu), sledovaná (= závislstatistika: poměr variancí: systematické a residuální
(dva parametry stupňů volnosti). Převedení na test: pravděpodobnostní rozložení
F statistiky za předpokladu platnosti nulovncí. Jak je robustní.
- Mnohonásobná srovnání: ANOVA říká, že hodnoty se od sebe liší, ale neříká,
které. Přitom to je zpravidla ta důležitá otázka.
- Proč nelze párově testovat. Počet stupňů volnosti - jednotlivá srovnání
na sobě nejsou nezávislá (stane-li se něco s jednou plochou, ovlivní to nejméně
dvě srovnání). Proč nemohu vybrat páry pro testování ex post: směšování vytváření
hypotéz s testováním (planned vs. unplanned comparisons). Multiple range tests,
mnohočetné srovnání s kontrolou: Dunnettův test
- Dvoucestná ANOVA: dva nezávislé kombinované faktory.
- Interakce: vliv faktoru 1 a faktoru 2 nejsou aditivní: potřebuju vědět
hladinu faktoru 1 pro to, abych dokázal říci, jak působí faktor
2.
- Jak zobrazit tato data: graf průměrů, jednotlivých objektů, box-and-whisker
plots. Jak ukázat interakci (čáry spojující průměry nejsou rovnoběžné).
- Rozklad variance na složky s interakcí a bez ní. Konstrukce F-statistik,
tabulka analýzy variance. Vliv zahrnutí interakce na residuální sumu čtverců.
- Statistický model vícecestné ANOVA s interakcemi.
- Hierarchická (nested) ANOVA. Hierarchie variancí. Příklad: hierarchie
variancí při měření pH v půdě: přesnost měření jednoho výluhu, výluhy z jednoho
vzorku, vzorky z jednoho odběru, víc odběrů na stanovišti. Rozklad variance
na složky. F-statistika v hierarchické ANOVA: residuální variance na nejbližší
nižší úrovni (residuální počet stupňů volnosti: kolik nezávislých objektů
mám k disposici pro testování efektu, který mě zajímá?)
- Split-plot ANOVA. Kolik nezávislých objektů má člověk k disposici
pro provedení nějakého testu.
- Opakovaná měření (repeated measurements) téhož objektu: pozor! nejsou
to nezávislé hodnoty. Opakovaným měřením se nezvyšuje počet případů ani počet
stupňů volnosti pro stanovení vlivu treatmentu. Jde o speciální případ
split-plot analýz.
- Obvykle se používají pro hodnocení měření v čase, ale nepředpokládají uspořádanost
hladin faktoru (záznamových časů) za sebou. Co dělat, pokud je třeba testovat
trend v čase (orthogonální polynomy).
- Použití ANOVA s opakovanými měřeními při vyhodnocení pokusů: záznam výchozího
stavu na jednotlivých plochách (před ošetřením), 1 nebo více záznamů po ošetření.
Nejdůležitější test vlivu ošetření je pak test interakce ošetření*čas (tj
test divergence vývoje sledované veličiny na oštřených a neošetřených plochách).
- Model I (pevné efekty) a Model II (náhodné efekty) ANOVA. Model I: hladiny
faktoru dané experimentem nebo povahou věci, nemůže jich být více; u model
II jde o náhodný vzorek většího universa možností. U model I nulová hypotéza
rovnost průměrů (přitom efekty mohou být nenulové, jen jsou stejné), u Model
II zanedbatelnost variance mezi hladinami faktoru (průměr efektů je nula).
U model II myšlenka sampling (je to vzorek z mnoha hladin), u model I jiné
hladiny nemají dobrý smysl. Mnohonásobná srovnání: má smysl u model I ANOVA
(protože tam vím, která hladina je která), ale ne u model II ANOVA. Někdy
záleží na volbě, jaký model to je: Klíč: zvolím stejné hladiny v opakovaném
pokusu?
- Složitější modely s Model I (pevné efekty) a Model II (náhodné efekty),
smíšené modely.
- Problém: nezávislá proměnná kvalitativní a kvantitativní, závislá proměnná
kvantitativní: analýza kovariance (ANCOVA). Test sklonu a shody průměrů (hlavní
efekty) a test shody sklonů (interakce mezi nezávislými proměnnými).
- Statistický model ANCOVA s interakcemi. Smysl jednotlivých členů modelu.
- Vztah mezí ANOVA a regresí.
(7) Neparametrické testy
- Princip, použití, omezení. Umožňují test, ale neumožňují fit statistického
modelu s parametry.
- Neparametrické testy korelace: Spearmanův test, Kendallův test. Jediný předpoklad:
monotónní závislost.
- Kruskal-Wallisův test jako analogie jednocestné ANOVA
- Friedmannův test (dvoucestná ANOVA)
(8) Analýza frekvencí: kontingenční tabulky, logistická
regrese
- Problém: kvalitativní odpověď (dvouhodnotová, vícehodnotová): Problém je
zejména v tom, že rozložení závislé proměnné není možné aproximovat normálním
rozdělením. Nelze proto použít statistický model s eps normálně rozloženým.
- Prozatím: jen data s nezávislou proměnnou kvalitativní (lze sestavit frekvenční
tabulku). Typ dat, výpočet frekvenční tabulky.
- Frekvenční tabulka (obecný případ, speciální případ 2x2).
- Dva typy použití:
- (i) síla vazby proměnných v tabulce 2x2: nezávisí na počtu jedinců.
Analogie korelačního koeficientu.
- (ii) test nenáhodnosti v obecné tabulce: závisí na počtu jedinců.
- Konstrukce očekávaných frekvencí ve frekvenční tabulce: násobení pravděpodobností.
Předpoklad náhodnosti: očekávané a pozorované frekvence se neliší
- Odbočka. Genetika: jak testovat shodu s modelem: Testy dobré shody. Goodness
of fit.
- Testy ve frekvenční tabulce: Chi2, log likelihood ratio test.
- Problém nespojitých dat (pozorované frekvence jsou vždy celočíselné, zatímco
očekávané frekvence nikoli) a shody s očekáváním: potřeba korekce (Yatesova
korekce)
- Fisherův exaktní test: jen v tabulkách 2x2, test bez testového kritéria:
pravděpodobnost se přiřazuje tabulce přímo. Předpoklad: uspořádání tabulek
na ose síly vazby.
- Residuály - odchylky od očekávané hodnoty. Lze použít též identifikovat,
jaká políčka nejvíc přispívají k nenáhodnosti
- Poznámka: jak jsou určeny marginální frekvence: dané pro obě (model III,
Fisherův exaktní test), dané pro jedno, daný jen celkový počet případů.
- Závislosti více veličin: mnohonásobná kontingenční tabulka, marginální
tabulky, parciální tabulky (řezy tabulkou), strukturní nuly. Lze zobecnit
testování pomocí srovnání očekávaných a pozorovaných frekvencí (log-lineární
model).
- Další problém: kategoriální veličina závisí na spojitých (frekvence jevu
jako funkce nějakých spojitých parametrů).
- Nelze analyzovat pomocí ANOVA: statistický model musí být formulován tak,
aby závislá proměnná (tj. ta kategoriální) měla náhodnou složku variability
(nikoli tak, aby náhodnou složku variability měla ta spojitá, jako je tomu
v případě ANOVA.)
- Je třeba použít analogii regrese, ale to se setkává s následujícími potížemi:
- Závislost očekávané hodnoty y na x není (ani trochu!) lineární
- Chyby nejsou normálně rozděleny (rozptyl závisí na očekávané hodnotě
y)
- Logistická regrese: sigmoidní křivka. Odds ratio.
- Statistický model logistické regrese: log(p/(1-p))=ax+b. (Logit link
function.)
- Binomické rozdělení hodnot závislé proměnné (model házení korunou, kdy pravděpodobnost
toho, že padne hlava, závisí na hodnotách nezávislých proměnných).
- Testování jednotlivých členů modelu. Analogie postupné regrese.
(9) Zobecnělé lineární modely.
- Požadavek na typ rozdělení se týká jen závislé proměnné (je to rozložení
jejích skutečných hodnot kolem očekávané hodnoty). Je proto třeba zkoumat
rozdělení hodnot závislé proměnné pro danou kombinaci hodnot nezávislých
proměnných (nikoli rozdělení bez ohledu na hodnoty nezávislých proměnných).
Zkoumání rozdělení hodnot y bez dalšího proto není vždy dost informativní,
je lépe zkoumat residuály (ale ty už závisí na použitém modelu...).
- Jak zjistit rozdělení výchozích dat I: Testy shody s teoretickým rozdělením
(chi2 nebo jiný test dobré shody, Kolmogorov-Smirnov). Problém:
je-li případů málo, test není signifikantní ani v případě velké odchylky,
je-li případů mnoho, je signifikantní, i když odchylka je tak malá, že neovlivní
statistickou inferenci.
- Jak zjistit rozdělení výchozích dat II: Grafické postupy jsou lepší. Histogramy,
Q-Q plot: kvantily mého rozložení proti kvantilům standardního normálního
rozložení.
- Jak zjistit rozdělení výchozích dat III: Rovněž je důležitá úvaha o generujícím
procesu, možná přítomnost nulových hodnot, to, zda mají smysl i neceločíselné
hodnoty, reakce na transformaci (log, sqrt) - graficky.
- Jak naložit s daty, která nejsou normálně rozložena:
1. Neparametrické testy
2. převést na normální rozdělení. Log, sqrt, mocninná transformace. Vhodné
zejména pokud v datech je hierarchie variancí (split-plot design, opakovaná
měření, atd.), protože tam lze hůř použít GLIM. Někdy není možné - nuly, binární
data, nespojitá data.
3. Zobecněný lineární model - GLIM
- Příklady závislých proměnných s jiným než normálním rozdělením:
- binomické: počet "hlav" z celkového počtu hodů (např. počet
rostlin, které vykvetly, pokud znám celkový počet rostlin),
- Poissonovo: počet (např. počet potomků na jedince),
- Gamma (mnoho sešikmených biologických rozdělení, např. velikost),
- exponenciální (doba života - modely přežívání).
- Projevem toho je mj. závislost rozptylu na průměru. Jak v různých teoretických
rozděleních závisí rozptyl na očekávané hodnotě y: binomické - unimodální,
Poissonovo - lineární, Gamma - kvadratická (Gaussovo/normální - rozptyl na
očekávané hodnotě y nezávisí)
- Použití modelu s nějakým rozložením nepředpokládá, že data to rozložení
musí mít, ale to, že je možné je jím aproximovat.
- Opakování: Co to je statistický model. Obecný lineární model (general
linear model, GLM): očekávaná hodnota y je lineární funkcí prediktorů.
Ey = ax+b. Rozložení hodnot y kolem očekávané hodnoty je normální, y = ax+b
+ eps, kde eps je normálně rozložená náhodná proměnná se střední
hodnotou 0.
- Opakování terminologie: Nezávislá proměnná: prediktor, faktor, kovariáta
(tak se jí říká obvykle v případě, že mě nezajímá a chci její vliv odfiltrovat
pomocí parciální analýzy). Závislá proměnná: response variable
- Zobecnění principu logistické regrese (nelineární závislost očekávaných
hodnot na x, jiné než normální rozdělení hodnot y)
- Zobecněné lineární modely (generalized linear models, GLIM): dva
rozdíly proti lineárním modelům:
- Zavedení transformační funkce (link function): g(Ey)
= ax+b. Ta umožní převést rozsah hodnot lineárního prediktoru (všechna
reálná čísla) na rozsah hodnot závislé proměnné, které mají smysl (viz
tabulka).
- Rozložení hodnot proměnné kolem očekávané hodnoty pro danou kombinaci
nezávislých proměnných není normální/Gaussovo, ale takové, aby
umožnilo postihnout právě závislost rozptylu na očekávané hodnotě y (binomické,
Poissonovo, Gamma).
- Často používané typy zobecněných lineárních modelů:
Model |
Rozdělení |
Závislost rozptylu na Ey |
Povolené hodnoty Ey |
Obvyklá link function |
Typická data |
Logistická regrese |
binomické |
unimodální, s maximem pro Ey = 0.5 |
<0,1>, spojité |
logit
|
počet "úspěchů", včetně nulových hodnot, z předem
známého počtu pozorování. Maximální počet je omezen počtem pozorování.
(např. počet rostlin v pokusu, které vykvetly) |
Poissonovská regrese |
Poissonovo |
lineárně rostoucí |
<0,+inf), celočíselné |
log |
počty, včetně nulových hodnot, ale bez omezení seshora (např.
počet potomků na jedince) |
Gamma regrese |
Gamma |
kvadraticky rostoucí |
(0,+inf), spojité |
1/x |
spojitá sešikmená data, bez nulových hodnot (např. biomasy,
velikostní rozměry ap., zejména pokud rozsah hodnot je velký - přes více
řádů) |
Obecný lineární model |
normální (Gaussovo) |
konstantní |
(-inf,+inf), spojité |
identita |
spojitá symetricky rozložená data (např. biomasy
nebo velikostní rozměry, pokud rozsah hodnot je malý) |
- NB. Obecný lineární model (ANOVA, lineární regrese jednoduchá i mnohonásobná,
ANCOVA) je speciální případ GLIMu (normální rozdělení, identity link).
[V ANOVA/ANCOVA je nezávislá proměnná kategoriální, ale to nevadí.]
- NB. Hodnoty x: residuály a náhodná variabilita mají smysl jen pro proměnnou
y (závislou). Proto rozložení má cenu zkoumat jen u závislé proměnné.
- NB. "Rozdělení" není rozdělení všech hodnot závislé proměnné,
ale rozdělení hodnot závislé proměnné pro danou kombinaci prediktorů (rozdělení
hodnot y kolem Ey)
- Srovnání očekávaných a pozorovaných hodnot: pojem deviance. Chi2
rozdělení.
- Odhad parametrů v zobecnělém lineárním modelu: zobecnění postupu nejmenších
čtverců (proč je třeba zobecňovat), maximum likelihood. Numerické postupy.
- Mnohonásobná regrese: zobecnění jednoduché regrese. Koeficienty závisí na
všech ostatních proměnných v rovnici (model dependence). Počet parametrů:
větší počet parametrů nutně umožňuje lepší fit (shodu modelu s daty).
- Problém počtu parametrů v modelu: čím více parametrů, tím lépe může model
vysvětlovat data. Overparameterised model. AIC (Akaike's information
criterion): znevýhodnit modely, které potřebují hodně parametrů.
- Hledání nejvhodnějšího modelu. Problém identifikace nejvhodnějšího modelu:
postupné techniky.
- Testování jednotlivých členů modelu: test signifikance členu modelu je rozdíl
deviancí mezi dvěma modely lišícími se právě tímto členem. Test členu proto
v obecném případě závisí na struktuře modelu (tj. na tom, jaké další členy
jsou přítomny). [Poznámka. Nezávisí na něm právě v případě, kdy všechny nezávislé
proměnné jsou orthogonální, tj, zcela na sobě nezávislé.]
- Interakce v modelech: je možné definovat podobně jako v analýze variance.
Smysl je stejný. "Hierarchický" model (neplést s hierarchickou ANOVA)
je takový, který pokud obsahuje nějakou interakci (např. A*B) obsahuje i její
složky (tedy nezávisle A i B).
- Má cenu vůbec používat lineární model (ANOVA, lineární regrese)? Nevýhoda
GLIM: nejsou příliš vhodné pro data s hierarchií variancí (repeated measurements,
split-plot, nested data).
- Má cenu vůbec používat GLIM? Některá data zatvrzele vzdorují transformacím
(to jsou zejména data o počtech s nulovými hodnotami (Poissonovo nebo binomické
rozdělení).
(10) Přehled testů na různé typy ekologických problémů.
Přehled běžného softwaru.
Struktura nezávislých proměnných |
Závislá proměnná
|
|
Kvantitativní, nepříliš sešikmená |
(Dvoustavová) kategoriální |
Obecná proměnná (typicky sešikmené proměnné, příp. s
nulami, vzdorující transformaci) |
|
Normální rozdělení |
Binomické rozdělení |
Obecné rozdělení |
jedna kvantitativní |
jednoduchá regrese (lineární nebo ne) |
logistická regrese |
Zobecněný lineární model s příslušným rozdělením chyb |
více kvantitativních |
mnohonásobná regrese, parciální regrese, postupná regrese |
(postupná) logistická regrese |
jedna kategoriální dvoustavová |
analýza variance, t-test |
chi2 test nebo LR test v kontingenční tabulce,
Fisherův exaktní test |
jedna kategoriální vícestavová |
analýza variance, testy mnohonásobných porovnávání |
chi2 test nebo LR test v kontingenční tabulce |
více kategoriálních |
analýza variance, testy interakce |
loglineární model, logistická regrese |
jedna nebo více kategoriálních, opakované záznamy v čase |
analýza variance s opakovanými měřeními |
zobecněné lineární modely nejsou příliš vhodné
pro data s hierarchickou strukturou
|
jedna nebo více kategoriálních, hierarchická struktura dat |
hierarchická (nested) analýza variance |
kvantitativní i kvalitativní |
analýza kovariance |
(postupná) logistická regrese |
Zobecněný lineární model s příslušným rozdělením chyb |
- Důležitá poznámka: je-li víc závislých proměnných, je třeba použít mnohorozměrné
testy.
- Statistický software: uživatelsky příjemné "menší" balíky, "velké"
balíky, statistické jazyky. Nepoužívat programy bez dobré znalosti metod.
(11) Základy plánování ekologických pokusů.
- Otázka: zjistit vliv nějakého faktoru. Otázka formulovaná dopředu.
- Smysl manipulativního experimentu: experimentální faktor učinit nezávislý
na všech ostatních - paralela s parciální regresí/korelací. Ostatní odkázat
do sféry náhody (důsledek vymezení otázky dopředu). Všechno ostatní musí být
stejné. Jak to zajistit.
- Kontrola: bez experimentálního zásahu. No control, no conclusion.
Kdy chybění zásahu je také zásah. Vliv na výběr statistických testů (Dunnettův
test)
- Vliv pozorování (vliv označení na růst odnoží), změny v kontrolách (kdy
žádné ošetření je také ošetření)
- Replikace: kolik opakování uvnitř jednoho ošetření - odhad residuální variance
(vliv na alfa; vztah k síle testu): Power analysis: vztah mezi alfa,
beta, intensitou efektu a počtem opakování.
- Jaký je žádoucí počet opakování/počet stupňů volnosti pro stanovení residuální
variance. i. zdroje (finance), ii. variabilita měření, iii. struktura ošetření,
iv. velikost efektu, v. význam párových srovnání. Správná detekce systematické
složky variance je závislá na odhadu residuální variance.
- Pseudoreplikace: korelace uvnitř ošetření mezi "opakováními".
Pseudoreplikace neumožňuje správnou separaci efektu ošetření a náhodné variability
(zmenšuje složku residuální variance) a vede k příliš liberálnímu testu. Rozdělení
ploch na podplochy není replikace.
- Omezení residuální variance: bloky: možné případy, jednoduchá dělba mezi
bloky. Jakou ANOVu použít. Blok je nezajímavý faktor bez interakce s ostatními
faktory - slouží jen k omezení residuální variance.
- Orthogonální: ve všech blocích musí být zastoupeny treatmenty ve stejném
poměru. Pak lze uvažovat treatmenty nezávisle na blocích.
- Testování dvou faktorů: potřebujeme studovat víc vlivů současně (např.
vliv hnojení a sekání na louku). Vyskytují se všechny kombinace. Kompletní,
Vyvážený (vyrovnaný) design.
- Vyšší počty faktorů: opakování uvnitř jednoho ošetření není nutné. Předpoklady:
(i) nezajímají mě všechny interakce, (ii) je možné určit sigma z průměrných
čtverců vyšších interakcí (tj. efekty interakcí jsou malé). "Occamovský
princip": čím nižší řád interakce, tím více významný.
- Komplikované případy (přirozená velikost bloků a nejsou tam všechna ošetření).
Latinský čtverec.
- Split plot designs: dvojí struktura: pokud ošetření se vztahuje k různým
experimentálním jednotkám (např. políčka a rostliny). Vyšší úroveň (whole
plots): hlavní efekt, residuální suma čtverců; nižší úroveň (split
plots): hlavní efekt, interakce, residuální suma čtverců.
Několik metodologických zásad sběru dat
- Výpověď o nějakém jevu je možné dát jen na základě srovnání. Umožní
říci, jak moc je moc (srovnání numerických hodnot/velikostí), jak vzácné je
vzácné (srovnání četností výskytu) a podobně. Je důležité, aby se srovnávaly
srovnatelné objekty (tj. takové, které se liší pouze, nebo hlavně studovaným
jevem a v ostatních parametrech jsou si podobné).
- Každý experiment musí být proveden s patřičnou kontrolou. Obě varianty
se musí lišit právě jen tímto faktorem - jinak je pokus špatně založen. Proto
pro každý experiment je důležité rozhodnout, jak musí kontrola vypadat, a
podle toho jej naplánovat a provést.
- Opakování studovaného jevu. Každý případ je unikátní; unikáty nejsou
vhodné pro formulování obecných tvrzení. Obecnější tvrzení lze formulovat
teprve se znalostí mnoha případů studovaného jevu, které umožní odlišit obecné
od zvláštností každého případu (techniku jak to provést poskytuje biostatistika).
Proto každý pokus/pozorování musí být proveden v několika identických opakováních.
- Pozor na pseudoreplikace. Mám-li malý počet objektů jednoho typu,
není možné to dohnat tím, že na každém odeberu mnoho vzorků. Těchto deset
vzorků si bude velmi podobných (právě proto, že pocházejí z jednoho objektu).
Jedinou skutečně správnou cestou je vyrazit do terénu a hledat další, nezávislé
objekty.
- Pozor na past malého počtu opakování. (i) jeden objekt, hledání
vnitřní struktury a závislostí uvnitř tohoto objektu: základní jednotky studia
budou menší plochy uvnitř. (ii) velké množství objektů, vztahy mezi těmito
objekty, ignorovat jejich vnitřní strukturu: základními jednotkami pak budou
celé objekty. (iii) nebezpečná zóna malého počtu objektů (dejme tomu 4-7):
je jich příliš mnoho na studium jako unikát; příliš málo pro studium jako
souboru objektů (protože 4-7 pozorování je prostě málo).
- Pozor na záměnu korelace s kausalitou. zkusit identifikovat důvody
jejich společného výskytu; manipulativní pokus. na začátku práce zvážit, zda
zvolený způsob sběru dat neposkytne pouze informaci o korelaci mezi jevy,
která se později může ukázat jako obtížně interpretovatelná.
- Co s negativními výsledky? člověk zpravidla neví dopředu, zda zjistí
nějakou závislost, či skončí se zcela negativním výsledkem. Negativní výsledky
jsou více typů. Negativní výsledek I: lze s rozumnou mírou jistoty říci, že
proces skutečně nepůsobí (síla testu je dostatečná). Jen tady lze říci, že
negativní výsledek je také výsledek. Negativní výsledek II: dat je příliš
málo (síla testu je malá, takže nelze říci skoro nic). Je v zásadě bezcenný
- počet opakování byl špatně naplánován. Negativní výsledek III: experiment
je chybný či pochybný: je špatně vždy (ať je výsledek negativní či gativní).
(12) Úvod do mnohorozměrných technik: analýza hlavních
komponent, korespondenční analýza, kanonické techniky
(jen informativní přednáška - ke zkoušce není požadováno)
- Úvod: typy problémů, typická datová struktura. Opět dva problémy: zjednodušení
a popis (model fitting) a test
- Srovnání analýzy jednorozměrných a mnoho rozměrných dat. Podobnosti a rozdíly.
- Základní struktura je tabulka druhy x stanoviště (jiná typická struktura:
znaky x taxony/individua). Representace stanovišť jako bodů v prostoru vymezeném
druhy jako osami.
- Jak v této tabulce najít strukturu (co to je struktura: například korelace
mezi proměnnými). To je možné jen tehdy, jsou-li mezi proměnnými (např. výskyty
různých druhů) nějaké vztahy (korelace, ale ne nutně lineární).
- Analýza hlavních komponent jako příklad mnohorozměrné techniky
- Korelace: body nejsou v prostoru umístěny náhodně, lze jimi proložit (např.)
přímku. Použití takovéto přímky k transformaci soustavy souřadnic.
- Podíl variability vysvětelný osami. Závisí na počtu proměnných (a i počtu
případů). Důvody.
- Nové osy. Vlastnosti nových os: jsou nekorelované (na sebe kolmé), uspořádané
podle klesajícího podílu na variabilitě souboru (variabilitu je možné rozkládat
na osy právě proto, že tyto jsou nekorelované).
- Jaké jsou jednotky nově nalezených os, kde jsou nuly.
- Co je výsledkem PCA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu
determinace, 2. vztah nových a starých os (m x m matice) - jak přepočítat
souřadnice, 3. skóry bodů/objektů - transformované souřadnice (n x m matice).
- Grafy, Biplot. Jak je číst, typy biplotů.
- Interpretace os: je třeba na základě vnější informace (znalost ekologie
druhů, znalost stanovišť). Pozor na argumentaci kruhem.
- Standardisace proměnných (korelace, kovariance). Standardisace po stanovištích.
- Předpoklad PCA: linearita. Jaké typické nelinearity je třeba ošetřit.
- Ekologické gradienty: Unimodální techniky. CA, DCA
- Korelace os s měřenými daty o prostředí.
- Přímé techniky: použití informace o dalších nezávislých proměnných při konstrukci
hlavních os
- PCA, DCA: identifikace gradientu pouze z dat o druzích (za lineárního nebo
unimodálního modelu) a jeho dodatečná korelace s pasivními parametry prostředí
(regrese na hlavních komponentách). Korelace s daty o prostředí
- Analogie regrese (jednoduchá, mnohonásobná), mnohorozměrný analog: více
závislých proměnných
- Kanonické techniky: lineární RDA (kanonická varianta PCA) a unimodální CCA
(kanonická varianta CA) : získání hlavních os s dodatečnou podmínkou: ten
směr největší variability souboru druhů, který je korelován s proměnnými prostředí.
Pracuje se o oběma tabulkami: jak najít vztah mezi oběma a strukturu v obou.
- Kanonická ordinace: kanonické (constrained) osy, nekanonické osy. Počet
proměnných a počet kanonických os. Rozklad celkové variability.
- Dvojí použití mnohorozměrných technik: Vytváření hypotéz (starší), testování
hypotéz (Monte Carlo testy, kovariáty).
- Co je třeba mít na paměti: mnoho rozhodovacích kroků. Je třeba vědět, co
rozhodnutími ovlivňuji, a musím vědět, proč činím jaké volby. Projekci vícerozměrného
objektu na plátno lze učinit mnoha ekvivalentními způsoby.
- Výpočet nelze provést "špatně", lze jen deformovat prostor vztahů mezi druhy
a stanovišti různým způsobem
Pro zájemce: mnohorozměrným technikám je věnována speciální
přednáška. Zde je její syllabus.
(13) Analýza dat v čase a prostoru
(jen informativní přednáška - ke zkoušce není požadováno)
- Vzájemná nezávislost objektů. Obecný předpoklad statistického zpracování.
- Prostorová data. Objekty, které si jsou blíž, jsou si obvykle podobnější
(jednotlivá měření nejsou nezávislá). Autokorelace v prostoru. Časové řady.
Co s tím.
- I. Speciální techniky pro identifikaci vztahu podobnosti a prostorové pozice.
Činí z prostorové variability svůj předmět.
- Autokorelace a autoregrese. Časový nebo prostorový posuv: lag. Průměr, variance,
autokovariance, autokorelace, semivariance (variance rozdílu hodnot vzdálených
o lag=h)
- Autokorelogram a semivariogram. Identifikace dosahu korelace, residuální
variance. Periodické struktury.
- Jak se liší výpočet autokorelace od výpočtu korelace (počty případů se liší
v závislosti na vzdálenosti, problém okrajového efektu)
- Stacionarita: autokorelace jsou nezávislé na posici. Y= průměr + náhodná
prostorově korelovaná chyba + náhodná chyba. Stacionarita závisí na měřítku.
- Vztah dvou veličin v prostoru: cross-korelace. (Například: dvě proměnné
měřené na jednom objektu, jedna proměnná měřená po časovém intervalu). Posun
(lag) v cross-korelaci.
- Mantelův test. Vztahy mezi dvěma maticemi (z nich je jedna typicky matice
vzdáleností ve fysickém prostoru). Test pomocí randomisační procedury. Neidentifikuje
dosah korelace, jen fakt korelace
- II. testy použitelné v případě, že je třeba autokorelace odstranit.
- Typicky: testy vztahu dvou proměnných (cross-korelace)
- Jřeba zohlednit prostorovou strukturu při konstrukci chování testového kritéria
za předpokladu nezávislosti. Vhodné zejména permutační testy (nulová hypotéza:
každé uspořádání má stejnou šanci), Monte Carlo techniky (výběr z permutací
- pokud je jich moc) a konstrukce očekávaného rozložení testovacího kritéria.
- Omezené permutace: odstraní se cross-korelace, ale zachovají se autokorelace:
posun, rotace, reflexe.
Obecné zásady pro zpracování dat v ekologii
- Při plánování pokusu či sběru dat je třeba mít na mysli, že data se jednou
budou statisticky zpracovávat
- Při zapisování dat do protokolů mít na paměti, že je bude třeba nějak zpracovat.
Řádky musí být jednotlivé objekty (cases), sloupce musí být proměnné
- Rozhodnout, co je závislá/é a co nezávislá/é proměnné
- Mít jistotu, že zkoumané proměnné spolu nejsou v nějakém matematickém vztahu
- Nakreslit si vhodný obrazek a ukázat vztah mezi závislou a nezávislými proměnnými.
- Pomocí obrázku zkoumat rozložení závislé proměnné
- Vybrat si vhodný test (hlavně na základě znalosti o povaze závislých a nezávislých
proměnných) a rozhodnout se pro něj před provedením vlastní analýzy (nikoli
zkoušet mnoho testů naslepo a vybrat si ten, jehož výsledek se mi nejvíc líbí)
- Při provádění analýzy zkoumat, zda vypočtený residuální počet stupňů volnosti
(residual d.f., error d.f.) odpovídá počtu nezávislých zkoumaných objektů
- Po provedení testu zkoumat, jak je výsledek robustní, tj. zda zásadní tvrzení
zůstanou stejná např. při odstranění extrémních hodnot, transformaci dat (ovšem
že ale ne takové, která dramaticky mění rozdělení závislé proměnné) a podobně
- Je-li nezbytné provést větší množství testů, je třeba mít na paměti, že
je třeba provést nějakou korekci signifikance
- Při testování nezapomenout, že nejdůležitější zjištění je odhad typu a intensity
závislosti; test je jen předpokladem toho, aby bylo možné se o typu a intensitě
závislosti vůbec bavit
Doporučená základní literatura:
- Lepš J. Biostatistika. Skripta BF JčU. (v prodeji mj. v sekretariátu
České botanické společnosti)
- Sokal R.R a Rohlf J.F. (1981): Biometry. W.H. Freeman, San Francisco.
- Crawley M.J. (2002): Statistical computing. An introduction to data analysis
using S-Plus. John Wiley & Sons, Chichester.
Doporučená rozšiřující literatura :
- Havránek T. (1993): Statistika pro biologické a lékařské vědy. Academia,
Praha.
- Jongman R.H.G., ter Braak C.J.F., van Tongeren (1995): Data analysis in
community and landscape ecology. Pudoc, Wageningen.
- MathSoft (2000): S-plus. Guide to statistics, vol. 1 a 2.
- Mead R. (1988): The design of experiments. Statistical principles for practical
application. CUP, Cambridge.
- Meloun M. & Militký J. (2002): Kompendium statistického zpracování
dat. Academia, Praha
- Scheiner S.M. & Gurevitch J. (1993): Design and analysis of ecological
experiments. Chapman & Hall, New York.
- Underwood A.J. (1997): Experiments in ecology. Their logical design and
interpretation using analysis of variance. CUP, Cambridge.
- Zar J. H. (1984): Biostatistical analysis. Prentice Hall, Englewood Cliffs.
Literatura k disposici v elektronické formě:
Zkouška
je písemná a má dvě části: (i) doplňovací test s 12 otázkami, a (ii) vyřešení
příkladu v prostředí Splus nebo NCSS. Ke zkoušce velmi doporučuji zkoumat
řešené příklady na této stránce. Rovněž doporučuji
zkoumat příklady
podobné přednášky na Biologické fakultě Jihočeské university (přednáší Jan Lepš)
Okruhy ke zkoušce
Obecně
- typy proměnných
- odhad průměru a rozptylu, střední chyba odhadu
- počet stupňů volnosti
- zkoumání předpokladů použití jednotlivých technik
- zásady statistického rozhodování (Chyba I a II druhu)
- grafické znázornění dat různých typů
- a všechny níže uvedené techniky potřebné k příkladům
Techniky potřebné k příkladům
- analýza rozptylu jednocestná i vícecestná, vč. testování interakcí
- mnohonásobná porovnávání
- hierarchická ANOVA (ta už je tu dlouho...)
- lineární regrese a korelace
- mnohonásobná a postupná lineární regrese
- transformace nelineárních dat a jejich zpracování lineární regresí
- analýza frekvenčních tabulek (jen pro dvě proměnné)
- logistická regrese
Praktický návod pro zájemce o statistické
zpracování dat
Praktický návod pro zájemce o porozumění
práci s počítačem
O skriptech a prezentačních materiálech
Termíny a výsledky zkoušky v roce 2006/2007
Termíny zkoušek:
- 15. ledna, 9,00 v počítačové učebně ve Viničné 7
- 24. ledna, 9,00 v počítačové učebně ve Viničné 7
Termín si vyhrazuji právo zrušit, pokud přihlášených bude méně než pět (neučiním
tak pro poslední termín ve školním roce, obvykle zářijový). Zápis je třeba učinit
prostřednictvím SIS
(ale přijdete-li nepřihlášeni, asi Vás nevyhodíme - jen možná budete muset čekat
déle). Výsledky zkoušek bývají známy obvykle do týdne až deseti dnů.
Výsledky zkoušek.
Poslední aktualisace
11.01.2007
Domovská stránka