biostat

Biostatistika a plánování ekologických pokusů

Semestr: zimní
SIS: MB120P147
Celkový rozsah: 2/1
Další přednášející: Zdeněk Janovský (vedení praktik)
Co je potřeba znát před přednáškou: podmínkou z zápisu je mít absolvovanou přednášku Biostatistika, již přednáší Karel Zvára. Je třeba vědět, že informace o světě kolem se získávají sběrem dat a že tato data je třeba umět sebrat a zpracovat.

Přednáška chce poskytnout přehled běžných statistických technik pro zpracování ekologických dat pro uživatele. Snaží se intuitivně vysvětlit smysl, povahu a možnosti používaných metod a ilustrovat je příklady.

Součástí přednášky jsou několik dvouhodinových praktik na zpracování dat. Účast na praktikách není povinná - chápu ji jako rozšiřující možnost naučit se předmět, nikoli jako podmínku ke zkoušce. Praktika probíhají v jazyce R - možná to pro start bude náročnější, ale získáte (i) úvod do programu/jazyka, který se dnes stává standardem ve statistickém zpracování dat, (ii) má ohromné možnosti v množství existujících knihoven, a (iii) je zcela zdarma (GNU licence).

Účast na přednáškách samozřejmě taky není povinná (i když přednášejícího potěší) - tu chápu jako možnost poslechnout si můj pokus vysvětlit taje statistického uvažování a technik, nikoliv jako způsob jak se poznámkami domoci vlastní malé učebnice statistiky (čím víc člověk píše, tím méně poslouchá...) . Ze stejného důvodu k přednášce nejsou připraveny žádné presentační materiály; v literatuře i na internetu existuje k předmětu dostatek informací. Rozsah přednášky (také zkoušky) je dán syllabem níže - ten prosím konsultujte, chcete-li vědět, co a v jakém rozsahu budu přednášet.

Časový rozvrh přednášek		Časový rozvrh praktik
Příklady k praktikům (NCSS)	Příklady k praktikům (SPlus)	Příklady k praktikům (R)
Literatura		Výsledky anket
Podmínky ke zkoušce		Termíny a výsledky zkoušek

Časový rozvrh v roce 2014/2015

V tomto školním roce přednáška poběží v pondělí v 12,25 (prosím přesně) v Benátské 2, 2. mezipatro. Přednáška končí ca. ve 13,45.

6.10.
Úvod, typy statistických problémů , typy biologických veličin, exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie pravděpodobnosti.

13.10. Zásady statistické inference. Odhad parametrů jako předpoklad pro statistické testování, vlastnosti odhadu, střední chyba odhadu, interval spolehlivosti.

20.10. Zásady statistického modelování. Odhad parametrů modelu, testování modelu, residuály.

27.10. přednáška se nekoná

3.11. Zásady statistického rozhodování: formulace a testování hypotéz, testové kritérium, chyba I a II druhu, hladina signifikance.

10.11. Regrese a korelace. Regresní analýza kvantitativních dat: Mnohonásobná regrese. Výběr nejvhodnějšího modelu.

17.11.
přednáška se koná ve státní svátek

Parciální regrese. Nelineární data v regresi, nelineární regrese. Regresní diagnostika.

24.11. Analýza variance: úvod, jednocestná ANOVA, mnohonásobná porovnávání, dvoucestná ANOVA, interakce.

1.12. Další situace řešené analýzou variance (hierarchická ANOVA, split-plot designs, opakovaná měření, pevné a náhodné efekty).

8.12. Neparametrické testy. Analýza frekvencí: kontingenční tabulky .

15.12. Analýza frekvencí: logistická regrese. Zobecnělé lineární modely.

5.1. Přehled testů na různé typy ekologických problémů. Přehled běžného softwaru. Obecné zásady pro zpracování dat v ekologii

bude domluveno Základy plánování ekologických pokusů. Metodologické zásady sběru dat.

letos nepřednáším Úvod do mnohorozměrných technik: analýza hlavních komponent, korespondenční analýza, kanonické techniky. Úvod do analýzy dat v čase a prostoru.

datum bude stanoveno Konzultační přednáška. Přijďte a připravte si otázky. (Sám nic nebudu říkat.)

Termíny praktik (vede Zdeněk Janovský):

Základy zacházení s R; Grafické zobrazení a popis jedné proměnné

Základy zacházení s R – pokračování; Grafické zobrazení vztahů více proměnných – základy explorační analysy dat

Explorační analysa dat – pokračování; Korelace

Lineární regrese - základy

Opakování, první průběžný test

Mnohonásobná regrese s postupným výběrem proměnných, analysa variance

Interakce nezávislých proměnných, post hoc testy mnohonásobných porovnávání v analyse variance

Analysy variance se složitějším designem – split-plot ANOVA, analysy s náhodnými faktory

Opakování, druhý průběžný test

Analysa frekvenčních dat – klasické testy, logistická regrese

Analysa positivně šikmých celočíselných proměnných; analysa vícecestných kontingenčních tabulek

Analysa nadměrně rozptýlených dat za pomoci zobecněných lineárních modelů

Opakování, třetí průběžný test

Data jsou na Moodlu.

(1) Úvod, typy statistických problémů , typy biologických veličin, exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie pravděpodobnosti

Variabilita. Systematická ("deterministická") a náhodná složka nějaké proměnné. Příklad: výška stromů v lesech různého stáří. Zkoumání systematické složky, zkoumání náhodné složky.
Potíže, které s sebou při zkoumání systematické složky nese fakt, že existuje i náhodná složka.
Statistika řeší dva základní problémy:
- (i) jak vypadá jev - zjednodušit a popsat. Zajímají mě vztahy, obrázky, numerické hodnoty (kolikrát/o kolik je to větší než ono). Statistické modelování, oddělení náhodné a systematické složky variability, odhad parametrů, visualisace dat, nalezení pattern v komplikované situaci ("mnohorozměrná" data).
- (ii) je to, co vidím ve svých datech náhoda nebo ne? Pojem základního souboru a výběru. Statistická inference - statistické testování. Zajímá mě tvrzení typu Ano/Ne (efekt existuje, efekt neexistuje).
- [sloužit jako vodítko pro návrh sběru dat, a zakládání pokusů]
Jde o dva odlišné směry ve statistice (prolínají se, člověk používá pořád oba, ale rozdíl důrazu)
Pojmy veličina, znak, parametr, objekt.
Tři typy problémů pokud jde o složitost:
- Zkoumání jedné proměnné: sama o sobě. Střední hodnota a odchylka od ní. Rozložení hodnot a jeho popis: průměr, medián, rozptyl atd.
- Zkoumání jedné proměnné: v jakém je vztahu k jiné/jiným proměnným. Náhodná a systematická složka hodnot sledované proměnné. Statistické modelování.
- Zkoumání více proměnných současně: v jakém vztahu k sobě vzájemně a příp. k nějakým dalším proměnným (mnohorozměrná statistika).
Typy biologických veličin: kategoriální (má smysl modus), ordinální (má smysl medián a kvantily), intervalová (má smysl průměr a rozptyl), poměrová. Proměnné spojité a nespojité.
Organizace dat při zpracování.
Visualisace dat: Frekvenční histogram, kvantily - jak je definována osa X pro různé případy.
Krabicové diagramy.
Statistické momenty: Průměr, medián; rozptyl/směrodatná odchylka, šikmost.
Co se sešikmenými daty: log, sqrt
Vzájemná nezávislost objektů. Obecný předpoklad statistického zpracování. Potíže s daty v čase a prostoru.
Pravděpodobnost a frekvence. Frekvenční histogram, pravděpodobnostní rozložení (formální podobnost, zásadní rozdíly). Histogram je empirický popis konkrétních dat, pravděpodobnostní rozložení je výsledek teoretického procesu. K čemu se co používá.
Binomické a normální rozdělení pravděpodobností. Pojem parametru rozdělení.
Binomické rozdělení (nespojité proměnné): model hodu mincí. Dva parametry: počet elementárních hodů, pravděpodobnost jedné varianty.
Normální rozdělení (spojité proměnné): současné působení mnoha nezávislých vlivů: většinou se kompensují, někdy ne (to jsou ty 100:0 v binomickém). Dva parametry: střední hodnota a rozptyl.
Standardní normální rozdělení: nezávisí na použitých jednotkách veličiny x. Jak převést standardní normální rozdělení na obecné normální rozdělení a zpátky.
Pojem kvantilu: alfa-procentní kvantil je číslo, které dělí rozdělení (zleva) v poměru alfa:(100-alfa). Medián je 50% kvantil.
Jak zjistit rozdělení výchozích dat: není to zcela triviální otázka. Histogramy. Q-Q plot: kvantily mého rozložení proti kvantilům standardního normálního rozložení. Lineární, pokud je rozložení normální. sešikmené: konvexní nebo konkávní. špičaté: sigmoidní. Více později.

Zpět na syllabus

Zpět na rozvrh

(2) Zásady statistické inference. Odhad parametrů jako předpoklad pro statistické testování, vlastnosti odhadu, střední chyba odhadu, interval spolehlivosti

Základní soubor a výběr, náhodný výběr (každý má stejnou pravděpodobnost býti tažen). Příklad: průzkum veřejného mínění vs. volby.
Statistická inference: usuzování na parametry základního souboru pomocí parametrů výběru. Spolehlivost tohoto odhadu. Výpovědní hodnota parametrů takto odhadnutých. Aplikace teorie pravděpodobnosti.
Dva požadavky na odhad: nevychýlený a spolehlivý. Co to znamená.
Příklad: je třeba určit skutečný průměr základního souboru na základě výběru (ta náhodnost je ve faktu výběru ze souboru s nenulovou variabilitou). Současně je třeba kvantifikovat nejistotu, která je s tím odhadem spojená.
V běžných situacích je základní soubor nedostupný: (i) příliš veliký, (ii) sběr dat destruktivní (testování léčiv), (iii) základní soubor je jen potenciálně existující. Jediné co mohu udělat je provést výběr a zkoumat jedince ve výběru.
Provedu výběr (n - počet prvků ve výběru, zjistím výběrový průměr, výběrovou směrodatnou odchylku). Co s tím?
Jak zkoumat spolehlivost výběru o dané velikosti pro zjištění průměru základního souboru. Myšlenkový pokus: jak se výběr chová, pokud by takto činěný výběr mnohokrát opakoval (chování výběru jako náhodné proměnné, cf. teoretické chování házení korunou) -> střední chyba průměru (tj. směrodatná odchylka teoretického rozdělení hodnot výběrového průměru).
Jak to provést: (i) Lze vyčíslit za předpokladu, že znám rozdělení základního souboru (normální), (ii) simulačně.
Výběrový průměr z normálního rozdělení má také normální rozdělení. Směrodatná odchylka rozdělení výběrových průměrů: střední chyba odhadu průměru
Co tento postup znamená pro možnost určení průměru základního souboru a s ním spojené nejistoty:

výběrový průměr je (nevychýleným) odhadem průměru základního souboru
výběrový průměr leží s pravděpodobností alfa v intervalu: průměr základního souboru +- střední chyba * kritická hodnota standardního normálního rozložení pro pravděpodobnost alfa/2 (dělím dvěma, protože jde o oboustranný test; kritická hodnota je 1.96).
jednoduchá algebraická úprava: skutečný průměr základního souboru leží s pravděpodobností alfa v intervalu: výběrový průměr +- střední chyba * kritická hodnota standardního normálního rozložení pro pravděpodobnost alfa/2.

Konfidenční interval - interval spolehlivosti (závisí na zvolené pravděpodobnosti): oblast hodnot, kde se nalezá zjišťované číslo (skutečný průměr základního souboru) se stanovenou pravděpodobností. K čemu se tato pravděpodobnost vztahuje: ne ke konkrétní situaci! Neposuzuji jednotlivý případ sám o sobě, ale posuzuji jej jako člena velkého souboru myslitelných případů: to je smysl té alfa-procentní (ne)jistoty.
Všechno je jednoduché, pokud znám sigma - pak mohu sigma použít a výběrový průměr má normální rozdělení. Ovšem sigma zpravidla neznám. Jak si pomůžeme, když neznáme sigma: je třeba učinit odhad parametru disperse (místo sigma) z výběru (výběrová směrodatná odchylka).
Vychýlený a nevychýlený odhad směrodatné odchylky z dat.
Počet stupňů volnosti: počet nezávislých pozorování (= "ještě nepoužité informace"), které mám k disposici pro odhad nějakého parametru (kolik nezávislých pozorování mám k disposici pro míru disperse u dvoučlenného souboru?). Důležité: d.f. se vždy vztahuje k odhadu nějakého parametru.
Vztah mezi přesností a jistotou: jedno manipuluji, druhé jde s sebou. Čím chceme mít větší jistotu, že se zjišťované číslo nenalézá mimo interval (tj. zvyšujeme pravděpodobnost - jistotu), tím se rozšiřuje konfidenční interval (tj. snižujeme přesnost). Nejistotu lze zmenšit zvýšením počtu opakování. Vztah mezi počtem měření, mírou variability (variance, střední chyba průměru) a přesností zjištění a jistotou. Sami musíme posoudit rizika (a odhadnout potřebný počet měření).
Výše uvedený postup lze zobecnit pro libovolné parametry (místo průměru rozptyl, medián, cokoli). Je také základem statistického testování (další přednáška.)
Zásady odběru vzorků. Co lze usoudit z výběru, který není vybrán náhodně.

Zpět na syllabus

Zpět na rozvrh

(3) Zásady statistického rozhodování: formulace a testování hypotéz, testové kritérium, chyba I a II druhu, hladina signifikance

Rozhodování v podmínkách neurčitosti: kvantifikace nejistoty: a na základě toho se rozhodnu (čili: nerozhoduje za mě). Z čeho pochází neurčitost: je důsledkem toho, že základní soubor je mi nedostupný a má nenulovou variabilitu ve sledované proměnné.
Problém, zda se dvě skupiny dat liší (co to znamená: nikoliv že se liší tato konkrétní data, ale že representují dva odlišné základní soubory). Reformulace otázky: zda pocházejí ze stejného základního souboru. Nulová hypotéza.
Testové kritérium/statistika (např. vyjadřující rozdíl mezi oběma skupinami; míra rozdílu). Použiju k popisu zjištěného rozdílu. Analogie úvahy minule: jak se teoreticky bude testové kritérium chovat za předpokladu, že oba oba výběry pocházejí ze stejného základního souboru
Jak se zjistí teoretické chování testového kritéria za platnosti nulové hypotézy: analyticky (programy, tabulky), Monte Carlo techniky (simulace mnohokrát opakovaného výběru na počítači). Jaké předpoklady jsou třeba.
Dosažená hladina signifikance: Pravděpodobnost sebraných dat za podmínky neexistence závislosti (platnosti nulové hypotézy)

	Pravý stav věcí (základní soubor)
Náš závěr (rozhodnutí)	Závislost neexistuje (výběry pocházejí ze stejného základního souboru)	Závislost existuje (výběry pocházejí ze dvou odlišných souborů)
Závislost neexistuje	Správné rozhodnutí	Chyba II. druhu (beta)
Závislost existuje	Chyba I. druhu (alfa)	Správné rozhodnutí

Chyba I a II druhu, stanovení beta (závisí na síle závislosti).
Chyba I druhu hrozí pouze v případě, zamítám-li nulovou hypotézu, chyba II druhu hrozí pouze v případě, když nulovou hypotézu nezamítám. Problém nesignifikantních závislostí.
Zvláštní postavení nulové hypotézy: nepředpokládá nic dodatečného. Ke kvantifikaci beta potřebuji znát intenzitu vztahu.
Rozdíl mezi nulovou hypotézou a badatelskou hypotézou.
Opět: neposuzuji jednotlivý případ sám o sobě, ale posuzuji jej jako člena velkého souboru myslitelných případů. Tvrzení "zavrhujeme nulovou hypotézu na hladině pravděpodobnosti alfa" znamená: v situaci, že efekt neexistuje, dostaneme daný výsledek (při myšleném mnohonásobném opakování) s pravděpodobností menší než alfa. Rozhodování pouze na základě levé části tabulky (tam platí nulová hypotéza).
Vztah mezi alfa, beta, počtem stupňů volnosti, silou závislosti a silou testu. Čím chceme mít větší jistotu, že se nedopustíme chyby I. druhu (tj. neoprávněně tvrdit něco positivního), tím více zvyšujeme pravděpodobnost chyby II. druhu (tj. neoprávněně lpět na něčem negativním). Je to otázka volby. Konservativní přístup, progresivní/liberální přístup. Nejistotu lze zmenšit zvýšením počtu opakování, nebo snížením variability.
Signifikance kriticky závisí na počtu případů: opatrnost při interpretaci výsledku testu. Signifikance vs. konfidenční interval velikosti efektu (effect size).
Závislost na předpokladech: robustnost testu.
Pozor: Klasická statistika udává pravděpodobnost mých dat za předpokladu platnosti nulové hypotézy, nikoli obráceně.
Jak se domoci pravděpodobnosti nulové hypotézy za předpokladu mých dat (Bayesovská statistika).

Zpět na syllabus

Zpět na rozvrh

(4) Zásady statistického modelování. Odhad parametrů modelu, testování modelu, residuály. Regrese a korelace.

Statistické modelování: Zkoumání vztahu mé sledované proměnné k nějakým dalším proměnným.
Problém: závislost dvou kvantitativních veličin. Nezávislá proměnná: prediktor, kovariáta. Závislá proměnná: response variable.
Jak zobrazit taková data: obě osy spojité.
Regrese. Asymetrický případ (vím, která je závislá a která ne).
Statistický model: vyjadřuji sledovanou proměnnou jako funkci nějakých jiných proměnných a náhodné složky. y_i= f(x_i) + eps_i. Náhodná a systematická složka variability Y.
Náhodnou složku variability předpokládám jen u závislé proměnné!
Jak může vypadat funkce f. Závisí na znalosti jevu, ale ta často schází.
Occamova břitva: nejjednodušší závislost je lineární. To neznamená, že předpokládám, že svět se chová lineárně, ale to, že jej mohu lineárním modelem aproximovat (v určitém rozsahu hodnot). Přímka má taky málo parametrů.
Statistický model lineární regrese. Očekávaná hodnota y je lineární funkcí prediktorů: Ey_i = bx_i + a.
Rozložení hodnot y kolem očekávané hodnoty je normální, y_i = bx_i + a + eps_i, kde eps je normálně rozložená náhodná proměnná se střední hodnotou 0.
Jak najít parametry přímky? Hledám: parametry, které poskytnou nejlepší shodu s daty. Definice kritéria shody s daty.
- Metoda nejmenších čtverců: minimalizace kritéria shody. (Fitting, fit.) a a b lze pak přímo získat z matice dat.
- [Metoda maximum likelihood.]
Regresní koeficient a úsek na ose Y. Rozměr regresního koeficientu a úseku na ose Y. Numerická hodnota regresního koeficientu proto závisí na použitých jednotkách - bez této znalosti není interpretovatelná. Standardizovaný regresní koeficient (beta).
Střední chyba odhadu regresního koeficientu a jeho konfidenční interval.
Predikce vs. pozorovaná hodnota, residuály: zkoumání vhodnosti modelu. Residuály: definice, interpretace, použití. Residuály a náhodná variabilita mají smysl jen pro proměnnou y (závislou).
Parametry regrese jsou citlivé k odlehlým hodnotám. Jejich identifikace, dva typy odlehlých hodnot: odlehlé na ose X (špatný výběr a pokrytí rozsahu nezávislé proměnné), odlehlé na ose Y (chyba měření nebo neznámý jev).
Regresní techniky jsou použitelné jen v intervalu, kde byly odvozeny koeficienty (extrapolace obvykle neproveditelná)
Testování signifikance v regresi: Testuji hypotézu: regresní koeficient v základním souboru (obvykle se značí beta) = 0. Znázornění obrázkem.
Rozklad variance poté, co mám nalezenou regresní přímku. Co je systematická a co náhodná složka rozptylu.
Testové kritérium: F-statistika. Poměr variancí: systematické a residuální (dva parametry stupňů volnosti). Převedení na test: pravděpodobnostní rozložení F statistiky za předpokladu platnosti nulové hypotézy.
Korelace: Symetrický případ (nevím, která je závislá a která ne) -> korelace. Proč v takovém případě nelze použít regresi. Pojem kovariance, korelační koeficient. Rozměr korelačního koeficientu.
Koeficient determinace. Podíl variability jedné proměnné vysvětlené změnami druhé proměnné. R² = SS_regrese/ SS_celk. Podíl sumy čtverců vysvětlené regresí k celkové sumě čtverců.
Testování signifikance korelačního koeficientu: převedení na t-test. Rozdíl mezi mírou intensity vztahu (korelační koeficient) a pravděpodobností toho, že vztah je/není důsledkem náhody. Jaká je nulová hypotéza. Dvoustranný vs. jednostranný test.
Vztah intenzity závislosti ( korelační koeficient) a signifikance (test - F-statistika, t-statistika) - bez přímého vztahu (signifikance je vždy krom intensity závislosti ovlivněna počtem případů)
Korelace (statistický vztah dvou proměnných) neznamená samozřejmě vliv jedné proměnné na druhou.

Zpět na syllabus

Zpět na rozvrh

(5a) Regresní analýza kvantitativních dat: Mnohonásobná regrese. Výběr nejvhodnějšího modelu.

Testy signifikance v regresi: formulace nulové hypotézy. Testuji hypotézu: regresní koeficient v základním souboru (obvykle se značí beta) = 0. Znázornění obrázkem.
F-statistika: Rozklad variance poté, co mám nalezenou regresní přímku. Co je systematická a co náhodná složka rozptylu.
Testové kritérium: F-statistika. Poměr variancí: systematické a residuální (dva parametry stupňů volnosti). Převedení na test: pravděpodobnostní rozložení F statistiky za předpokladu platnosti nulové hypotézy.
Signifikance korelačního koeficientu.
Mnohonásobná regrese: zobecnění jednoduché regrese na více prediktorů, posun z roviny (y ~ x, tj. dva rozměry) do mnohorozměrného prostoru (y ~ x₁ + x₂ + x₃ ...; pro každou další vysvětlující proměnnou jeden další rozměr). Geometrické znázornění pro dva prediktory v trojrozměrném prostoru. Obecně pro n prediktorů n+1 rozměrný prostor.
Počet parametrů v mnohonásobné regresi: každá další vysvětlující proměnná znamená jeden parametr navíc (v zásadě regresní koeficient závislé proměnné na této vysvětlující proměnné). Model: závislost očekávané hodnoty y na všech prediktorech. Složitost modelu - počet prediktorů v modelu.
Hledání hodnot parametrů (regresních koeficientů - jeden pro každou nezávislou proměnnou). Pozorované hodnoty y, očekávané hodnoty y jako v jednoduché regresi.
Odhadnuté hodnoty regresních koeficientů závisí na všech ostatních proměnných v rovnici (model dependence).
Počet stupňů volnosti modelu: = počet odhadovaných parametrů. Residuální počet stupňů volnosti v regresi: = počet pozorování – počet odhadovaných parametrů.
Koeficient mnohonásobné korelace R, determinace: R2.
Testy v mnohorozměrné regresi.
Celkový test modelu: F-statistika.
Testy regresních koeficientů (pomocí t=kritéria jako v obyčejné regresi). Závislost na modelu: signifikance je mj. závislá na dalších členech, které v modelu jsou (nebo nejsou).
Mnohonásobná regrese je málo informativní v případě, když nezávislé proměnné jsou korelované.
Problém korelace mezi nezávislými proměnnými. Jakou informaci data obsahují (a neobsahují) pokud jsou prediktory korelované.
Postupná regrese, výběr nejvhodnějšího modelu.
Hledání nejvhodnějšího modelu (...nejlepší kombinace prediktorů) technikami postupné regrese. Typicky v situaci, kdy mám potenciálně mnoho prediktorů, a hledám těch několik málo, které jsou pro vysvětlení variability závislé proměnné nejdůležitější.
Postupná regrese: přidávání nebo ubírání členů modelu a srovnávání dvojic mnodelů.
Přidávání členů v postupné regresi: jak identifikovat prediktor, který mám přidat.
Srovnávání modelů. Vždy srovnávám dva modely, které se liší právě jedním členem. Jak poznat, že přidávaný člen vysvětlí už dost málo variability (a tudíž by neměl být přidán).
"Naivní" možné kritérium pro srovnání modelů: rozdíl v koeficientu mnohonásobné determinace. Testování není nejvhodnější - opakované použití dat pro několik testů.
Problém počtu parametrů v modelu: čím více parametrů, tím lépe může model vysvětlovat (ta konkrétní) data. Geometrická analogie. Větší počet parametrů nutně umožňuje lepší fit (shodu modelu s daty). Nicméně zvýšení počtu parametrů znamená nutně také snížení residálních počtů stupňů volnosti, a tedy nízkou prediktivní sílu (pokud se z modelu vypočte očekávaná hodnota závislé proměnné pro objekt, který nebyl v datech, nebude poskytovat dobrou informaci o skutečné hodnotě závislé proměnné daného objektu).
Overparameterised model: model s malým počtem residuálních d.f., s dobrých fitem na konkrétní data, ale jinak bezcenný - při rozšíření datového souboru nefunguje.
Koeficient mnohonásobné determinace nezohledňuje počet parametrů modelu a není tedy nejvhodnější.
Nárůst R2 u složitějších modelů může být důsledkem jak toho, že model je lepší (postihuje skutečné vztahy mezi proměnnými), tak i toho, že složitý model nutně lépe popisuje stávající data, ale právě jen je (což nemá nic společného s popisem skutečných vztahů mezi proměnnými). Jak tyhle dva jevy odlišit.
Adjusted R2. Podíl sumy čtverců vysvětlené regresí k celkové sumě čtverců je třeba snížit, protože pokud model má hodně parametrů, suma čtverců vysvětlená regresí bude nutně vyšší. Ke korekci se používá poměr počtu stupňů volnosti: čím víc parametrů je v modelu relativně vůči počtu pozorování, tím nižší bude Adjusted R². Adjusted R² = 1-(SS_error/ SS_celk) * (df_celk/ df_error).
Jiný postup: AIC (Akaike's information criterion): -2*log(věrohodnost modelu) + 2*(počet parametrů + 1). U dobrých modelů jsou obě složky malé (jsou věrohodné a mají málo parametrů). AIC znevýhodňuje ("penalizuje") modely, které pro danou věrohodnost potřebují hodně parametrů (tj. mají menší prediktivní schopnost).
Srovnávání modelů pomocí AIC: Nejlepší model jen ten, který má nejmenší hodnotu AIC (největší věrohodnost pro daný počet parametrů, nejmenší počet parametrů pro dabou věrohodnost).
AIC neříká nic o tom, jak vybraný model dobře popisuje data (je důsledně jen relativní míra na srovnání mezi modely). Je pro třeba doprovodit nějakou mírou síly efektu, např. R2
[Věrohodnost je míra toho, jak dobře daný model s danými parametry popisuje data. Používá se například k hledání nejlepších hodnot parametrů pro daný datový soubor.]
Backward stepping, forward stepping.
Způsoby výběru nejlepších prediktorů (postupná regrese): nemusí nutně vést ke globálně nejlepšímu řešení. Existují rafinovanější algoritmy. Výhody Backward stepping.

Zpět na syllabus

Zpět na rozvrh

(5b) Regresní analýza kvantitativních dat: pokračování. Parciální regrese. Nelineární data v regresi, nelineární regrese. Lokální regrese. Regresní diagnostika.

Parciální regrese.
Efekty jednotlivých prediktorů se mohou maskovat: jak najít "čistý" efekt nějakého prediktoru.
Parciální regrese: regrese po odstranění vlivu vybraných proměnných (přes známou třetí veličinu). Parciální regrese předpokládá, že vím, která závislá proměnná mě zajímá vic (pro tu počítám parciální regresi) a která míň (vliv té odstraňuju). Regrese residuálů (z regrese na nezajímavé proměnné) k zajímavé proměnné.
Parciální regresní koeficient, parciální korelační koeficient.
Problém korelace mezi nezávislými veličinami (prediktory) v regresi: korelace znamená, že ne všechny kombinace prediktorů existují (že pro ně jsou k disposici pozorování závislé veličiny). Korelované prediktory a postupná regrese. Jsou-li prediktory korelované, statisticky nelze rozlišit, kterému z nich připsat "skutečný" vliv na závislou proměnnou.
Nelineární regrese.
Předpoklad linearity v regresi.
Když není splněn, ale znám nebo mohu předpokládat typ závislosti (protože znám mechaniku sledovaného procesu nebo geometrii závlosti). Např. u radioaktivního rozpadu vím, že počet rozpadů exponenciálně klesá s časem. Pak typická otázka je často po odhadu numerické velikosti koeficientu (např. intensity radioaktivního rozpadu), případně test toho, zda jsou data s daným modelem kompatibilní nebo ne (zda se od něj signifikantně liší/neliší). Možné postupy:
- (i) linearizace transformací (exponenciální, log, power, reciproký model, arsin transformace podle toho, jak vypadá očekávaná závislost)
- (ii) nelineární regrese (fituji přímo netransformovanou závislost, zpravidla jen numericky)
- Poznámka. Tvary Ey = ax^b a log (E y) = log a + b log x jsou sice matematicky ekvivalentní, ale statisticky ne, protože transformace závislé proměnné znamená i transformaci kritéria pro sumu čtverců a reziduálů, což vede k (trochu) jiným odhadům parametrů. Nelineární regrese (tj. bez transformace) je proto zpravidla lepší.
Když není splněn, ale o závislosti nic nevím (tj. mám k disposici jen empirické zjištění nelinearity v obrázku): pak typická otázka je buď predikce (zjistit hodnoty y pro nějaké další x), nebo popis dat nebo identifikace typu zakřivení ("jaká nelinearita", a zda vůbec data poskytují podklad pro tvrzení, že závislost je nelineární).
- transformace (odmocninová, log(x+1)). U logaritmu pozor na velikost aditivní konstanty - "1" znamená jednu jednotku v níž je x měřeno a musí tedy mít smysl ve vztahu k měřeným hodnotám.
- Polynomická regrese: aplikace mnohonásobné regrese. Potíže s interpretací koeficientů, overparameterization. Jak identifikovat vhodný model postupnou regresí. Velmi vhodná pro test toho, zda v datech vůbec nelinearita je (test signifikance členu druhého řádu)
- Lokální regrese: zásady, použití. Residuály. LOESS smoother. Empirický (data-driven) postup, velmi flexibilní (jako polynomická regrese), ale málo vysvětlující (generování hypotéz). Méně náročný na počet parametrů. Parametry LOESS.
Regresní diagnostika.
Identifikace vhodnosti modelu pomocí residuálů (a standardizovaných reziduálů) - rozložení residuálů (pokud není normální, model není asi vhodný), závislost residuálů na hodnotě prediktoru nebo na očekávané hodnotě (pokud závislost existuje, model asi není vhodný).
Cookova vzdálenost daného objektu: jeho vliv na hodnotu parametrů regrese. Extrémní hodnoty znamenají ty objekty, které mají disproporčně velký vliv
Odlehlé hodnoty: odlehlé na ose x i na ose y (typicky mají velkou Cookovu vzdálenost): špatné pokrytí hodnot prediktoru. Víceméně rovnoměrné pokrytí hodnot prediktoru je předpoklad regrese. Náhodnost výběru: jen v rámci kategorií prediktoru.
Odlehlé hodnoty: odlehlé jen na ose y (také mají velkou Cookovu vzdálenost, ale ne tolik): ty jsou obzvlášť podezřelé - možnost chyby v datech, možnost důležité ale nezahrnuté další proměnné.

Zpět na syllabus

Zpět na rozvrh

(6) Analýza variance: úvod, jednocestná ANOVA, mnohonásobná porovnávání, dvoucestná ANOVA, interakce.

Jednocestná (one-way) ANOVA
Problém: závislá proměnná kvantitativní (např. výnos), ale nezávislá proměnná kategoriální (ošetření, faktor),
Terminologie: ošetření (treatment), faktor (=nezávislá proměnná), hladina faktoru, replikace (opakování - pozor, to není opakované měření na jednom objektu), sledovaná (= závislá proměnná), response variable
Zobrazení dat: x-osa kategoriální, y-osa kvantitativní (box-and-whisker plots, průměry a střední chyby)
Suma čtverců a její rozklad: systematická, residální. Mean square. Parametry stupňů volnosti: m-1 pro systematickou a n-m pro residuální; m počet hladin faktoru, n počet případů
F statistika: poměr "variancí": systematické a residuální (dva parametry stupňů volnosti: m-1 v čitateli a n-m ve jmenovateli). Převedení na test: pravděpodobnostní rozložení F statistiky za předpokladu platnosti nulové hypotézy.
Statistický model jednocestné ANOVA. Vztah mezí ANOVA a regresí.
Předpoklady: normální rozdělení, homogenita variancí. Jak je robustní. Možná náhrada pomocí pořadového testu.
Testy homogenity variancí: Bartlett, Levene. Grafické zkoumání. Transformace k zísakání přibližné homogenity avriancí.
Případ s více hladinami nezávislé proměnné: ANOVA říká, že hodnoty se od sebe liší, ale neříká, které. Přitom to je zpravidla ta důležitá otázka.
Mnohonásobná porovnávání: Proč nelze párově testovat. Počet stupňů volnosti - jednotlivá srovnání na sobě nejsou nezávislá (stane-li se něco s jednou plochou, ovlivní to nejméně dvě srovnání). Proč nemohu vybrat páry pro testování ex post: směšování vytváření hypotéz s testováním (plánovaná a neplánovaná srovnání - pro plánovaná srovnání musí být hladiny, jež mají být srovnávány vybrány na základě úvah, učiněných dříve, než je znám výsledek pokusu - tj. apriorně, nikoli aposteriorně).
Testy mnohonásobných porovnávání (Multiple range tests): Tukeyův HSD test, Schefféův test, LSD, mnohočetné srovnání s kontrolou: Dunnettův test
Jaký smysl mají hladiny nezávislé proměnné. Model I (pevné efekty) a Model II (náhodné efekty) ANOVA. Model I: hladiny faktoru dané experimentem nebo povahou věci, nemůže jich být více; u model II jde o náhodný vzorek většího universa možností. U model I nulová hypotéza rovnost průměrů (přitom efekty mohou být nenulové, jen jsou stejné), u Model II zanedbatelnost variance mezi hladinami faktoru (průměr efektů je nula). U model II myšlenka sampling (je to vzorek z mnoha hladin), u model I jiné hladiny nemají dobrý smysl. Mnohonásobná srovnání: má smysl u model I ANOVA (protože tam vím, která hladina je která), ale ne u model II ANOVA. Někdy záleží na volbě, jaký model to je: Klíč: zvolím stejné hladiny v opakovaném pokusu?

Dvoucestná ANOVA: dva nezávislé kombinované faktory.
Interakce: vliv faktoru 1 a faktoru 2 nejsou aditivní: potřebuju vědět hladinu faktoru 1 pro to, abych dokázal říci, jak působí faktor 2.
Jak zobrazit tato data: graf průměrů, jednotlivých objektů, box-and-whisker plots. Jak ukázat interakci (čáry spojující průměry nejsou rovnoběžné).
Rozklad variance na složky s interakcí a bez ní. Konstrukce F-statistik, tabulka analýzy variance. Vliv zahrnutí interakce na residuální sumu čtverců.
Statistický model vícecestné ANOVA s interakcemi.

Zpět na syllabus

Zpět na rozvrh

(6) Analýza variance: Další situace řešené analýzou variance

Hierarchická (nested) ANOVA. Hierarchie variancí. Příklad: hierarchie variancí při měření pH v půdě: přesnost měření jednoho výluhu, výluhy z jednoho vzorku, vzorky z jednoho odběru, víc odběrů na stanovišti.
Rozklad variance na složky. F-statistika v hierarchické ANOVA: residuální variance na nejbližší nižší úrovni (residuální počet stupňů volnosti: kolik nezávislých objektů mám k disposici pro testování efektu, který mě zajímá?). Residuální variance n-té úrovně je systematickou složkou n+1 úrovně. Nižší úrovně mají zpravidla smysl náhodných faktorů; nejvyšší úroveň může být náhodná i pevná.
Split-plot ANOVA: Hierarchická struktura dat. Jednotlivé nezávislé proměnné jsou definovány na různých úrovních. To určuje to, kolik nezávislých objektů (~d.f.) má člověk k disposici pro provedení testu té příslušné proměnné (počet objektů je dán počtem nezávislých opakování ve vztahu k dané proměnné).
Testy ve split plot ANOVA: residuální počty stupňů volnosti podle toho, na jaké úrovni hierarchie je proměnná definována. Interakce ve split-plot ANOVách.
Opakovaná měření (repeated measurements) téhož objektu: pozor! nejsou to nezávislé hodnoty. Opakovaným měřením se nezvyšuje počet případů ani počet stupňů volnosti pro stanovení vlivu treatmentu. Jde o speciální případ split-plot analýz.
Obvykle se používají pro hodnocení měření v čase, ale nepředpokládají uspořádanost hladin faktoru (záznamových časů) za sebou. Co dělat, pokud je třeba testovat trend v čase (orthogonální polynomy).
Použití ANOVA s opakovanými měřeními při vyhodnocení pokusů: záznam výchozího stavu na jednotlivých plochách (před ošetřením), 1 nebo více záznamů po ošetření. Nejdůležitější test vlivu ošetření je pak test interakce ošetření*čas (tj test divergence vývoje sledované veličiny na oštřených a neošetřených plochách).
Složitější modely s Model I (pevné efekty) a Model II (náhodné efekty), smíšené modely.
Problém: nezávislá proměnná kvalitativní a kvantitativní, závislá proměnná kvantitativní: analýza kovariance (ANCOVA). Test sklonu a shody průměrů (hlavní efekty) a test shody sklonů (interakce mezi nezávislými proměnnými).
Statistický model ANCOVA s interakcemi. Smysl jednotlivých členů modelu.

Zpět na syllabus

Zpět na rozvrh

(7) Neparametrické testy

Princip, použití, omezení. Umožňují test, ale neumožňují fit statistického modelu s parametry.
Neparametrické testy korelace: Spearmanův test, Kendallův test. Jediný předpoklad: monotónní závislost.
Kruskal-Wallisův test jako analogie jednocestné ANOVA
Friedmannův test (dvoucestná ANOVA)

Zpět na syllabus

Zpět na rozvrh

(8) Analýza frekvencí: kontingenční tabulky, logistická regrese

Problém: kvalitativní odpověď (dvouhodnotová, vícehodnotová): Problém je zejména v tom, že rozložení závislé proměnné není možné aproximovat normálním rozdělením. Nelze proto použít statistický model s eps normálně rozloženým.
Prozatím: jen data s nezávislou proměnnou kvalitativní (lze sestavit frekvenční tabulku). Typ dat, výpočet frekvenční tabulky. Marginální frekvence: počty událostí jedné proměnné (bez ohledu na hodnoty druhé proměnné)
Frekvenční tabulka (obecný případ, speciální případ 2x2).
Dva typy použití:
- (i) síla vazby proměnných v tabulce 2x2: nezávisí na počtu jedinců. Analogie korelačního koeficientu.
- (ii) test nenáhodnosti v obecné tabulce: závisí na počtu jedinců.
Konstrukce očekávaných frekvencí ve frekvenční tabulce: násobení pravděpodobností. Předpoklad náhodnosti: očekávané a pozorované frekvence se neliší
Odbočka. Genetika: jak testovat shodu pozorovaných dat (žlutých a zelených semen) s modelem (3:1): Testy dobré shody (Goodness of fit).
- Chi², vychází ze součtu čtverců odchylek pozorovaných a očekávaných (vypočtených z očekávaného poměru 3:1 v jednoduchém mendelistickém případě) frekvencí. Chi² rozdělení.
- log likelihood ratio test: srovnání dvou pravděpodobností získání pozorovaných dat: jejich pravděpodobnosti za předpokladu testovaného modelu (3:1 v jednoduchém mendelistickém případě) a nejlepšího možného modelu (takového, kde "teoretický" poměr se odhadne přímo z dat). -2* ln (poměr těchto pravděpodobností). Různá označení: G-test, LLR test. Má také Chi² rozdělení.
- Počet stupňů volnosti: počet buněk - počet parametrů, jež je třeba mít k výpočtu očekávaných frekvencí.
Testy ve frekvenční tabulce: Chi², vychází ze součtu čtverců odchylek pozorovaných a očekávaných dat. Chi² : počet stupňů volnosti
log likelihood ratio test: srovnání dvou pravděpodobností získání pozorovaných dat: jejich pravděpodobnosti za předpokladu testovaného modelu (v tomto případě nezávislosti, čili očekávaných na základě marginálních frekvencí) a nejlepšího možného modelu (který vysvětluje data úplně, čili bere v úvahu i závislost jedná proměnné na druhé)
Problém nespojitých dat (pozorované frekvence jsou vždy celočíselné, zatímco očekávané frekvence nikoli) a shody s očekáváním: potřeba korekce (Yatesova korekce)
Fisherův exaktní test: jen v tabulkách 2x2, test bez testového kritéria: pravděpodobnost se přiřazuje tabulce přímo. Předpoklad: uspořádání tabulek na ose síly vazby.
Residuály - odchylky od očekávané hodnoty. Lze použít též identifikovat, jaká políčka nejvíc přispívají k nenáhodnosti
Poznámka: jak jsou určeny marginální frekvence: dané pro obě (model III, Fisherův exaktní test), dané pro jedno, daný jen celkový počet případů.
Závislosti více veličin: mnohonásobná kontingenční tabulka, marginální tabulky, parciální tabulky (řezy tabulkou), strukturní nuly. Lze zobecnit testování pomocí srovnání očekávaných a pozorovaných frekvencí (log-lineární model).
Další problém: kategoriální veličina závisí na spojitých (frekvence jevu jako funkce nějakých spojitých parametrů).
Nelze analyzovat pomocí ANOVA: statistický model musí být formulován tak, aby závislá proměnná (tj. ta kategoriální) měla náhodnou složku variability (nikoli tak, aby náhodnou složku variability měla ta spojitá, jako je tomu v případě ANOVA.)
Je třeba použít analogii regrese, ale to se setkává s následujícími potížemi:
- Závislost očekávané hodnoty y na x není (ani trochu!) lineární
- Chyby nejsou normálně rozděleny (rozptyl závisí na očekávané hodnotě y)
Logistická regrese: sigmoidní křivka. p = e^a+bx / (1+e^a+bx).
Odds ratio: poměr úspěchů k neúspěchům pro danou kombinaci prediktorů.
Alternativní formulace statistického modelu logistické regrese: logit(p) = log(p/(1-p)) = a+bx.
Binomické rozdělení hodnot závislé proměnné (model házení korunou, kdy pravděpodobnost toho, že padne hlava, závisí na hodnotách nezávislých proměnných).
Testování jednotlivých členů modelu. Analogie postupné regrese.
Deviance jako míra fitu jednotlivých modelů: vychází z log likelihood ratio -2 ln [(pravděpodobnost dat za teoretického modelu) / (pravděpodobnost dat za saturovaného modelu)]. Saturovaným modelem se myslí nejlepší myslitelný model (který vysvětlí data nejlépe). Vlastnost aditivity: rozdíl deviancí mezi dvěma do sebe vřazenými modely (tj. lišícími se zahrnutím jednoho nebo několika parametrů) má také Chi² rozdělení s počtem stupňů volnosti daných počtem těchto parametrů. Použití jako test signifikance těchto parametrů (při daném modelu)

Zpět na syllabus

Zpět na rozvrh

(9) Zobecnělé lineární modely.

Požadavek na typ rozdělení se týká jen závislé proměnné (je to rozložení jejích skutečných hodnot kolem očekávané hodnoty). Je proto třeba zkoumat rozdělení hodnot závislé proměnné pro danou kombinaci hodnot nezávislých proměnných (nikoli rozdělení bez ohledu na hodnoty nezávislých proměnných). Zkoumání rozdělení hodnot y bez dalšího proto není vždy dost informativní, je lépe zkoumat residuály (ale ty už závisí na použitém modelu...).
Jak zjistit rozdělení výchozích dat I: Testy shody s teoretickým rozdělením (chi² nebo jiný test dobré shody, Kolmogorov-Smirnov, Shapiro-Wilks). Problém: je-li případů málo, test není signifikantní ani v případě velké odchylky, je-li případů mnoho, je signifikantní, i když odchylka je tak malá, že neovlivní statistickou inferenci.
Jak zjistit rozdělení výchozích dat II: Grafické postupy jsou lepší. Histogramy, Q-Q plot: kvantily mého rozložení proti kvantilům standardního normálního rozložení.
Jak zjistit rozdělení výchozích dat III: Rovněž je důležitá úvaha o generujícím procesu, možná přítomnost nulových hodnot, to, zda mají smysl i neceločíselné hodnoty, reakce na transformaci (log, sqrt) - graficky.
Jak naložit s daty, která nejsou normálně rozložena:
1. Neparametrické testy. Typicky nepředpokládají žádné specifické rozdělení, ale bývají slabší.
2. Převést na normální rozdělení. Log, sqrt, mocninná transformace. Vhodné zejména pokud v datech je hierarchie variancí (split-plot design, opakovaná měření, atd.), protože tam lze hůř použít GLIM. Někdy není možné - nuly, binární data, nespojitá data. [Dva důvody transformací ve statistice: (i) linearizace závislostí (tam jak x tak y podle potřeby, (ii) úprava rozdělení závislé proměnné (tam jen y)]
3. Randomizační testy. Velmi robustní, ale testují trochu jinou nulovou hypotézu. Na rozdělení dat v zásadě nezávisí. Ve složitějších případech může být jejich provedení obtížnější a nejednoznačné.
4. Zobecněný lineární model - Generalized linear model. Pracuje se specifickými rozděleními (jako lineární model), ale umožňuje pracovat s poměrně rozmanitými rozděleními.
Generalized linear model.
Příklady závislých proměnných s jiným než normálním rozdělením:
- binomické: počet "hlav" z celkového počtu hodů (např. počet rostlin, které vykvetly, pokud znám celkový počet rostlin),
- Poissonovo: počet (např. počet potomků na jedince),
- Gamma (mnoho sešikmených biologických rozdělení, např. velikost),
- exponenciální (doba života - modely přežívání).
Projevem toho je mj. závislost rozptylu na průměru. Jak v různých teoretických rozděleních závisí rozptyl na očekávané hodnotě y: binomické - unimodální, Poissonovo - lineární, Gamma - kvadratická (Gaussovo/normální - rozptyl na očekávané hodnotě y nezávisí)
Použití modelu s nějakým rozložením nepředpokládá, že data to rozložení musí mít, ale to, že je možné je jím aproximovat.
Opakování: Co to je statistický model. Obecný lineární model (general linear model, GLM): očekávaná hodnota y je lineární funkcí prediktorů. Ey = ax+b. Rozložení hodnot y kolem očekávané hodnoty je normální, y = ax+b + eps, kde eps je normálně rozložená náhodná proměnná se střední hodnotou 0.
Opakování terminologie: Nezávislá proměnná: prediktor, faktor, kovariáta (tak se jí říká obvykle v případě, že mě nezajímá a chci její vliv odfiltrovat pomocí parciální analýzy). Závislá proměnná: response variable
Zobecnění principu logistické regrese (nelineární závislost očekávaných hodnot na x, jiné než normální rozdělení hodnot y)
Zobecněné lineární modely (generalized linear models, GLIM): dva rozdíly proti lineárním modelům:
- Zavedení transformační funkce (link function): g(Ey) = ax+b. Ta umožní převést rozsah hodnot lineárního prediktoru (všechna reálná čísla) na rozsah hodnot závislé proměnné, které mají smysl (viz tabulka).
- Rozložení hodnot proměnné kolem očekávané hodnoty pro danou kombinaci nezávislých proměnných není normální/Gaussovo, ale takové, aby umožnilo postihnout právě závislost rozptylu na očekávané hodnotě y (binomické, Poissonovo, Gamma).
Často používané typy zobecněných lineárních modelů:

Model	Rozdělení	Závislost rozptylu na Ey	Povolené hodnoty Ey	Obvyklá link function	Typická data
Logistická regrese	binomické	unimodální, s maximem v intervalu (0,1)	<0,1>, spojité	logit	počet "úspěchů", včetně nulových hodnot, z předem známého počtu pozorování. Maximální počet je omezen počtem pozorování. (např. počet rostlin v pokusu, které vykvetly)
Poissonovská regrese	Poissonovo	lineárně rostoucí	<0,+inf), celočíselné	log	počty, včetně nulových hodnot, ale bez omezení seshora (např. počet potomků na jedince)
Gamma regrese	Gamma	kvadraticky rostoucí	(0,+inf), spojité	1/x	spojitá sešikmená data, bez nulových hodnot (např. biomasy, velikostní rozměry ap., zejména pokud rozsah hodnot je velký - přes více řádů)
Obecný lineární model	normální (Gaussovo)	konstantní	(-inf,+inf), spojité	identita	spojitá symetricky rozložená data (např. biomasy nebo velikostní rozměry, pokud rozsah hodnot je malý)

NB. Obecný lineární model (ANOVA, lineární regrese jednoduchá i mnohonásobná, ANCOVA) je speciální případ GLIMu (normální rozdělení, identity link). [V ANOVA/ANCOVA je nezávislá proměnná kategoriální, ale to nevadí.]
NB. Hodnoty x: residuály a náhodná variabilita mají smysl jen pro proměnnou y (závislou). Proto rozložení má cenu zkoumat jen u závislé proměnné.
NB. "Rozdělení" není rozdělení všech hodnot závislé proměnné, ale rozdělení hodnot závislé proměnné pro danou kombinaci prediktorů (rozdělení hodnot y kolem Ey)
Srovnání očekávaných a pozorovaných hodnot: deviance (log likelihood ratio; - 2* log poměru pravděpodobnosti pozorovaných dat za testovaného a saturovaného modelu). Chi² rozdělení. Použitá míra deviance závisí na použitém rozdělení (to určuje pravděpodobnosti pozorovaných dat, a zohledňuje závislost rozptylu na průměru)
Odhad parametrů v zobecnělém lineárním modelu: zobecnění postupu nejmenších čtverců (proč je třeba zobecňovat), numerické postupy.
Použití specifických rozdělení (Poissonovo, binomické, gamma) klade speciální požadavky na dispersi dat (protože rozptyl je funkcí průměru, tj. očekávaných hodnot). Empiricky se ale často ukazuje, že disperse dat je jiná (typicky větší) než předpokládá model. "Overdispersed data." To může být důsledkem toho, že důležité prediktory (= zdroje variability) nejsou v modelu zahrnuty, nebo toho, že proces generující variabilitu není v daném případě přesně takový, jako model předpokládá (třeba binomický nebo Poissonovský). Příklad: zero-inflated Poisson. Jak zacházet s takovýmito daty.
Mnohonásobná zobecnělá regrese: zobecnění jednoduché regrese. Koeficienty závisí na všech ostatních proměnných v rovnici (model dependence).
Počet parametrů: větší počet parametrů nutně umožňuje lepší fit (shodu modelu s daty).
Testování jednotlivých členů v modelu pomocí rozdílu deviancí. Aditivita deviancí: rozdíl deviancí mezi dvěma do sebe vřazenými modely (tj. lišícími se zahrnutím jednoho nebo několika parametrů) má Chi² rozdělení s počtem stupňů volnosti daných počtem těchto parametrů.
Test signifikance členu modelu je rozdíl deviancí mezi dvěma modely lišícími se právě tímto členem. Test členu proto v obecném případě závisí na struktuře modelu (tj. na tom, jaké další členy jsou přítomny). [Poznámka. Nezávisí na něm právě v případě, kdy všechny nezávislé proměnné jsou orthogonální, tj. zcela na sobě nezávislé.] (Ale pozor na problém z postupné regrese: opakované testy na týchž datech.)
Problém počtu parametrů v modelu: čím více parametrů, tím lépe může model vysvětlovat (ta konkrétní) data. Nicméně zvýšení parametrů znamená nutně snížení residálních počtů stupňů volnosti, a tedy malou sílu testu (a špatnou prediktivní sílu). Overparameterised model: model s malým počtem residuálních d.f., s dobrých fitem na konkrétní data, ale jinak bezcenný.
AIC (Akaike's information criterion): znevýhodnit modely, které mají hodně parametrů. To je výhoda proti rozdílům deviancí. Nevýhoda: Numerické hodnoty nemají žádnou interpretaci: pokud jsou všechny modely špatné, stejně vybere ten relativně nejlepší.
Hledání nejvhodnějšího modelu. Problém identifikace nejvhodnějšího modelu: postupné techniky, analogicky lineárním modelům.
Interakce v modelech: je možné definovat podobně jako v analýze variance. Smysl je stejný. "Hierarchický" model (neplést s hierarchickou ANOVA) je takový, který pokud obsahuje nějakou interakci (např. A*B) obsahuje i její složky (tedy nezávisle A i B).
Potíže s odhadovaním podílu vysvětlené variability (analogie koeficientu determinace).
Má cenu vůbec používat lineární model (ANOVA, lineární regrese)? Nevýhoda GLIM: nejsou příliš vhodné pro data s hierarchií variancí (repeated measurements, split-plot, nested data).
Má cenu vůbec používat GLIM? Některá data zatvrzele vzdorují transformacím (to jsou zejména data o počtech s nulovými hodnotami (Poissonovo nebo binomické rozdělení).
Terminologie Obecný lineární model vs. zobecnělý lineární model.

(10) Přehled testů na různé typy ekologických problémů. Přehled běžného softwaru.

Struktura nezávislých proměnných	Závislá proměnná
	Kvantitativní, nepříliš sešikmená	(Dvoustavová) kategoriální	Obecná proměnná (typicky sešikmené proměnné, příp. s nulami, vzdorující transformaci)
	Normální rozdělení	Binomické rozdělení	Obecné rozdělení
jedna kvantitativní	jednoduchá regrese (lineární nebo ne)	logistická regrese	Zobecněný lineární model s příslušným rozdělením chyb
více kvantitativních	mnohonásobná regrese, parciální regrese, postupná regrese	(postupná) logistická regrese
jedna kategoriální dvoustavová	analýza variance, t-test	chi² test nebo LR test v kontingenční tabulce, Fisherův exaktní test
jedna kategoriální vícestavová	analýza variance, testy mnohonásobných porovnávání	chi² test nebo LR test v kontingenční tabulce
více kategoriálních	analýza variance, testy interakce	loglineární model, logistická regrese
jedna nebo více kategoriálních, opakované záznamy v čase	analýza variance s opakovanými měřeními	zobecněné lineární modely nejsou příliš vhodné pro data s hierarchickou strukturou
jedna nebo více kategoriálních, hierarchická struktura dat	hierarchická (nested) analýza variance
kvantitativní i kvalitativní	analýza kovariance	(postupná) logistická regrese	Zobecněný lineární model s příslušným rozdělením chyb

Důležitá poznámka: je-li víc závislých proměnných, je třeba použít mnohorozměrné testy.
Statistický software: uživatelsky příjemné "menší" balíky, "velké" balíky, statistické jazyky. Nepoužívat programy bez dobré znalosti metod.

Zpět na syllabus

Zpět na rozvrh

(11) Základy plánování ekologických pokusů.

Otázka: zjistit vliv nějakého faktoru. Otázka formulovaná dopředu.
Smysl manipulativního experimentu: experimentální faktor učinit nezávislý na všech ostatních - paralela s parciální regresí/korelací. Ostatní odkázat do sféry náhody (důsledek vymezení otázky dopředu). Všechno ostatní musí být stejné. Jak to zajistit.
Kontrola: bez experimentálního zásahu. No control, no conclusion. Kdy chybění zásahu je také zásah. Vliv na výběr statistických testů (Dunnettův test)
Vliv pozorování (vliv označení na růst odnoží), změny v kontrolách (kdy žádné ošetření je také ošetření)
Replikace: kolik opakování uvnitř jednoho ošetření - odhad residuální variance (vliv na alfa; vztah k síle testu): Power analysis: vztah mezi alfa, beta, intensitou efektu a počtem opakování.
Jaký je žádoucí počet opakování/počet stupňů volnosti pro stanovení residuální variance. i. zdroje (finance), ii. variabilita měření, iii. struktura ošetření, iv. velikost efektu, v. význam párových srovnání. Správná detekce systematické složky variance je závislá na odhadu residuální variance.
Pseudoreplikace: korelace uvnitř ošetření mezi "opakováními". Pseudoreplikace neumožňuje správnou separaci efektu ošetření a náhodné variability (zmenšuje složku residuální variance) a vede k příliš liberálnímu testu. Rozdělení ploch na podplochy není replikace.
Omezení residuální variance: bloky: možné případy, jednoduchá dělba mezi bloky. Jakou ANOVu použít. Blok je nezajímavý faktor bez interakce s ostatními faktory - slouží jen k omezení residuální variance.
Orthogonální: ve všech blocích musí být zastoupeny treatmenty ve stejném poměru. Pak lze uvažovat treatmenty nezávisle na blocích.
Testování dvou faktorů: potřebujeme studovat víc vlivů současně (např. vliv hnojení a sekání na louku). Vyskytují se všechny kombinace. Kompletní, Vyvážený (vyrovnaný) design.
Vyšší počty faktorů: opakování uvnitř jednoho ošetření není nutné. Předpoklady: (i) nezajímají mě všechny interakce, (ii) je možné určit sigma z průměrných čtverců vyšších interakcí (tj. efekty interakcí jsou malé). "Occamovský princip": čím nižší řád interakce, tím více významný.
Komplikované případy (přirozená velikost bloků a nejsou tam všechna ošetření). Latinský čtverec.
Split plot designs: dvojí struktura: pokud ošetření se vztahuje k různým experimentálním jednotkám (např. políčka a rostliny). Vyšší úroveň (whole plots): hlavní efekt, residuální suma čtverců; nižší úroveň (split plots): hlavní efekt, interakce, residuální suma čtverců.

Několik metodologických zásad sběru dat

Výpověď o nějakém jevu je možné dát jen na základě srovnání. Umožní říci, jak moc je moc (srovnání numerických hodnot/velikostí), jak vzácné je vzácné (srovnání četností výskytu) a podobně. Je důležité, aby se srovnávaly srovnatelné objekty (tj. takové, které se liší pouze, nebo hlavně studovaným jevem a v ostatních parametrech jsou si podobné).
Každý experiment musí být proveden s patřičnou kontrolou. Obě varianty se musí lišit právě jen tímto faktorem - jinak je pokus špatně založen. Proto pro každý experiment je důležité rozhodnout, jak musí kontrola vypadat, a podle toho jej naplánovat a provést.
Opakování studovaného jevu. Každý případ je unikátní; unikáty nejsou vhodné pro formulování obecných tvrzení. Obecnější tvrzení lze formulovat teprve se znalostí mnoha případů studovaného jevu, které umožní odlišit obecné od zvláštností každého případu (techniku jak to provést poskytuje biostatistika). Proto každý pokus/pozorování musí být proveden v několika identických opakováních.
Pozor na pseudoreplikace. Mám-li malý počet objektů jednoho typu, není možné to dohnat tím, že na každém odeberu mnoho vzorků. Těchto deset vzorků si bude velmi podobných (právě proto, že pocházejí z jednoho objektu). Jedinou skutečně správnou cestou je vyrazit do terénu a hledat další, nezávislé objekty.
Pozor na past malého počtu opakování. (i) jeden objekt, hledání vnitřní struktury a závislostí uvnitř tohoto objektu: základní jednotky studia budou menší plochy uvnitř. (ii) velké množství objektů, vztahy mezi těmito objekty, ignorovat jejich vnitřní strukturu: základními jednotkami pak budou celé objekty. (iii) nebezpečná zóna malého počtu objektů (dejme tomu 4-7): je jich příliš mnoho na studium jako unikát; příliš málo pro studium jako souboru objektů (protože 4-7 pozorování je prostě málo).
Pozor na záměnu korelace s kausalitou. zkusit identifikovat důvody jejich společného výskytu; manipulativní pokus. na začátku práce zvážit, zda zvolený způsob sběru dat neposkytne pouze informaci o korelaci mezi jevy, která se později může ukázat jako obtížně interpretovatelná.
Co s negativními výsledky? člověk zpravidla neví dopředu, zda zjistí nějakou závislost, či skončí se zcela negativním výsledkem. Negativní výsledky jsou více typů. Negativní výsledek I: lze s rozumnou mírou jistoty říci, že proces skutečně nepůsobí (síla testu je dostatečná). Jen tady lze říci, že negativní výsledek je také výsledek. Negativní výsledek II: dat je příliš málo (síla testu je malá, takže nelze říci skoro nic). Je v zásadě bezcenný - počet opakování byl špatně naplánován. Negativní výsledek III: experiment je chybný či pochybný: je špatně vždy (ať je výsledek negativní či gativní).

Zpět na syllabus

Zpět na rozvrh

(12) Úvod do mnohorozměrných technik: analýza hlavních komponent, korespondenční analýza, kanonické techniky

(jen informativní přednáška - ke zkoušce není požadováno)

Úvod: typy problémů, typická datová struktura. Opět dva problémy: zjednodušení a popis (model fitting) a test
Srovnání analýzy jednorozměrných a mnoho rozměrných dat. Podobnosti a rozdíly.
Základní struktura je tabulka druhy x stanoviště (jiná typická struktura: znaky x taxony/individua). Representace stanovišť jako bodů v prostoru vymezeném druhy jako osami.
Jak v této tabulce najít strukturu (co to je struktura: například korelace mezi proměnnými). To je možné jen tehdy, jsou-li mezi proměnnými (např. výskyty různých druhů) nějaké vztahy (korelace, ale ne nutně lineární).
Analýza hlavních komponent jako příklad mnohorozměrné techniky
Korelace: body nejsou v prostoru umístěny náhodně, lze jimi proložit (např.) přímku. Použití takovéto přímky k transformaci soustavy souřadnic.
Podíl variability vysvětelný osami. Závisí na počtu proměnných (a i počtu případů). Důvody.
Nové osy. Vlastnosti nových os: jsou nekorelované (na sebe kolmé), uspořádané podle klesajícího podílu na variabilitě souboru (variabilitu je možné rozkládat na osy právě proto, že tyto jsou nekorelované).
Jaké jsou jednotky nově nalezených os, kde jsou nuly.
Co je výsledkem PCA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu determinace, 2. vztah nových a starých os (m x m matice) - jak přepočítat souřadnice, 3. skóry bodů/objektů - transformované souřadnice (n x m matice).
Grafy, Biplot. Jak je číst, typy biplotů.
Interpretace os: je třeba na základě vnější informace (znalost ekologie druhů, znalost stanovišť). Pozor na argumentaci kruhem.
Standardisace proměnných (korelace, kovariance). Standardisace po stanovištích.
Předpoklad PCA: linearita. Jaké typické nelinearity je třeba ošetřit.
Ekologické gradienty: Unimodální techniky. CA, DCA
Korelace os s měřenými daty o prostředí.
Přímé techniky: použití informace o dalších nezávislých proměnných při konstrukci hlavních os
PCA, DCA: identifikace gradientu pouze z dat o druzích (za lineárního nebo unimodálního modelu) a jeho dodatečná korelace s pasivními parametry prostředí (regrese na hlavních komponentách). Korelace s daty o prostředí
Analogie regrese (jednoduchá, mnohonásobná), mnohorozměrný analog: více závislých proměnných
Kanonické techniky: lineární RDA (kanonická varianta PCA) a unimodální CCA (kanonická varianta CA) : získání hlavních os s dodatečnou podmínkou: ten směr největší variability souboru druhů, který je korelován s proměnnými prostředí. Pracuje se o oběma tabulkami: jak najít vztah mezi oběma a strukturu v obou.
Kanonická ordinace: kanonické (constrained) osy, nekanonické osy. Počet proměnných a počet kanonických os. Rozklad celkové variability.
Dvojí použití mnohorozměrných technik: Vytváření hypotéz (starší), testování hypotéz (Monte Carlo testy, kovariáty).
Co je třeba mít na paměti: mnoho rozhodovacích kroků. Je třeba vědět, co rozhodnutími ovlivňuji, a musím vědět, proč činím jaké volby. Projekci vícerozměrného objektu na plátno lze učinit mnoha ekvivalentními způsoby.
Výpočet nelze provést "špatně", lze jen deformovat prostor vztahů mezi druhy a stanovišti různým způsobem

Pro zájemce: mnohorozměrným technikám je věnována speciální přednáška. Zde je její syllabus.

Zpět na syllabus

Zpět na rozvrh

(13) Analýza dat v čase a prostoru

(jen informativní přednáška - ke zkoušce není požadováno)

Vzájemná nezávislost objektů. Obecný předpoklad statistického zpracování.
Prostorová data. Objekty, které si jsou blíž, jsou si obvykle podobnější (jednotlivá měření nejsou nezávislá). Autokorelace v prostoru. Časové řady. Co s tím.
I. Speciální techniky pro identifikaci vztahu podobnosti a prostorové pozice. Činí z prostorové variability svůj předmět.
Autokorelace a autoregrese. Časový nebo prostorový posuv: lag. Průměr, variance, autokovariance, autokorelace, semivariance (variance rozdílu hodnot vzdálených o lag=h)
Autokorelogram a semivariogram. Identifikace dosahu korelace, residuální variance. Periodické struktury.
Jak se liší výpočet autokorelace od výpočtu korelace (počty případů se liší v závislosti na vzdálenosti, problém okrajového efektu)
Stacionarita: autokorelace jsou nezávislé na posici. Y= průměr + náhodná prostorově korelovaná chyba + náhodná chyba. Stacionarita závisí na měřítku.
Vztah dvou veličin v prostoru: cross-korelace. (Například: dvě proměnné měřené na jednom objektu, jedna proměnná měřená po časovém intervalu). Posun (lag) v cross-korelaci.
Mantelův test. Vztahy mezi dvěma maticemi (z nich je jedna typicky matice vzdáleností ve fysickém prostoru). Test pomocí randomisační procedury. Neidentifikuje dosah korelace, jen fakt korelace
II. testy použitelné v případě, že je třeba autokorelace odstranit.
Typicky: testy vztahu dvou proměnných (cross-korelace)
Jřeba zohlednit prostorovou strukturu při konstrukci chování testového kritéria za předpokladu nezávislosti. Vhodné zejména permutační testy (nulová hypotéza: každé uspořádání má stejnou šanci), Monte Carlo techniky (výběr z permutací - pokud je jich moc) a konstrukce očekávaného rozložení testovacího kritéria.
Omezené permutace: odstraní se cross-korelace, ale zachovají se autokorelace: posun, rotace, reflexe.

Zpět na syllabus

Zpět na rozvrh

Obecné zásady pro zpracování dat v ekologii

Při plánování pokusu či sběru dat je třeba mít na mysli, že data se jednou budou statisticky zpracovávat
Při zapisování dat do protokolů mít na paměti, že je bude třeba nějak zpracovat. Řádky musí být jednotlivé objekty (cases), sloupce musí být proměnné
Rozhodnout, co je závislá/é a co nezávislá/é proměnné
Mít jistotu, že zkoumané proměnné spolu nejsou v nějakém matematickém vztahu
Nakreslit si vhodný obrazek a ukázat vztah mezi závislou a nezávislými proměnnými.
Pomocí obrázku zkoumat rozložení závislé proměnné
Vybrat si vhodný test (hlavně na základě znalosti o povaze závislých a nezávislých proměnných) a rozhodnout se pro něj před provedením vlastní analýzy (nikoli zkoušet mnoho testů naslepo a vybrat si ten, jehož výsledek se mi nejvíc líbí)
Při provádění analýzy zkoumat, zda vypočtený residuální počet stupňů volnosti (residual d.f., error d.f.) odpovídá počtu nezávislých zkoumaných objektů
Po provedení testu zkoumat, jak je výsledek robustní, tj. zda zásadní tvrzení zůstanou stejná např. při odstranění extrémních hodnot, transformaci dat (ovšem že ale ne takové, která dramaticky mění rozdělení závislé proměnné) a podobně
Je-li nezbytné provést větší množství testů, je třeba mít na paměti, že je třeba provést nějakou korekci signifikance
Při testování nezapomenout, že nejdůležitější zjištění je odhad typu a intensity závislosti; test je jen předpokladem toho, aby bylo možné se o typu a intensitě závislosti vůbec bavit
Chybějící hodnoty: nepříjemná univerzální vlastnost datových souborů
Typy chybějících hodnot I:
- neznámé (přístroj se rozbil, experimentator zaspal...)
- nesmyslné (obsah fosforu v půdě nemá smysl pro stanoviště, kde žádná půda není)
- nulové (nejsou v pravém slova smyslu chybějící)
Typy chybějících hodnot II:
- chybějící zcela náhodně (nezávisí na hodnotě proměnné ani na jiných proměnných): vadí nejméně
- chybějící náhodně po korekci na hodnotu nějaké jiné proměnné: lze provést nějakou korekci
- chybějící nenáhodně (např. zaznamenávám hloubku vody v půdě, a vyhnu se všech vlhčím místům protože nemám holinky): vážný problém
Co s chybějícími daty: skutečně chybějící hodnoty
- úplné případy (vyloučit všechny řádky, kde alespoň jedna proměnná je chybějící). Může být drastický zásah do dat, ale v některých případech nezbytné.
- pairwise deletion (potíže: vychýlené odhady, nepoužitelná korelační matice...)
- data imputation (průměr, distribuce, regrese s dalšími proměnnými), případné opakovaní postupu. Potíže: Narcissus effect, počet d.f.
Co s chybějícími daty: nesmyslné hodnoty
- analýza celého datového souboru obvykle nemá smysl, vyloučit a modifikovat analýzy

Zpět na syllabus

Zpět na rozvrh

Doporučená základní literatura:

Lepš J. Biostatistika. Skripta BF JčU.
Sokal R.R a Rohlf J.F. (1981): Biometry. W.H. Freeman, San Francisco.
PEKÁR, S., BRABEC, M. (2009). Moderní analýza biologických dat. 1. Zobecněné lineární modely v prostředí R. Scientia, Praha.
Crawley M.J. (2002): Statistical computing. An introduction to data analysis using S-Plus. John Wiley & Sons, Chichester.

Doporučená rozšiřující literatura :

Havránek T. (1993): Statistika pro biologické a lékařské vědy. Academia, Praha.
Jongman R.H.G., ter Braak C.J.F., van Tongeren (1995): Data analysis in community and landscape ecology. Pudoc, Wageningen.
MathSoft (2000): S-plus. Guide to statistics, vol. 1 a 2.
Mead R. (1988): The design of experiments. Statistical principles for practical application. CUP, Cambridge.
Meloun M. & Militký J. (2002): Kompendium statistického zpracování dat. Academia, Praha
Scheiner S.M. & Gurevitch J. (1993): Design and analysis of ecological experiments. Chapman & Hall, New York.
Underwood A.J. (1997): Experiments in ecology. Their logical design and interpretation using analysis of variance. CUP, Cambridge.
Zar J. H. (1984): Biostatistical analysis. Prentice Hall, Englewood Cliffs.

Literatura k disposici v elektronické formě:

učebnice/příručky

Zkouška

je písemná a sestává z doplňovacího test s 12 otázkami.

Praktický návod pro zájemce o statistické zpracování dat

Praktický návod pro zájemce o porozumění práci s počítačem

O skriptech a prezentačních materiálech

Termíny a výsledky zkoušky v roce 2014/2015

Termíny zkoušek:

hzatím nejsou vypsány

Termín si vyhrazuji právo zrušit, pokud přihlášených bude méně než čtyři (neučiním tak pro poslední termín ve školním roce, obvykle zářijový). Zápis je třeba učinit prostřednictvím SIS (ale přijdete-li nepřihlášeni, asi Vás nevyhodíme - jen možná budete muset čekat déle). Výsledky zkoušek bývají známy obvykle do týdne až deseti dnů. Do klasifikovaných testů je samozřejmě možné po domluvě nahlédnout.

Zkoušku hodnotím pomocí skóre z testu (Skóre je podíl dosažených bodů k maximálnímu počtu bodů). Podmínka pro absolvování zkoušky je skóre vyšší než 0.5 z testu. Překladač skóre na známky: 1-0.83: jednička, 0.83- 0.67: dvojka, 0.67-0.50: trojka.

Výsledky zkoušek jsou zde.

Poslední aktualisace 17.11.2014

Domovská stránka

6.10.	Úvod, typy statistických problémů , typy biologických veličin, exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie pravděpodobnosti.
13.10.	Zásady statistické inference. Odhad parametrů jako předpoklad pro statistické testování, vlastnosti odhadu, střední chyba odhadu, interval spolehlivosti.
20.10.	Zásady statistického modelování. Odhad parametrů modelu, testování modelu, residuály.
27.10.	přednáška se nekoná
3.11.	Zásady statistického rozhodování: formulace a testování hypotéz, testové kritérium, chyba I a II druhu, hladina signifikance.
10.11.	Regrese a korelace. Regresní analýza kvantitativních dat: Mnohonásobná regrese. Výběr nejvhodnějšího modelu.
17.11.	přednáška se koná ve státní svátek Parciální regrese. Nelineární data v regresi, nelineární regrese. Regresní diagnostika.
24.11.	Analýza variance: úvod, jednocestná ANOVA, mnohonásobná porovnávání, dvoucestná ANOVA, interakce.
1.12.	Další situace řešené analýzou variance (hierarchická ANOVA, split-plot designs, opakovaná měření, pevné a náhodné efekty).
8.12.	Neparametrické testy. Analýza frekvencí: kontingenční tabulky .
15.12.	Analýza frekvencí: logistická regrese. Zobecnělé lineární modely.
5.1.	Přehled testů na různé typy ekologických problémů. Přehled běžného softwaru. Obecné zásady pro zpracování dat v ekologii
bude domluveno	Základy plánování ekologických pokusů. Metodologické zásady sběru dat.
letos nepřednáším	Úvod do mnohorozměrných technik: analýza hlavních komponent, korespondenční analýza, kanonické techniky. Úvod do analýzy dat v čase a prostoru.
datum bude stanoveno	Konzultační přednáška. Přijďte a připravte si otázky. (Sám nic nebudu říkat.)

	Základy zacházení s R; Grafické zobrazení a popis jedné proměnné
	Základy zacházení s R – pokračování; Grafické zobrazení vztahů více proměnných – základy explorační analysy dat
	Explorační analysa dat – pokračování; Korelace
	Lineární regrese - základy
	Opakování, první průběžný test
	Mnohonásobná regrese s postupným výběrem proměnných, analysa variance
	Interakce nezávislých proměnných, post hoc testy mnohonásobných porovnávání v analyse variance
	Analysy variance se složitějším designem – split-plot ANOVA, analysy s náhodnými faktory
	Opakování, druhý průběžný test
	Analysa frekvenčních dat – klasické testy, logistická regrese
	Analysa positivně šikmých celočíselných proměnných; analysa vícecestných kontingenčních tabulek
	Analysa nadměrně rozptýlených dat za pomoci zobecněných lineárních modelů
	Opakování, třetí průběžný test