Biostatistika a plánování ekologických pokusů 
  
Semestr: zimní 
  SIS: MB120P147
  Celkový rozsah: 2/1 
  Další přednášející: Zdeněk Janovský (vedení praktik)
  Co je potřeba znát před přednáškou: podmínkou z zápisu je mít absolvovanou 
  přednášku Biostatistika, 
  již přednáší Karel 
  Zvára. Je třeba vědět, že informace o světě kolem se získávají sběrem dat 
  a že tato data je třeba umět sebrat a zpracovat. 
Přednáška chce poskytnout přehled běžných statistických technik pro zpracování 
  ekologických dat pro uživatele. Snaží 
  se intuitivně vysvětlit smysl, povahu a možnosti používaných metod a ilustrovat 
  je příklady. 
Součástí přednášky jsou několik dvouhodinových praktik na zpracování dat. Účast 
  na praktikách není povinná - chápu ji jako rozšiřující možnost naučit se předmět, 
  nikoli jako podmínku ke zkoušce. Praktika probíhají v jazyce R - možná to pro 
  start bude náročnější, ale získáte (i) úvod do programu/jazyka, který se dnes 
  stává standardem ve statistickém zpracování dat, (ii) má ohromné možnosti v 
  množství existujících knihoven, a (iii) je zcela zdarma (GNU licence). 
Účast na přednáškách samozřejmě taky není povinná (i když přednášejícího potěší) 
  - tu chápu jako možnost poslechnout si můj pokus vysvětlit taje statistického 
  uvažování a technik, nikoliv jako způsob jak se poznámkami domoci vlastní malé 
  učebnice statistiky (čím víc člověk píše, tím méně poslouchá...) . Ze 
  stejného důvodu k přednášce nejsou připraveny žádné presentační materiály; v 
  literatuře i na internetu existuje k předmětu dostatek 
  informací. Rozsah přednášky (také zkoušky) je dán syllabem 
  níže - ten prosím konsultujte, chcete-li vědět, co a v jakém rozsahu budu přednášet. 
  
  
 
Časový rozvrh v roce 2014/2015 
 V tomto školním roce přednáška poběží v pondělí v 12,25 (prosím přesně) v 
  Benátské 2, 2. mezipatro. Přednáška končí ca. ve 13,45.  
  
   
    | 6.10. | Úvod, typy statistických problémů , typy biologických veličin, 
        exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie 
        pravděpodobnosti.   | 
   
    | 13.10. | Zásady statistické inference. Odhad parametrů 
      jako předpoklad pro statistické testování, vlastnosti odhadu, střední chyba 
      odhadu, interval spolehlivosti. | 
   
    | 20.10. | Zásady statistického modelování. Odhad parametrů 
      modelu, testování modelu, residuály. | 
   
    | 27.10. | přednáška se nekoná | 
   
    | 3.11. | Zásady statistického rozhodování: 
      formulace a testování hypotéz, testové kritérium, chyba I a II druhu, hladina 
      signifikance. | 
   
    | 10.11. | Regrese a korelace. Regresní 
      analýza kvantitativních dat: Mnohonásobná regrese. Výběr nejvhodnějšího 
      modelu. | 
   
    | 17.11. | přednáška se koná ve státní svátek Parciální regrese. Nelineární data v regresi, nelineární 
        regrese. Regresní diagnostika. | 
   
    | 24.11. | Analýza variance: úvod, jednocestná 
      ANOVA, mnohonásobná porovnávání, dvoucestná ANOVA, interakce. | 
   
    | 1.12. | Další situace řešené analýzou variance (hierarchická 
      ANOVA, split-plot designs, opakovaná měření, pevné a náhodné efekty). | 
   
    | 8.12. | Neparametrické testy. Analýza 
      frekvencí: kontingenční tabulky. | 
   
    | 15.12. | Analýza frekvencí: logistická regrese. Zobecnělé 
      lineární modely. | 
   
    | 5.1. | Přehled testů na různé typy ekologických problémů. 
      Přehled běžného softwaru. Obecné zásady pro zpracování 
      dat v ekologii | 
   
    | bude domluveno | Základy plánování ekologických pokusů. Metodologické 
      zásady sběru dat. | 
   
    | letos nepřednáším | Úvod do mnohorozměrných technik: 
      analýza hlavních komponent, korespondenční analýza, kanonické techniky. 
      Úvod do analýzy dat v čase a prostoru. | 
   
    | datum bude stanoveno | Konzultační přednáška. Přijďte a připravte si 
      otázky. (Sám nic nebudu říkat.) | 
  
Termíny praktik (vede Zdeněk Janovský):
    
   
    |  | Základy zacházení s R; Grafické zobrazení a popis 
      jedné proměnné | 
   
    |  | Základy zacházení s R – pokračování; Grafické 
      zobrazení vztahů více proměnných – základy explorační analysy dat | 
   
    |  | Explorační analysa dat – pokračování; Korelace | 
   
    |  | Lineární regrese - základy | 
   
    |  | Opakování, první průběžný test | 
   
    |  | Mnohonásobná regrese s postupným výběrem proměnných, analysa 
      variance | 
   
    |  | Interakce nezávislých proměnných, post hoc testy 
      mnohonásobných porovnávání v analyse variance | 
   
    |  | Analysy variance se složitějším designem – split-plot ANOVA, 
      analysy s náhodnými faktory | 
   
    |  | Opakování, druhý průběžný test | 
   
    |  | Analysa frekvenčních dat – klasické testy, logistická regrese | 
   
    |  | Analysa positivně šikmých celočíselných proměnných; analysa 
      vícecestných kontingenčních tabulek | 
   
    |  | Analysa nadměrně rozptýlených dat za pomoci zobecněných lineárních 
      modelů | 
   
    |  | Opakování, třetí průběžný test | 
  
Data jsou na Moodlu. 
  
 
   
(1) Úvod, typy statistických problémů , typy biologických 
veličin, exploratorní analýza dat s jednou proměnnou, opakování pojmů z teorie 
pravděpodobnosti  
  - Variabilita. Systematická ("deterministická") a náhodná složka 
    nějaké proměnné. Příklad: výška stromů v lesech různého stáří. Zkoumání systematické 
    složky, zkoumání náhodné složky. 
- Potíže, které s sebou při zkoumání systematické složky nese fakt, že existuje 
    i náhodná složka.
- Statistika řeší dva základní problémy: 
    
      - (i) jak vypadá jev - zjednodušit a popsat. Zajímají mě vztahy, obrázky, 
        numerické hodnoty (kolikrát/o kolik je to větší než ono). Statistické 
        modelování, oddělení náhodné a systematické složky variability, odhad 
        parametrů, visualisace dat, nalezení pattern v komplikované situaci 
        ("mnohorozměrná" data).
- (ii) je to, co vidím ve svých datech náhoda nebo ne? Pojem základního 
        souboru a výběru. Statistická inference - statistické testování. Zajímá 
        mě tvrzení typu Ano/Ne (efekt existuje, efekt neexistuje). 
- [sloužit jako vodítko pro návrh sběru dat, a zakládání pokusů]
 
- Jde o dva odlišné směry ve statistice (prolínají se, člověk používá pořád 
    oba, ale rozdíl důrazu)
- Pojmy veličina, znak, parametr, objekt.
- Tři typy problémů pokud jde o složitost: 
    
      - Zkoumání jedné proměnné: sama o sobě. Střední hodnota a odchylka od 
        ní. Rozložení hodnot a jeho popis: průměr, medián, rozptyl atd. 
- Zkoumání jedné proměnné: v jakém je vztahu k jiné/jiným proměnným. Náhodná 
        a systematická složka hodnot sledované proměnné. Statistické modelování.
- Zkoumání více proměnných současně: v jakém vztahu k sobě vzájemně a 
        příp. k nějakým dalším proměnným (mnohorozměrná statistika).
 
- Typy biologických veličin: kategoriální (má smysl modus), ordinální (má 
    smysl medián a kvantily), intervalová (má smysl průměr a rozptyl), poměrová. 
    Proměnné spojité a nespojité. 
- Organizace dat při zpracování.
-  Visualisace dat: Frekvenční histogram, kvantily - jak je definována osa 
    X pro různé případy. 
- Krabicové diagramy.
- Statistické momenty: Průměr, medián; rozptyl/směrodatná odchylka, šikmost.
- Co se sešikmenými daty: log, sqrt
- Vzájemná nezávislost objektů. Obecný předpoklad statistického zpracování. 
    Potíže s daty v čase a prostoru. 
 
 
- Pravděpodobnost a frekvence. Frekvenční histogram, pravděpodobnostní rozložení 
    (formální podobnost, zásadní rozdíly). Histogram je empirický popis konkrétních 
    dat, pravděpodobnostní rozložení je výsledek teoretického procesu. K čemu 
    se co používá.
-  Binomické a normální rozdělení pravděpodobností. Pojem parametru rozdělení. 
  
- Binomické rozdělení (nespojité proměnné): model hodu mincí. Dva parametry: 
    počet elementárních hodů, pravděpodobnost jedné varianty.
-  Normální rozdělení (spojité proměnné): současné působení mnoha nezávislých 
    vlivů: většinou se kompensují, někdy ne (to jsou ty 100:0 v binomickém). Dva 
    parametry: střední hodnota a rozptyl. 
- Standardní normální rozdělení: nezávisí na použitých jednotkách veličiny 
    x. Jak převést standardní normální rozdělení na obecné normální rozdělení 
    a zpátky.
- Pojem kvantilu: alfa-procentní kvantil je číslo, které dělí rozdělení (zleva) 
    v poměru alfa:(100-alfa). Medián je 50% kvantil. 
- Jak zjistit rozdělení výchozích dat: není to zcela triviální otázka. Histogramy. 
    Q-Q plot: kvantily mého rozložení proti kvantilům standardního normálního 
    rozložení. Lineární, pokud je rozložení normální. sešikmené: konvexní nebo 
    konkávní. špičaté: sigmoidní. Více později. 
(2) Zásady statistické inference. Odhad parametrů jako předpoklad 
  pro statistické testování, vlastnosti odhadu, střední chyba odhadu, interval 
  spolehlivosti   
  -  Základní soubor a výběr, náhodný výběr (každý má stejnou pravděpodobnost 
    býti tažen). Příklad: průzkum veřejného mínění vs. volby. 
- Statistická inference: usuzování na parametry základního souboru pomocí 
    parametrů výběru. Spolehlivost tohoto odhadu. Výpovědní hodnota parametrů 
    takto odhadnutých. Aplikace teorie pravděpodobnosti.
- Dva požadavky na odhad: nevychýlený a spolehlivý. Co to znamená.
-  Příklad: je třeba určit skutečný průměr základního souboru na základě 
    výběru (ta náhodnost je ve faktu výběru ze souboru s nenulovou variabilitou). 
    Současně je třeba kvantifikovat nejistotu, která je s tím odhadem spojená.
- V běžných situacích je základní soubor nedostupný: (i) příliš veliký, (ii) 
    sběr dat destruktivní (testování léčiv), (iii) základní soubor je jen potenciálně 
    existující. Jediné co mohu udělat je provést výběr a zkoumat jedince ve výběru. 
  
- Provedu výběr (n - počet prvků ve výběru, zjistím výběrový průměr, výběrovou 
    směrodatnou odchylku). Co s tím?
-  Jak zkoumat spolehlivost výběru o dané velikosti pro zjištění průměru základního 
    souboru. Myšlenkový pokus: jak se výběr chová, pokud by takto činěný výběr 
    mnohokrát opakoval (chování výběru jako náhodné proměnné, cf. teoretické chování 
    házení korunou) -> střední chyba průměru (tj. směrodatná odchylka teoretického 
    rozdělení hodnot výběrového průměru). 
- Jak to provést: (i) Lze vyčíslit za předpokladu, že znám rozdělení základního 
    souboru (normální), (ii) simulačně.
-  Výběrový průměr z normálního rozdělení má také normální rozdělení. Směrodatná 
    odchylka rozdělení výběrových průměrů: střední chyba odhadu průměru
-  Co tento postup znamená pro možnost určení průměru základního souboru a 
    s ním spojené nejistoty:
    -  výběrový průměr je (nevychýleným) odhadem průměru základního souboru
- výběrový průměr leží s pravděpodobností alfa v intervalu: průměr základního 
      souboru +- střední chyba * kritická hodnota standardního normálního rozložení 
      pro pravděpodobnost alfa/2 (dělím dvěma, protože jde o oboustranný test; 
      kritická hodnota je 1.96).
-  jednoduchá algebraická úprava: skutečný průměr základního souboru leží 
      s pravděpodobností alfa v intervalu: výběrový průměr +- střední chyba * 
      kritická hodnota standardního normálního rozložení pro pravděpodobnost alfa/2.
-  Konfidenční interval - interval spolehlivosti (závisí na zvolené pravděpodobnosti): 
    oblast hodnot, kde se nalezá zjišťované číslo (skutečný průměr základního 
    souboru) se stanovenou pravděpodobností. K čemu se tato pravděpodobnost vztahuje: 
    ne ke konkrétní situaci! Neposuzuji jednotlivý případ sám o sobě, ale posuzuji 
    jej jako člena velkého souboru myslitelných případů: to je smysl té alfa-procentní 
    (ne)jistoty.
-  Všechno je jednoduché, pokud znám sigma - pak mohu sigma použít a výběrový 
    průměr má normální rozdělení. Ovšem sigma zpravidla neznám. Jak si pomůžeme, 
    když neznáme sigma: je třeba učinit odhad parametru disperse (místo sigma) 
    z výběru (výběrová směrodatná odchylka). 
-  Vychýlený a nevychýlený odhad směrodatné odchylky z dat. 
- Počet stupňů volnosti: počet nezávislých pozorování (= "ještě nepoužité 
    informace"), které mám k disposici pro odhad nějakého parametru (kolik nezávislých 
    pozorování mám k disposici pro míru disperse u dvoučlenného souboru?). Důležité: 
    d.f. se vždy vztahuje k odhadu nějakého parametru.
-  Vztah mezi přesností a jistotou: jedno manipuluji, druhé jde s sebou. Čím 
    chceme mít větší jistotu, že se zjišťované číslo nenalézá mimo interval (tj. 
    zvyšujeme pravděpodobnost - jistotu), tím se rozšiřuje konfidenční interval 
    (tj. snižujeme přesnost). Nejistotu lze zmenšit zvýšením počtu opakování. 
    Vztah mezi počtem měření, mírou variability (variance, střední chyba průměru) 
    a přesností zjištění a jistotou. Sami musíme posoudit rizika (a odhadnout 
    potřebný počet měření).
-  Výše uvedený postup lze zobecnit pro libovolné parametry (místo průměru 
    rozptyl, medián, cokoli). Je také základem statistického testování (další 
    přednáška.)
- Zásady odběru vzorků. Co lze usoudit z výběru, který není vybrán náhodně. 
  
(3) Zásady statistického rozhodování: formulace a testování 
  hypotéz, testové kritérium, chyba I a II druhu, hladina signifikance 
  -  Rozhodování v podmínkách neurčitosti: kvantifikace nejistoty: a na základě 
    toho se rozhodnu (čili: nerozhoduje za mě). Z čeho pochází neurčitost: je 
    důsledkem toho, že základní soubor je mi nedostupný a má nenulovou variabilitu 
    ve sledované proměnné.
- Problém, zda se dvě skupiny dat liší (co to znamená: nikoliv že se liší 
    tato konkrétní data, ale že representují dva odlišné základní soubory). Reformulace 
    otázky: zda pocházejí ze stejného základního souboru. Nulová hypotéza.
-  Testové kritérium/statistika (např. vyjadřující rozdíl mezi oběma skupinami; 
    míra rozdílu). Použiju k popisu zjištěného rozdílu. Analogie úvahy minule: 
    jak se teoreticky bude testové kritérium chovat za předpokladu, že oba oba 
    výběry pocházejí ze stejného základního souboru
-  Jak se zjistí teoretické chování testového kritéria za platnosti nulové 
    hypotézy: analyticky (programy, tabulky), Monte Carlo techniky (simulace mnohokrát 
    opakovaného výběru na počítači). Jaké předpoklady jsou třeba.
-  Dosažená hladina signifikance: Pravděpodobnost sebraných dat za podmínky 
    neexistence závislosti (platnosti nulové hypotézy)
    
  
     
      |  | Pravý stav věcí (základní soubor) | 
     
      | Náš závěr (rozhodnutí) | Závislost neexistuje (výběry pocházejí ze stejného základního souboru) | Závislost existuje (výběry pocházejí ze dvou odlišných souborů) | 
     
      | Závislost neexistuje | Správné rozhodnutí | Chyba II. druhu (beta) | 
     
      | Závislost existuje | Chyba I. druhu (alfa) | Správné rozhodnutí | 
  
  -  Chyba I a II druhu, stanovení beta (závisí na síle závislosti).
-  Chyba I druhu hrozí pouze v případě, zamítám-li nulovou hypotézu, chyba 
    II druhu hrozí pouze v případě, když nulovou hypotézu nezamítám. Problém nesignifikantních 
    závislostí.
-  Zvláštní postavení nulové hypotézy: nepředpokládá nic dodatečného. Ke kvantifikaci 
    beta potřebuji znát intenzitu vztahu.
-  Rozdíl mezi nulovou hypotézou a badatelskou hypotézou.
-  Opět: neposuzuji jednotlivý případ sám o sobě, ale posuzuji jej jako člena 
    velkého souboru myslitelných případů. Tvrzení "zavrhujeme nulovou hypotézu 
    na hladině pravděpodobnosti alfa" znamená: v situaci, že efekt neexistuje, 
    dostaneme daný výsledek (při myšleném mnohonásobném opakování) s pravděpodobností 
    menší než alfa. Rozhodování pouze na základě levé části tabulky (tam platí 
    nulová hypotéza).
-  Vztah mezi alfa, beta, počtem stupňů volnosti, silou závislosti a silou 
    testu. Čím chceme mít větší jistotu, že se nedopustíme chyby I. druhu (tj. 
    neoprávněně tvrdit něco positivního), tím více zvyšujeme pravděpodobnost chyby 
    II. druhu (tj. neoprávněně lpět na něčem negativním). Je to otázka volby. 
    Konservativní přístup, progresivní/liberální přístup. Nejistotu lze zmenšit 
    zvýšením počtu opakování, nebo snížením variability.
- Signifikance kriticky závisí na počtu případů: opatrnost při interpretaci 
    výsledku testu. Signifikance vs. konfidenční interval velikosti efektu (effect 
    size). 
-  Závislost na předpokladech: robustnost testu.
-  Pozor: Klasická statistika udává pravděpodobnost mých dat za předpokladu 
    platnosti nulové hypotézy, nikoli obráceně. 
- Jak se domoci pravděpodobnosti nulové hypotézy za předpokladu mých dat (Bayesovská 
    statistika). 
(4) Zásady statistického modelování. Odhad parametrů modelu, 
  testování modelu, residuály. Regrese a korelace. 
  - Statistické modelování: Zkoumání vztahu mé sledované proměnné k nějakým 
    dalším proměnným. 
- Problém: závislost dvou kvantitativních veličin. Nezávislá proměnná: prediktor, 
    kovariáta. Závislá proměnná: response variable. 
-  Jak zobrazit taková data: obě osy spojité.
- Regrese. Asymetrický případ (vím, která je závislá a která ne). 
- Statistický model: vyjadřuji sledovanou proměnnou jako funkci nějakých jiných 
    proměnných a náhodné složky. yi = f(xi) 
    + epsi.  Náhodná a systematická složka variability Y.
- Náhodnou složku variability předpokládám jen u závislé proměnné! 
- Jak může vypadat funkce f. Závisí na znalosti jevu, ale ta často 
    schází.
-  Occamova břitva: nejjednodušší závislost je lineární. To neznamená, že 
    předpokládám, že svět se chová lineárně, ale to, že jej mohu lineárním modelem 
    aproximovat (v určitém rozsahu hodnot). Přímka má taky málo parametrů.
- Statistický model lineární regrese. Očekávaná hodnota y je lineární 
    funkcí prediktorů: Eyi = bxi + a. 
-  Rozložení hodnot y kolem očekávané hodnoty je normální, yi 
    = bxi + a + epsi, kde eps je normálně 
    rozložená náhodná proměnná se střední hodnotou 0.
-  Jak najít parametry přímky? Hledám: parametry, které poskytnou nejlepší 
    shodu s daty. Definice kritéria shody s daty. 
    
      - Metoda nejmenších čtverců: minimalizace kritéria shody. (Fitting, 
        fit.) a a b lze pak přímo získat z matice dat.
- [Metoda maximum likelihood.]
 
-  Regresní koeficient a úsek na ose Y. Rozměr regresního koeficientu a úseku 
    na ose Y. Numerická hodnota regresního koeficientu proto závisí na použitých 
    jednotkách - bez této znalosti není interpretovatelná. Standardizovaný regresní 
    koeficient (beta). 
- Střední chyba odhadu regresního koeficientu a jeho konfidenční interval. 
  
-  Predikce vs. pozorovaná hodnota, residuály: zkoumání vhodnosti modelu. 
    Residuály: definice, interpretace, použití. Residuály a náhodná variabilita 
    mají smysl jen pro proměnnou y (závislou). 
- Parametry regrese jsou citlivé k odlehlým hodnotám. Jejich identifikace, 
    dva typy odlehlých hodnot: odlehlé na ose X (špatný výběr a pokrytí rozsahu 
    nezávislé proměnné), odlehlé na ose Y (chyba měření nebo neznámý jev).
- Regresní techniky jsou použitelné jen v intervalu, kde byly odvozeny koeficienty 
    (extrapolace obvykle neproveditelná)
- Testování signifikance v regresi: Testuji hypotézu: regresní koeficient 
    v základním souboru (obvykle se značí beta) = 0. Znázornění obrázkem.
- Rozklad variance poté, co mám nalezenou regresní přímku. Co je systematická 
    a co náhodná složka rozptylu. 
- Testové kritérium: F-statistika. Poměr variancí: systematické a residuální 
    (dva parametry stupňů volnosti). Převedení na test: pravděpodobnostní rozložení 
    F statistiky za předpokladu platnosti nulové hypotézy.
- Korelace: Symetrický případ (nevím, která je závislá a která ne) 
    -> korelace. Proč v takovém případě nelze použít regresi. Pojem kovariance, 
    korelační koeficient. Rozměr korelačního koeficientu. 
- Koeficient determinace. Podíl variability jedné proměnné vysvětlené změnami 
    druhé proměnné. R2 = SSregrese / SScelk. 
    Podíl sumy čtverců vysvětlené regresí k celkové sumě čtverců. 
- Testování signifikance korelačního koeficientu: převedení na t-test. Rozdíl 
    mezi mírou intensity vztahu (korelační koeficient) a pravděpodobností toho, 
    že vztah je/není důsledkem náhody. Jaká je nulová hypotéza. Dvoustranný vs. 
    jednostranný test. 
- Vztah intenzity závislosti ( korelační koeficient) a signifikance (test 
    - F-statistika, t-statistika) - bez přímého vztahu (signifikance je vždy krom 
    intensity závislosti ovlivněna počtem případů)
- Korelace (statistický vztah dvou proměnných) neznamená samozřejmě vliv jedné 
    proměnné na druhou. 
(5a) Regresní analýza kvantitativních dat: Mnohonásobná 
  regrese. Výběr nejvhodnějšího modelu. 
  - Testy signifikance v regresi: formulace nulové hypotézy. Testuji 
    hypotézu: regresní koeficient v základním souboru (obvykle se značí beta) 
    = 0. Znázornění obrázkem.
- F-statistika: Rozklad variance poté, co mám nalezenou regresní přímku. Co 
    je systematická a co náhodná složka rozptylu. 
- Testové kritérium: F-statistika. Poměr variancí: systematické a residuální 
    (dva parametry stupňů volnosti). Převedení na test: pravděpodobnostní rozložení 
    F statistiky za předpokladu platnosti nulové hypotézy.
- Signifikance korelačního koeficientu. 
- Mnohonásobná regrese: zobecnění jednoduché regrese na více prediktorů, 
    posun z roviny (y ~ x, tj. dva rozměry) do mnohorozměrného prostoru (y ~ x1 
    + x2 + x3 ...; pro každou další vysvětlující proměnnou 
    jeden další rozměr). Geometrické znázornění pro dva prediktory v trojrozměrném 
    prostoru. Obecně pro n prediktorů n+1 rozměrný prostor. 
- Počet parametrů v mnohonásobné regresi: každá další vysvětlující proměnná 
    znamená jeden parametr navíc (v zásadě regresní koeficient závislé proměnné 
    na této vysvětlující proměnné). Model: závislost očekávané hodnoty y na všech 
    prediktorech. Složitost modelu - počet prediktorů v modelu. 
- Hledání hodnot parametrů (regresních koeficientů - jeden pro každou nezávislou 
    proměnnou). Pozorované hodnoty y, očekávané hodnoty y jako v jednoduché regresi.
- Odhadnuté hodnoty regresních koeficientů závisí na všech ostatních proměnných 
    v rovnici (model dependence). 
- Počet stupňů volnosti modelu: = počet odhadovaných parametrů. Residuální 
    počet stupňů volnosti v regresi: = počet pozorování  počet odhadovaných 
    parametrů.
- Koeficient mnohonásobné korelace R, determinace: R2. 
- Testy v mnohorozměrné regresi. 
- Celkový test modelu: F-statistika. 
- Testy regresních koeficientů (pomocí t=kritéria jako v obyčejné regresi). 
    Závislost na modelu: signifikance je mj. závislá na dalších členech, které 
    v modelu jsou (nebo nejsou). 
- Mnohonásobná regrese je málo informativní v případě, když nezávislé proměnné 
    jsou korelované. 
- Problém korelace mezi nezávislými proměnnými. Jakou informaci data obsahují 
    (a neobsahují) pokud jsou prediktory korelované. 
- Postupná regrese, výběr nejvhodnějšího modelu. 
- Hledání nejvhodnějšího modelu (...nejlepší kombinace prediktorů) technikami 
    postupné regrese. Typicky v situaci, kdy mám potenciálně mnoho prediktorů, 
    a hledám těch několik málo, které jsou pro vysvětlení variability závislé 
    proměnné nejdůležitější. 
- Postupná regrese: přidávání nebo ubírání členů modelu a srovnávání dvojic 
    mnodelů. 
- Přidávání členů v postupné regresi: jak identifikovat prediktor, který mám 
    přidat.
-  Srovnávání modelů. Vždy srovnávám dva modely, které se liší právě jedním 
    členem. Jak poznat, že přidávaný člen vysvětlí už dost málo variability (a 
    tudíž by neměl být přidán). 
- "Naivní" možné kritérium pro srovnání modelů: rozdíl v koeficientu 
    mnohonásobné determinace. Testování není nejvhodnější - opakované použití 
    dat pro několik testů. 
- Problém počtu parametrů v modelu: čím více parametrů, tím lépe může model 
    vysvětlovat (ta konkrétní) data. Geometrická analogie. Větší počet parametrů 
    nutně umožňuje lepší fit (shodu modelu s daty). Nicméně zvýšení počtu 
    parametrů znamená nutně také snížení residálních počtů stupňů volnosti, a 
    tedy nízkou prediktivní sílu (pokud se z modelu vypočte očekávaná hodnota 
    závislé proměnné pro objekt, který nebyl v datech, nebude poskytovat dobrou 
    informaci o skutečné hodnotě závislé proměnné daného objektu). 
- Overparameterised model: model s malým počtem residuálních d.f., 
    s dobrých fitem na konkrétní data, ale jinak bezcenný - při rozšíření datového 
    souboru nefunguje.
- Koeficient mnohonásobné determinace nezohledňuje počet parametrů modelu 
    a není tedy nejvhodnější. 
- Nárůst R2 u složitějších modelů může být důsledkem jak toho, že model je 
    lepší (postihuje skutečné vztahy mezi proměnnými), tak i toho, že složitý 
    model nutně lépe popisuje stávající data, ale právě jen je (což nemá nic společného 
    s popisem skutečných vztahů mezi proměnnými). Jak tyhle dva jevy odlišit.
- Adjusted R2. Podíl sumy čtverců vysvětlené regresí k celkové sumě čtverců 
    je třeba snížit, protože pokud model má hodně parametrů, suma čtverců vysvětlená 
    regresí bude nutně vyšší. Ke korekci se používá poměr počtu stupňů volnosti: 
    čím víc parametrů je v modelu relativně vůči počtu pozorování, tím nižší bude 
    Adjusted R2. Adjusted R2 = 1-(SSerror / SScelk) 
    * (dfcelk / dferror). 
- Jiný postup: AIC (Akaike's information criterion): -2*log(věrohodnost 
    modelu) + 2*(počet parametrů + 1). U dobrých modelů jsou obě složky malé (jsou 
    věrohodné a mají málo parametrů). AIC znevýhodňuje ("penalizuje") 
    modely, které pro danou věrohodnost potřebují hodně parametrů (tj. mají menší 
    prediktivní schopnost). 
- Srovnávání modelů pomocí AIC: Nejlepší model jen ten, který má nejmenší 
    hodnotu AIC (největší věrohodnost pro daný počet parametrů, nejmenší počet 
    parametrů pro dabou věrohodnost).
- AIC neříká nic o tom, jak vybraný model dobře popisuje data (je důsledně 
    jen relativní míra na srovnání mezi modely). Je pro třeba doprovodit nějakou 
    mírou síly efektu, např. R2
- [Věrohodnost je míra toho, jak dobře daný model s danými parametry popisuje 
    data. Používá se například k hledání nejlepších hodnot parametrů pro daný 
    datový soubor.]
- Backward stepping, forward stepping.
- Způsoby výběru nejlepších prediktorů (postupná regrese): nemusí nutně vést 
    ke globálně nejlepšímu řešení. Existují rafinovanější algoritmy. Výhody Backward 
    stepping.
 
(5b) Regresní analýza kvantitativních dat: pokračování. 
  Parciální regrese. Nelineární data v regresi, nelineární regrese. Lokální regrese. 
  Regresní diagnostika.
  - Parciální regrese.
- Efekty jednotlivých prediktorů se mohou maskovat: jak najít "čistý" 
    efekt nějakého prediktoru.
- Parciální regrese: regrese po odstranění vlivu vybraných proměnných (přes 
    známou třetí veličinu). Parciální regrese předpokládá, že vím, která závislá 
    proměnná mě zajímá vic (pro tu počítám parciální regresi) a která míň (vliv 
    té odstraňuju). Regrese residuálů (z regrese na nezajímavé proměnné) k zajímavé 
    proměnné. 
- Parciální regresní koeficient, parciální korelační koeficient. 
- Problém korelace mezi nezávislými veličinami (prediktory) v regresi: korelace 
    znamená, že ne všechny kombinace prediktorů existují (že pro ně jsou k disposici 
    pozorování závislé veličiny). Korelované prediktory a postupná regrese. Jsou-li 
    prediktory korelované, statisticky nelze rozlišit, kterému z nich připsat 
    "skutečný" vliv na závislou proměnnou. 
- Nelineární regrese. 
-  Předpoklad linearity v regresi. 
- Když není splněn, ale znám nebo mohu předpokládat typ závislosti (protože 
    znám mechaniku sledovaného procesu nebo geometrii závlosti). Např. u radioaktivního 
    rozpadu vím, že počet rozpadů exponenciálně klesá s časem. Pak typická otázka 
    je často po odhadu numerické velikosti koeficientu (např. intensity radioaktivního 
    rozpadu), případně test toho, zda jsou data s daným modelem kompatibilní nebo 
    ne (zda se od něj signifikantně liší/neliší). Možné postupy: 
    
      -  (i) linearizace transformací (exponenciální, log, power, reciproký 
        model, arsin transformace podle toho, jak vypadá očekávaná závislost)
- (ii) nelineární regrese (fituji přímo netransformovanou závislost, zpravidla 
        jen numericky)
- Poznámka. Tvary Ey = axb a log 
        (E y) = log a + b log x jsou sice matematicky 
        ekvivalentní, ale statisticky ne, protože transformace závislé proměnné 
        znamená i transformaci kritéria pro sumu čtverců a reziduálů, což vede 
        k (trochu) jiným odhadům parametrů. Nelineární regrese (tj. bez transformace) 
        je proto zpravidla lepší. 
 
- Když není splněn, ale o závislosti nic nevím (tj. mám k disposici jen empirické 
    zjištění nelinearity v obrázku): pak typická otázka je buď predikce (zjistit 
    hodnoty y pro nějaké další x), nebo popis dat nebo identifikace 
    typu zakřivení ("jaká nelinearita", a zda vůbec data poskytují podklad 
    pro tvrzení, že závislost je nelineární). 
    
      - transformace (odmocninová, log(x+1)). U logaritmu pozor na velikost 
        aditivní konstanty - "1" znamená jednu jednotku v níž je x 
        měřeno a musí tedy mít smysl ve vztahu k měřeným hodnotám. 
- Polynomická regrese: aplikace mnohonásobné regrese. Potíže s interpretací 
        koeficientů, overparameterization. Jak identifikovat vhodný model 
        postupnou regresí. Velmi vhodná pro test toho, zda v datech vůbec nelinearita 
        je (test signifikance členu druhého řádu)
- Lokální regrese: zásady, použití. Residuály. LOESS smoother. 
        Empirický (data-driven) postup, velmi flexibilní (jako polynomická 
        regrese), ale málo vysvětlující (generování hypotéz). Méně náročný na 
        počet parametrů. Parametry LOESS. 
 
- Regresní diagnostika.
- Identifikace vhodnosti modelu pomocí residuálů (a standardizovaných reziduálů) 
    - rozložení residuálů (pokud není normální, model není asi vhodný), závislost 
    residuálů na hodnotě prediktoru nebo na očekávané hodnotě (pokud závislost 
    existuje, model asi není vhodný).
- Cookova vzdálenost daného objektu: jeho vliv na hodnotu parametrů regrese. 
    Extrémní hodnoty znamenají ty objekty, které mají disproporčně velký vliv
- Odlehlé hodnoty: odlehlé na ose x i na ose y (typicky mají velkou Cookovu 
    vzdálenost): špatné pokrytí hodnot prediktoru. Víceméně rovnoměrné pokrytí 
    hodnot prediktoru je předpoklad regrese. Náhodnost výběru: jen v rámci kategorií 
    prediktoru.
- Odlehlé hodnoty: odlehlé jen na ose y (také mají velkou Cookovu vzdálenost, 
    ale ne tolik): ty jsou obzvlášť podezřelé - možnost chyby v datech, možnost 
    důležité ale nezahrnuté další proměnné. 
 
(6) Analýza variance: úvod, jednocestná ANOVA, mnohonásobná 
  porovnávání, dvoucestná ANOVA, interakce. 
  - Jednocestná (one-way) ANOVA
- Problém: závislá proměnná kvantitativní (např. výnos), ale nezávislá proměnná 
    kategoriální (ošetření, faktor),
-  Terminologie: ošetření (treatment), faktor (=nezávislá proměnná), 
    hladina faktoru, replikace (opakování - pozor, to není opakované měření na 
    jednom objektu), sledovaná (= závislá proměnná), response variable
- Zobrazení dat: x-osa kategoriální, y-osa kvantitativní (box-and-whisker 
    plots, průměry a střední chyby)
- Suma čtverců a její rozklad: systematická, residální. Mean square. Parametry 
    stupňů volnosti: m-1 pro systematickou a n-m pro residuální; 
    m počet hladin faktoru, n počet případů
- F statistika: poměr "variancí": systematické a residuální 
    (dva parametry stupňů volnosti: m-1 v čitateli a n-m ve jmenovateli). 
    Převedení na test: pravděpodobnostní rozložení F statistiky za předpokladu 
    platnosti nulové hypotézy. 
- Statistický model jednocestné ANOVA. Vztah mezí ANOVA a regresí. 
- Předpoklady: normální rozdělení, homogenita variancí. Jak je robustní. Možná 
    náhrada pomocí pořadového testu. 
- Testy homogenity variancí: Bartlett, Levene. Grafické zkoumání. Transformace 
    k zísakání přibližné homogenity avriancí. 
- Případ s více hladinami nezávislé proměnné: ANOVA říká, že hodnoty se od 
    sebe liší, ale neříká, které. Přitom to je zpravidla ta důležitá otázka. 
-  Mnohonásobná porovnávání: Proč nelze párově testovat. Počet stupňů volnosti 
    - jednotlivá srovnání na sobě nejsou nezávislá (stane-li se něco s jednou 
    plochou, ovlivní to nejméně dvě srovnání). Proč nemohu vybrat páry pro testování 
    ex post: směšování vytváření hypotéz s testováním (plánovaná a neplánovaná 
    srovnání - pro plánovaná srovnání musí být hladiny, jež mají být srovnávány 
    vybrány na základě úvah, učiněných dříve, než je znám výsledek pokusu - tj. 
    apriorně, nikoli aposteriorně). 
- Testy mnohonásobných porovnávání (Multiple range tests): Tukeyův HSD test, 
    Schefféův test, LSD, mnohočetné srovnání s kontrolou: Dunnettův test
-  Jaký smysl mají hladiny nezávislé proměnné. Model I (pevné efekty) a Model 
    II (náhodné efekty) ANOVA. Model I: hladiny faktoru dané experimentem nebo 
    povahou věci, nemůže jich být více; u model II jde o náhodný vzorek většího 
    universa možností. U model I nulová hypotéza rovnost průměrů (přitom efekty 
    mohou být nenulové, jen jsou stejné), u Model II zanedbatelnost variance mezi 
    hladinami faktoru (průměr efektů je nula). U model II myšlenka sampling (je 
    to vzorek z mnoha hladin), u model I jiné hladiny nemají dobrý smysl. Mnohonásobná 
    srovnání: má smysl u model I ANOVA (protože tam vím, která hladina je která), 
    ale ne u model II ANOVA. Někdy záleží na volbě, jaký model to je: Klíč: zvolím 
    stejné hladiny v opakovaném pokusu?
  - Dvoucestná ANOVA: dva nezávislé kombinované faktory.
-  Interakce: vliv faktoru 1 a faktoru 2 nejsou aditivní: potřebuju vědět 
    hladinu faktoru 1 pro to, abych dokázal říci, jak působí faktor 
    2.
-  Jak zobrazit tato data: graf průměrů, jednotlivých objektů, box-and-whisker 
    plots. Jak ukázat interakci (čáry spojující průměry nejsou rovnoběžné).
-  Rozklad variance na složky s interakcí a bez ní. Konstrukce F-statistik, 
    tabulka analýzy variance. Vliv zahrnutí interakce na residuální sumu čtverců.
- Statistický model vícecestné ANOVA s interakcemi. 
(6) Analýza variance: Další situace řešené analýzou variance
  -  Hierarchická (nested) ANOVA. Hierarchie variancí. Příklad: 
    hierarchie variancí při měření pH v půdě: přesnost měření jednoho výluhu, 
    výluhy z jednoho vzorku, vzorky z jednoho odběru, víc odběrů na stanovišti. 
  
- Rozklad variance na složky. F-statistika v hierarchické ANOVA: residuální 
    variance na nejbližší nižší úrovni (residuální počet stupňů volnosti: kolik 
    nezávislých objektů mám k disposici pro testování efektu, který mě 
    zajímá?). Residuální variance n-té úrovně je systematickou složkou 
    n+1 úrovně. Nižší úrovně mají zpravidla smysl náhodných faktorů; nejvyšší 
    úroveň může být náhodná i pevná.
- Split-plot ANOVA: Hierarchická struktura dat. Jednotlivé 
    nezávislé proměnné jsou definovány na různých úrovních. To určuje to, kolik 
    nezávislých objektů (~d.f.) má člověk k disposici pro provedení testu té příslušné 
    proměnné (počet objektů je dán počtem nezávislých opakování ve vztahu 
    k dané proměnné).
- Testy ve split plot ANOVA: residuální počty stupňů volnosti podle toho, 
    na jaké úrovni hierarchie je proměnná definována. Interakce ve split-plot 
    ANOVách. 
-  Opakovaná měření (repeated measurements) téhož objektu: pozor! 
    nejsou to nezávislé hodnoty. Opakovaným měřením se nezvyšuje počet případů 
    ani počet stupňů volnosti pro stanovení vlivu treatmentu. Jde o speciální 
    případ split-plot analýz. 
- Obvykle se používají pro hodnocení měření v čase, ale nepředpokládají uspořádanost 
    hladin faktoru (záznamových časů) za sebou. Co dělat, pokud je třeba testovat 
    trend v čase (orthogonální polynomy). 
- Použití ANOVA s opakovanými měřeními při vyhodnocení pokusů: záznam výchozího 
    stavu na jednotlivých plochách (před ošetřením), 1 nebo více záznamů po ošetření. 
    Nejdůležitější test vlivu ošetření je pak test interakce ošetření*čas (tj 
    test divergence vývoje sledované veličiny na oštřených a neošetřených plochách).
-  Složitější modely s Model I (pevné efekty) a Model II (náhodné efekty), 
    smíšené modely.
-  Problém: nezávislá proměnná kvalitativní a kvantitativní, závislá proměnná 
    kvantitativní: analýza kovariance (ANCOVA). Test sklonu a shody průměrů 
    (hlavní efekty) a test shody sklonů (interakce mezi nezávislými proměnnými). 
  
- Statistický model ANCOVA s interakcemi. Smysl jednotlivých členů modelu. 
  
(7) Neparametrické testy
  - Princip, použití, omezení. Umožňují test, ale neumožňují fit statistického 
    modelu s parametry. 
- Neparametrické testy korelace: Spearmanův test, Kendallův test. Jediný předpoklad: 
    monotónní závislost. 
- Kruskal-Wallisův test jako analogie jednocestné ANOVA
-  Friedmannův test (dvoucestná ANOVA)
  
(8) Analýza frekvencí: kontingenční tabulky, logistická 
  regrese 
  - Problém: kvalitativní odpověď (dvouhodnotová, vícehodnotová): Problém je 
    zejména v tom, že rozložení závislé proměnné není možné aproximovat normálním 
    rozdělením. Nelze proto použít statistický model s eps normálně rozloženým. 
  
- Prozatím: jen data s nezávislou proměnnou kvalitativní (lze sestavit frekvenční 
    tabulku). Typ dat, výpočet frekvenční tabulky. Marginální frekvence: počty 
    událostí jedné proměnné (bez ohledu na hodnoty druhé proměnné)
-  Frekvenční tabulka (obecný případ, speciální případ 2x2). 
- Dva typy použití: 
    
      - (i) síla vazby proměnných v tabulce 2x2: nezávisí na počtu jedinců. 
        Analogie korelačního koeficientu. 
- (ii) test nenáhodnosti v obecné tabulce: závisí na počtu jedinců. 
 
- Konstrukce očekávaných frekvencí ve frekvenční tabulce: násobení pravděpodobností. 
    Předpoklad náhodnosti: očekávané a pozorované frekvence se neliší
- Odbočka. Genetika: jak testovat shodu pozorovaných dat (žlutých a zelených 
    semen) s modelem (3:1): Testy dobré shody (Goodness of fit). 
    
      - Chi2, vychází ze součtu čtverců odchylek pozorovaných 
        a očekávaných (vypočtených z očekávaného poměru 3:1 v jednoduchém mendelistickém 
        případě) frekvencí. Chi2 rozdělení. 
- log likelihood ratio test: srovnání dvou pravděpodobností získání 
        pozorovaných dat: jejich pravděpodobnosti za předpokladu testovaného modelu 
        (3:1 v jednoduchém mendelistickém případě) a nejlepšího možného modelu 
        (takového, kde "teoretický" poměr se odhadne přímo z dat). -2* 
        ln (poměr těchto pravděpodobností). Různá označení: G-test, LLR 
        test. Má také Chi2 rozdělení. 
- Počet stupňů volnosti: počet buněk - počet parametrů, jež je třeba mít 
        k výpočtu očekávaných frekvencí. 
 
-  Testy ve frekvenční tabulce: Chi2, vychází ze součtu 
    čtverců odchylek pozorovaných a očekávaných dat. Chi2 : 
    počet stupňů volnosti
- log likelihood ratio test: srovnání dvou pravděpodobností získání 
    pozorovaných dat: jejich pravděpodobnosti za předpokladu testovaného modelu 
    (v tomto případě nezávislosti, čili očekávaných na základě marginálních frekvencí) 
    a nejlepšího možného modelu (který vysvětluje data úplně, čili bere v úvahu 
    i závislost jedná proměnné na druhé)
- Problém nespojitých dat (pozorované frekvence jsou vždy celočíselné, zatímco 
    očekávané frekvence nikoli) a shody s očekáváním: potřeba korekce (Yatesova 
    korekce)
- Fisherův exaktní test: jen v tabulkách 2x2, test bez testového kritéria: 
    pravděpodobnost se přiřazuje tabulce přímo. Předpoklad: uspořádání tabulek 
    na ose síly vazby. 
- Residuály - odchylky od očekávané hodnoty. Lze použít též identifikovat, 
    jaká políčka nejvíc přispívají k nenáhodnosti
- Poznámka: jak jsou určeny marginální frekvence: dané pro obě (model III, 
    Fisherův exaktní test), dané pro jedno, daný jen celkový počet případů. 
-  Závislosti více veličin: mnohonásobná kontingenční tabulka, marginální 
    tabulky, parciální tabulky (řezy tabulkou), strukturní nuly. Lze zobecnit 
    testování pomocí srovnání očekávaných a pozorovaných frekvencí (log-lineární 
    model).
-  Další problém: kategoriální veličina závisí na spojitých (frekvence jevu 
    jako funkce nějakých spojitých parametrů).
- Nelze analyzovat pomocí ANOVA: statistický model musí být formulován tak, 
    aby závislá proměnná (tj. ta kategoriální) měla náhodnou složku variability 
    (nikoli tak, aby náhodnou složku variability měla ta spojitá, jako je tomu 
    v případě ANOVA.)
- Je třeba použít analogii regrese, ale to se setkává s následujícími potížemi: 
    
      - Závislost očekávané hodnoty y na x není (ani trochu!) lineární 
- Chyby nejsou normálně rozděleny (rozptyl závisí na očekávané hodnotě 
        y)
 
- Logistická regrese: sigmoidní křivka. p = ea+bx 
    / (1+ea+bx). 
- Odds ratio: poměr úspěchů k neúspěchům pro danou kombinaci prediktorů.
- Alternativní formulace statistického modelu logistické regrese: logit(p) 
    = log(p/(1-p)) = a+bx. 
- Binomické rozdělení hodnot závislé proměnné (model házení korunou, kdy pravděpodobnost 
    toho, že padne hlava, závisí na hodnotách nezávislých proměnných).
- Testování jednotlivých členů modelu. Analogie postupné regrese. 
- Deviance jako míra fitu jednotlivých modelů: vychází z log likelihood 
    ratio -2 ln [(pravděpodobnost dat za teoretického modelu) / (pravděpodobnost 
    dat za saturovaného modelu)]. Saturovaným modelem se myslí nejlepší myslitelný 
    model (který vysvětlí data nejlépe). Vlastnost aditivity: rozdíl deviancí 
    mezi dvěma do sebe vřazenými modely (tj. lišícími se zahrnutím jednoho nebo 
    několika parametrů) má také Chi2 rozdělení s počtem stupňů 
    volnosti daných počtem těchto parametrů. Použití jako test signifikance těchto 
    parametrů (při daném modelu)
(9) Zobecnělé lineární modely.  
  - Požadavek na typ rozdělení se týká jen závislé proměnné (je 
    to rozložení jejích skutečných hodnot kolem očekávané hodnoty). Je proto třeba 
    zkoumat rozdělení hodnot závislé proměnné pro danou kombinaci hodnot 
    nezávislých proměnných (nikoli rozdělení bez ohledu na hodnoty nezávislých 
    proměnných). Zkoumání rozdělení hodnot y bez dalšího proto není vždy dost 
    informativní, je lépe zkoumat residuály (ale ty už závisí na použitém modelu...). 
  
- Jak zjistit rozdělení výchozích dat I: Testy shody s teoretickým rozdělením 
    (chi2 nebo jiný test dobré shody, Kolmogorov-Smirnov, Shapiro-Wilks). 
    Problém: je-li případů málo, test není signifikantní ani v případě velké odchylky, 
    je-li případů mnoho, je signifikantní, i když odchylka je tak malá, že neovlivní 
    statistickou inferenci. 
- Jak zjistit rozdělení výchozích dat II: Grafické postupy jsou lepší. Histogramy, 
    Q-Q plot: kvantily mého rozložení proti kvantilům standardního normálního 
    rozložení. 
- Jak zjistit rozdělení výchozích dat III: Rovněž je důležitá úvaha o generujícím 
    procesu, možná přítomnost nulových hodnot, to, zda mají smysl i neceločíselné 
    hodnoty, reakce na transformaci (log, sqrt) - graficky. 
- Jak naložit s daty, která nejsou normálně rozložena: 
 1. Neparametrické testy. Typicky nepředpokládají žádné specifické rozdělení, 
    ale bývají slabší.
 2. Převést na normální rozdělení. Log, sqrt, mocninná transformace. Vhodné 
    zejména pokud v datech je hierarchie variancí (split-plot design, opakovaná 
    měření, atd.), protože tam lze hůř použít GLIM. Někdy není možné - nuly, binární 
    data, nespojitá data. [Dva důvody transformací ve statistice: (i) linearizace 
    závislostí (tam jak x tak y podle potřeby, (ii) úprava rozdělení 
    závislé proměnné (tam jen y)]
 3. Randomizační testy. Velmi robustní, ale testují trochu jinou nulovou hypotézu. 
    Na rozdělení dat v zásadě nezávisí. Ve složitějších případech může být jejich 
    provedení obtížnější a nejednoznačné.
 4. Zobecněný lineární model - Generalized linear model. Pracuje se 
    specifickými rozděleními (jako lineární model), ale umožňuje pracovat s poměrně 
    rozmanitými rozděleními.
- Generalized linear model.
- Příklady závislých proměnných s jiným než normálním rozdělením: 
    
      - binomické: počet "hlav" z celkového počtu hodů (např. počet 
        rostlin, které vykvetly, pokud znám celkový počet rostlin), 
- Poissonovo: počet (např. počet potomků na jedince), 
- Gamma (mnoho sešikmených biologických rozdělení, např. velikost), 
- exponenciální (doba života - modely přežívání). 
 
- Projevem toho je mj. závislost rozptylu na průměru. Jak v různých teoretických 
    rozděleních závisí rozptyl na očekávané hodnotě y: binomické - unimodální, 
    Poissonovo - lineární, Gamma - kvadratická (Gaussovo/normální - rozptyl na 
    očekávané hodnotě y nezávisí)
- Použití modelu s nějakým rozložením nepředpokládá, že data to rozložení 
    musí mít, ale to, že je možné je jím aproximovat. 
- Opakování: Co to je statistický model. Obecný lineární model (general 
    linear model, GLM): očekávaná hodnota y je lineární funkcí prediktorů. 
    Ey = ax+b. Rozložení hodnot y kolem očekávané hodnoty je normální, 
    y = ax+b + eps, kde eps je normálně rozložená náhodná 
    proměnná se střední hodnotou 0. 
- Opakování terminologie: Nezávislá proměnná: prediktor, faktor, kovariáta 
    (tak se jí říká obvykle v případě, že mě nezajímá a chci její vliv odfiltrovat 
    pomocí parciální analýzy). Závislá proměnná: response variable
- Zobecnění principu logistické regrese (nelineární závislost očekávaných 
    hodnot na x, jiné než normální rozdělení hodnot y)
- Zobecněné lineární modely (generalized linear models, GLIM): dva 
    rozdíly proti lineárním modelům: 
    
      - Zavedení transformační funkce (link function): g(Ey) 
        = ax+b. Ta umožní převést rozsah hodnot lineárního prediktoru (všechna 
        reálná čísla) na rozsah hodnot závislé proměnné, které mají smysl (viz 
        tabulka).
- Rozložení hodnot proměnné kolem očekávané hodnoty pro danou kombinaci 
        nezávislých proměnných není normální/Gaussovo, ale takové, aby 
        umožnilo postihnout právě závislost rozptylu na očekávané hodnotě y (binomické, 
        Poissonovo, Gamma). 
 
- Často používané typy zobecněných lineárních modelů:
 
  
     
      | Model | Rozdělení | Závislost rozptylu na Ey | Povolené hodnoty Ey | Obvyklá link function | Typická data | 
     
      | Logistická regrese | binomické | unimodální, s maximem v intervalu (0,1) | <0,1>, spojité | logit | počet "úspěchů", včetně nulových hodnot, z předem 
        známého počtu pozorování. Maximální počet je omezen počtem pozorování. 
        (např. počet rostlin v pokusu, které vykvetly) | 
     
      | Poissonovská regrese | Poissonovo | lineárně rostoucí | <0,+inf), celočíselné | log | počty, včetně nulových hodnot, ale bez omezení seshora (např. 
        počet potomků na jedince) | 
     
      | Gamma regrese | Gamma | kvadraticky rostoucí | (0,+inf), spojité | 1/x | spojitá sešikmená data, bez nulových hodnot (např. biomasy, 
        velikostní rozměry ap., zejména pokud rozsah hodnot je velký - přes více 
        řádů) | 
     
      | Obecný lineární model | normální (Gaussovo) | konstantní | (-inf,+inf), spojité | identita | spojitá symetricky rozložená data (např. biomasy 
        nebo velikostní rozměry, pokud rozsah hodnot je malý) | 
  
 
  - NB. Obecný lineární model (ANOVA, lineární regrese jednoduchá i mnohonásobná, 
    ANCOVA) je speciální případ GLIMu (normální rozdělení, identity link). 
    [V ANOVA/ANCOVA je nezávislá proměnná kategoriální, ale to nevadí.] 
- NB. Hodnoty x: residuály a náhodná variabilita mají smysl jen pro proměnnou 
    y (závislou). Proto rozložení má cenu zkoumat jen u závislé proměnné. 
- NB. "Rozdělení" není rozdělení všech hodnot závislé proměnné, 
    ale rozdělení hodnot závislé proměnné pro danou kombinaci prediktorů (rozdělení 
    hodnot y kolem Ey)
- Srovnání očekávaných a pozorovaných hodnot: deviance (log likelihood 
    ratio; - 2* log poměru pravděpodobnosti pozorovaných dat za testovaného 
    a saturovaného modelu). Chi2 rozdělení. Použitá míra deviance závisí 
    na použitém rozdělení (to určuje pravděpodobnosti pozorovaných dat, a zohledňuje 
    závislost rozptylu na průměru)
- Odhad parametrů v zobecnělém lineárním modelu: zobecnění postupu nejmenších 
    čtverců (proč je třeba zobecňovat), numerické postupy.
- Použití specifických rozdělení (Poissonovo, binomické, gamma) klade speciální 
    požadavky na dispersi dat (protože rozptyl je funkcí průměru, tj. očekávaných 
    hodnot). Empiricky se ale často ukazuje, že disperse dat je jiná (typicky 
    větší) než předpokládá model. "Overdispersed data." To může 
    být důsledkem toho, že důležité prediktory (= zdroje variability) nejsou v 
    modelu zahrnuty, nebo toho, že proces generující variabilitu není v daném 
    případě přesně takový, jako model předpokládá (třeba binomický nebo Poissonovský). 
    Příklad: zero-inflated Poisson. Jak zacházet s takovýmito daty. 
- Mnohonásobná zobecnělá regrese: zobecnění jednoduché regrese. Koeficienty 
    závisí na všech ostatních proměnných v rovnici (model dependence). 
- Počet parametrů: větší počet parametrů nutně umožňuje lepší fit (shodu 
    modelu s daty). 
- Testování jednotlivých členů v modelu pomocí rozdílu deviancí. Aditivita 
    deviancí: rozdíl deviancí mezi dvěma do sebe vřazenými modely (tj. lišícími 
    se zahrnutím jednoho nebo několika parametrů) má Chi2 rozdělení 
    s počtem stupňů volnosti daných počtem těchto parametrů. 
- Test signifikance členu modelu je rozdíl deviancí mezi dvěma modely lišícími 
    se právě tímto členem. Test členu proto v obecném případě závisí na struktuře 
    modelu (tj. na tom, jaké další členy jsou přítomny). [Poznámka. Nezávisí na 
    něm právě v případě, kdy všechny nezávislé proměnné jsou orthogonální, tj. 
    zcela na sobě nezávislé.] (Ale pozor na problém z postupné regrese: opakované 
    testy na týchž datech.)
- Problém počtu parametrů v modelu: čím více parametrů, tím lépe může model 
    vysvětlovat (ta konkrétní) data. Nicméně zvýšení parametrů znamená nutně snížení 
    residálních počtů stupňů volnosti, a tedy malou sílu testu (a špatnou prediktivní 
    sílu). Overparameterised model: model s malým počtem residuálních d.f., 
    s dobrých fitem na konkrétní data, ale jinak bezcenný.
- AIC (Akaike's information criterion): znevýhodnit modely, které mají 
    hodně parametrů. To je výhoda proti rozdílům deviancí. Nevýhoda: Numerické 
    hodnoty nemají žádnou interpretaci: pokud jsou všechny modely špatné, stejně 
    vybere ten relativně nejlepší. 
- Hledání nejvhodnějšího modelu. Problém identifikace nejvhodnějšího modelu: 
    postupné techniky, analogicky lineárním modelům. 
- Interakce v modelech: je možné definovat podobně jako v analýze variance. 
    Smysl je stejný. "Hierarchický" model (neplést s hierarchickou ANOVA) 
    je takový, který pokud obsahuje nějakou interakci (např. A*B) obsahuje i její 
    složky (tedy nezávisle A i B). 
- Potíže s odhadovaním podílu vysvětlené variability (analogie koeficientu 
    determinace). 
- Má cenu vůbec používat lineární model (ANOVA, lineární regrese)? Nevýhoda 
    GLIM: nejsou příliš vhodné pro data s hierarchií variancí (repeated measurements, 
    split-plot, nested data).
- Má cenu vůbec používat GLIM? Některá data zatvrzele vzdorují transformacím 
    (to jsou zejména data o počtech s nulovými hodnotami (Poissonovo nebo binomické 
    rozdělení). 
- Terminologie Obecný lineární model vs. zobecnělý lineární model.
(10) Přehled testů na různé typy ekologických problémů. 
  Přehled běžného softwaru.  
 
  
     
      | Struktura nezávislých proměnných | Závislá proměnná | 
     
      |  | Kvantitativní, nepříliš sešikmená | (Dvoustavová) kategoriální | Obecná proměnná (typicky sešikmené proměnné, příp. s 
        nulami, vzdorující transformaci) | 
     
      |  | Normální rozdělení | Binomické rozdělení | Obecné rozdělení | 
     
      | jedna kvantitativní | jednoduchá regrese (lineární nebo ne) | logistická regrese | Zobecněný lineární model s příslušným rozdělením chyb | 
     
      | více kvantitativních | mnohonásobná regrese, parciální regrese, postupná regrese | (postupná) logistická regrese | 
     
      | jedna kategoriální dvoustavová | analýza variance, t-test | chi2 test nebo LR test v kontingenční tabulce, 
        Fisherův exaktní test | 
     
      | jedna kategoriální vícestavová | analýza variance, testy mnohonásobných porovnávání | chi2 test nebo LR test v kontingenční tabulce | 
     
      | více kategoriálních | analýza variance, testy interakce | loglineární model, logistická regrese | 
     
      | jedna nebo více kategoriálních, opakované záznamy v čase | analýza variance s opakovanými měřeními | zobecněné lineární modely nejsou příliš vhodné 
          pro data s hierarchickou strukturou | 
     
      | jedna nebo více kategoriálních, hierarchická struktura dat | hierarchická (nested) analýza variance | 
     
      | kvantitativní i kvalitativní | analýza kovariance | (postupná) logistická regrese | Zobecněný lineární model s příslušným rozdělením chyb | 
  
 
 
  - Důležitá poznámka: je-li víc závislých proměnných, je třeba použít mnohorozměrné 
    testy.
- Statistický software: uživatelsky příjemné "menší" balíky, "velké" 
    balíky, statistické jazyky. Nepoužívat programy bez dobré znalosti metod.
(11) Základy plánování ekologických pokusů. 
  - Otázka: zjistit vliv nějakého faktoru. Otázka formulovaná dopředu. 
-  Smysl manipulativního experimentu: experimentální faktor učinit nezávislý 
    na všech ostatních - paralela s parciální regresí/korelací. Ostatní odkázat 
    do sféry náhody (důsledek vymezení otázky dopředu). Všechno ostatní musí být 
    stejné. Jak to zajistit.
-  Kontrola: bez experimentálního zásahu. No control, no conclusion. 
    Kdy chybění zásahu je také zásah. Vliv na výběr statistických testů (Dunnettův 
    test)
-  Vliv pozorování (vliv označení na růst odnoží), změny v kontrolách (kdy 
    žádné ošetření je také ošetření)
-  Replikace: kolik opakování uvnitř jednoho ošetření - odhad residuální variance 
    (vliv na alfa; vztah k síle testu): Power analysis: vztah mezi alfa, 
    beta, intensitou efektu a počtem opakování.
-  Jaký je žádoucí počet opakování/počet stupňů volnosti pro stanovení residuální 
    variance. i. zdroje (finance), ii. variabilita měření, iii. struktura ošetření, 
    iv. velikost efektu, v. význam párových srovnání. Správná detekce systematické 
    složky variance je závislá na odhadu residuální variance. 
-  Pseudoreplikace: korelace uvnitř ošetření mezi "opakováními". 
    Pseudoreplikace neumožňuje správnou separaci efektu ošetření a náhodné variability 
    (zmenšuje složku residuální variance) a vede k příliš liberálnímu testu. Rozdělení 
    ploch na podplochy není replikace.
-  Omezení residuální variance: bloky: možné případy, jednoduchá dělba mezi 
    bloky. Jakou ANOVu použít. Blok je nezajímavý faktor bez interakce s ostatními 
    faktory - slouží jen k omezení residuální variance. 
-  Orthogonální: ve všech blocích musí být zastoupeny treatmenty ve stejném 
    poměru. Pak lze uvažovat treatmenty nezávisle na blocích. 
-  Testování dvou faktorů: potřebujeme studovat víc vlivů současně (např. 
    vliv hnojení a sekání na louku). Vyskytují se všechny kombinace. Kompletní, 
    Vyvážený (vyrovnaný) design.
-  Vyšší počty faktorů: opakování uvnitř jednoho ošetření není nutné. Předpoklady: 
    (i) nezajímají mě všechny interakce, (ii) je možné určit sigma z průměrných 
    čtverců vyšších interakcí (tj. efekty interakcí jsou malé). "Occamovský 
    princip": čím nižší řád interakce, tím více významný.
-  Komplikované případy (přirozená velikost bloků a nejsou tam všechna ošetření). 
    Latinský čtverec.
-  Split plot designs: dvojí struktura: pokud ošetření se vztahuje k různým 
    experimentálním jednotkám (např. políčka a rostliny). Vyšší úroveň (whole 
    plots): hlavní efekt, residuální suma čtverců; nižší úroveň (split 
    plots): hlavní efekt, interakce, residuální suma čtverců. 
 Několik metodologických zásad sběru dat 
  - Výpověď o nějakém jevu je možné dát jen na základě srovnání. Umožní 
    říci, jak moc je moc (srovnání numerických hodnot/velikostí), jak vzácné je 
    vzácné (srovnání četností výskytu) a podobně. Je důležité, aby se srovnávaly 
    srovnatelné objekty (tj. takové, které se liší pouze, nebo hlavně studovaným 
    jevem a v ostatních parametrech jsou si podobné).
-  Každý experiment musí být proveden s patřičnou kontrolou. Obě varianty 
    se musí lišit právě jen tímto faktorem - jinak je pokus špatně založen. Proto 
    pro každý experiment je důležité rozhodnout, jak musí kontrola vypadat, a 
    podle toho jej naplánovat a provést.
-  Opakování studovaného jevu. Každý případ je unikátní; unikáty nejsou 
    vhodné pro formulování obecných tvrzení. Obecnější tvrzení lze formulovat 
    teprve se znalostí mnoha případů studovaného jevu, které umožní odlišit obecné 
    od zvláštností každého případu (techniku jak to provést poskytuje biostatistika). 
    Proto každý pokus/pozorování musí být proveden v několika identických opakováních.
-  Pozor na pseudoreplikace. Mám-li malý počet objektů jednoho typu, 
    není možné to dohnat tím, že na každém odeberu mnoho vzorků. Těchto deset 
    vzorků si bude velmi podobných (právě proto, že pocházejí z jednoho objektu). 
    Jedinou skutečně správnou cestou je vyrazit do terénu a hledat další, nezávislé 
    objekty. 
-  Pozor na past malého počtu opakování. (i) jeden objekt, hledání 
    vnitřní struktury a závislostí uvnitř tohoto objektu: základní jednotky studia 
    budou menší plochy uvnitř. (ii) velké množství objektů, vztahy mezi těmito 
    objekty, ignorovat jejich vnitřní strukturu: základními jednotkami pak budou 
    celé objekty. (iii) nebezpečná zóna malého počtu objektů (dejme tomu 4-7): 
    je jich příliš mnoho na studium jako unikát; příliš málo pro studium jako 
    souboru objektů (protože 4-7 pozorování je prostě málo). 
- Pozor na záměnu korelace s kausalitou. zkusit identifikovat důvody 
    jejich společného výskytu; manipulativní pokus. na začátku práce zvážit, zda 
    zvolený způsob sběru dat neposkytne pouze informaci o korelaci mezi jevy, 
    která se později může ukázat jako obtížně interpretovatelná. 
- Co s negativními výsledky? člověk zpravidla neví dopředu, zda zjistí 
    nějakou závislost, či skončí se zcela negativním výsledkem. Negativní výsledky 
    jsou více typů. Negativní výsledek I: lze s rozumnou mírou jistoty říci, že 
    proces skutečně nepůsobí (síla testu je dostatečná). Jen tady lze říci, že 
    negativní výsledek je také výsledek. Negativní výsledek II: dat je příliš 
    málo (síla testu je malá, takže nelze říci skoro nic). Je v zásadě bezcenný 
    - počet opakování byl špatně naplánován. Negativní výsledek III: experiment 
    je chybný či pochybný: je špatně vždy (ať je výsledek negativní či gativní).
  
(12) Úvod do mnohorozměrných technik: analýza hlavních 
  komponent, korespondenční analýza, kanonické techniky 
(jen informativní přednáška - ke zkoušce není požadováno) 
  - Úvod: typy problémů, typická datová struktura. Opět dva problémy: zjednodušení 
    a popis (model fitting) a test 
- Srovnání analýzy jednorozměrných a mnoho rozměrných dat. Podobnosti a rozdíly.
-  Základní struktura je tabulka druhy x stanoviště (jiná typická struktura: 
    znaky x taxony/individua). Representace stanovišť jako bodů v prostoru vymezeném 
    druhy jako osami.
-  Jak v této tabulce najít strukturu (co to je struktura: například korelace 
    mezi proměnnými). To je možné jen tehdy, jsou-li mezi proměnnými (např. výskyty 
    různých druhů) nějaké vztahy (korelace, ale ne nutně lineární).
-  Analýza hlavních komponent jako příklad mnohorozměrné techniky 
-  Korelace: body nejsou v prostoru umístěny náhodně, lze jimi proložit (např.) 
    přímku. Použití takovéto přímky k transformaci soustavy souřadnic. 
- Podíl variability vysvětelný osami. Závisí na počtu proměnných (a i počtu 
    případů). Důvody. 
- Nové osy. Vlastnosti nových os: jsou nekorelované (na sebe kolmé), uspořádané 
    podle klesajícího podílu na variabilitě souboru (variabilitu je možné rozkládat 
    na osy právě proto, že tyto jsou nekorelované). 
- Jaké jsou jednotky nově nalezených os, kde jsou nuly. 
-  Co je výsledkem PCA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu 
    determinace, 2. vztah nových a starých os (m x m matice) - jak přepočítat 
    souřadnice, 3. skóry bodů/objektů - transformované souřadnice (n x m matice).
-  Grafy, Biplot. Jak je číst, typy biplotů. 
- Interpretace os: je třeba na základě vnější informace (znalost ekologie 
    druhů, znalost stanovišť). Pozor na argumentaci kruhem.
-  Standardisace proměnných (korelace, kovariance). Standardisace po stanovištích.
-  Předpoklad PCA: linearita. Jaké typické nelinearity je třeba ošetřit. 
- Ekologické gradienty: Unimodální techniky. CA, DCA
- Korelace os s měřenými daty o prostředí. 
- Přímé techniky: použití informace o dalších nezávislých proměnných při konstrukci 
    hlavních os
- PCA, DCA: identifikace gradientu pouze z dat o druzích (za lineárního nebo 
    unimodálního modelu) a jeho dodatečná korelace s pasivními parametry prostředí 
    (regrese na hlavních komponentách). Korelace s daty o prostředí 
-  Analogie regrese (jednoduchá, mnohonásobná), mnohorozměrný analog: více 
    závislých proměnných
- Kanonické techniky: lineární RDA (kanonická varianta PCA) a unimodální CCA 
    (kanonická varianta CA) : získání hlavních os s dodatečnou podmínkou: ten 
    směr největší variability souboru druhů, který je korelován s proměnnými prostředí. 
    Pracuje se o oběma tabulkami: jak najít vztah mezi oběma a strukturu v obou. 
  
-  Kanonická ordinace: kanonické (constrained) osy, nekanonické osy. Počet 
    proměnných a počet kanonických os. Rozklad celkové variability.
- Dvojí použití mnohorozměrných technik: Vytváření hypotéz (starší), testování 
    hypotéz (Monte Carlo testy, kovariáty).
- Co je třeba mít na paměti: mnoho rozhodovacích kroků. Je třeba vědět, co 
    rozhodnutími ovlivňuji, a musím vědět, proč činím jaké volby. Projekci vícerozměrného 
    objektu na plátno lze učinit mnoha ekvivalentními způsoby.
- Výpočet nelze provést "špatně", lze jen deformovat prostor vztahů mezi druhy 
    a stanovišti různým způsobem
 
 Pro zájemce: mnohorozměrným technikám je věnována speciální 
  přednáška. Zde je její syllabus.
  
(13) Analýza dat v čase a prostoru 
(jen informativní přednáška - ke zkoušce není požadováno) 
  - Vzájemná nezávislost objektů. Obecný předpoklad statistického zpracování. 
  
- Prostorová data. Objekty, které si jsou blíž, jsou si obvykle podobnější 
    (jednotlivá měření nejsou nezávislá). Autokorelace v prostoru. Časové řady. 
    Co s tím. 
- I. Speciální techniky pro identifikaci vztahu podobnosti a prostorové pozice. 
    Činí z prostorové variability svůj předmět.
- Autokorelace a autoregrese. Časový nebo prostorový posuv: lag. Průměr, variance, 
    autokovariance, autokorelace, semivariance (variance rozdílu hodnot vzdálených 
    o lag=h)
- Autokorelogram a semivariogram. Identifikace dosahu korelace, residuální 
    variance. Periodické struktury.
- Jak se liší výpočet autokorelace od výpočtu korelace (počty případů se liší 
    v závislosti na vzdálenosti, problém okrajového efektu)
- Stacionarita: autokorelace jsou nezávislé na posici. Y= průměr + náhodná 
    prostorově korelovaná chyba + náhodná chyba. Stacionarita závisí na měřítku. 
  
- Vztah dvou veličin v prostoru: cross-korelace. (Například: dvě proměnné 
    měřené na jednom objektu, jedna proměnná měřená po časovém intervalu). Posun 
    (lag) v cross-korelaci.
- Mantelův test. Vztahy mezi dvěma maticemi (z nich je jedna typicky matice 
    vzdáleností ve fysickém prostoru). Test pomocí randomisační procedury. Neidentifikuje 
    dosah korelace, jen fakt korelace
- II. testy použitelné v případě, že je třeba autokorelace odstranit. 
- Typicky: testy vztahu dvou proměnných (cross-korelace)
- Jřeba zohlednit prostorovou strukturu při konstrukci chování testového kritéria 
    za předpokladu nezávislosti. Vhodné zejména permutační testy (nulová hypotéza: 
    každé uspořádání má stejnou šanci), Monte Carlo techniky (výběr z permutací 
    - pokud je jich moc) a konstrukce očekávaného rozložení testovacího kritéria.
- Omezené permutace: odstraní se cross-korelace, ale zachovají se autokorelace: 
    posun, rotace, reflexe. 
 
  
Obecné zásady pro zpracování dat v ekologii 
  - Při plánování pokusu či sběru dat je třeba mít na mysli, že data se jednou 
    budou statisticky zpracovávat
- Při zapisování dat do protokolů mít na paměti, že je bude třeba nějak zpracovat. 
    Řádky musí být jednotlivé objekty (cases), sloupce musí být proměnné
- Rozhodnout, co je závislá/é a co nezávislá/é proměnné
- Mít jistotu, že zkoumané proměnné spolu nejsou v nějakém matematickém vztahu
- Nakreslit si vhodný obrazek a ukázat vztah mezi závislou a nezávislými proměnnými. 
  
- Pomocí obrázku zkoumat rozložení závislé proměnné
- Vybrat si vhodný test (hlavně na základě znalosti o povaze závislých a nezávislých 
    proměnných) a rozhodnout se pro něj před provedením vlastní analýzy (nikoli 
    zkoušet mnoho testů naslepo a vybrat si ten, jehož výsledek se mi nejvíc líbí)
- Při provádění analýzy zkoumat, zda vypočtený residuální počet stupňů volnosti 
    (residual d.f., error d.f.) odpovídá počtu nezávislých zkoumaných objektů
- Po provedení testu zkoumat, jak je výsledek robustní, tj. zda zásadní tvrzení 
    zůstanou stejná např. při odstranění extrémních hodnot, transformaci dat (ovšem 
    že ale ne takové, která dramaticky mění rozdělení závislé proměnné) a podobně
- Je-li nezbytné provést větší množství testů, je třeba mít na paměti, že 
    je třeba provést nějakou korekci signifikance
- Při testování nezapomenout, že nejdůležitější zjištění je odhad typu a intensity 
    závislosti; test je jen předpokladem toho, aby bylo možné se o typu a intensitě 
    závislosti vůbec bavit
- Chybějící hodnoty: nepříjemná univerzální vlastnost datových souborů
- Typy chybějících hodnot I: 
    
      - neznámé (přístroj se rozbil, experimentator zaspal...) 
- nesmyslné (obsah fosforu v půdě nemá smysl pro stanoviště, kde žádná 
        půda není)
- nulové (nejsou v pravém slova smyslu chybějící)
 
- Typy chybějících hodnot II: 
    
      - chybějící zcela náhodně (nezávisí na hodnotě proměnné ani na jiných 
        proměnných): vadí nejméně
- chybějící náhodně po korekci na hodnotu nějaké jiné proměnné: lze provést 
        nějakou korekci
- chybějící nenáhodně (např. zaznamenávám hloubku vody v půdě, a vyhnu 
        se všech vlhčím místům protože nemám holinky): vážný problém
 
- Co s chybějícími daty: skutečně chybějící hodnoty 
    
      - úplné případy (vyloučit všechny řádky, kde alespoň jedna proměnná je 
        chybějící). Může být drastický zásah do dat, ale v některých případech 
        nezbytné.
- pairwise deletion (potíže: vychýlené odhady, nepoužitelná korelační 
        matice...) 
- data imputation (průměr, distribuce, regrese s dalšími proměnnými), 
        případné opakovaní postupu. Potíže: Narcissus effect, počet d.f.
 
- Co s chybějícími daty: nesmyslné hodnoty 
    
      - analýza celého datového souboru obvykle nemá smysl, vyloučit a modifikovat 
        analýzy 
 
  
 
Doporučená základní literatura: 
  -  Lepš J. Biostatistika. Skripta BF JčU. 
-  Sokal R.R a Rohlf J.F. (1981): Biometry. W.H. Freeman, San Francisco.
- PEKÁR, S., BRABEC, M. (2009). Moderní analýza biologických dat. 1. Zobecněné 
    lineární modely v prostředí R. Scientia, Praha.
-  Crawley M.J. (2002): Statistical computing. An introduction to data analysis 
    using S-Plus. John Wiley & Sons, Chichester.
Doporučená rozšiřující literatura :
  -  Havránek T. (1993): Statistika pro biologické a lékařské vědy. Academia, 
    Praha.
-  Jongman R.H.G., ter Braak C.J.F., van Tongeren (1995): Data analysis in 
    community and landscape ecology. Pudoc, Wageningen.
-  MathSoft (2000): S-plus. Guide to statistics, vol. 1 a 2.
-  Mead R. (1988): The design of experiments. Statistical principles for practical 
    application. CUP, Cambridge.
-  Meloun M. & Militký J. (2002): Kompendium statistického zpracování 
    dat. Academia, Praha
-  Scheiner S.M. & Gurevitch J. (1993): Design and analysis of ecological 
    experiments. Chapman & Hall, New York.
-  Underwood A.J. (1997): Experiments in ecology. Their logical design and 
    interpretation using analysis of variance. CUP, Cambridge.
-  Zar J. H. (1984): Biostatistical analysis. Prentice Hall, Englewood Cliffs.
Literatura k disposici v elektronické formě: 
 
  učebnice/příručky
  
Zkouška 
je písemná a sestává z doplňovacího test s 12 otázkami.  
  
Praktický návod pro zájemce o statistické 
  zpracování dat 
Praktický návod pro zájemce o porozumění 
  práci s počítačem 
O skriptech a prezentačních materiálech 
  
  
Termíny a výsledky zkoušky v roce 2014/2015
    
Termíny zkoušek: 
 Termín si vyhrazuji právo zrušit, pokud přihlášených bude méně než čtyři (neučiním 
  tak pro poslední termín ve školním roce, obvykle zářijový). Zápis je třeba učinit 
  prostřednictvím SIS 
  (ale přijdete-li nepřihlášeni, asi Vás nevyhodíme - jen možná budete muset čekat 
  déle).  Výsledky zkoušek bývají známy obvykle do týdne až deseti dnů. Do 
  klasifikovaných testů je samozřejmě možné po domluvě nahlédnout.
Zkoušku hodnotím pomocí skóre z testu (Skóre je podíl dosažených bodů k maximálnímu 
  počtu bodů). Podmínka pro absolvování zkoušky je skóre vyšší než 0.5 z testu. 
  Překladač skóre na známky: 1-0.83: jednička, 0.83- 0.67: dvojka, 0.67-0.50: 
  trojka. 
Výsledky zkoušek jsou zde. 
Poslední aktualisace 
  17.11.2014
Domovská stránka