Kurs mnohorozměrných metod v ekologii
Semestr: letní
Celkový rozsah: 1/1 hodin
Další přednášející: Zuzana Münzbergová
Co je potřeba znát před přednáškou: Biostatistika I; krom toho je velmi
žádoucí mít již začatou práci na DP - aby bylo možné se věnovat konkrétním problémům
v analýze dat . Rovněž předpokládáme základní znalosti z práce s počítačem (EXCEL).
Organizační poznámky:
- Přesný časový program bude specifikován na první přednášce.
- Vlastní data (v učesané podobě) jsou vítána v pozdější fázi kurzu/praktika. Při
jejich přípravě prosím věnujte pozornost poznámkám
zde (ulehčí to práci). Většinu času před tím věnujeme datům, která máme
připravena. Ta jsou k nalezení
zde.
Syllabus
Zásady: typy problémů, typická datová struktura
Analýza hlavních komponent jako příklad mnohorozměrné techniky,
předpoklady PCA, Standardisace dat používané v PCA
Metody pro data s nelineární strukturou: Unimodální
techniky
Přímé techniky: použití informace o prostředí při konstrukci
hlavních os
Statistické testy v mnohorozměrných technikách: úvod
Analýza s kovariátami (parciální analýza)
Postupný výběr nezávislých proměnných
Statistické testy v mnohorozměrných technikách: speciální
případy
Použití kanonických mnohorozměrných technik pro vyhodnocení
dat z manipulativních pokusů (analogie ANOVA)
Úvod do použití software na mnohorozměrné analýzy
Důležitá rozhodnutí v mnohorozměrné analýze
Zásady
- Úvod: typy problémů, typická datová struktura.
- Srovnání analýzy jednorozměrných a mnoho rozměrných dat. Podobnosti a rozdíly.
- Základní struktura je tabulka druhy x stanoviště (jiná typická struktura:
znaky x taxony/individua). Representace stanovišť jako bodů v prostoru vymezeném
druhy jako osami.
- Jak v této tabulce najít strukturu (co to je struktura: například korelace
mezi proměnnými). To je možné jen tehdy, jsou-li mezi proměnnými (např. výskyty
různých druhů) nějaké vztahy (korelace, ale ne nutně lineární). Mnohorozměrné
etchniky selhávají, pokud mezi proměnnými korelace nejsou.
- Dvojí použití: Vytváření hypotéz (starší), testování hypotéz (Monte Carlo
testy, kovariáty).
- Co je třeba mít na paměti: mnoho rozhodovacích kroků. Je třeba vědět, co
rozhodnutími ovlivňuji, a musím vědět, proč činím jaké volby. Projekci vícerozměrného
objektu na plátno lze učinit mnoha ekvivalentními způsoby.
- Výpočet nelze provést "špatně", lze jen deformovat prostor vztahů mezi druhy
a stanovišti různým způsobem
Zpět na obsah syllabu
Analýza hlavních komponent jako příklad mnohorozměrné
techniky
- Problém: regrese/korelace mezi interkorelovanými proměnnými: hledat strukturu
v korelacích
- Korelace: body nejsou v prostoru umístěny náhodně, lze jimi proložit přímku.
Použití této přímky k transformaci soustavy souřadnic.
- Podíl variability vysvětelný osami. Závisí na počtu proměnných (a i počtu
případů). Důvody.
- Nové osy.Vlastnosti nových os: jsou nekorelované (na sebe kolmé), uspořádané
podle klesajícího podílu na variabilitě souboru (variabilitu je možné rozkládat
na osy právě proto, že tyto jsou nekorelované).
- Jaké jsou jednotky nově nalezených os, kde jsou nuly.
- Co je výsledkem PCA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu
determinace, 2. vztah nových a starých os (m x m matice) - jak přepočítat
souřadnice, 3. skóry bodů/objektů - transformované souřadnice (n x m matice).
- Grafy, Biplot. Jak je číst, typy biplotů.
- Jak vypadá PCA, když jsou korelace velké, když jsou korelace malé. I malý
podíl vysvětlené variance může být informativní (je-li proměnných hodně).
- Standardisace proměnných (korelace, kovariance): jsou-li každá v jiných
jednotkách (nezbytnost). Jsou-li ve stejných jednotkách: chci-li dát váhu
proměnné podle jejích průměrných hodnot.
- Standardisace po stanovištích: jsou-li mezi stanovišti velké rozdíly v ceklkové
hodnotě všech proměnných (příklad pokryvnost)
- Transformace dat.
- Interpretace os: je třeba na základě vnější informace (znalost ekologie
druhů, znalost stanovišť). Pozor na argumentaci kruhem.
- Korelace os s měřenými daty o prostředí.
- Podmínky PCA: linearita závislosti!
Zpět na obsah syllabu
Unimodální techniky
- Předpoklad PCA: linearita. Jaké typické nelinearity je třeba ošetřit.
- Ekologické gradienty: druhy mají svá maxima a jejich četnost klesá v obou
směrech od maxima. Jak vypadá vztah mezi četnostmi druhů vzájemně.
- Co dělá PCA v případě dlouhých gradientů (horseshoe effects, korelace
nulami).
- Korekce: předpoklad unimodálního modelu. Dva přístupy: (i) Gausovská ordinace,
(ii) metody vážených průměrů (korespondenční analýza).
- Jak se provádí CA. Je to stejná logika jako při výpočtu hodnot prostředí
z pomocí Ellenbergových čísel.
- Posice snímků na gradientu -> skóry druhů (regresní problém; součet součinů
četností druhu a posice všech jeho výskytů) -> přepočtené posice snímků (kalibrační
problém; součet součinů četností druhů ve snímku a jejich průměrné posice).
- Co je výsledkem CA: 1. podíl vysvětlené variance (vektor) - vztah ke koeficientu
determinace, 2. optima druhů na nových osách (m x m matice), 3. skóry stanovišť
na nových osách- (n x m matice).
- Interpretace os, charakteristická čísla (podíl vysvětlené variability).
- Podmínky CA: rovnoměrná optima, rovnoměrné posice snímků, stejné tolerance,
stejné maximální abundance.
- Biplot/joint plot a jeho interpretace v lineární a unimodální situaci.
Co znamenají posice druhů daleko od počátku.
- Nedostatky CA: druhá osa je často nelineární funkcí osy první, komprese
gradientu u krajů: korekce v detrended correspondence analysis (DCA).
Velmi robustní technika.
- Downweighting of rare species (obvykle je vhodné aktivovat)
- Diagnostika vhodnosti modelu: jak se rozhodnout, který model je správný.
Odhad délky gradientu. V jakých jednotkách se gradient měří. Dlouhé gradienty,
krátké gradienty. Vynést četnost druhu proti posici stanoviště na gradientu.
- Korelace os s měřenými daty o prostředí - lze exportovat a analyzovat v
libovolném statistickém programu.
Zpět na obsah syllabu
Přímé techniky: použití informace o prostředí při konstrukci
hlavních os
- PCA, DCA: identifikace gradientu pouze z dat o druzích (za lineárního
nebo unimodálního modelu) a jeho dodatečná korelace s pasivními parametry
prostředí (regrese na hlavních komponentách). Korelace s daty o prostředí.
- U těchto je interpretace os vždy trochu problém: nepřímá inference.
- Přitom data o prostředí (nezávislé proměnné) často existují. Přímá
gradientová analýza: vztahy mezi druhy a vnějšími faktory
- jednorozměrný případ (regrese, jednoduchá, mnohonásobná) - pro jeden druh
a jeden faktor prostředí.
- mnohorozměrný analog: více závislých proměnných
- Kanonické techniky: lineární RDA (kanonická varianta PCA) a unimodální CCA
(kanonická varianta CA) : získání hlavních os s dodatečnou podmínkou: ten
směr největší variability souboru druhů, který je korelován s proměnnými prostředí.
Pracuje se o oběma tabulkami: jak najít vztah mezi oběma a strukturu v obou.
- Rozdíl od dodatečné korelace s pasivními parametry prostředí: v kterém okamžiku
použiju nezávislou informaci o prostředí
- Kanonická ordinace: kanonické (constrained) osy, nekanonické osy. Počet
proměnných a počet kanonických os. Rozklad celkové variability.
- Předpoklad použití: linearita závislosti mezi proměnnými prostředí a hlavními
osami. (V RDA jsou všechny vztahy lineární; jak je to v CCA)
- Interkorelace mezi vysvětlujícími proměnnými: inflační faktor (problém
mnohorozměrné regrese - jak vybrat vhodné proměnné) - viz víc dále
- Nezávislé proměnné mohou být kategoriální nebo spojité.
- Kódování nominálních proměnných: n-1 kódovacích proměnných.
Zpět na obsah syllabu
Statistické testy v mnohorozměrných technikách:
úvod
- Proč mnohorozměrné testy: vyhnout se mnohonásobnému testování
- Testy signifikance - testuji nenáhodnost uspořádání dat o druzích a dat
o proměnných prostředí - tj. závislých a nezávislých proměnných (nulová H:
všechna uspořádání mají stejnou šanci).
- Co to je signifikance: šance toho, že dostanu svoje data jako výsledek
náhody. Co znamená náhoda (absence závislosti - formulace nulové hypotézy).
Konstrukce testového kritéria a rozdělení tohoto kritéria za předpokladu nulové
hypotézy.
- Permutační testy - numerická konstrukce rozdělení testového kritéria. Permutační
testy jsou testy o vzájemném uspořádání dvou nebo více proměnných. Permutované
datové soubory jsou všechny stejně pravděpodobné za platnosti H0.
- Test první kanonické osy, testy všech os: rozdíly, vhodnost v různých situacích
Zpět na obsah syllabu
Analýza s kovariátami (parciální analýza)
- Jak odstranit vlivy prostředí, které nejsou předmětem studia (jejichž vliv
je znám, nebo je nezajímavý a nebo může skrýt zajímavý vliv nějaké jiné veličiny).
- v lineárním modelu s jednou závislou proměnnou: parciální regresní koeficienty.
- Zobecnění pro mnohorozměrnou situaci: zavedení kovariát. Odlišení zajímavých
nezavislých proměnných ("proměnných prostředí") a nezajímavých nezávislých
proměnných (kovariát).
- Rozklad vysvětlené variability jsou-li v modelu kovariáty.
- Kovariáty v korelativních datech: problém interkorelace mezi kovariátami
(=nezajímavými nezávislými proměnnými ) a proměnnými prostředí (=zajímavými
nezávislými proměnnými)
- Použití kovariát k separaci rozdílu mezi bloky, časy záznamu, plochami atd.:
zejména při zpracování dat z pokusů.
- Testy s kovariátami: oddělení efektu kovariát a proměnných prostředí.
- Jsou-li kategoriální, je to jednoduché: Permutace v blocích (design-based
permutation).
- Jinak: permutace residuálů po odstranění efektu kovariát (model-based
permutations).
Zpět na obsah syllabu
Postupný výběr nezávislých proměnných
- Problém regrese s mnoha proměnnými: jak mezi nimi vybrat, jsou-li korelované.
Korelace znamená, že ne všechny kombinace prediktorů existují (že pro ně jsou
k disposici pozorování závislé veličiny).
- Mnohonásobná lineární regrese: Koeficient determinace, regresní koeficienty
závisí na všech ostatních proměnných v rovnici
- Způsoby výběru nejlepších prediktorů. Postupný výběr nezávislých proměnných.
- Nemusí nutně vést ke globálně nejlepšímu řešení. Každá do rovnice zahrnutá
proměnná shrne i variabilitu, která v dvourozměrné analýze je připsatelná
nějaké jiné (s ní korelované) proměnné.
- Jak se provede v CANOCO: jak poznat příspěvky jednotlivých proměnných:
change in fit , test signifikance (model-based test).
- Má kritérium být přísné nebo měkké: výhody a nevýhody.
Zpět na obsah syllabu
Statistické testy v mnohorozměrných technikách:
speciální případy
- Princip permutací: je třeba zcela zachovat strukturu dat za předpokladu
nulové hypotézy.Pokud nezachovám strukturu dat (tj. úplně randomisované v
situaci, kdy být nemají): jsou příliš liberální, protože ruší víc závislostí
než předpokládá nulová H.
- Speciální případy v randomisačních testech.
- I. Permutace v blocích. Design-based permutations.
- II. Vztahy mezi plochami v prostoru - autokorelace. Jednotlivé plochy nejsou
nezávislé v prostoru nebo v čase. V takovém případě může být korelace mezi
proměnnými prostředí a druhovým složením dána pouze prostorovou závislostí
v obou typech dat nezávisle. Na tuto závislost je třeba brát ohled v permutačních
testech: stejně jako při testech bloků nebo časových řad. žešení:
- III. Hierarchická struktura dat: split-plot randomisace. Dvě nebo
více úrovní variability: mezi subjekty a uvnitř subjektů. Jak se ošetří v
randomisačním testu. Na jaké úrovni jsou zaznamenávány jaké proměnné prostředí.
Počet stupňů volnosti/ nezávislých pozorování pro různé testy.
- IV. Opakované záznamy v čase: analogie split-plot randomisace.
Zpět na obsah syllabu
Použití kanonických mnohorozměrných technik pro vyhodnocení
dat z manipulativních pokusů (analogie ANOVA)
- Jaké typické mnohorozměrné situace: závislých proměnných je více, a jsou
korelované (např. pokus testující vliv hnojení na floristické složení, ale
i např. pokus testující vliv hnojení na kytky v květináči, zaznamenávám-li
pro jednu kytku víc parametrů)
- Problém: mnohonásobné testování.
- Mnohorozměrná analogie jednocestné ANOVA: typicky pro kategoriální nezávislé
(jak kódovat viz výše).
- Jak technicky provést: jedna nezávislá proměnná (proměnná "prostředí")
a Monte Carlo test.
- Použití kovariát k odfiltrování rozdílů mezi bloky, časy záznamu, plochami
atd.
- Opakovaná měření (repeated measurements) téhož objektu: pozor! nejsou
to nezávislé hodnoty. Opakovaným měřením se nezvyšuje počet případů ani počet
stupňů volnosti pro stanovení vlivu ošetření.
- Zajímá mě efekt ošetření a interakce ošetření * čas. "BACI"
designs. Jakým způsobem randomisovat.
- Dvoucestná ANOVA: při dvou nezávislých proměnných by Monte Carlo test dal
jen celkový efekt obou. Přitom jsou zajímavé právě separované efekty.
- Řešení: opět kovariáty: provést parciální Monte Carlo test. Typy randomisací.
- Analogie analýzy kovariance.
- 3 důležitá rozhodnutí při testování složitých dat z pokusů: (i) co bude
testovaná proměnná prostředí, (ii) co budou kovariáty, (iii) jaký typ randomisace.
(krom rozhodnutí uvedených níže!). Při zpracování dat
z jednoho pokusu je často třeba provést víc testů (v principu každému členu
v modelu ANOVA odpovídá samostatný test).
Zpět na obsah syllabu
Úvod do použití software na mnohorozměrné analýzy
- Příprava dat pro analýzu, struktura, import do Cornellovského formátu
- jak zacházet s programovým souborem CANOCO, důležité volby
- jak zacházet s programovým souborem CanoDraw: zobrazení výstupu z analýzy
(to nejsou jen biploty!)
- Canodraw: analytické možnosti
Zpět na obsah syllabu
Důležitá rozhodnutí v mnohorozměrné analýze (týká se
všech analýz, přímých i nepřímých)
Přímá či nepřímá technika (pouze mám-li k disposici data
o prostředí) |
Zajímá mě vztah celkové variability dat k proměnným prostředí,
nebo mě zajímá ta specifická část variability, která se vztahuje k prostředí |
Unimodální či lineární analýza (PCA+RDA vs. DCA+CCA) |
Rozhoduju se na základě (i) délky gradientu spočtené v DCA,
(ii) grafů XY plots v CanoDraw, (iii) úvahy o délce gradientu ze znalosti
vegetace či typu pokusu/proměnné prostředí |
Transformace dat |
Rozhoduju se na základě rozložení hodnot druhů (chci, aby
rozdíl hodnot 100 - 99 byl totéž jako 2-1 nebo ne?) |
Standardisace dat přes proměnné/druhy (jen u lineárních
technik) |
Rozhoduju se na základě toho, zda chci, aby vzácné druhy přispívaly
k osám stejně jako hojné nebo v poměru svých četností |
Standardisace dat přes objekty/stanoviště (jen u lineárních
technik) |
Rozhoduju se na základě toho, zda chci, aby četnosti druhů
byly hodnoceny v závislosti na tom, jaká je celková četnost všech druhů
na stanovišti, nebo na všech stanovištích stejně |
Poznámka. Ve skriptech Herben
T. a Z. Münzbergová: Zpracování geobotanických dat v příkladech je k nalezení
také "Určovací klíč k datovým strukturám", kde krom těchto rozhodnutí
je podrobný popis toho, jaké techniky použít podle toho, jak jsou data/pokus
strukturovány.
Literatura a odkazy
- Jongman, R. H. G., C. J. F. ter Braak, and O. F. R. van Tongeren, editors.
1987. Data Analysis in Community and Landscape Ecology. Pudoc, Wageningen,
The Netherlands.
- ter Braak, C. J. F., and P. Šmilauer. 1998. CANOCO Reference Manual and
User's Guide to Canoco for Windows: Software for Canonical Community Ordination
(version 4). Microcomputer Power (Ithaca, NY USA) 352 pp.
- McCune B., Grace J.B., and Urban, D.L. Analysis of Ecological Communities,
MjM Software Design, 2002.
- R.H. Okland 1990: Vegetation ecology: theory, methods and applications
with reference to Fennoscandia. Sommerfeltia Supplement 1. 233 pp.
- Jan Lepš, Petr Šmilauer. 2003. Multivariate Analysis of Ecological Data
using CANOCO. Cambridge University Press.
- Lepš J. a P. Šmilauer: Mnohorozměrná analýza ekologických dat (anglicky:
http://regent.bf.jcu.cz/textbook.pdf;
česky http://regent.bf.jcu.cz/skripta.pdf)
- Herben T. a Z. Münzbergová: Zpracování geobotanických dat v příkladech
(http://botany.natur.cuni.cz/skripta)
Odkazy
Zásady pro strukturování vlastních datových souborů
Vhodné jsou v zásadě jakékoliv soubory, které obsahují informaci o hodnotách
nějakých proměnných (druzích, biometrických proměnných, chemických a fysikálních
analýzách) na jednotlivých objektech (snímcích, vzorcích/odběrech, pastech,
herbářových položkách). Je vhodné, máte-li k datům ještě dodatečné informace
(odběrové časy, bloky, typy stanovišť, posice v prostoru, data o prostředí ap.).
Při přípravě dat dbejte podle možnosti těchto zásad:
- Je vhodné, aby data byla ve formátu xls (jeden typ dat vždy na jednom listu
nebo v samostatném souboru)
- Každý objekt (snímek, vzorek/odběr, past, herbářová položka) nechť má svou
vlastní řádku
- Sloupce nechť popisují jednotlivé proměnné - jak vlastní zájmové (druhy),
tak i dodatečné. Alternativně (fytocenologický způsob) mohou být sloupce objekty
(snímky) a řádky proměnné (druhy).
- Každý sloupec nechť má nahoře jednu řádku se jménem proměnné (druhu nebo
dodatečné proměnné). Je lépe, pokud neobsahuje speciální znaky (%, $, @, -,
(), mezeru, tečku atd.) ani znaky s diakritikou a jeho délka nesmí přesáhnout
8 písmen. Totéž platí pro jména objektů (pokud je chcete používat - lze je
vynechat vůbec).
- Dodatečné kategoriální vícestavové proměnné (např. blok, geologie) nechť
jsou vhodným způsobem kódovány (proměnnou s n hladinami je třeba nahradit
n-1 (nebo n) proměnnými o dvou hladinách, podrobnosti např.
ve skriptech http://botany.natur.cuni.cz/skripta).
Každá z těchto proměnných nechť má svoje jméno (např. blok1, blok2..., nebo
cedic, zula, vapenec)
- Kódy druhů je výhodné manuálně upravit tak, aby měly jen osm znaků (např.
"Agro ten", nebo "Agrotenu", samozřejmě bez těch uvozovek).
To lze s výhodou udělat v EXCELU třeba takovouhle funkcí: je-li v políčku
A2 rodové jméno a v políčku A3 druhové jméno, pak třeba =CONCATENATE(ZLEVA(A2,4);ZLEVA(A3,4)),
nebo =CONCATENATE(ZLEVA(A2,4);" ";ZLEVA(A3,3)). Pokud ve vašem výchozím
souboru máte rod i druh ve stejném políčku, je k jejich rozdělení do samostatných
políček možné použít Excelovou funkci Data->"Text do sloupců"
a pak aplikovat postup s funkcí CONCATENATE.
- CANOCO neumí pracovat s chybějícími hodnotami. Všechna prázdná políčka se
při exportu nahradí nulami. Je potřeba vědět, zda tohle je přijatelné (pokud
skutečně prázdné políčko nulu znamená). V opačném případě je třeba (i) buď
odstranit druhy nebo objekty, které mají prázdné hodnoty, (ii) do prázdných
políček dosadit průměrné hodnoty dané proměnné (to je ale fušerský postup,
který lze použít jen tehdy, je-li těch prázdných políček málo; je každopádně
třeba velmi přemýšlet, průměry čeho tam má smysl dosadit).
- Nevynechávejte řádky, k odlišení jednotlivých podskupin dat použijte kódovací
proměnné
- Je zbytečné data složitě formátovat (barvy, ohraničení, velikost buněk),
při exportu se tato informace dá použít jen obtížně
Zpět na obsah syllabu
Domovská stránka