Praktikum k přednášce Molekulární ekologie

Populační struktura, Structure

 

Při analýze populační struktury nemůžeme vynechat Structure. 
V současné době bychom při větších datech asi spíše použili některého z pokročilých "potomků" tohoto programu. 
My si ukážeme klasickou versi. Pro pochopení principu tohoto typu analýz je to, myslím, optimální.
V programu Structure zařadíme jedince dle jejich genotypů do předem určeného počtu (K) skupin.
 
Postup:
Nainstaluji si program Structure (ke stažení z https://web.stanford.edu/group/pritchardlab/structure.html )
Připravím si data ve vhodném formátu
data

Koukněte v textovém prohlížeči na vstupní spubor. Jeho strukturu jistě pochopíte. Máme zde pro každého jedince jeho ID, populaci a genotypy na pěti lokusech. 
Soubor si uložíme do samostatného adresáře (pozor na to, že tu přibude hodně souborů!). 
Podstatné je, že program s našimi populacemi nijak nepočítá. Vše se počítá jen z genotypů.
Po spuštění programu vytvořím nový projekt (hlavní menu - File - New Project). 
Okno Step 1: Název (libovolný), adresář a soubor, to je asi jasné.
Okno Step 2: 
Tu si pomůžeme "čudlem" Show data file format. Vyčteme zde počet lokusů 5 a počet jedinců 57. 
Chybějící genopyty nemáme. Pokud bychom měli, je dobré je označit záporným číslem, třeba -9 (to tam můžeme klidně vyplnit).
Step 3:
Máme a zatrhneme Row of marker names (řádek s jmény lokusů).
Pak celkem nic ale POZOR máme kupodivu Special format (standardní formát Structure je totiž dost nešikovný - dva řádky na každého jedince, to v Excelu obvykle nemáte).
Zatrhneme tedy Data ... in a single line (každý jedinec je na jedné řádce).
Step 4:
Máme a zatrhneme Individual ID (jméno či označení jedince) a putative population origin (to je třeba lokalita, je v prvním sloupci, při výpočtu se nepoužije).
Dál nic, takže finish a pak proceed. Data by se měla načíst a zobrazit.

Nadefinuji si parametry analýzy (hlavní menu - Parametr Set - New).
Zde zvolím počet kroků. Nejprve kroky pro burn-in (aby se program správně "zahřál" před výpočtem, to se pak vyhodí) a pak kroky vlastní analýzy. 
Cvičně sem dáme malé tisíce (třeba 1000 a 4000), abychom dlouho nečekali. Pro pořádnou analýzu však dáme stovky tisíc. Ostatní necháme defaultně (většinou je to OK).
A už to můžeme pustit! Nejprve ale projekt přes hlavní menu uložíme. Někdy (vlastně často) to totiž celé spadne.
Pro jeden běh můžeme dát jen rychle Parameter set - Run (umístění příkazu Run se může lišit dle verse, ale někde to určitě najdete). 
Zadáme, do kolika skupin (K) to má rozdělit. Zkuste třeba 2. 
Chvíli běží čísla a pak se vlevo pod results objeví odkaz na výsledky analýzy pod vaším názvem parametrů (zde se můžeme přes odkazy taky kouknout třeba na nastavení parametrů).
Klikneme na odkaz s výsledky. V pravém okně si zobrazíme bar plot. Zkuste group by pop ID (tedy zobraz ty naše "populace" jako třeba lokality, se kterýma se ale nepočítalo) a plot in multiple lines. 

Pokud chceme (a to musíme) pustit program mnohokrát pro různá K (počty skupin) dáme Project - Start a job. Zde vybereme (kliknutím) naše parametry (musí být zvýrazněné).
Dále zadáme minimální a maximální K (tedy vypočítej pro počty skupin od jedné do ...). S maximálním K to nepřehánějte. Máme vzorky jen z pěti lokalit. Nemá cenu dávat nic nad deset. Rozsah 1-5 bohatě stačí.
Počet iterací tu znamená, kolikrát to má pro každé K spočítat. Cvičně dejte radši málo (třeba 3, třikrát to spočti pro každé K). Běžně se však dává alespoň 10, klidně i více.
Vždy počítejte i s K = 1. Zdá se to nezajímavé a triviální (všichni v jedné stejné skupině), ale je to zásadní pro další výpočty. 
Potřebujete vědět, nakolik je jedna skupina věrohodná (likelihood) a srovnat to s dalšími možnostmi.
Kdyby to nic nedělalo, tak to celé zavřete, pusťte si znovu program a otevřete projekt (tu se vyplatí, že byl projekt uložen a nic už nemusíte znova vyplňovat).
Koukněte na výsledky. Konzistentně by mělo vycházet, že jedinci z lokality 3 jsou jasně řazeni do jedné skupiny (až na jednoho jedince, který je do skupiny 3 dán omylem).

Výsledky se průběžně ukládají do našeho adresáře. S výsledky ze Structure je třeba dále pracovat. S jednoduchými obrázky přímo z programu se nespokojíme. 
Structure nám neřekne, jaké K je nejlepší. Pro zjištění optimálního K existuje více metod. Je vhodné jich vyzkoušet víc. 
Pro vyhledání optimálního K lze využít například KFinder KFinder 
Tento program využívá hned 3 různé metody pro nalezení optimálního K. Je to navíc jednoduchý a rychlý program. 
Jedna z možností je metoda DeltaK. Zvažuje se zde změna likelihoodu analýzy (první graf) při změně K. 
V potaz se však bere i rozptyl likelihoodu pro různé běhy se stejným K (vertikální čárky v prvním grafu).
Optimální K zjeví graf DeltaK. Optimální K má zde nejvyšší hodnotu.
Mějte však na paměti, že populační struktura může být hierarchická, tedy že dobrý smysl může mít i několik různých K. 
Nezapomínejte také na zdravý rozum. Pro interpretaci bude potřeba.
Ke vhodné grafické vizualizaci výsledků je 
optimální CLUMPAK http://clumpak.tau.ac.il/  
Server často nefunguje. Alternativně lze však využít Structure Selector
Zazipovaná data 
ukázka zpracovaného výsledku ze Structure

Na výsledky je ale třeba si déle počkat a pro finální úpravu dat budeme potřebovat otevřít zazipované soubory a nějaký program pro úpravu souborů s koncovkou .ps, minimálně program typu PostScript viewer.
Další odkazy lze najít zde: 

Structure https://web.stanford.edu/group/pritchardlab/structure.html  (zde jsou odkazy i na programy na další práci s výstupy ze Structure)