BLOK 4: TVORBA  STROMŮ ZE SEKVENCÍ AMINOKYSELIN

Stromy z aminokyselinových sekvencí je možné tvořit také v PAUPu, ovšem pouze metodou maximální parsimonie a distančními metodami s použitím primitivních distančních koeficientů. Širší možnosti pro konstrukci distančních a parsimoních stromů nabízí dnes již málo používaný programový balík PHYLIP. Umí také maximální věrohodnost, je však velmi pomalý. Pro tvorbu maximálně věrohodných stromů bych doporučil programy RAxML, IQPNNI a PhyML. Všechny programy, které budeme v tomto bloku probírat umí konstruovat stromy ze sekvencí DNA.

PHYLIP (freeware - http://evolution.gs.washington.edu/phylip.html )

Pro práci s DNA i proteiny. Velmi podrobný návod. Balík obsahuje mnoho programů s různou funkcí. Jako vstupní soubor hledají soubory s názvem „infile“ nebo „intree“ v tomtéž adresáři. Produkují soubory „outfile“ nebo „outtree“.  Vstupní formát alignmentu je Phylip 4.0. Nastavení se mění zadáním písmena na levé straně řádku v menu (například M pro Multiple datasets) a zmáčknutím ENTER. Menu se objeví znovu a na daném řádku se změní nastavení na další možnost.

Postup při konstrukci a bootstrapingu fylogenetického stromu metodou Neighbor-joining z proteinového alignmentu:

1.         infile (alignment) – > seqboot.exe – >outfile (nabootstrapované podalignmenty)

2.         infile (nabootstrapované podalignmenty) – > protdist.exe (volba M „Multiple datasets=yes“) ->outfile (matice vzdáleností pro podalignmenty)

3.         infile (matice vzdáleností pro podalignmenty) – > neighbor.exe (volba M „Multiple datasets=yes“) -> outree (stromy pro podalignmenty)

4.         intree (stromy pro podalignmenty) – >consense.exe (volba C „Consensus type=Majority rule extended“) -> outree

Při práci se sekvencemi DNA je postup obdobný za použití programu DNAdist místo Protdist.

Při tvorbě stromu metodou maximální parsimonie a maximální věrohodnosti se postupuje podobně:

seqboot.exe – >protpars.exe/dnapars.exe nebo protml.exe/dnaml.exe – >consense.exe

Je dobré používat volbu J „Randomize input order of sequences=yes“, aby se snížil vliv pořadí přidávání taxonů na výslednou topologii stromu. Je to totéž jako hsearch addseq=random nrep=10 v PAUPu. Dále pak volbu G „Global rearangements=yes“, aby byl provedeno hledání lepších stromů v okolí původního, který byl vytvořen algoritmem heuristického hledání. Tato volba odpovídá hsearch swap=TBR v PAUPu.

ZOBRAZENÍ A TISK STROMŮ

Program Treeview (freeware – http://taxonomy.zoology.gla.ac.uk/rod/treeview.html )

Velmi jednoduchá obsluha. Umožňuje různá znázornění stromu (ikonky pod hlavním menu), zakořenění outgroupy (tree -> define otgroup a tree -> root with outgroup ) a export do grafických programů ve formátu wmf (tree -> print trees -> picture).

Program Figtree ( http://tree.bio.ed.ac.uk/software/figtree/)

Opět jednoduchá obsluha. Umožňuje velmi snadno kořenit stro, rotovat větve, kolabovat velké větve na trojúhelníky a podobně.

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

SPOLEČNÁ ÚLOHA 1

Stáhněte si soubour 6-Prim-COI.phy se sekvencemi mitochondriální COI primátů.
1. Otevřete ji v programu Bioedit.
2. Sestrojte strom metodou neighbor-joining včetně bootstrapingu pomocí programového balíku PHYLIP podle návodu uvedeného výše.
3. Strom otevřete v programu FigTree, zobrazte si hodnoty bootstrapu a vyzkoušejte si zakořenit strom pomocí zvoleného outgroupu.

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

VÝBĚR PROTEINOVÉHO MODELU

PROTTEST (http://darwin.uvigo.es/software/prottest.html) porovnává vhodnost nejčastěji užívaných modelů pro váš alignment. Modely porovnává pomocí AIC (Akaike information criterion) a BIC (bayesian information criterion). Postup je podobný jako v případě jModeltestu. Nejprve načtete alignment, pak vyberete modely, ze kterých chcete vybírat.

K porovnání modelů můžete využít také prottest server http://darwin.uvigo.es/.

Další informace na http://bioinformatics.oxfordjournals.org/cgi/reprint/21/9/2104

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

SPOLEČNÁ ÚLOHA 2

V programu prottest vyberte nejvhodnější model pro alignment 6-Prim-COI.phy podle AIC kritéria.

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

RAxML (freeware - http://phylobench.vital-it.ch/raxml-bb/ )

RAxML je opět založený na maximální věrohodnosti. Stejně jako PHYML a IQPNNI (uvedené níže) se snaží urychlit proces prohledávání prostoru stromů a přitom nepřehlédnout dobré stromy. Algoritmus je popsán zde (http://bioinformatics.oxfordjournals.org/cgi/reprint/21/4/456) a postupuje následovně:

1. Sestrojí počáteční strom metodou maximální parsimonie, používá k tomu program DNAPARS z balíku PHYLIP
2. Prohledává okolí počátečního stromu tak, že "usekne" jednu větev (jednoduchou i rozvetvenou) a přemístí ji do všech možných míst vzdálených maximálně i uzlů od původního umístění (i je nastaveno na 10 a tuto hodnotu je možné měnit). Odhadne likelihood nově vzniklé topologie. Při tomto odhadu, optimalizuje délky větví jen v části stromu, která byla dotčena změnou. U 20 stromů s nejvyšším odhadem likelihoodu optimalizuje delky větví "pořádně" a vypočítá likelihood přesně. Neljlepší strom si zapamatuje.
3 . Postupně provede krok 2 se všemy větvemi s tím, že pokaždé, když narazí na lepší topologii, přijme ji a následné změny provádí na ní.
4. Program skončí, nenajde-li lepší strom.

Obsluha programu je podrobně popsána v manualu.

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

SPOLEČNÁ ÚLOHA 3

Proveďte ML analýzu pomocí programu RAxML. Použijte model MTMAM vybraný PROTTESTem.

1. Spusťte program Salamander pro práci se soubory.
2. Soubor 6-Prim-COI.phy nakopírejte do adresáře s RAxML (D/praktikum molekularni taxonomie)
3. Do příkazové řádky v SALAMANDERu napište

RAxML-7.0.3-WIN.exe -m PROTMIXMTMAMF -n COI -s 6-Prim-COI.phy
(pokud byste chtěli dělat i bootstraping příkaz by vypadal následovně: RAxML-7.0.3-WIN.exe -m PROTMIXMTMAMF -n COI -s 6-Prim-COI.phy -# 100 -b 21547)

4. Strom otevřete v programu FigTree.

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

MRBAYES (freeware - http://mrbayes.csit.fsu.edu/)

Pro nalezení nejpravděpodobnějšího stromu využívá tento program bayéské metody. Tato metoda je příbuzná metodě maximální věrohodnosti a její základy jsou shrnuty v manuálu přiloženém ke starší verzi  programu. Jde o to, že na základě „priorní“ pravděpodobnosti hypotézy (stromu a modelu) a věrohodnosti („likelihood“) dat při dané hypotéze se vypočítá „posteriorní“ pravděpodobnost hypotézy. Tento výpočet je v případě stromů velmi náročný, protože vyžaduje výpočet „likelihoodů“ pro všechny možné hypotézy. V praxi se proto postupuje jinak. Využívá se skutečnosti, že pokud prohledáváme „stromový prostor“ pomocí algoritmu Marcov Chain Monte Carlo (MCMC), dospějeme po nějaké době do míst, kde se vyskytují určité topologie s ustálenou frekvencí. Tato frekvence se blíží jejich „posteriorní“ pravděpodobnosti. MrBayes obsahuje, jako jediný mě známý program, model covarion, který modeluje různou substituční rychlost v různých částech stromu.

Ovládání a vstupní formát dat je podobný jako u programu PAUP. Blok příkazů kterými se spouští analýzy začíná Begin MrBayes;.

MrBayes blok pro běh MCMC (aminokyselinová sekvence sekvence):

begin MrBayes;

lset rates=invgamma covarion=yes;………............................……parametry modelu

prset aamodelpr=fixed(wag);...............................................................nastavení modelu

mcmc ngen=1000000 savebrlens=yes samplefreq=100;….………spuštění řetězce o 1000 000 generacích

end;

MrBayes blok pro běh MCMC (nukleotidová sekvence sekvence):

begin MrBayes;

lset nst=6 rates=invgamma covarion=yes;

mcmc ngen=2000000 savebrlens=yes samplefreq=100;

end;

Program rozběhne dve paralelni analyzy, každá obsahuje 4 MCMC řetězce. Mezi čtyřmi řetezci jedné analýzy je jeden hlavni (tzv. "studeny"), který sbírá a ukládá topologie a tři "horke", které snadněji překakují "údolí" a tak unikají z lokálních optim. Za určitých podmínek si stuedný řetězec a horký řetězec vymění místo v prostoru stromů. Po uplynutí určitého počtu generací provede MrBayes srovnání toho, kam dospěly obě paralelních analýzy (). Klesne-li hodnota statistiky pod 0,01 (tj. analýzy konvergovaly k velmi podobnému výsledku) doporučují autoři běh zastavit, stromy z první čtvrtiny běhu odstranit jako burnin a ze zbytku vytvořit konsenzuální strom.

Sumt  burnin=XXX contype=allcompat .............(Pozor hodnota burnin je počet stromů k zahození, nikoliv počet generací.)

Vždy je dobré se přesvědčit, jestli jsme se již dostali do míst s ustálenou frekvencí stromů – plato na grafu hodnot „likelihoodu“ vynesených proti generacím. Pokud běh nekonverguje ani při uběhnutí 1 000 000 generací, program se zeptá, zda chceme pokračovat. Je-li to potřeba, pokračujeme dál.

---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

SPOLEČNÁ ÚLOHA 4

Proveďte bayéskou analýzu v programu MrBayes..

1. Soubor 6-Prim-COI.phy si pomocí programu BioEdit vyexportujte jako nexus. A nakopírejte do adresáře s MrBayes (D/praktikum molekularni taxonomie)
2. Spusťte MrBayes a v něm váš soubor......execute 2Prim-COI.nex
3. Spusťte analýzu následujícím sledem příkazů

lset rates=invgamma covarion=yes;………............................……parametry modelu
prset aamodelpr=fixed(mtmam);...............................................................nastavení modelu
mcmc ngen=1000000;….………spuštění řetězce o 1000 000 generacích

4. Sledujte kdy dojde ke konvergenci, vyhodnoťte burn in a vytvořte konsezuální strom

Sumt  burnin=XXX contype=allcompat
.............(Pozor hodnota burnin je počet stromů k zahození, nikoliv počet generací.)

5. Strom otevřete v programu treeview.

----------------------------------------------------------------------------------------------------------------------------------------------------------------------

DALŠÍ PROGRAMY PRO TVORBU STROMŮ Z ALIGNMENTŮ AMINOKYSELIN I DNA

PHYML (freeware http://www.atgc-montpellier.fr/phyml/binaries.php )

Program na tvorbu stromu na základě sekvencí DNA i proteinů metodou maximální věrohodnosti. Oproti jiným programům (Phylip, PAUP) dosahuje značného urychlení a přitom se, příliš nesnižuje schopnost najít maximálně věrohodný strom. Předešlé programy postupují tak, že pro každou jim předloženou topologii, která vznikla přehozením větví (swapem) z předešlé topologie během heuristického hledání, vypočtou věrohodnost. To zahrnuje optimalizaci délek větví a je to poměrně početně náročné; přitom se může jednat o horší topologii. PHYML postupuje tak, že vyzkouší větší počet topologických změn, předběžně si spočítá s menší přesností, jak každá z nich vylepší věrohodnost stromu (přepočítá pouze tu část stromu, kde ke změně došlo, neoptimalizuje délky větví na celém stromu) a potom přijme určité procento těch nejslibnějších změn. Pro novou topologii vypočte věrohodnost pořádně. Pokud se skutečně skóre stromu vylepší, postupuje podobně dál. Pokud se skóre zhorší, vrátí se k původní topologii a zpřísní si měřítko pro přijímání změn.

Program se ovládá podobně jako Phylip a vstupní formát sekvencí je Phylip4.0 nebo Phylip3.2. Program si umí sám optimalizovat parametry modelu.

Vhodné nastavení  analýzy bootstrapové analýzy proteinových sekvencí savčích cytochromů B.

 

IQPNNI (freeware - http://www.cibiv.at/software/iqpnni/)

Program na konstrukci fylogenetického stromy metodou založenou na maximální věrohodnosti. Postup prohledávání stromového prostoru je zde jiný než u klasické metody maximální věrohodnosti. Je to kombinace několika metod.

1. Prvním krokem je rychlé nalezení suboptimálního stromu algoritmem neighbor-joining, v jehož okolí se hledá lepší strom swapovacím algoritmem NNI. Nejlepší strom vstupuje do dalšího kroku
2.
Z nejlepšího dosud nalezeného stromu se vypustí náhodně určité procento sekvencí. Ty se v zápětí do stromu opět vkládají pomocí algoritmu important quartet puzzling.
3. Likelihood nového stromu se srovná s likelihoodem stromu z bodu 1. Lepší z nich se přijme jako nejlepší strom.
4. Body 2 a 3 se opakují tak dlouho dokud není splněna podmínka pro ukončení hledání. Tou je provedení určitého počtu cyklů nebo neschopnost naléz nové lepší stromy.

Testy ukázaly, že IQPNNI je schopen častěji nalézt věrohodnější strom než PhyML, je však pomalejší. Více na http://mbe.oxfordjournals.org/cgi/reprint/21/8/1565?ijkey=53pJbRKMJmZck&keytype=ref

IQPNNI se ovládá podobně jako Phylip nebo Treepuzzle. Vstupním formátem je phylip4.0. Vhodné nastavení analýzy IQPNNI.

Nevýhodou IQPNNI je, že jeho současná verze neovládá bootstrapping.