|
Stromy z aminokyselinových sekvencí je možné tvořit také v PAUPu, ovšem pouze metodou maximální parsimonie a distančními metodami s použitím primitivních distančních koeficientů. Širší možnosti pro konstrukci distančních a parsimoních stromů nabízí dnes již málo používaný programový balík PHYLIP. Umí také maximální věrohodnost, je však velmi pomalý. Pro tvorbu maximálně věrohodných stromů bych doporučil programy RAxML, IQPNNI a PhyML. Všechny programy, které budeme v tomto bloku probírat umí konstruovat stromy ze sekvencí DNA. PHYLIP (freeware - http://evolution.gs.washington.edu/phylip.html ) Pro práci s DNA i proteiny. Velmi podrobný návod. Balík obsahuje mnoho programů s různou funkcí. Jako vstupní soubor hledají soubory s názvem „infile“ nebo „intree“ v tomtéž adresáři. Produkují soubory „outfile“ nebo „outtree“. Vstupní formát alignmentu je Phylip 4.0. Nastavení se mění zadáním písmena na levé straně řádku v menu (například M pro Multiple datasets) a zmáčknutím ENTER. Menu se objeví znovu a na daném řádku se změní nastavení na další možnost. Postup při konstrukci a bootstrapingu fylogenetického stromu metodou Neighbor-joining z proteinového alignmentu: 1. infile (alignment) – > seqboot.exe – >outfile (nabootstrapované podalignmenty) 2. infile (nabootstrapované podalignmenty) – > protdist.exe (volba M „Multiple datasets=yes“) ->outfile (matice vzdáleností pro podalignmenty) 3. infile (matice vzdáleností pro podalignmenty) – > neighbor.exe (volba M „Multiple datasets=yes“) -> outree (stromy pro podalignmenty) 4. intree (stromy pro podalignmenty) – >consense.exe (volba C „Consensus type=Majority rule extended“) -> outree Při práci se sekvencemi DNA je postup obdobný za použití programu DNAdist místo Protdist. Při tvorbě stromu metodou maximální parsimonie a maximální věrohodnosti se postupuje podobně: seqboot.exe – >protpars.exe/dnapars.exe nebo protml.exe/dnaml.exe – >consense.exe Je dobré používat volbu J „Randomize input order of sequences=yes“, aby se snížil vliv pořadí přidávání taxonů na výslednou topologii stromu. Je to totéž jako hsearch addseq=random nrep=10 v PAUPu. Dále pak volbu G „Global rearangements=yes“, aby byl provedeno hledání lepších stromů v okolí původního, který byl vytvořen algoritmem heuristického hledání. Tato volba odpovídá hsearch swap=TBR v PAUPu. ZOBRAZENÍ A TISK STROMŮ Program Treeview (freeware – http://taxonomy.zoology.gla.ac.uk/rod/treeview.html ) Velmi jednoduchá obsluha. Umožňuje různá znázornění stromu (ikonky pod hlavním menu), zakořenění outgroupy (tree -> define otgroup a tree -> root with outgroup ) a export do grafických programů ve formátu wmf (tree -> print trees -> picture). Program Figtree ( http://tree.bio.ed.ac.uk/software/figtree/) Opět jednoduchá obsluha. Umožňuje velmi snadno kořenit stro, rotovat větve, kolabovat velké větve na trojúhelníky a podobně. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- SPOLEČNÁ ÚLOHA 1 Stáhněte si soubour 6-Prim-COI.phy se sekvencemi mitochondriální COI primátů. ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- VÝBĚR PROTEINOVÉHO MODELU PROTTEST (http://darwin.uvigo.es/software/prottest.html) porovnává vhodnost nejčastěji užívaných modelů pro váš alignment. Modely porovnává pomocí AIC (Akaike information criterion) a BIC (bayesian information criterion). Postup je podobný jako v případě jModeltestu. Nejprve načtete alignment, pak vyberete modely, ze kterých chcete vybírat. K porovnání modelů můžete využít také prottest server http://darwin.uvigo.es/. Další informace na http://bioinformatics.oxfordjournals.org/cgi/reprint/21/9/2104 --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- SPOLEČNÁ ÚLOHA 2 V programu prottest vyberte nejvhodnější model pro alignment 6-Prim-COI.phy podle AIC kritéria. ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- RAxML (freeware - http://phylobench.vital-it.ch/raxml-bb/ ) RAxML je opět založený na maximální věrohodnosti. Stejně jako PHYML a IQPNNI (uvedené níže) se snaží urychlit proces prohledávání prostoru stromů a přitom nepřehlédnout dobré stromy. Algoritmus je popsán zde (http://bioinformatics.oxfordjournals.org/cgi/reprint/21/4/456) a postupuje následovně: 1. Sestrojí počáteční strom metodou maximální parsimonie, používá k tomu program DNAPARS z balíku PHYLIP Obsluha programu je podrobně popsána v manualu. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- SPOLEČNÁ ÚLOHA 3 Proveďte ML analýzu pomocí programu RAxML. Použijte model MTMAM vybraný PROTTESTem. 1. Spusťte program Salamander pro práci se soubory. RAxML-7.0.3-WIN.exe -m PROTMIXMTMAMF -n COI -s 6-Prim-COI.phy 4. Strom otevřete v programu FigTree. ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- MRBAYES (freeware - http://mrbayes.csit.fsu.edu/) Pro nalezení nejpravděpodobnějšího stromu využívá tento program bayéské metody. Tato metoda je příbuzná metodě maximální věrohodnosti a její základy jsou shrnuty v manuálu přiloženém ke starší verzi programu. Jde o to, že na základě „priorní“ pravděpodobnosti hypotézy (stromu a modelu) a věrohodnosti („likelihood“) dat při dané hypotéze se vypočítá „posteriorní“ pravděpodobnost hypotézy. Tento výpočet je v případě stromů velmi náročný, protože vyžaduje výpočet „likelihoodů“ pro všechny možné hypotézy. V praxi se proto postupuje jinak. Využívá se skutečnosti, že pokud prohledáváme „stromový prostor“ pomocí algoritmu Marcov Chain Monte Carlo (MCMC), dospějeme po nějaké době do míst, kde se vyskytují určité topologie s ustálenou frekvencí. Tato frekvence se blíží jejich „posteriorní“ pravděpodobnosti. MrBayes obsahuje, jako jediný mě známý program, model covarion, který modeluje různou substituční rychlost v různých částech stromu. Ovládání a vstupní formát dat je podobný jako u programu PAUP. Blok příkazů kterými se spouští analýzy začíná Begin MrBayes;. MrBayes blok pro běh MCMC (aminokyselinová sekvence sekvence): begin MrBayes; lset rates=invgamma covarion=yes;………............................……parametry modelu prset aamodelpr=fixed(wag);...............................................................nastavení modelu mcmc ngen=1000000 savebrlens=yes samplefreq=100;….………spuštění řetězce o 1000 000 generacích end; MrBayes blok pro běh MCMC (nukleotidová sekvence sekvence): begin MrBayes; lset nst=6 rates=invgamma covarion=yes; mcmc ngen=2000000 savebrlens=yes samplefreq=100; end; Program rozběhne dve paralelni analyzy, každá obsahuje 4 MCMC řetězce. Mezi čtyřmi řetezci jedné analýzy je jeden hlavni (tzv. "studeny"), který sbírá a ukládá topologie a tři "horke", které snadněji překakují "údolí" a tak unikají z lokálních optim. Za určitých podmínek si stuedný řetězec a horký řetězec vymění místo v prostoru stromů. Po uplynutí určitého počtu generací provede MrBayes srovnání toho, kam dospěly obě paralelních analýzy (). Klesne-li hodnota statistiky pod 0,01 (tj. analýzy konvergovaly k velmi podobnému výsledku) doporučují autoři běh zastavit, stromy z první čtvrtiny běhu odstranit jako burnin a ze zbytku vytvořit konsenzuální strom. Sumt burnin=XXX contype=allcompat .............(Pozor hodnota burnin je počet stromů k zahození, nikoliv počet generací.) Vždy je dobré se přesvědčit, jestli jsme se již dostali do míst s ustálenou frekvencí stromů – plato na grafu hodnot „likelihoodu“ vynesených proti generacím. Pokud běh nekonverguje ani při uběhnutí 1 000 000 generací, program se zeptá, zda chceme pokračovat. Je-li to potřeba, pokračujeme dál. --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- SPOLEČNÁ ÚLOHA 4 Proveďte bayéskou analýzu v programu MrBayes.. 1. Soubor 6-Prim-COI.phy si pomocí programu BioEdit vyexportujte jako nexus. A nakopírejte do adresáře s MrBayes (D/praktikum molekularni taxonomie) 5. Strom otevřete v programu treeview. ---------------------------------------------------------------------------------------------------------------------------------------------------------------------- DALŠÍ PROGRAMY PRO TVORBU STROMŮ Z ALIGNMENTŮ AMINOKYSELIN I DNA PHYML (freeware – http://www.atgc-montpellier.fr/phyml/binaries.php ) Program na tvorbu stromu na základě sekvencí DNA i proteinů metodou maximální věrohodnosti. Oproti jiným programům (Phylip, PAUP) dosahuje značného urychlení a přitom se, příliš nesnižuje schopnost najít maximálně věrohodný strom. Předešlé programy postupují tak, že pro každou jim předloženou topologii, která vznikla přehozením větví (swapem) z předešlé topologie během heuristického hledání, vypočtou věrohodnost. To zahrnuje optimalizaci délek větví a je to poměrně početně náročné; přitom se může jednat o horší topologii. PHYML postupuje tak, že vyzkouší větší počet topologických změn, předběžně si spočítá s menší přesností, jak každá z nich vylepší věrohodnost stromu (přepočítá pouze tu část stromu, kde ke změně došlo, neoptimalizuje délky větví na celém stromu) a potom přijme určité procento těch nejslibnějších změn. Pro novou topologii vypočte věrohodnost pořádně. Pokud se skutečně skóre stromu vylepší, postupuje podobně dál. Pokud se skóre zhorší, vrátí se k původní topologii a zpřísní si měřítko pro přijímání změn. Program se ovládá podobně jako Phylip a vstupní formát sekvencí je Phylip4.0 nebo Phylip3.2. Program si umí sám optimalizovat parametry modelu. Vhodné nastavení analýzy bootstrapové analýzy proteinových sekvencí savčích cytochromů B.
|
||
|
IQPNNI (freeware - http://www.cibiv.at/software/iqpnni/) Program na konstrukci fylogenetického stromy metodou založenou na maximální věrohodnosti. Postup prohledávání stromového prostoru je zde jiný než u klasické metody maximální věrohodnosti. Je to kombinace několika metod. 1. Prvním krokem je rychlé nalezení suboptimálního
stromu algoritmem neighbor-joining, v jehož okolí se hledá lepší strom swapovacím algoritmem NNI. Nejlepší strom vstupuje do dalšího kroku Testy ukázaly, že IQPNNI je schopen častěji nalézt věrohodnější strom než PhyML, je však pomalejší. Více na http://mbe.oxfordjournals.org/cgi/reprint/21/8/1565?ijkey=53pJbRKMJmZck&keytype=ref IQPNNI se ovládá podobně jako Phylip nebo Treepuzzle. Vstupním formátem je phylip4.0. Vhodné nastavení analýzy IQPNNI.
Nevýhodou IQPNNI je, že jeho současná verze neovládá bootstrapping. |
||