Praktikum k přednášce Molekulární ekologie
Určení druhu, určení "probability of Identity"
BOLD The Barcode of Life Database http://v3.boldsystems.org/
MEGA
http://www.megasoftware.net/
jModelTest
https://code.google.com/p/jmodeltest2/
Hledání známých sekvencí na internetu
Známé sekvence lze vyhledat v genetických
bankách na internetu.
Možností je více. Databáze jsou však propojeny.
Nejznámější je genetická banka na stránkách NCBI:
Stránky NCBI skýtají ovšem mnoho dalších možností. Prozkoumejte je metodou pokusu a omylu.
Chceme-li hledat sekvence konkrétních genů, obvykle zadáme nahoře pro hledání
možnost "nucleotide".
Zadáme klíčové slovo a vyhledáme sekvenci.
Sekvence se zjeví ve specielním formátu. Obvykle je praktické ji převést do
takzvaného fasta formátu.
Fasta začíná řádkem s názvem sekvence uvedeným >, na dalším
řádku následuje sekvence.
Úloha*:
Vyhledejte sekvenci COI tuňáka australského Thunnus maccoyii a převeďte ji do fasta formátu.
Genebank NCBI
Na stránce NCBI zadám, že chci hledat sekvence DNA (tedy možnost "nucleotide").
Do okénka pro hledání zadám klíčová slova propojená spojkou AND:
Thunnus maccoyii AND COI
Zobrazím si vybranou sekvenci ze seznamu a nahoře vyberu pro formát možnost FASTA.
Zkuste vyhledávat i v databázi BOLD.
BOLD The Barcode of Life Database
Hledání podobných sekvencí na internetu
Chceme-li vyhledat sekvenci nejpodobnější k námi osekvenovanému neznámému vzorku, využijeme BLAST, opět na stránkách NCBI
Pro data z barcodingu lze využít specializované databáze jako například BOLD
Pozor! Sekvence nemusí být vždy známý úsek COI z mtDNA. Pro vyhledání tedy nemůžeme vždy využít databázi BOLD.
Úloha*:
Ze zbytků potravy medvěda v Pyrenejích jsem získal dvě sekvence. Čemu jsou tyto sekvence podobné?
>sekvence1 atgaccaatattcgaaaaactcacccactaataaaaattgtaaacaacgcattcattgac ctcccagctccgtcaaacatctcatcatgatgaaactttggctccctcctaggcatctgc
>sekvence2 ctagccatgcactactcaccagacgcctcaaccgccttttcatcaatcgcccacatcactcgagacgtaaattatg gctgaatcatccgctaccttcacgccaatggcgcctcaatattctttatctgcctcttcctacacatcgggcgaggcc tatattacggatcatttctctactcagaaacctgaaacatcggcattatcctcctgcttgcaactatagcaacagcctt cataggctatgtcctcccgtgaggacaaatatcattctga
Postup:
Na stránce NCBI zadám, že chci použít BLAST. Pod
možnostmi Basic BLAST vyhledám nucleotide BLAST a zadám tuto možnost.
Do okénka vložím sekvenci například ve FASTA formátu. V možnosti Database
zadám Others. Spustím BLAST.
Úloha*:
V nejmenované restauraci mě překvapila nečekaná chuť sushi.
Nenápadně jsem odebral vzorky a využil možností DNA barcodingu.
Ze tří vzorků s odlišnou chutí a cenou jsem získal následující sekvence.
Z čeho byla moje večeře vyrobena?
Použili jsme COI z mtDNA. Pro vyhledání zkusíme využít databázi BOLD.
>vzorek1 GCACAGGATGGACAGTTTACCCCCCTTTAGCCGGCAACCTAGCCCACGCT GGCGCATCAGTAGACCTAGCCATCTTTTCATTACACTTAGCAGGTGTTTC CTCCATTCTAGGAGCCATCAACTTTATCACTACCATCATCAACATAAAAC CCCCCGCACTGTCACAATACCAAACACCCCTATTCGTATGATCCGTCCTC ATTACTGCCATCCTACTACTCCTCTCCTTACCCGTCCTAGCAGCTGGGAT TACCATACTACTTACCGACCGCAACCTTAACACCACATTCTTCGACCCAG CTGGAGGAGGAGACCCAATCCTATACCAACACCTATTC
>vzorek2 GAACGGGATGAACCGTATACCCCCCACTGGCTGGCAATCTGGCCCATGCA GGAGCATCCGTTGACCTTACAATTTTCTCCTTACACTTAGCCGGAGTCTC TTCTATTTTAGGGGCAATTAATTTCATCACTACTATTATCAACATAAAAC CCCCTGCAATATCCCAGTATCAAACTCCCCTGTTTGTATGATCAGTACTA ATTACAGCAGTTCTACTCTTACTATCCCTGCCTGTACTGGCTGCTGGAAT TACAATACTTTTAACAGACCGGAATCTTAATACAACATTTTTTGATCCCG CTGGAGGAGGAGACCCTATCCTATATCAACACCTATTC
>vzorek3 GAACAGGATGAACAGTATATCCCCCCTTAGCCGGAAACCTAGCCCATGCT GGGGCATCCGTAGATTTAACTATTTTTTCCCTCCACCTAGCCGGGGTGTC TTCTATCTTAGGAGCTATCAACTTTATCACCACTATCATTAATATAAAAC CCCCTGCTATAACCCAATATCAGACACCTCTCTTTGTATGATCCGTACTA ATTACAGCCGTCCTACTACTTCTCTCACTGCCAGTATTAGCAGCAGGTAT CACTATACTCCTTACAGACCGAAATCTAAATACTACTTTCTTCGACCCCG CTGGAGGTGGAGACCCAATTCTTTATCAACACCTATTC
Distance
Úloha*:
Vypočtěte p distance sekvencí nebo divergence dle zvoleného modelu (například K2P Kimura two parameter model)
Jde o sekvence dvou druhů homolic Conus abbreviatus a Conus ebraeus.
>CabH7 GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACCGCCCTGAGATTGTT AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGATCAGCTATATAATGT GATTGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATACCTATAATGATTGG TGGCTTTGGAAATTGATTAGTGCCACTGATATTAGGGGCCCCAGATATGGTATTTCCTCG TTTAAATAATATAAGTTTCTGGTTACTTCCCCCTGCTCTTCTACTTCTTTTATCTTCAGC TGCAGTAGAAAGTGGGGTGGGTACGGGATGAACAGTGTATCCGCCTTTATCAGGAAATTT GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCTGGGGTTTC TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACCGCTATTTTGCTTCT GCTGTCCCTTCCTGTATTAGCAGGAGCGATTACAATGCTTTTAACGGATCGAAATTTTAA TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT >CabH5 GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACTGCCCTGAGATTGTT AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGATCAGCTATATAATGT GATTGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATACCTATAATGATTGG TGGCTTTGGAAATTGATTAGTGCCGCTGATATTAGGGGCCCCAGATATGGTATTTCCTCG TTTAAATAATATAAGTTTCTGGTTACTCCCTCCTGCTCTTCTACTTCTTTTATCTTCAGC TGCAGTAGAAAGTGGGGTGGGTACAGGATGAACAGTGTATCCACCTTTATCAGGAAATTT GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCTGGGGTTTC TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACGGCTATTTTGCTTCT GCTGTCCCTTCCTGTATTAGCAGGAGCGATTACAATGCTTTTAACGGATCGAAATTTTAA TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT >CabH1 GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACTGCCCTGAGACTGTT AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGATCAGCTATATAATGT GATTGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATACCTATAATGATTGG TGGCTTTGGAAATTGATTAGTGCCGCTGATATTGGGGGCTCCAGATATGGTATTTCCTCG TTTAAATAATATAAGTTTCTGGTTACTTCCTCCTGCTCTTCTACTTCTTTTATCTTCAGC TGCAGTAGAAAGTGGGGTGGGTACAGGATGAACAGTGTATCCACCTTTATCAGGAAATTT GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCTGGGGTTTC TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACGGCTATTTTGCTTCT GTTGTCCCTTCCTGTATTAGCGGGAGCGATTACAATGCTTTTAACGGATCGAAATTTTAA TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT >CabH057 GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACTGCCCTGAGATTGTT AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGATCAGCTATATAATGT GATCGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATGCCTATAATGATTGG TGGCTTTGGAAATTGATTAGTGCCGCTGATATTAGGGGCCCCAGATATGGTATTTCCTCG TTTAAATAATATAAGTTTCTGGTTACTTCCTCCTGCTCTTCTACTTCTTTTATCTTCAGC TGCAGTAGAAAGTGGGGTGGGTACAGGATGAACAGTATATCCACCTTTATCAGGAAATTT GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCTGGGGTTTC TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACGGCTATTTTGCTTCT GTTGTCCCTTCCTGTATTAGCAGGAGCGATTACAATGCTTTTAACGGATCGAAACTTTAA TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT >CabH054 GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACTGCCCTGAGATTGTT AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGACCAGCTATATAATGT GATTGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATACCTATAATGATTGG TGGCTTTGGAAATTGATTAGTGCCGCTGATATTAGGGGCCCCAGATATGGTATTTCCTCG TTTAAATAATATAAGTTTCTGGTTACTTCCTCCTGCTCTTCTACTTCTTTTATCTTCAGC TGCAGTAGAAAGTGGGGTGGGTACAGGATGAACAGTGTATCCACCTTTATCAGGAAATTT GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCCGGGGTTTC TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACGGCTATTTTGCTTCT GCTGTCCCTTCCTGTATTAGCAGGAGCGATTACAATGCTTTTAACGGATCGAAATTTTAA TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT >CebCI7 GACATTGTATATTTTATTTGGGATATGGTCCGGTTTGGTCGGAACTGCCTTGAGATTGCT AATTCGTGCAGAGTTAGGACAACCGGGAGCCCTACTTGGAGATGATCAGCTGTATAACGT GATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG TGGTTTCGGAAACTGACTAGTACCACTAATATTAGGAGCTCCAGATATGGTATTTCCTCG GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC CGCGGTAGAGAGTGGAGTGGGTACGGGATGAACGGTGTATCCACCTCTATCAGGAAATTT AGCACATGCCGGTGGGTCAGTAGATCTAGCAATTTTTTCTTTACACCTTGCCGGGGTTTC TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT AAAATTTGAACGTCTTTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA TACTGCCTTCTTCGACCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT >CebCI29 GACATTGTATATTTTATTTGGGATATGGTCCGGTTTGGTCGGAACTGCCCTGAGATTGCT AATTCGTGCAGAGTTAGGACAASCGGGAGCCCTACTTGGAGATGATCAGCTGTATAACGT AATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG TGGTTTCGGAAACTGACTAGTACCGCTAATATTAGGAGCTCCAGATATGGTATTTCCTCG GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC CGCGGTAGAGAGTGGAGTGGGTACAGGATGAACGGTGTATCCACCTCTATCAGGAAACTT AGCACATGCCGGTGGGTCAGTAGATCTGGCAATTTTTTCTTTACACCTTGCCGGGGTTTC TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT AAAATTTGAACGTCTTTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA TACTGCCTTCTTCGACCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT >CebCI27 GACATTGTATATTTTATTTGGGATATGGTCCGGTTTGGTCGGAACTGCCTTGAGATTGCT AATTCGTGCAGAGTTAGGACAACCGGGAGCCCTACTTGGAGATGATCAGCTGTATAACGT GATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG TGGTTTCGGAAACTGACTAGTACCACTAATATTAGGAGCTCCAGATATGGTATTTCCTCG GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC CGCGGTAGAGAGTGGAGTGGGTACGGGATGAACGGTGTATCCACCTCTATCAGGAAATTT AGCACATGCCGGTGGGTCAGTAGATCTAGCAATTTTTTCTTTACACCTTGCCGGGGTTTC TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT AAAATTTGAACGTCTTTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA TACTGCCTTCTTCGACCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT >CebCI25 GACATTGTATATTTTATTTGGGATATGGTCCGGTTTAGTCGGAACTGCCCTGAGATTGCT AATTCGTGCAGAGTTAGGACAACCGGGAGCCCTACTTGGAGATGATCAGCTGTATAACGT GATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG TGGTTTCGGAAACTGACTAGTACCACTAATATTAGGAGCTCCAGATATGGTATTTCCTCG GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC CGCGGTAGAGAGTGGAGTGGGTACGGGATGAACGGTGTATCCACCTCTATCAGGAAATTT AGCACATGCCGGTGGGTCAGTNGATCTGGCAATTTTTTCTTTACACCTTGCCGGGGTTTC TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT AAAATTTGAACGTCTTTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA TACTGCCTTCTTCGACCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT >CebCI23 GACATTGTATATTTTATTTGGGATATGGTCCGGTTTAGTCGGAACTGCCCTGAGATTGCT AATTCGTGCAGAGTTAGGACAACCGGGGGCCCTACTTGGAGATGATCAGCTGTATAACGT GATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG TGGTTTCGGAAACTGACTAGTACCACTAATATTAGGAGCTCCAGATATGGTATTTCCTCG GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC CGCGGTAGAGAGTGGAGTGGGTACGGGATGAACGGTGTATCCACCTCTATCAGGAAATTT AGCACATGCCGGTGGGTCAGTGGATTTGGCAATTTTTTCTTTACACCTTGCCGGGGTTTC TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT AAAATTTGAACGTCTCTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA TACTGCCTTCTTCGATCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT
Postup:
Sekvence zkopírujeme do textového souboru. Ověříme, zda byl již proveden alignment (pokud ne, tak provedeme). Využijeme BioEdit.
Alignment uložíme ve fasta formátu.
Stáhneme si software MEGA.
http://www.megasoftware.net/
U starších versí je nutné nejprve převést soubor do formátu MEGA a ten následně otevřít v hlavním okně.
V hlavním okně zadáme "Distances" z hlavního menu. Zvolíme možnost "Compute Pairwise".
Objeví se nová karta, kde zadáme -> model - Nucleotide - Kimura 2-parameter. Pak už jen zbývá rozkázat: "Compute".
Správnost volby modelu lze ověřit pomocí programu jModelTest. Volně ke stažení zde: https://code.google.com/p/jmodeltest2/