Praktikum k přednášce Molekulární ekologie

Určení druhu, určení "probability of Identity"

 

BOLD The Barcode of Life Database  http://v3.boldsystems.org/

Genebank NCBI  http://www.ncbi.nlm.nih.gov/

MEGA  http://www.megasoftware.net/

jModelTest  https://code.google.com/p/jmodeltest2/

 

 

Hledání známých sekvencí na internetu

Známé sekvence lze vyhledat v genetických bankách na internetu.
Možností je více. Databáze jsou však propojeny.
Nejznámější je genetická banka na stránkách NCBI:

http://www.ncbi.nlm.nih.gov/

Stránky NCBI skýtají ovšem mnoho dalších možností. Prozkoumejte je metodou pokusu a omylu.

Chceme-li hledat sekvence konkrétních genů, obvykle zadáme nahoře pro hledání možnost "nucleotide".
Zadáme klíčové slovo a vyhledáme sekvenci.
Sekvence se zjeví ve specielním formátu. Obvykle je praktické ji převést do takzvaného fasta formátu.
Fasta začíná řádkem s názvem sekvence uvedeným >, na dalším řádku následuje sekvence.
 

 

Úloha*:

Vyhledejte sekvenci COI tuňáka australského Thunnus maccoyii a převeďte ji do fasta formátu.

Postup:

Genebank NCBI

http://www.ncbi.nlm.nih.gov/

Na stránce NCBI zadám, že chci hledat sekvence DNA (tedy možnost "nucleotide").
Do okénka pro hledání zadám klíčová slova propojená spojkou AND:

Thunnus maccoyii AND COI

Zobrazím si vybranou sekvenci ze seznamu a nahoře vyberu pro formát možnost FASTA.

Zkuste vyhledávat i v databázi BOLD.

BOLD The Barcode of Life Database

http://v3.boldsystems.org/

 

Hledání podobných sekvencí na internetu

Chceme-li vyhledat sekvenci nejpodobnější k námi osekvenovanému neznámému vzorku, využijeme BLAST, opět na stránkách NCBI

http://www.ncbi.nlm.nih.gov/

Pro data z barcodingu lze využít specializované databáze jako například BOLD

http://v3.boldsystems.org/

Pozor! Sekvence nemusí být vždy známý úsek COI z mtDNA. Pro vyhledání tedy nemůžeme vždy využít databázi BOLD.

 

Úloha*:

Ze zbytků potravy medvěda v Pyrenejích jsem získal dvě sekvence. Čemu jsou tyto sekvence podobné?

>sekvence1
atgaccaatattcgaaaaactcacccactaataaaaattgtaaacaacgcattcattgac
ctcccagctccgtcaaacatctcatcatgatgaaactttggctccctcctaggcatctgc
>sekvence2
ctagccatgcactactcaccagacgcctcaaccgccttttcatcaatcgcccacatcactcgagacgtaaattatg
gctgaatcatccgctaccttcacgccaatggcgcctcaatattctttatctgcctcttcctacacatcgggcgaggcc
tatattacggatcatttctctactcagaaacctgaaacatcggcattatcctcctgcttgcaactatagcaacagcctt
cataggctatgtcctcccgtgaggacaaatatcattctga

Postup:

Na stránce NCBI zadám, že chci použít BLAST. Pod možnostmi Basic BLAST vyhledám nucleotide BLAST a zadám tuto možnost.
Do okénka vložím sekvenci například ve FASTA formátu. V možnosti Database zadám Others. Spustím BLAST.

 

Úloha*:

V nejmenované restauraci mě překvapila nečekaná chuť sushi.
Nenápadně jsem odebral vzorky a využil možností DNA barcodingu.
Ze tří vzorků s odlišnou chutí a cenou jsem získal následující sekvence.
Z čeho byla moje večeře vyrobena?

Použili jsme COI z mtDNA. Pro vyhledání zkusíme využít databázi BOLD.

http://v3.boldsystems.org/

>vzorek1
GCACAGGATGGACAGTTTACCCCCCTTTAGCCGGCAACCTAGCCCACGCT
GGCGCATCAGTAGACCTAGCCATCTTTTCATTACACTTAGCAGGTGTTTC
CTCCATTCTAGGAGCCATCAACTTTATCACTACCATCATCAACATAAAAC
CCCCCGCACTGTCACAATACCAAACACCCCTATTCGTATGATCCGTCCTC
ATTACTGCCATCCTACTACTCCTCTCCTTACCCGTCCTAGCAGCTGGGAT
TACCATACTACTTACCGACCGCAACCTTAACACCACATTCTTCGACCCAG
CTGGAGGAGGAGACCCAATCCTATACCAACACCTATTC
>vzorek2
GAACGGGATGAACCGTATACCCCCCACTGGCTGGCAATCTGGCCCATGCA
GGAGCATCCGTTGACCTTACAATTTTCTCCTTACACTTAGCCGGAGTCTC
TTCTATTTTAGGGGCAATTAATTTCATCACTACTATTATCAACATAAAAC
CCCCTGCAATATCCCAGTATCAAACTCCCCTGTTTGTATGATCAGTACTA
ATTACAGCAGTTCTACTCTTACTATCCCTGCCTGTACTGGCTGCTGGAAT
TACAATACTTTTAACAGACCGGAATCTTAATACAACATTTTTTGATCCCG
CTGGAGGAGGAGACCCTATCCTATATCAACACCTATTC
>vzorek3
GAACAGGATGAACAGTATATCCCCCCTTAGCCGGAAACCTAGCCCATGCT
GGGGCATCCGTAGATTTAACTATTTTTTCCCTCCACCTAGCCGGGGTGTC
TTCTATCTTAGGAGCTATCAACTTTATCACCACTATCATTAATATAAAAC
CCCCTGCTATAACCCAATATCAGACACCTCTCTTTGTATGATCCGTACTA
ATTACAGCCGTCCTACTACTTCTCTCACTGCCAGTATTAGCAGCAGGTAT
CACTATACTCCTTACAGACCGAAATCTAAATACTACTTTCTTCGACCCCG
CTGGAGGTGGAGACCCAATTCTTTATCAACACCTATTC
 
Distance
Úloha*:
Vypočtěte p distance sekvencí nebo divergence dle zvoleného modelu (například K2P Kimura two parameter model)
Jde o sekvence dvou druhů homolic Conus abbreviatus a Conus ebraeus.
>CabH7
GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACCGCCCTGAGATTGTT
AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGATCAGCTATATAATGT
GATTGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATACCTATAATGATTGG
TGGCTTTGGAAATTGATTAGTGCCACTGATATTAGGGGCCCCAGATATGGTATTTCCTCG
TTTAAATAATATAAGTTTCTGGTTACTTCCCCCTGCTCTTCTACTTCTTTTATCTTCAGC
TGCAGTAGAAAGTGGGGTGGGTACGGGATGAACAGTGTATCCGCCTTTATCAGGAAATTT
GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCTGGGGTTTC
TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT
AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACCGCTATTTTGCTTCT
GCTGTCCCTTCCTGTATTAGCAGGAGCGATTACAATGCTTTTAACGGATCGAAATTTTAA
TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT

>CabH5
GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACTGCCCTGAGATTGTT
AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGATCAGCTATATAATGT
GATTGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATACCTATAATGATTGG
TGGCTTTGGAAATTGATTAGTGCCGCTGATATTAGGGGCCCCAGATATGGTATTTCCTCG
TTTAAATAATATAAGTTTCTGGTTACTCCCTCCTGCTCTTCTACTTCTTTTATCTTCAGC
TGCAGTAGAAAGTGGGGTGGGTACAGGATGAACAGTGTATCCACCTTTATCAGGAAATTT
GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCTGGGGTTTC
TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT
AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACGGCTATTTTGCTTCT
GCTGTCCCTTCCTGTATTAGCAGGAGCGATTACAATGCTTTTAACGGATCGAAATTTTAA
TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT

>CabH1
GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACTGCCCTGAGACTGTT
AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGATCAGCTATATAATGT
GATTGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATACCTATAATGATTGG
TGGCTTTGGAAATTGATTAGTGCCGCTGATATTGGGGGCTCCAGATATGGTATTTCCTCG
TTTAAATAATATAAGTTTCTGGTTACTTCCTCCTGCTCTTCTACTTCTTTTATCTTCAGC
TGCAGTAGAAAGTGGGGTGGGTACAGGATGAACAGTGTATCCACCTTTATCAGGAAATTT
GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCTGGGGTTTC
TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT
AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACGGCTATTTTGCTTCT
GTTGTCCCTTCCTGTATTAGCGGGAGCGATTACAATGCTTTTAACGGATCGAAATTTTAA
TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT

>CabH057
GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACTGCCCTGAGATTGTT
AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGATCAGCTATATAATGT
GATCGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATGCCTATAATGATTGG
TGGCTTTGGAAATTGATTAGTGCCGCTGATATTAGGGGCCCCAGATATGGTATTTCCTCG
TTTAAATAATATAAGTTTCTGGTTACTTCCTCCTGCTCTTCTACTTCTTTTATCTTCAGC
TGCAGTAGAAAGTGGGGTGGGTACAGGATGAACAGTATATCCACCTTTATCAGGAAATTT
GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCTGGGGTTTC
TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT
AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACGGCTATTTTGCTTCT
GTTGTCCCTTCCTGTATTAGCAGGAGCGATTACAATGCTTTTAACGGATCGAAACTTTAA
TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT

>CabH054
GACATTGTATATTTTATTTGGGATATGATCTGGCTTGGTTGGGACTGCCCTGAGATTGTT
AATTCGTGCAGAGTTAGGACAGCCGGGAGCCTTGCTTGGAGATGACCAGCTATATAATGT
GATTGTAACAGCCCATGCCTTTGTTATGATTTTTTTCTTAGTGATACCTATAATGATTGG
TGGCTTTGGAAATTGATTAGTGCCGCTGATATTAGGGGCCCCAGATATGGTATTTCCTCG
TTTAAATAATATAAGTTTCTGGTTACTTCCTCCTGCTCTTCTACTTCTTTTATCTTCAGC
TGCAGTAGAAAGTGGGGTGGGTACAGGATGAACAGTGTATCCACCTTTATCAGGAAATTT
GGCACATGCCGGTGGGTCTGTAGACCTGGCAATTTTTTCTTTACACCTTGCCGGGGTTTC
TTCTATTTTAGGAGCAGTAAACTTTATTACTACAATTATCAACATGCGATGACAAGGAAT
AAAATTCGAACGTCTTTCGCTATTTGTGTGATCAGTGAAGATTACGGCTATTTTGCTTCT
GCTGTCCCTTCCTGTATTAGCAGGAGCGATTACAATGCTTTTAACGGATCGAAATTTTAA
TACTGCTTTCTTTGACCCGGCAGGAGGTGGTGATCCTATCTTATATCAGCACTTGTTT

>CebCI7
GACATTGTATATTTTATTTGGGATATGGTCCGGTTTGGTCGGAACTGCCTTGAGATTGCT
AATTCGTGCAGAGTTAGGACAACCGGGAGCCCTACTTGGAGATGATCAGCTGTATAACGT
GATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG
TGGTTTCGGAAACTGACTAGTACCACTAATATTAGGAGCTCCAGATATGGTATTTCCTCG
GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC
CGCGGTAGAGAGTGGAGTGGGTACGGGATGAACGGTGTATCCACCTCTATCAGGAAATTT
AGCACATGCCGGTGGGTCAGTAGATCTAGCAATTTTTTCTTTACACCTTGCCGGGGTTTC
TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT
AAAATTTGAACGTCTTTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT
ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA
TACTGCCTTCTTCGACCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT

>CebCI29
GACATTGTATATTTTATTTGGGATATGGTCCGGTTTGGTCGGAACTGCCCTGAGATTGCT
AATTCGTGCAGAGTTAGGACAASCGGGAGCCCTACTTGGAGATGATCAGCTGTATAACGT
AATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG
TGGTTTCGGAAACTGACTAGTACCGCTAATATTAGGAGCTCCAGATATGGTATTTCCTCG
GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC
CGCGGTAGAGAGTGGAGTGGGTACAGGATGAACGGTGTATCCACCTCTATCAGGAAACTT
AGCACATGCCGGTGGGTCAGTAGATCTGGCAATTTTTTCTTTACACCTTGCCGGGGTTTC
TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT
AAAATTTGAACGTCTTTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT
ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA
TACTGCCTTCTTCGACCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT

>CebCI27
GACATTGTATATTTTATTTGGGATATGGTCCGGTTTGGTCGGAACTGCCTTGAGATTGCT
AATTCGTGCAGAGTTAGGACAACCGGGAGCCCTACTTGGAGATGATCAGCTGTATAACGT
GATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG
TGGTTTCGGAAACTGACTAGTACCACTAATATTAGGAGCTCCAGATATGGTATTTCCTCG
GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC
CGCGGTAGAGAGTGGAGTGGGTACGGGATGAACGGTGTATCCACCTCTATCAGGAAATTT
AGCACATGCCGGTGGGTCAGTAGATCTAGCAATTTTTTCTTTACACCTTGCCGGGGTTTC
TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT
AAAATTTGAACGTCTTTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT
ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA
TACTGCCTTCTTCGACCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT

>CebCI25
GACATTGTATATTTTATTTGGGATATGGTCCGGTTTAGTCGGAACTGCCCTGAGATTGCT
AATTCGTGCAGAGTTAGGACAACCGGGAGCCCTACTTGGAGATGATCAGCTGTATAACGT
GATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG
TGGTTTCGGAAACTGACTAGTACCACTAATATTAGGAGCTCCAGATATGGTATTTCCTCG
GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC
CGCGGTAGAGAGTGGAGTGGGTACGGGATGAACGGTGTATCCACCTCTATCAGGAAATTT
AGCACATGCCGGTGGGTCAGTNGATCTGGCAATTTTTTCTTTACACCTTGCCGGGGTTTC
TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT
AAAATTTGAACGTCTTTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT
ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA
TACTGCCTTCTTCGACCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT

>CebCI23
GACATTGTATATTTTATTTGGGATATGGTCCGGTTTAGTCGGAACTGCCCTGAGATTGCT
AATTCGTGCAGAGTTAGGACAACCGGGGGCCCTACTTGGAGATGATCAGCTGTATAACGT
GATTGTAACAGCCCATGCTTTTGTTATAATTTTTTTCTTAGTGATACCTATGATGATTGG
TGGTTTCGGAAACTGACTAGTACCACTAATATTAGGAGCTCCAGATATGGTATTTCCTCG
GTTAAACAATATAAGTTTCTGGTTACTTCCTCCTGCACTTTTACTTCTCTTATCTTCAGC
CGCGGTAGAGAGTGGAGTGGGTACGGGATGAACGGTGTATCCACCTCTATCAGGAAATTT
AGCACATGCCGGTGGGTCAGTGGATTTGGCAATTTTTTCTTTACACCTTGCCGGGGTTTC
TTCTATTTTAGGAGCGGTGAATTTTATTACTACAATTATTAATATACGATGACAAGGGAT
AAAATTTGAACGTCTCTCGCTATTTGTGTGGTCAGTAAAAATTACAGCTATTTTACTTTT
ACTGTCTCTTCCTGTGTTAGCGGGGGCAATTACGATGCTTTTGACAGATCGAAATTTTAA
TACTGCCTTCTTCGATCCAGCAGGAGGTGGTGATCCAATCTTGTATCAGCACTTGTTT
Postup:
Sekvence zkopírujeme do textového souboru. Ověříme, zda byl již proveden alignment (pokud ne, tak provedeme). Využijeme BioEdit.
Alignment uložíme ve fasta formátu.
Stáhneme si software MEGA. 
http://www.megasoftware.net/
U starších versí je nutné nejprve převést soubor do formátu MEGA a ten následně otevřít v hlavním okně.
V hlavním okně zadáme "Distances" z hlavního menu. Zvolíme možnost "Compute Pairwise". 
Objeví se nová karta, kde zadáme -> model - Nucleotide - Kimura 2-parameter. Pak už jen zbývá rozkázat: "Compute".
Správnost volby modelu lze ověřit pomocí programu jModelTest. Volně ke stažení zde:
https://code.google.com/p/jmodeltest2/