Arlequin
Diverzita sekvencí
Výpočet "number of segregating sites", "haplotype diversity" a "nucleotide diversity"
Můžeme vhodně použít program Arlequin, který si stáhneme ze stránky:
http://cmpg.unibe.ch/software/arlequin35/Arl35Downloads.html
Data mohou být jen v jednom nebo ve dvou vstupních souborech.
Zde využijeme možnost mít data rozdělena do dvou
souborů. Je to celkem přehledné.
V prvním souboru máme haplotypy, tedy jen unikátní
sekvence, každá sekvence je zde jen jednou.
Formát je jednoduchý,
taková FASTA bez znamének >
Koukněte na soubor. Vytvořte si nový adresář a soubor do něj stáhněte.
haplotypy
Další soubor je trochu složitější, ale podle vzoru ho snadno vytvoříte.
Tento soubor popisuje výskyt haplotypů v populacích.
Stáhněte si ho do stejného
adresáře a koukněte na něj.
vzorová populace
Alternativní formát
souboru
Soubor začíná popisem dat a počtem populací.
Název (Title) je jen na nás.
Populace je jen jedna (proto NbSamples=1). Sample je
tu tedy populace, nikoliv jedinec!
Máme sekvence mtDNA (proto DNA u DataType a 0 u
GenotypicData).
Oddělovat různé lokusy nepotřebujeme, proto NONE.
[Profile]
Title="Carpodacus pro MD"
NbSamples=1
GenotypicData=0
DataType=DNA
LocusSeparator=NONE
Dále musíme zadat, jak se jmenuje soubor, kde jsou unikátní haplotypy, a že
jde o samostatný soubor (EXTERN).
[Data]
[[HaplotypeDefinition]]
HaplListName="234 hylich haplotypu"
HaplList= EXTERN
"Haplotypy_arlq.txt"
Následují údaje o jednotlivých populacích. V našem případě je jen jedna.
Pro každou populaci zde najdeme pojmenování, počet
jedinců (SampleSize) a jejich haplotypy.
Zde bylo 47 jedinců.
2 jedinci měli haplotyp 177Irku, 2 měli 183Anad, 2
měli 230Rych, 1 měl 234Rych ...
[[Samples]]
SampleName="Czech_Republic"
SampleSize=47
SampleData= {
177Irku 2
183Anad 2
230Rych 2
234Rych 1
236Rych 1
237Rych 1
...
Soubor končí popisem populační struktury.
Zde je to jednoduché. Máme jen jednu populaci, kterou
přiřadíme do jedné skupiny.
Z více populací však lze vytvořit pěknou
hierarchickou strukturu (rozhodit populace do několika "groups").
[[Structure]]
StructureName="1 group"
NbGroups=1
Group={
"Czech_Republic"
}
Pozor na všechna znaménka jako třeba } v souboru. Bez nich to nepůjde.
Stáhneme si Arlequin
http://cmpg.unibe.ch/software/arlequin35/Arl35Downloads.html
Rozbalíme zazipovaný adresář. Spustíme ho ikonou WinArl35, co trochu vypadá jako
rubikova kostka.
Druhý soubor (skupiny a populace) importujeme do programu, nikoliv však přes
hlavní menu, ale rovnou přes kartu "Import data".
Zde použijte ikonu Browse a najděte soubor (ten
druhý, né ty haplotypy).
Zatrhněte možnost Load in Arlequin... a dejte
Translate.
První soubor s haplotypy se pak načte automaticky
sám.
Na kartě Project zkontrolujte strukturu, jednu populaci v jedné skupině.
Na kartě settings zkontrolujte, že nic není vybráno (všechno má šedivé kolečko).
Pokud by něco vybráno bylo, tak to radši zrušte.
Klikněte zde na Molecular diversity indices. Zatrhněte zde hlavní možnosti
(Standard a také Molecular diversity indices).
Nyní už nezbývá než dát ikonu start s šipkou z menu nad kartami.Výsledky se nám
uloží do adresáře do nového podadresáře. Zde najděte soubor končící _main
Soubor otevřete v prohlížeči. Pozor, ne každý
prohlížeč funguje. Mně nefungoval Chrome, ale IE byl OK. Vyzkoušejte.
Zobrazí se vám spousta údajů. mezi nimi zkuste třeba najít haplotypovou
diverzitu:
Haplotype-level computations
----------------------------
Sum of square freqs. :
0.0258
Gene diversity
: 0.9954 +/- 0.0054
Dále zkuste najít nukleotidovou diverzitu:
Nucleotide diversity (average over loci)
: 0.004591 +/- 0.002438
Mismatch distribution
Dále zkusíme odhadnout demografickou historii populace pomocí "Mismatch
distribution".Šikovné je si nejprve
odstranit soubor s předešlými výsledky, aby se nám nepletl. Vstupní soubory ale
zachovejte!
Pokud jste smazali vše, tak to znova stáhněte a
načtěte do programu (viz výše).
Na kartě Settings opět vše nejprve zrušte (u všeho šedé kolečko).Pak vyberte
Mismatch distribution a demographic expansion. Pro počítání do článku by bylo
lepší zvýšit počet bootstrap replicates (tak aspoň na 1000), tím se však výpočet
protáhne.
Dáme opět start (ikona s šipkou nad kartami) a po proběhnutí výpočtu koukneme do
adresáře.
Zkusíme najít toto:
Mismatch distributions:
---------------------
-----------------------------------------------------
#Diff Observed Simulated
Model Freq.
-----------------------------------------------------
0.0 7.0
5.3 3.4
1.0 28.0
19.3 15.0
2.0 49.0
39.9 37.1
3.0 63.0
58.5 63.8
4.0 84.0
69.8 86.4
5.0 117.0
76.2 99.0
6.0 158.0
78.1 101.1
7.0 122.0
76.9 95.4
8.0 107.0
76.6 85.7
9.0 115.0
78.1 74.7
10.0 73.0
77.5 64.1
11.0 69.0
73.8 54.5
12.0 42.0
67.2 46.2
13.0 28.0
60.1 39.2
14.0 10.0
49.2 33.2
15.0 7.0
39.2 28.1
16.0 1.0
30.1 23.7
17.0 1.0
22.6 20.1
18.0 0.0
16.7 17.0
-----------------------------------------------------
To už je ono. Graf si z toho musíme udělat někde jinde. Na osu x půjde #Diff
(počet párových rozdílů).
Na y pak observed (spočtené hodnoty histogramu) a
Model Freq. (model expanze, se kterým srovnáváme).
Je jen na vás, v jakém programu (Excel, R...) graf
vytvoříte.
Srovnání skutečných dat a modelu expanze je nad tabulkou.
Nevyšlo to, takže nemůžeme zavrhnout hypotézu expanze
(což ještě neznamená, že fakt expanze byla).
Test of goodness-of-fit:
------------------------
Sum
of Squared deviation: 0.00767891
P(Sim. Ssd >= Obs. Ssd): 0.07000000
Harpending's Raggedness index:
0.00765814
P(Sim.
Rag. >= Obs. Rag.): 0.29000000
Tajima's
D
Dále zkuste vypočítat Tajima's
D.
V Settings zas neprve vš zrušte a pak v
Neutrality tests vyhledejte
Tajima's D.
Dejte start a koukněte na výsledky.
Tajima's D
: -1.76511
P(D simul < D obs)
: 0.01700
Vyjde záporná hodnota průkazně odlišná od nuly. V tomto případě půjde spíše o
demografickou expanzi než selekci.
Na základě jednoho lokusu však mezi demografickou
událostí a selekcí obvykle těžko rozhodneme.
AMOVA
Velmi pěkně Arlequin počítá hierarchickou populační strukturu. Vstupní soubory
použijeme opět dva.
haplotypy
skupiny a populace
alternativní formát
souboru (jen jedna skupina)
Na rozdíl od předešlé úlohy zde máme více (22) populací (NbSamples=22) a navíc
rozdělených do tří skupin (groups).
[[Structure]]
StructureName="3 groups"
NbGroups=3
Group={
"Sweden"
"Sumava"
"Rychtarky"...
Koukněte na vstupní soubor a pokuste se v
tom vyznat. Vstupní soubory uložte radši do nového adresáře a načtěte je do
programu, viz postup výše. Na kartě project zkuntrolujte strukturu. Měly by tu
být tři skupiny populací.
Na kartě Settings zas nejprve vše zrušte. Pak zvolte AMOVA a možnost Standard
AMOVA...
Dejte Start a koukněte se do adresáře, co se stalo.
Důležitá je tabulka dole.
Rozdělení populací do skupin (groups) sice vysvětlí jen 1.53 procent variability
(rozptylu), ale je to průkazně víc než nula: hodnota Fst pro "groups" (značená
FCT) je 0.01528 a je průkazně odlišná od nuly (viz Significance tests).
Ani rozdíly populací uvnitř skupin nejsou zázračné,
obsáhnou 6.89 procent rozptylu.
Hodně variability (rozptylu) nám zůstane na úrovni
jedinců uvnitř populací.
Populační struktura tedy zde je, je hierarchická a
průkazná. Nicméně struktura není nijak výrazná.
Typický výsledek pro vysoce mobilní druhy s velkou
disperzí mláďat (data jsou z dálkového migranta hýla rudého).
--------------------------
AMOVA design and results :
--------------------------
Weir, B.S. and Cockerham, C.C.
1984.
Excoffier, L., Smouse, P., and
Quattro, J. 1992.
Weir, B. S., 1996.
----------------------------------------------------------------------
Source of
Sum of Variance
Percentage
variation
d.f. squares
components of variation
----------------------------------------------------------------------
Among
groups
2 21.958
0.05351 Va
1.53
Among
populations
within
groups
19 105.211
0.24127 Vb
6.89
Within
populations 212
680.139 3.20820 Vc
91.58
----------------------------------------------------------------------
Total
233 807.308
3.50299
----------------------------------------------------------------------
Fixation Indices
FSC :
0.06995
FST :
0.08415
FCT :
0.01528
----------------------------------------------------------------------
Significance tests (1023 permutations)
------------------
Vc and FST : P(rand. value < obs. value) =
0.00000
P(rand. value = obs. value) = 0.00000
P-value = 0.00000+-0.00000
Vb and FSC : P(rand. value > obs. value) =
0.00000
P(rand. value = obs. value) = 0.00000
P-value = 0.00000+-0.00000
Va and FCT : P(rand. value > obs. value) =
0.02542
P(rand. value = obs. value) = 0.00000
P-value = 0.02542+-0.00400