Arlequin

Diverzita sekvencí

Výpočet "number of segregating sites", "haplotype diversity" a "nucleotide diversity"
Můžeme vhodně použít program Arlequin, který si stáhneme ze stránky:

http://cmpg.unibe.ch/software/arlequin35/Arl35Downloads.html


Data mohou být jen v jednom nebo ve dvou vstupních souborech.

Zde využijeme možnost mít data rozdělena do dvou souborů. Je to celkem přehledné.
V prvním souboru máme haplotypy, tedy jen unikátní sekvence, každá sekvence je zde jen jednou.
Formát je jednoduchý, taková FASTA bez znamének >
Koukněte na soubor. Vytvořte si nový adresář a soubor do něj stáhněte.

haplotypy

Další soubor je trochu složitější, ale podle vzoru ho snadno vytvoříte.

Tento soubor popisuje výskyt haplotypů v populacích.
Stáhněte si ho do stejného adresáře a koukněte na něj.

vzorová populace

Soubor začíná popisem dat a počtem populací.
Název (Title) je jen na nás.
Populace je jen jedna (proto NbSamples=1). Sample je tu tedy populace, nikoliv jedinec!
Máme sekvence mtDNA (proto DNA u DataType a 0 u GenotypicData).
Oddělovat různé lokusy nepotřebujeme, proto NONE.

[Profile]

 Title="Carpodacus pro MD"
 NbSamples=1
 GenotypicData=0
 DataType=DNA
 LocusSeparator=NONE

Dále musíme zadat, jak se jmenuje soubor, kde jsou unikátní haplotypy, a že jde o samostatný soubor (EXTERN).

[Data]

[[HaplotypeDefinition]]

HaplListName="234 hylich haplotypu"
HaplList= EXTERN "Haplotypy_arlq.txt"

Následují údaje o jednotlivých populacích. V našem případě je jen jedna.

Pro každou populaci zde najdeme pojmenování, počet jedinců (SampleSize) a jejich haplotypy.
Zde bylo 47 jedinců.
2 jedinci měli haplotyp 177Irku, 2 měli 183Anad, 2 měli 230Rych, 1 měl 234Rych ... 

[[Samples]]


 
 SampleName="Czech_Republic"
 SampleSize=47
 SampleData= {
177Irku 2
183Anad 2
230Rych 2
234Rych 1
236Rych 1
237Rych 1
...

Soubor končí popisem populační struktury.

Zde je to jednoduché. Máme jen jednu populaci, kterou přiřadíme do jedné skupiny.
Z více populací však lze vytvořit pěknou hierarchickou strukturu (rozhodit populace do několika "groups").

[[Structure]]


 StructureName="1 group"

 NbGroups=1

Group={
"Czech_Republic"

}

Pozor na všechna znaménka jako třeba } v souboru. Bez nich to nepůjde.

Stáhneme si Arlequin


http://cmpg.unibe.ch/software/arlequin35/Arl35Downloads.html

Rozbalíme zazipovaný adresář. Spustíme ho ikonou WinArl35, co trochu vypadá jako rubikova kostka.
Druhý soubor (skupiny a populace) importujeme do programu, nikoliv však přes hlavní menu, ale rovnou přes kartu "Import data".

Zde použijte ikonu Browse a najděte soubor (ten druhý, né ty haplotypy).
Zatrhněte možnost Load in Arlequin... a dejte Translate.
První soubor s haplotypy se pak načte automaticky sám.

Na kartě Project zkontrolujte strukturu, jednu populaci v jedné skupině.


Na kartě settings zkontrolujte, že nic není vybráno (všechno má šedivé kolečko). Pokud by něco vybráno bylo, tak to radši zrušte.

Klikněte zde na Molecular diversity indices. Zatrhněte zde hlavní možnosti (Standard a také Molecular diversity indices).

Nyní už nezbývá než dát ikonu start s šipkou z menu nad kartami.Výsledky se nám uloží do adresáře do nového podadresáře. Zde najděte soubor končící _main

Soubor otevřete v prohlížeči. Pozor, ne každý prohlížeč funguje. Mně nefungoval Chrome, ale IE byl OK. Vyzkoušejte.

Zobrazí se vám spousta údajů. mezi nimi zkuste třeba najít haplotypovou diverzitu:

Haplotype-level computations
----------------------------

Sum of square freqs.     :  0.0258
Gene diversity           :  0.9954 +/-  0.0054


Dále zkuste najít nukleotidovou diverzitu:

Nucleotide diversity (average over loci)     :     0.004591 +/-     0.002438


Mismatch distribution


Dále zkusíme odhadnout demografickou historii populace pomocí "Mismatch distribution".
Šikovné je si nejprve odstranit soubor s předešlými výsledky, aby se nám nepletl. Vstupní soubory ale zachovejte!
Pokud jste smazali vše, tak to znova stáhněte a načtěte do programu (viz výše).

Na kartě Settings opět vše nejprve zrušte (u všeho šedé kolečko).Pak vyberte Mismatch distribution a demographic expansion. Pro počítání do článku by bylo lepší zvýšit počet bootstrap replicates (tak aspoň na 1000), tím se však výpočet protáhne.

Dáme opět start (ikona s šipkou nad kartami) a po proběhnutí výpočtu koukneme do adresáře.

Zkusíme najít toto:

Mismatch distributions:

---------------------
-----------------------------------------------------
        #Diff     Observed    Simulated   Model Freq.
-----------------------------------------------------
          0.0          7.0          5.3          3.4
          1.0         28.0         19.3         15.0
          2.0         49.0         39.9         37.1
          3.0         63.0         58.5         63.8
          4.0         84.0         69.8         86.4
          5.0        117.0         76.2         99.0
          6.0        158.0         78.1        101.1
          7.0        122.0         76.9         95.4
          8.0        107.0         76.6         85.7
          9.0        115.0         78.1         74.7
         10.0         73.0         77.5         64.1
         11.0         69.0         73.8         54.5
         12.0         42.0         67.2         46.2
         13.0         28.0         60.1         39.2
         14.0         10.0         49.2         33.2
         15.0          7.0         39.2         28.1
         16.0          1.0         30.1         23.7
         17.0          1.0         22.6         20.1
         18.0          0.0         16.7         17.0
-----------------------------------------------------

To už je ono. Graf si z toho musíme udělat někde jinde. Na osu x půjde #Diff (počet párových rozdílů).

Na y pak observed (spočtené hodnoty histogramu) a Model Freq. (model expanze, se kterým srovnáváme).
Je jen na vás, v jakém programu (Excel, R...) graf vytvoříte.
Srovnání skutečných dat a modelu expanze je nad tabulkou.

Nevyšlo to, takže nemůžeme zavrhnout hypotézu expanze (což ještě neznamená, že fakt expanze byla).

Test of goodness-of-fit:

------------------------

         Sum of Squared deviation: 0.00767891
          P(Sim. Ssd >= Obs. Ssd): 0.07000000
    Harpending's Raggedness index: 0.00765814
        P(Sim. Rag. >= Obs. Rag.): 0.29000000


Tajima
's D


Dále zkuste vypočítat
Tajima's D.
V Settings zas neprve vš zrušte a pak v Neutrality tests vyhledejte Tajima's D.
Dejte start a koukněte na výsledky.


Tajima's D                            : -1.76511


P(D simul < D obs)                    :  0.01700

Vyjde záporná hodnota průkazně odlišná od nuly. V tomto případě půjde spíše o demografickou expanzi než selekci.

Na základě jednoho lokusu však mezi demografickou událostí a selekcí obvykle těžko rozhodneme.

AMOVA

Velmi pěkně Arlequin počítá hierarchickou populační strukturu. Vstupní soubory použijeme opět dva.


haplotypy

skupiny a populace

Na rozdíl od předešlé úlohy zde máme více (22) populací (NbSamples=22) a navíc rozdělených do tří skupin (groups).

[[Structure]]

 StructureName="3 groups"

 NbGroups=3

Group={
"Sweden"
"Sumava"
"Rychtarky"...

Koukněte na vstupní soubor a pokuste se v tom vyznat. Vstupní soubory uložte radši do nového adresáře a načtěte je do programu, viz postup výše. Na kartě project zkuntrolujte strukturu. Měly by tu být tři skupiny populací.

Na kartě Settings zas nejprve vše zrušte. Pak zvolte AMOVA a možnost Standard AMOVA...

Dejte Start a koukněte se do adresáře, co se stalo.

Důležitá je tabulka dole.
Rozdělení populací do skupin (groups) sice vysvětlí jen 1.53 procent variability (rozptylu), ale je to průkazně víc než nula: hodnota Fst pro "groups" (značená FCT) je 0.01528 a je průkazně odlišná od nuly (viz Significance tests).

Ani rozdíly populací uvnitř skupin nejsou zázračné, obsáhnou 6.89 procent rozptylu.
Hodně variability (rozptylu) nám zůstane na úrovni jedinců uvnitř populací.
Populační struktura tedy zde je, je hierarchická a průkazná. Nicméně struktura není nijak výrazná.
Typický výsledek pro vysoce mobilní druhy s velkou disperzí mláďat (data jsou z dálkového migranta hýla rudého). 

--------------------------
AMOVA design and results :
--------------------------

Weir, B.S. and Cockerham, C.C. 1984.
Excoffier, L., Smouse, P., and Quattro, J. 1992.
Weir, B. S., 1996.
----------------------------------------------------------------------
 Source of                  Sum of      Variance         Percentage
 variation      d.f.        squares     components       of variation
----------------------------------------------------------------------
 Among
 groups           2         21.958        0.05351 Va             1.53

 Among
 populations
 within
 groups          19        105.211        0.24127 Vb             6.89

 Within
 populations    212        680.139        3.20820 Vc            91.58
----------------------------------------------------------------------
 Total          233        807.308        3.50299
----------------------------------------------------------------------
 Fixation Indices
      FSC :      0.06995
      FST :      0.08415
      FCT :      0.01528
----------------------------------------------------------------------

Significance tests (1023 permutations)
------------------

Vc and FST : P(rand. value < obs. value)  =  0.00000
             P(rand. value = obs. value)  =  0.00000
                                  P-value =  0.00000+-0.00000

Vb and FSC : P(rand. value > obs. value)  =  0.00000
             P(rand. value = obs. value)  =  0.00000
                                  P-value =  0.00000+-0.00000

Va and FCT : P(rand. value > obs. value)  =  0.02542
             P(rand. value = obs. value)  =  0.00000
                                  P-value =  0.02542+-0.00400