使用貝葉斯方法構(gòu)建系統(tǒng)發(fā)育樹—MrBayes

BIGMER 2017-10-02

展開全文

mrBayes需要的比對文件格式為：nex,，可以在比對是選擇輸出此種文件格式

mtBayes可以在命令提示符里面運行

在CMD里面輸入mrBayes,，出現(xiàn)如下界面

在界面內(nèi)輸入 exe file(或者execute file,，其中file為序列文件名),，得到如下界面

如果沒有錯誤，則說明數(shù)據(jù)文件格式是正確的。

設(shè)置替換模型參數(shù)

可以使用help lset查看lset設(shè)置的參數(shù)

Nucmodel: 指的是核酸的類型,。4by4指的是不區(qū)分序列上的位點,。而codon指的是使用密碼子模型。這時序列上每個位點的替換速率會根據(jù)密碼子模型來推斷,。Doublet通常用于具有協(xié)同進(jìn)化效應(yīng)的序列,。一般情況下可以使用4by4，如果是編碼序列的話,，最好使用codon

Nst：核酸替換模型,。1 是JC69模型，即單參數(shù)模型,。2為F81模型,。6為GTR模型。在mrBayes中,，可以嘗試分別使用三個模型運行,，以選擇最優(yōu)的結(jié)果。

Code: 指的是密碼子編碼的規(guī)律,。Universal指的是通用密碼子使用規(guī)律,。如果是推測線粒體內(nèi)的基因，需要使用Metmt,，葉綠體則需要使用Mycoplasma

Ploidy: 物種是單倍體還是二倍體,。

Rates：指定序列上每個位點的替換速率。Equal表示替換速率都是一致的,。Gamma表示用gamma來確定序列上的替換速率,。

Ngammacat：配合上面的參數(shù)，如果替換速率設(shè)置為Gamma,、Invgamma,、Adgamma，則需要設(shè)置此選項,。

Nbetacat：同上,。

使用lset Nst=6 Rate=gamma類似命令設(shè)置參數(shù)。

設(shè)置模型的相關(guān)先驗信息

使用help prset查看相關(guān)參數(shù)及其說明

一般情況下,，需要關(guān)注的參數(shù)有：

Tratiopr：指定轉(zhuǎn)換和顛換的比例,。可以使用fixed指定,，也可以使用beta分布來模擬產(chǎn)生,。

Revmatpr：指定GTR模型里面替換速率的先驗分布。

Aamodelpr：指定氨基酸替換模型中參數(shù)的先驗分布,。

Statefreqpr：指定GTR模型中核苷酸平衡頻率的先驗概率,。

Shapepr：設(shè)置速率分布的尺度參數(shù),。

設(shè)置抽樣信息

使用help mcmc查看相關(guān)參數(shù)

需要關(guān)注的參數(shù)有

Ngen：指的是總抽樣次數(shù)。

Nruns: 指定獨立分析的次數(shù),。如果為2,，表明程序從兩個獨立的樹形開始抽樣，分析完成后綜合兩個分析結(jié)果,。

Nchain：設(shè)置每次分析時運行的chain的數(shù)量,。

Samplefreq：指定從總的樣本數(shù)中抽樣的頻率。這個一般和Ngen配合使用,，以保證最后用以分析的樣本量足夠,。比如：Samplefreq設(shè)置為100, 000,Nruns設(shè)置為1000，這樣100,，000個隨機(jī)樣本中,，每個1000個抽出一個樣本，最后一共可以得到1000個樣本,。

Burninfrac：該參數(shù)控制用以分析的樣本的數(shù)量,。在MCMC抽樣初期的數(shù)據(jù)往往是不可靠的，需要去掉,。Burninfrac控制去掉的比例,。如為0.25，則表示樣本的

前25%的數(shù)據(jù)被去掉,。因此最后用來分析的總的樣本數(shù)就是1000*（1-0.25）=750

使用 MCMCp Ngen=10000,，Samplefreq=10類似命令來設(shè)置相關(guān)參數(shù)。

設(shè)置完成后輸入MCMC并回車,，程序開始運行,。

最后一列的時間表示程序運行完成需要的時間。

當(dāng)程序運行結(jié)束時提示是否需要繼續(xù)分析,。這指的是如果抽樣沒有達(dá)到平穩(wěn),，我可以繼續(xù)增加抽樣的次數(shù)。判斷是否達(dá)到平穩(wěn)的依據(jù)是

這一行提示的方差足夠小,。一般小于0.01就可以認(rèn)為達(dá)到平衡了,。

上圖顯示，方差變異<<0.01,可以認(rèn)為分析達(dá)到平穩(wěn),。因此不需要進(jìn)行更多的抽樣分析,，輸入no，并回車,。

在屏幕輸出結(jié)果中找到 chain swap information,。

如果chain swap information顯示的四條鏈之間的交換頻率在0.1-0.8之間，可以認(rèn)為結(jié)果是合理的,，可以進(jìn)行下一步分析,。否則需要重新設(shè)置參數(shù)：包括足夠長的Ngen,，適當(dāng)降低Temp等。

如果結(jié)果合理,，輸入

Sump burnin=250 （250是根據(jù)前面設(shè)置的burnin=0.25，samplefreq=10,，Ngen=10000算出來的）

在屏幕的輸出結(jié)果中主要關(guān)注

如果1,，2數(shù)字在屏幕中沒有明顯的上升趨勢，說明數(shù)據(jù)分析合理,。

如果輸出是這樣的

說明數(shù)據(jù)沒有達(dá)到平穩(wěn),。應(yīng)該重新分析。需要增加Ngen,。

如果抽樣達(dá)到平穩(wěn),，我們就可以用MCMC分析的結(jié)果。在屏幕輸出中有下面的結(jié)果

這個是所使用的替換模型中各個參數(shù)的估計值,。

使用sumt burnin=250查看樹形

節(jié)點上的數(shù)據(jù)表示樹形的可靠性,。越高越好。

相關(guān)的樹形文件和參數(shù)被保存在后綴名為.con的文件中,，可以通過treeview等軟件查看,。

mrBayes的高級功能。

1）在序列文件中設(shè)置相關(guān)參數(shù)

如果我們不想在屏幕中輸入?yún)?shù),，而是輸入序列文件后讓程序自動運行的話,，可以把相關(guān)參數(shù)設(shè)置在序列文件中。格式如下：

因為sump和sumt具有診斷的作用,，因此不建議把這兩個命令寫在文件里,。

2）使用partition功能

如果分析的序列不均一，比如與編碼區(qū)和分編碼區(qū),，或者想把編碼區(qū)分為密碼子第一,、第二和第三位堿基單獨分析的話，需要使用partition功能,。

在序列文件中增加如下內(nèi)容

其中 charset 用來設(shè)置變量并賦值,。1-.\3指的是從第一個位點開始，每個三個位點取出一個值,，并把這些值用變量pos1表示,。這代表密碼子的第一位。其他類推,。

Partition 和setpartiti兩行用來提示程序,，序列分為三部分。

Prset 一行用來指定三個部分的參數(shù)是獨立估計的,。

如果序列分為編碼區(qū)和非編碼區(qū),，可以這樣寫

3）指定外群

在一組序列中可以指定外群,，如果不指定，則以序列文件中的第一個物種作為外群,。

外群設(shè)置命令為：

Outgroup 7 或者outgroupmy_taxon (7指的是要指定的物種在序列文件中的位置),。

本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布,，不代表本站觀點,。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊一鍵舉報,。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自： BIGMER > 《進(jìn)化》

舉報/認(rèn)領(lǐng)