mrBayes需要的比對文件格式為:nex,,可以在比對是選擇輸出此種文件格式 mtBayes可以在命令提示符里面運行 在CMD里面輸入mrBayes,,出現(xiàn)如下界面 在界面內(nèi)輸入 exe file(或者execute file,,其中file為序列文件名),,得到如下界面 如果沒有錯誤,則說明數(shù)據(jù)文件格式是正確的。 設(shè)置替換模型參數(shù) 可以使用help lset查看lset設(shè)置的參數(shù) Nucmodel: 指的是核酸的類型,。4by4指的是不區(qū)分序列上的位點,。而codon指的是使用密碼子模型。這時序列上每個位點的替換速率會根據(jù)密碼子模型來推斷,。Doublet通常用于具有協(xié)同進(jìn)化效應(yīng)的序列,。一般情況下可以使用4by4,如果是編碼序列的話,,最好使用codon Nst:核酸替換模型,。1 是JC69模型,即單參數(shù)模型,。2為F81模型,。6為GTR模型。在mrBayes中,,可以嘗試分別使用三個模型運行,,以選擇最優(yōu)的結(jié)果。 Code: 指的是密碼子編碼的規(guī)律,。Universal指的是通用密碼子使用規(guī)律,。如果是推測線粒體內(nèi)的基因,需要使用Metmt,,葉綠體則需要使用Mycoplasma Ploidy: 物種是單倍體還是二倍體,。 Rates:指定序列上每個位點的替換速率。Equal表示替換速率都是一致的,。Gamma表示用gamma來確定序列上的替換速率,。 Ngammacat:配合上面的參數(shù),如果替換速率設(shè)置為Gamma,、Invgamma,、Adgamma,則需要設(shè)置此選項,。 Nbetacat:同上,。 使用lset Nst=6 Rate=gamma類似命令設(shè)置參數(shù)。 設(shè)置模型的相關(guān)先驗信息 使用help prset查看相關(guān)參數(shù)及其說明 一般情況下,,需要關(guān)注的參數(shù)有: Tratiopr:指定轉(zhuǎn)換和顛換的比例,。可以使用fixed指定,,也可以使用beta分布來模擬產(chǎn)生,。 Revmatpr:指定GTR模型里面替換速率的先驗分布。 Aamodelpr:指定氨基酸替換模型中參數(shù)的先驗分布,。 Statefreqpr:指定GTR模型中核苷酸平衡頻率的先驗概率,。 Shapepr:設(shè)置速率分布的尺度參數(shù),。 設(shè)置抽樣信息 使用help mcmc查看相關(guān)參數(shù) 需要關(guān)注的參數(shù)有 Ngen:指的是總抽樣次數(shù)。 Nruns: 指定獨立分析的次數(shù),。如果為2,,表明程序從兩個獨立的樹形開始抽樣,分析完成后綜合兩個分析結(jié)果,。 Nchain:設(shè)置每次分析時運行的chain的數(shù)量,。 Samplefreq:指定從總的樣本數(shù)中抽樣的頻率。這個一般和Ngen配合使用,,以保證最后用以分析的樣本量足夠,。比如:Samplefreq設(shè)置為100, 000,Nruns設(shè)置為1000,這樣100,,000個隨機(jī)樣本中,,每個1000個抽出一個樣本,最后一共可以得到1000個樣本,。 Burninfrac:該參數(shù)控制用以分析的樣本的數(shù)量,。在MCMC抽樣初期的數(shù)據(jù)往往是不可靠的,需要去掉,。Burninfrac控制去掉的比例,。如為0.25,則表示樣本的 前25%的數(shù)據(jù)被去掉,。因此最后用來分析的總的樣本數(shù)就是1000*(1-0.25)=750 使用 MCMCp Ngen=10000,,Samplefreq=10類似命令來設(shè)置相關(guān)參數(shù)。 設(shè)置完成后輸入MCMC并回車,,程序開始運行,。 最后一列的時間表示程序運行完成需要的時間。 當(dāng)程序運行結(jié)束時提示是否需要繼續(xù)分析,。這指的是如果抽樣沒有達(dá)到平穩(wěn),,我可以繼續(xù)增加抽樣的次數(shù)。判斷是否達(dá)到平穩(wěn)的依據(jù)是 這一行提示的方差足夠小,。一般小于0.01就可以認(rèn)為達(dá)到平衡了,。 上圖顯示,方差變異<<0.01,可以認(rèn)為分析達(dá)到平穩(wěn),。因此不需要進(jìn)行更多的抽樣分析,,輸入no,并回車,。 在屏幕輸出結(jié)果中找到 chain swap information,。 如果chain swap information顯示的四條鏈之間的交換頻率在0.1-0.8之間,可以認(rèn)為結(jié)果是合理的,,可以進(jìn)行下一步分析,。否則需要重新設(shè)置參數(shù):包括足夠長的Ngen,,適當(dāng)降低Temp等。 如果結(jié)果合理,,輸入 Sump burnin=250 (250是根據(jù)前面設(shè)置的burnin=0.25,samplefreq=10,,Ngen=10000算出來的) 在屏幕的輸出結(jié)果中主要關(guān)注 如果1,,2數(shù)字在屏幕中沒有明顯的上升趨勢,說明數(shù)據(jù)分析合理,。 如果輸出是這樣的 說明數(shù)據(jù)沒有達(dá)到平穩(wěn),。應(yīng)該重新分析。需要增加Ngen,。 如果抽樣達(dá)到平穩(wěn),,我們就可以用MCMC分析的結(jié)果。在屏幕輸出中有下面的結(jié)果 這個是所使用的替換模型中各個參數(shù)的估計值,。 使用sumt burnin=250查看樹形 節(jié)點上的數(shù)據(jù)表示樹形的可靠性,。越高越好。 相關(guān)的樹形文件和參數(shù)被保存在后綴名為.con的文件中,,可以通過treeview等軟件查看,。 mrBayes的高級功能。 1)在序列文件中設(shè)置相關(guān)參數(shù)
如果我們不想在屏幕中輸入?yún)?shù),,而是輸入序列文件后讓程序自動運行的話,,可以把相關(guān)參數(shù)設(shè)置在序列文件中。格式如下: 因為sump和sumt具有診斷的作用,,因此不建議把這兩個命令寫在文件里,。 2) 使用partition功能 如果分析的序列不均一,比如與編碼區(qū)和分編碼區(qū),,或者想把編碼區(qū)分為密碼子第一,、第二和第三位堿基單獨分析的話,需要使用partition功能,。 在序列文件中增加如下內(nèi)容 其中 charset 用來設(shè)置變量并賦值,。1-.\3指的是從第一個位點開始,每個三個位點取出一個值,,并把這些值用變量pos1表示,。這代表密碼子的第一位。其他類推,。 Partition 和setpartiti兩行用來提示程序,,序列分為三部分。 Prset 一行用來指定三個部分的參數(shù)是獨立估計的,。 如果序列分為編碼區(qū)和非編碼區(qū),,可以這樣寫 3)指定外群 在一組序列中可以指定外群,,如果不指定,則以序列文件中的第一個物種作為外群,。 外群設(shè)置命令為: Outgroup 7 或者outgroupmy_taxon (7指的是要指定的物種在序列文件中的位置),。 |
|