所用數(shù)據(jù)為一個(gè)屬內(nèi)不同種不同群體的葉綠體基因組序列,,數(shù)量為80條。發(fā)現(xiàn)用全長序列建樹的時(shí)候,,不適合選用太多外類群,,否則ML法中會導(dǎo)致屬內(nèi)分枝的枝長特別短。原因應(yīng)該是基因間隔區(qū)和內(nèi)含子區(qū)域序列位點(diǎn)的差異較大,。 枝長含義NJ:表示遺傳距離,; 遺傳距離大多數(shù)情況以序列來說遺傳距離就是兩個(gè)OTU(個(gè)體、群體,、物種或基因家族)之間序列的差異值,。 序列比對多序列比對用mafft得到的結(jié)果較為準(zhǔn)確,muscle比對的速度較快,。 多序列比對的絕大多數(shù)算法都是基于漸進(jìn)比對的概念,。簡單來說就是先從兩個(gè)序列的比對開始,逐漸添加新序列,,直到所有的序列都加入為止,。但是不同的添加順序會產(chǎn)生不同的比對結(jié)果。所以由最相似的兩個(gè)序列開始比對,,由近到遠(yuǎn)逐步完成最為可靠,。
挑選保守位點(diǎn)進(jìn)行下一步建樹序列比對完后,用于建樹的序列位點(diǎn)必須保證具有良好的同源性,。所以需要?jiǎng)h除序列分歧很大的區(qū)域和gap區(qū)域,。
最大簡約法(軟件PAUP)最大簡約法的樹長指所有性狀在一棵樹上的進(jìn)化改變總數(shù),。 計(jì)算得到的結(jié)果可能會有許多樹長相等的簡約樹,此時(shí)需要計(jì)算它們的一致樹。分為strict consensus和semistrict consensus等,,strict表示100%,,在所有簡約樹中都出現(xiàn)的分枝,才會出現(xiàn)在一致樹中,,否則為梳子,。這個(gè)閾值可以調(diào)。 一般文章中所用的系統(tǒng)樹的拓?fù)浣Y(jié)構(gòu)都為ML或BI樹,,所以要把MP的bootstrap值標(biāo)到ML/BI法的底樹上,。
進(jìn)化模型DNA序列進(jìn)化就是序列位點(diǎn)上的核苷酸隨時(shí)間的變化,,主要包括堿基替換,、缺失和插入。 兩條比對好的DNA序列的同源位點(diǎn)之間很容易看出堿基的相同或不同,,但是在漫長的進(jìn)化過程中實(shí)際發(fā)生了什么我們并不知道,。最常見的當(dāng)然是單次替換,但是當(dāng)進(jìn)化時(shí)間較長時(shí),,已經(jīng)發(fā)生過替換的某些位點(diǎn)可能會再次發(fā)生替換,,即多重替換。 DNA序列的進(jìn)化模型將DNA的進(jìn)化作為一系列隨機(jī)突變來描述,,并明確定義了4種堿基之間相互的替換速率,。
ML法和BI法都需要選擇合適的進(jìn)化模型,。模型選擇軟件具有的模型越多,檢測結(jié)果越準(zhǔn)確,,但建樹軟件不一定支持該模型,。 最大似然法(軟件IQ-TREE)似然值是當(dāng)模型(樹和進(jìn)化參數(shù))為真時(shí)能夠得到實(shí)際觀測數(shù)據(jù)的概率,。似然值是觀測數(shù)據(jù)(即序列)的條件概率,,其條件為計(jì)算似然值時(shí)依據(jù)的模型,而不是模型為真時(shí)的概率,。 ML法建樹的過程是先選擇一個(gè)適合數(shù)據(jù)集的進(jìn)化模型,,然后對指定拓?fù)浣Y(jié)構(gòu)的一棵樹優(yōu)化分枝長度,以使得該拓?fù)浣Y(jié)構(gòu)的似然值最大化,。通過計(jì)算不同拓?fù)浣Y(jié)構(gòu)樹的似然值,,將具有最大似然值的樹看成是指定模型下的能夠產(chǎn)生觀測數(shù)據(jù)的最佳估計(jì)。 ML法采用的搜索方法主要是啟發(fā)式搜索,,步驟如下:
建ML樹的軟件用RAxML的較多,但近來IQ-TREE的引用量一路上升,。綜合使用下來,,個(gè)人感覺IQ-TREE的速度真快。 貝葉斯推論法(軟件MrBayes)BI法與ML法不同的是,,前者根據(jù)提供的數(shù)據(jù)和選擇的替代模型尋找可能性最大的樹,,而ML法則是尋找合適的樹以使得數(shù)據(jù)的可能性最大。 推斷系統(tǒng)發(fā)育樹的步驟為:
如此就構(gòu)成了一代,,一次又一次的重復(fù)迭代,,直到新樹的似然值不再有明顯變化,即樹的似然值不再有顯著區(qū)別,,參數(shù)已收斂為止,。如果沒有收斂,適當(dāng)?shù)脑黾哟鷺淅^續(xù)跑,。 如何判斷參數(shù)是否已收斂軟件運(yùn)行完畢后,,看結(jié)果文件的分離頻率平均標(biāo)準(zhǔn)差值(Average standard deviation of split frequencies) 該值<0.01時(shí),說明兩次運(yùn)行的結(jié)果差異很少,,參數(shù)已收斂,; 同樣是在PhyloSuite中運(yùn)行
|
|