基于擴增子數(shù)據(jù)的系統(tǒng)發(fā)育樹的構建和展示 Construction and display of phylogenetic tree based on amplicon data 周欣1, 2,,馬紫英1, 2,祁智慧3,,劉永鑫4,,蔡磊1, 2, * 1真菌學國家重點實驗室,中國科學院微生物研究所,,北京,;2生命科學學院,中國科學院大學,,北京,;3國家糧食和物資儲備局科學研究院 北京;4植物基因組學國家重點實驗室,,中國科學院遺傳與發(fā)育生物學研究所 *通訊作者郵箱: [email protected] 引用格式:周欣, 馬紫英, 祁智慧, 劉永鑫, 蔡磊. (2021). 基于擴增子數(shù)據(jù)的系統(tǒng)發(fā)育樹的構建和展示. // 微生物組實驗手冊. Bio-101: e2003730. DOI: 10.21769/BioProtoc.2003730. How to cite: Yunyun Gao, Kai Peng, Defeng Bai, et al. 2024. The Microbiome Protocols eBook initiative: Building a bridge to microbiome research. iMeta 3: e182. https:///10.1002/imt2.182 摘要:隨著高通量測序技術的發(fā)展,,基于擴增子和宏基因組測序的微生物組學研究技術已經成為研究土壤、動植物及海洋等環(huán)境微生物多樣性及功能的主要手段,?;跀U增子的微生物組數(shù)據(jù)集,往往能獲得數(shù)千至上萬個OTUs (可操作分類單元),我們需要從中篩選獲得高豐度及核心微生物類群進行系統(tǒng)發(fā)育樹的構建和展示,。系統(tǒng)發(fā)育樹又名分子進化樹,,是生物信息學中描述不同生物或者不同基因之間進化關系的方法。通過系統(tǒng)學分類分析,,可以幫助研究者推測生物的進化歷程和親緣關系,。本文主要介紹基于IQ-TREE、MUSCLE,、 USEARCH10等軟件的下載安裝,、使用方法和步驟以及結果分析,實現(xiàn)從擴增子數(shù)據(jù)集的提取,、數(shù)據(jù)處理到系統(tǒng)發(fā)育樹的構建和美化等流程,,方便研究者能更高效準確地實現(xiàn)基于擴增子數(shù)據(jù)的系統(tǒng)發(fā)育樹構建以及下游系統(tǒng)發(fā)育樹的編輯和展示,為發(fā)表高水平研究論文提供技術支持,。 關鍵詞:OTUs,,系統(tǒng)發(fā)育樹,微生物多樣性,,擴增子測序,iTOL 儀器設備 普通個人電腦 (Windows10系統(tǒng)64位版,、CPU ≥ 雙核,、內存 ≥ 4 G、硬盤 ≥ 20 GB) 軟件和數(shù)據(jù)庫 1.gitforwidnows 2.23.0 (http://) 2.R 4.0.3 (https://www.) 3.Rstudio 1.2.5019 (https://www./products/rstudio/download) 4.USEARCH v10.0.240 (https://www./usearch/download.html) 5.MUSCLE (http://www./muscle/) 6.IQ-TREE v2.0.3 (http://www.) 7.trimAL (http://trimal./downloads) 軟件的安裝和使用 一,、首先在C盤根目錄新建名為bin的目錄,,其具體位置為C:\bin。 二,、USEARCH軟件的下載和安裝 USEARCH軟件 (http://www./usearch/download.html) 是Robert C. Edgar開發(fā)的一款超快的擴增子數(shù)據(jù)分析軟件,,在序列比對、OTU聚類,、多樣性分析等多領域廣泛應用 (Edgar,,2013)。
圖1. USEARCH10軟件的下載 注:32位usearch為免費版,,但限制使用內存4GB,,64位為收費版本,沒有內存使用限制,。選擇接受許可協(xié)議,,版本必須選擇v10.0,選擇填寫郵箱,,提交收到鏈接,,下載后改名為usearch10并將軟件放在Windows10系統(tǒng)中C:\bin目錄中。 三、R語言的下載安裝和使用 R語言是目前生物學,、經濟學等領域最流行的統(tǒng)計分析語言,,下載最新版R語言(下載頁面:https://cran.);點擊Download R for Windows完成R-4.0.3.win.exe安裝程序的下載,;雙擊安裝程序,,建議語言選擇英文安裝。 圖2. R語言的下載 四,、IQ-TREE的下載安裝和使用 IQ-TREE軟件是2015年發(fā)表的一款快速準確進行最大似然法 (Maximum Likelihood, ML) 構建系統(tǒng)發(fā)育樹的軟件 (Nguyen 等, 2015),,目前已經更新到v2.2.2版本。IQ-TREE軟件應用一種快速,、有效的隨機算法,,在近似的計算時間內具有比RAxML軟件和PhyML軟件更高的精確度。此外IQ-TREE軟件的模型選擇速度比jModelTest快10-100倍,,其自展支持率估算比RAxML軟件快10-40倍并且支持宏基因組等大數(shù)據(jù)計算 (Minh 等, 2020),。IQ-TREE軟件的下載界面: (http://www.),選擇下載最新版64位的IQ-TREE (v2.2.2) 軟件 (如圖3),,解壓后將其放在C:\bin目錄中,。 圖3. IQ-TREE軟件的下載 五、MUSCLE的下載安裝和使用 MUSCLE軟件是一款快速多重序列比對軟件,,MUSCLE軟件具有比CLUSTALW等軟件更快的比對速度以及精確度,,它能在數(shù)分鐘內完成數(shù)百條序列的比對。迄今,,MUSCLE軟件已經被引用了超過37000次,,是生物學領域中最為廣泛使用的軟件之一 (Edgar , 2004)。MUSCLE軟件的下載界面 (圖4):(http:///muscle),,選擇下載最新版的MUSCLE軟件,,解壓后將其放在C:\bin目錄中。 圖4. MUSCLE軟件的下載 六,、trimAL 的下載安裝和使用 完成精確的多序列比對后,,通常要要過濾掉一些低質量以及高變異度的序列區(qū)域。trimAL軟件能快速,,精確切除和過濾低質量以及高變異度的序列,,僅保留進化保守的區(qū)域用于后續(xù)分析。 trimAL軟件的下載界面 (圖5):(http://trimal./downloads),,選擇下載最新版的trimAL軟件,,解壓后將其放在C:\bin目錄中。 圖5. trimAL軟件的下載 七,、Rstudio的下載安裝和使用 Rstudio的下載頁面:(https:///products/rstudio/download),。從網(wǎng)頁中選擇下載最新版的Rstudio,,如RStudio Desktop 1.3.1093,雙擊安裝程序進行默認安裝,。Rstudio安裝完成后,,按如圖所示步驟調出“Terminal”界面,然后在Terminal窗口中輸入ls (LS的小寫),,按回車進行測試,,如果出現(xiàn)“command not found”錯誤,請按照下圖重新進行操作和設置 (如圖6),。 圖6. Rstudio軟件的設置及Terminal的調用 八,、“git for windows”的下載安裝和使用 “git for windows”軟件 (v2.28.0) 是一款能在Windows系統(tǒng)下運行的命令行工具,能在Windows下運行部分Linux代碼 (下載頁面:https:///),,按照默認參數(shù)右鍵管理員安裝Git-2.28.0-64-bit.exe即可(如圖7),。 圖7. “git for windows”軟件的下載 九、添加程序位置至Windows系統(tǒng)中的環(huán)境變量 我的電腦-右鍵屬性-按右側截圖操作,,測試是否安裝成功:在RStudio的Terminal下輸入:usearch10,,按回車,如有出現(xiàn)USEARCH10的版本信息,,則表明安裝成功,。若不成功,可檢查環(huán)境變量配置,,按下圖進行操作 (如圖8): 圖8. Windows10系統(tǒng)的環(huán)境變量的設置 實驗步驟 一,、數(shù)據(jù)獲得和操作流程概況 準備輸入數(shù)據(jù) 本文中所有的測試數(shù)據(jù)集、所需軟件,、R腳本以及生成的結果均已上傳到百度網(wǎng)盤,如需測試和使用可點擊如下鏈接進行下載和使用 (百度網(wǎng)盤鏈接:鏈接: 鏈接: https://pan.baidu.com/s/15MIJzV0_5kNV3VF_o0rKZw 提取碼: 5ru9),。具體整個技術流程概況以及各個軟件的功能與彼此之間的聯(lián)系如圖所示(如圖9): 圖9. 系統(tǒng)發(fā)育樹基本操作流程圖 二,、數(shù)據(jù)處理相關的命令行操作均在Rstudio “Terminal”界面進行 1.首先在C盤新建名為Tree_data目錄 #切換到Tree_data目錄中 $ cd C:\Tree_data $ mkdir -p result/tree $ cd result/tree 2.研究者可以根據(jù)實際情況0.001 到 0.01的閾值篩選高豐度OTU。 #統(tǒng)計OTU表中OTU數(shù)量,,代碼如下: $ tail -n+2 ../otutab.txt | wc -l #按相對豐度0.2 %篩選高豐度OTU,,代碼如下: $ usearch10 -otutab_trim ../otutab.txt -min_otu_freq 0.002 -output otutab1.txt #統(tǒng)計篩選OTUs表特征數(shù)量,代碼如下: $ tail -n+2 otutab1.txt | wc -l #提取ID用于提取序列,,代碼如下: $ cut -f 1 otutab1.txt | sed '1 s/#OTU ID/OTUID/' > otutab_high.id 3.在進行完OTU篩選后要根據(jù)OTUs的ID提取每個OTUs對應的fasta格式的代表性序列,,手動整理物種注釋和分組信息信息表annotation.txt,如圖10所示,。 #篩選高豐度菌/指定差異菌對應OTUs的代表性序列,,代碼如下: $ usearch10 -fastx_getseqs ../otus.fa -labels otutab_high.id -fastaout high_otus.fa $ head -n 10 annotation.txt 圖10. annotation.txt文件中包含的內容 三、序列對齊及系統(tǒng)發(fā)育樹的構建 #構建進化樹,,實現(xiàn)高豐度菌的進化樹的分組信息展示與美化,。 #起始文件為 result/tree目錄中high_otus.fa (序列)、annotation.txt (物種和相對豐度)文件 # Muscle軟件進行序列比對和對齊,代碼如下: $ cd Tree_data/result/tree $ muscle -in high_otus.fa -out otus_aligned.fa #trimAL軟件進行低質量以及高變異度的序列的過濾和修剪,,代碼如下: $ trimal -in otus_aligned.fa -out otus_aligned_trimed.fa -gt 0.95 #利用IQ-TREE軟件進行ML系統(tǒng)發(fā)育樹的構建,,代碼如下: $ mkdir -p iqtree $ iqtree -s otus_aligned_trimed.fa -bb 1000 -redo -alrt 1000 -m MFP -nt AUTO -pre iqtree/training_otus #參數(shù)簡介: -m 參數(shù):指定模型選項,MFP表示ModelFinder Plus(自動默認) -redo參數(shù):之前運行成功后生成了相應的文件,,指定redo會重新跑一遍覆蓋之前的文件,; -pre參數(shù):將結果輸入到iqtree文件夾中,且生成文件的前綴為training_otus,; -alrt參數(shù):是否啟用 SH-aLRT檢驗,。 四、iTOL網(wǎng)站進行系統(tǒng)發(fā)育樹的編輯和展示 在運用iTOL在線工具來進行系統(tǒng)發(fā)育樹的美化之前,,首先要使用“table2itol.R”這個R包 (https://github.com/mgoeker/table2itol) 生成用于系統(tǒng)發(fā)育樹編輯和美化的注釋文件,。然后訪問并登陸iTOL網(wǎng)站 (http://itol./),上傳otus.nwk,,再拖拽以下命令行生成的不同注釋文件 (分別位于“plan1”,、“plan2”和“plan3”三個文件夾) 于iTOL主界面的系統(tǒng)發(fā)育樹圖上即完成系統(tǒng)發(fā)育樹的美化。 # plan1生成外圈顏色,、形狀分類和豐度文件,,代碼如下: $ cd Tree_data/result/tree $ Rscript ../../script/table2itol.R -a -c double -D plan1 -i OTUID -l Genus -t %s -w 0.5 annotation.txt # plan2生成豐度柱形圖注釋文件,代碼如下: $ Rscript ../../script/table2itol.R -a -d -c none -D plan2 -b Phylum -i OTUID -l Genus -t %s -w 0.5 annotation.txt # plan3生成熱圖注釋文件,,代碼如下: $ Rscript ../../script/table2itol.R -c keep -D plan3 -i OTUID -t %s otutab.txt #參數(shù)簡介 -a:找不到輸入列將終止運行 (默認不執(zhí)行),; -c:將整數(shù)列轉換為factor或具有小數(shù)點的數(shù)字; -t:偏離提示標簽時轉換ID列,; -w:顏色帶,,區(qū)域寬度等; -D:輸出目錄,; -i:OTUs列名,; -l:OTUs顯示名稱如種/屬/科名。 注:當需要標注的顏色過多時,,R腳本會采用形狀+顏色的方式對類別進行區(qū)分,。 結果與分析 1.IQ-TREE運行完成后會在iqtree文件下生成多個文件,主要包括程序運行日志training_otus.log,、ML樹文件 (含有UFBoot或BP/SH-aLRT評估分支置信度) 和系統(tǒng)發(fā)育樹樹文件training_otus.contree,,本文測試數(shù)據(jù)中生成的系統(tǒng)發(fā)育樹文件名稱為training_otus.contree (如圖11)。 圖11. IQ-TREE軟件建樹生成的結果文件 2.首先進入iTOL在線網(wǎng)站,,點擊右上角注冊 (僅限新用戶) 和登陸,,(如圖12): 圖12. iTOL在線網(wǎng)站主界面 3.完成賬號登錄后,點擊My Tree按鈕,,進入個人主界面,,然后點擊“Upload tree files”上傳文件夾中的training_otus.contree文件,,獲得如下樹形圖 (圖13)。導入樹文件之后,,可以在iTOL在線網(wǎng)站的右上角選擇下圖紅框中的“Basic”和“Advanced”進行系統(tǒng)發(fā)育樹的編輯 (比如樹形的變換,、自展支持率的顯示、字體大小和顏色的調整,、分支的位置變換等),。iTOL在線網(wǎng)站具有非常強大的系統(tǒng)發(fā)育樹的編輯和美化功能,研究者可根據(jù)自己的需求進行各種個性化的調整,,關于編輯的具體使用方法可以參考iTOL的官方幫助文檔 (https://itol./help.cgi) 和iTOL官方視頻資料 (https://itol./video_tutorial.cgi),。 圖13. iTOL在線網(wǎng)站的系統(tǒng)發(fā)育樹展示和編輯 4.系統(tǒng)發(fā)育樹的編輯:按住鼠標左鍵,將“plan1”文件夾中的“iTOL_labels-Genus.txt”文件拖到iTOL網(wǎng)頁的當前主界面上,,iTOL在線網(wǎng)站會自動將所有OTUs替換成其物種注釋對應的屬名,,如圖所示 (圖14)。 圖14.系統(tǒng)發(fā)育樹中分支節(jié)點名稱替換 5.系統(tǒng)發(fā)育樹的按微生物門分類水平進行著色編輯:按住鼠標左鍵,,將“plan2”文件夾中的“iTOL_treecolors-Phylum.txt”文件拖到iTOL網(wǎng)頁的當前主界面上,,iTOL在線網(wǎng)站會自動按微生物門對系統(tǒng)發(fā)育樹進行著色”,如圖所示 (圖15),。同時注意,,此處著色可分別進行標簽、分支和全樹著色,。 圖15.系統(tǒng)發(fā)育樹圖按門水平進行著色 6.添加其它系統(tǒng)發(fā)育樹分組注釋:使用三個不同分組的高豐度OTUs做進化樹,,可以把三個分組的高豐度OTUs的相對豐度,用柱狀圖形式進行展示,。按住鼠標左鍵,,將“plan2”文件夾中的“iTOL_simplebar-A.txt”、“iTOL_simplebar-B.txt”和“iTOL_simplebar-C.txt”文件拖到iTOL網(wǎng)頁的當前主界面上,,iTOL在線網(wǎng)站會自動將“KO”,、“OE”和“WT”三個分組的高豐度OTUs用柱形圖形式進行展現(xiàn) (如圖16)。 圖16.添加高豐度OTUs不同分組柱形圖的系統(tǒng)發(fā)育樹圖 7.在“plan1”,、“plan2”和“plan3”文件夾中有很多其它系統(tǒng)發(fā)育樹美化和編輯的文件。例如,,“plan3”文件夾中的熱圖的添加等,,研究者可以根據(jù)自己的需求進行靈活添加,最終達到自己的系統(tǒng)發(fā)育樹展示和研究目的,。最后,,研究者可以點擊iTOL在線網(wǎng)站右上角的“Export”按鈕導出編輯完成的系統(tǒng)發(fā)育樹圖。本文最終生成的系統(tǒng)發(fā)育樹圖,,如下圖所示 (圖17),。 圖17.最終生成的系統(tǒng)發(fā)育樹圖 小結 本文簡要介紹了微生物擴增子數(shù)據(jù)中的高豐度OTUs數(shù)據(jù)的篩選,,代表性序列及對應物種注釋的獲取,以及系統(tǒng)發(fā)育樹的構建方法,。展示了一套完整操作流程,,以幫助研究者學習和使用生成接近發(fā)表質量要求的系統(tǒng)發(fā)育樹圖的構建方法。研究者在建樹過程中可以根據(jù)研究領域參考同行文獻對系統(tǒng)發(fā)育樹進行一些細節(jié)參數(shù)的調整,,并使用AI (Adobe Illustrator)對特殊圖形,、字符和樹進行進一步修改和美化。 致謝 感謝“git for windows”軟件開發(fā)者提供的Git 軟件(https://github.com/git-for-windows)及mgoeker在GitHub網(wǎng)站上開發(fā)和公開分享的R語言包“table2itol” (https://github.com/mgoeker/table2itol),。本文分析方法已應用于待 發(fā)表文章“Distribution and variations of mycotoxin producing fungal community in major rice production areas of China”,。 參考文獻 1.Edgar, R. C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. 32(5):1792–1797. 2.Edgar, R. C. (2013). UPARSE: highly accurate OTU sequences from microbial amplicon reads. Nature Methods. 10(10): 996–998. 3.Minh, B. Q., Schmidt, H. A., Chernomor, O., Schrempf, D., Woodhams, M. D., von Haeseler, A. and Lanfear, R. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference in the genomic era. Molecular Biology and Evolution. 37(5): 1530–1534. 4.Nguyen, L. T., Schmidt, H. A., von Haeseler, A. and Minh, B. Q. (2015). IQ-TREE: a fast and effective stochastic algorithm for estimating maximum-likelihood phylogenies. Molecular biology and evolution. 32(1): 268–274. |
|