原文鏈接:https:///10.1093/femsec/fiaa255 發(fā)表時(shí)間:2020年12月17 摘要 在使用高通量測(cè)序技術(shù)的微生物群落生態(tài)學(xué)研究中產(chǎn)生了大量的測(cè)序數(shù)據(jù),,尤其是基于擴(kuò)增子測(cè)序的群落數(shù)據(jù)。在對(duì)擴(kuò)增子測(cè)序數(shù)據(jù)進(jìn)行初步的生物信息學(xué)分析后,,根據(jù)操作分類單元和分類分配表進(jìn)行后續(xù)的統(tǒng)計(jì)和數(shù)據(jù)挖掘仍然是復(fù)雜和耗時(shí)的,。為了解決這個(gè)問(wèn)題,我們提出了一個(gè)集成的R包--'microeco'作為處理微生物群落和環(huán)境數(shù)據(jù)的分析管道,。這個(gè)包是基于R6類系統(tǒng)開(kāi)發(fā)的,,結(jié)合了微生物群落生態(tài)學(xué)研究中的一系列常用和先進(jìn)的方法,。該軟件包包括數(shù)據(jù)預(yù)處理、分類群豐度繪制,、維恩圖、α多樣性分析,、β多樣性分析,、差異豐度測(cè)試和指標(biāo)分類群分析、環(huán)境數(shù)據(jù)分析,、null模型分析,、網(wǎng)絡(luò)分析和功能分析等類。每個(gè)類的設(shè)計(jì)都是為了提供一套可以讓用戶方便使用的方法,。與微生物生態(tài)學(xué)領(lǐng)域的其他R包相比,,microeco包使用起來(lái)快速、靈活,、模塊化,,為研究人員提供了強(qiáng)大而便捷的工具。microeco包可以從CRAN(The Comprehensive R Archive Network)或github(https://github.com/ChiLiubio/microeco)安裝,。 引言 高通量測(cè)序技術(shù)在微生物生態(tài)學(xué)中的應(yīng)用產(chǎn)生了大量的測(cè)序數(shù)據(jù)?,F(xiàn)在,微生物群落生態(tài)學(xué)中的測(cè)序數(shù)據(jù)分析可以任意分為生物信息學(xué)分析和隨后的統(tǒng)計(jì)分析,。生物信息學(xué)分析是一個(gè)典型的計(jì)算密集型工作,,unix/linux服務(wù)器適合這一操作。在根據(jù)擴(kuò)增子測(cè)序數(shù)據(jù)獲得必要的操作分類單元(OTU)表,、分類分配和系統(tǒng)發(fā)育樹(shù)后,,下游的數(shù)據(jù)分析往往是多樣化、復(fù)雜化和耗時(shí)的,。雖然在生物信息學(xué)平臺(tái)上有一些統(tǒng)計(jì)和繪圖方法,,如QIIME(Caporaso等人,2010),、mothur(Schloss等人,,2009)、RDP(http://rdp.cme./)和SiLVAngs(https://ngs./silvangs/),,但要有效地進(jìn)行數(shù)據(jù)挖掘,,需要更強(qiáng)大、靈活和全面的工具,。 R編程語(yǔ)言及其用于統(tǒng)計(jì)計(jì)算的軟件包系統(tǒng)在科學(xué)應(yīng)用中因其強(qiáng)大和靈活而脫穎而出,。除了經(jīng)典的生態(tài)學(xué)軟件包,如vegan(Oksanen等人,,2019),,還設(shè)計(jì)了幾個(gè)R軟件包來(lái)進(jìn)行基于測(cè)序的微生物群落數(shù)據(jù)的復(fù)雜分析,,如phyloseq(Mcmurdie和Holmes 2013)、microbiome(https://github.com/microbiome/microbiome),、microbiomeSeq(http://www.github.com/umerijaz/microbiomeSeq),、ampvis2(https://madsalbertsen./ampvis2/reference/index.html)、MicrobiomeR(https://github.com/vallenderlab/MicrobiomeR)和Rhea(Lagkouvardos等人,,2017),。在軟件設(shè)計(jì)方面,phyloseq軟件包在S4類的基礎(chǔ)上發(fā)展良好,。microbiome,、microbiomeSeq、MicrobiomeR和ampvis2包都依賴于phyloseq包的phyloseq類,,涵蓋了微生物群落生態(tài)學(xué)研究中的一系列功能(表S1,,支持信息)。然而,,它們都缺乏與分析方法相關(guān)的封裝,,缺乏一些重要的、前沿的方法(表S1,,支持信息),。因此,這些封裝框架對(duì)于目前微生物群落研究的數(shù)據(jù)挖掘管道來(lái)說(shuō)是不夠的,。在采用多種統(tǒng)計(jì)和繪圖方法進(jìn)行數(shù)據(jù)分析的情況下,,迫切需要一個(gè)模塊化的軟件來(lái)減少用戶學(xué)習(xí)和使用的時(shí)間成本。Rhea軟件包有一個(gè)簡(jiǎn)短而清晰的工作流程框架,,但它缺乏許多重要的方法,,也不是一個(gè)傳統(tǒng)的基于函數(shù)的軟件包。 在此,,我們基于R6類系統(tǒng)(Chang 2019)創(chuàng)建了一個(gè)名為microeco的包,,它提供了封裝的面向?qū)ο缶幊谭妒健榉治龇椒ǖ拿恳徊糠謩?chuàng)建了類,,以使包的框架模塊化,、清晰和簡(jiǎn)短(圖1)。每個(gè)類都封裝了一系列的功能和不同的算法,。我們整合了一些常用的方法,,使軟件包支持廣泛的微生物群落分析,如LEfSe(Segata等人,,2011),、冗余分析(RDA)、共現(xiàn)網(wǎng)絡(luò)分析,、功能預(yù)測(cè)和空模型分析(Stegen等人,,2013),。我們還開(kāi)發(fā)了一些獨(dú)特的高級(jí)功能,如維恩圖中的分類群組成分析以及原核生物和真菌的功能冗余計(jì)算,。 microtable class microtable class是一個(gè)基本類,,用于創(chuàng)建存儲(chǔ)輸入文件的對(duì)象和后續(xù)的數(shù)據(jù)預(yù)處理。與phyloseq包中的phyloseq類相比,,microtable類很簡(jiǎn)短,。例如,創(chuàng)建對(duì)象時(shí)需要的文件格式是用戶友好的data.frame 類,,用于所有OTU表、分類表和樣品信息表(見(jiàn)補(bǔ)充材料例1),。用于數(shù)據(jù)預(yù)處理的內(nèi)置函數(shù)包括tidy_dataset(), filter_pollution(), rarefy_samples(), merge_samples(), merge_taxa(),。通過(guò)應(yīng)用函數(shù)tidy_dataset(),對(duì)象中所有的基本文件都可以被修剪,,并具有一致的信息,。如果各樣本的序列數(shù)差別很大,建議使用rarefy_samples()使每個(gè)樣本的序列數(shù)相等(小編注釋:rarefy_sample 函數(shù)功能是對(duì)測(cè)序數(shù)據(jù)OTU進(jìn)行抽平處理),,以減少測(cè)序深度對(duì)α-和β-多樣性計(jì)算的影響,。運(yùn)行cal_abund()可以自動(dòng)計(jì)算每個(gè)分類等級(jí)的分類群豐度,并返回一個(gè)包含所有表格的列表(taxa_abund),。函數(shù)cal_alphadiv()用于計(jì)算α多樣性,,包括Chao1、Shannon-Wiener指數(shù),、Simpson指數(shù)和系統(tǒng)發(fā)育的α多樣性(Faith 1992),。此外,函數(shù)cal_betadiv()可用于獲得β多樣性的距離矩陣,,包括Bray-Curtis,、Jaccard和UniFrac(Lozupone和Knight 2005;陳俊2018),。 trans_abund和trans_venn class(小編注釋:該函數(shù)用于Overlap 類群分析) 為了可視化分類群的豐度變化,,我們創(chuàng)建了trans_abund類來(lái)實(shí)現(xiàn)柱狀圖、boxplot,、熱圖和餅圖的繪制方法,。trans_venn類是為文氏圖設(shè)計(jì)的,用于解讀組間共享的或特殊的類群,,包括對(duì)5個(gè)以上組的分析,。與其他維恩分析包,如VennDiagram(Hanbo Chen 2018)相比,,我們還增加了每個(gè)特定或共享部分的OTU數(shù)量或序列數(shù)量的百分比,。一般來(lái)說(shuō),,研究人員對(duì)文氏分析結(jié)果中的特定和共同部分的分類群組成感興趣。因此,,我們開(kāi)發(fā)了獨(dú)特的函數(shù)trans_venn_com()來(lái)分析每個(gè)部分的分類群組成(Mendes等人,,2011;Andrew等人,,2012),。該函數(shù)可以將每個(gè)餾分中的OTU組成轉(zhuǎn)化為群落格式表,并返回一個(gè)新的微表對(duì)象,,用于快速繪制每個(gè)餾分的分類群組成(見(jiàn)補(bǔ)充材料例2),。 trans_alpha class(小編注釋:該函數(shù)用于alpha多樣性數(shù)據(jù)格式轉(zhuǎn)換、繪圖和差異性統(tǒng)計(jì)) trans_alpha類被設(shè)計(jì)用來(lái)將microtable對(duì)象的alpha多樣性表轉(zhuǎn)化為其他格式的統(tǒng)計(jì)和繪圖,。函數(shù)cal_diff()可以通過(guò)Kruskal-Wallis秩和檢驗(yàn)或ANOVA(方差分析)對(duì)所有α多樣性指數(shù)進(jìn)行組間差異檢驗(yàn),,并進(jìn)行多重比較。下面的函數(shù)plot_alpha()用于展示α多樣性數(shù)據(jù),,并通過(guò)多重比較或成對(duì)比較直接添加顯著性,。 trans_beta class 微生物群落數(shù)據(jù)的生態(tài)學(xué)分析中的一個(gè)關(guān)鍵部分是β多樣性,這可以用trans_beta類來(lái)進(jìn)行,。trans_beta類目前實(shí)現(xiàn)了幾種常用的無(wú)約束排序方法,,如主成分分析、主坐標(biāo)分析(PCoA)和非計(jì)量多維縮放(NMDS)等,。此外,,同一組或不同組的樣本之間的距離可以表明組內(nèi)或組間的群落異同(Lim等人,2015),。函數(shù)cal_group_distance()和plot_group_distance()可以分別進(jìn)行群落距離的變換和繪制,。聚類分析和繪圖也在函數(shù) plot_clustering()中實(shí)現(xiàn)。此外,,為了簡(jiǎn)化包羅萬(wàn)象的多元方差分析(perMANOVA)的使用,,我們開(kāi)發(fā)了函數(shù)cal_manova(),用于perMANOVA的總體比較,、配對(duì)組比較和多因子比較,。 trans_diff class(小編注釋:該函數(shù)用于篩選不同分組間差異的物種或類群) 指標(biāo)類群的鑒定對(duì)于解釋不同群體間群落結(jié)構(gòu)差異的生物學(xué)機(jī)制具有重要意義。隨著微生物群落生態(tài)學(xué)中測(cè)序數(shù)據(jù)復(fù)雜性的增加,,評(píng)估各組間有顯著差異的分類群是一個(gè)挑戰(zhàn),。因此,一些工具,,如LEfSe(Segata等人,,2011),結(jié)合了監(jiān)督機(jī)器學(xué)習(xí)和差異豐度測(cè)試的優(yōu)勢(shì),以確定區(qū)分一個(gè)群體與其他群體的重要指標(biāo)類群,。trans_diff類目前實(shí)現(xiàn)了三種著名的方法,。LEfSe(Segata等人,2011),,隨機(jī)森林(An等人,,2019)和metastat(White, Nagarajan and Pop,2009),。LEfSe結(jié)合了線性判別分析(LDA)和差異豐度測(cè)試來(lái)尋找指標(biāo)類群,。與Python版本相比,trans_diff類中的LEfSe方法是用R代碼重新實(shí)現(xiàn)的,,以減少對(duì)軟件的依賴,。同時(shí),結(jié)果的繪制(LDA得分的柱狀圖和支系圖)也易于使用該軟件包進(jìn)行調(diào)整,。我們整合了隨機(jī)森林分析和差異豐度測(cè)試,,與randomForest軟件包相比,增加了隨機(jī)森林方法的便利性和力量,。metastat方法在兩組之間的差異豐度測(cè)試中特別有用(White, Nagarajan and Pop 2009)。我們實(shí)現(xiàn)了metastat方法以減少文件格式轉(zhuǎn)換的工作量,,并增加了相應(yīng)的繪圖功能,。 trans_env class 評(píng)估環(huán)境因素對(duì)微生物群落結(jié)構(gòu)的影響,對(duì)于推斷支配群落組裝的基本機(jī)制至關(guān)重要,。在trans_env類中,,冗余分析(RDA)和基于距離的RDA(db-RDA)在cal_rda()中基于素描函數(shù)rda()實(shí)現(xiàn)。為了方便RDA結(jié)果的可視化,,我們?cè)趖rans_rda()和plot_rda()中分別加強(qiáng)了轉(zhuǎn)換和繪圖的方法,。環(huán)境數(shù)據(jù)和β-多樣性距離矩陣之間的mantel檢驗(yàn)可以通過(guò)cal_mantel()對(duì)所有環(huán)境變量和所有距離矩陣進(jìn)行方便的計(jì)算。相關(guān)熱圖是展示分類群豐度和環(huán)境因素之間相關(guān)性的重要方法,。這可以通過(guò)使用trans_env類的兩個(gè)步驟完成,。首先,分類群和環(huán)境因素之間的相關(guān)性可以用cal_cor()計(jì)算所有樣品或在不同組內(nèi)進(jìn)行,。然后,,可以使用ggplot2包風(fēng)格的相關(guān)熱圖或帶有聚類圖的pheatmap包風(fēng)格的相關(guān)熱圖進(jìn)行plot_corr(),即使相關(guān)分析是針對(duì)不同組的,。 trans_nullmodel class 近幾十年來(lái),,系統(tǒng)發(fā)育分析和null模型的整合,通過(guò)增加系統(tǒng)發(fā)育的維度,,更有力地促進(jìn)了生態(tài)位和中性(niche and neutral)對(duì)群落組合影響的推斷(Stegen等人,,2013)。trans_nullmodel類提供了一個(gè)封裝,包括系統(tǒng)發(fā)育信號(hào),、β平均成對(duì)系統(tǒng)發(fā)育距離(βMPD),、β平均最近分類群距離(βMNTD)、β最近分類群指數(shù)(βNTI),、β凈相關(guān)度指數(shù)(βNRI)和基于Bray-Curtis的Raup-Crick(RCbray)的計(jì)算,。系統(tǒng)發(fā)育信號(hào)分析的方法是mantel correlogram(Liu等人,2017),。betaMNTD和betaMPD的算法經(jīng)過(guò)優(yōu)化,,比picante包(Kembel等人,2010)的算法更快,。RCbray和betaNTI(或betaNRI)之間的組合可用于推斷特定假設(shè)下主導(dǎo)群落集合的每個(gè)生態(tài)過(guò)程的強(qiáng)度(Stegen等人,,2013;Liu等人,,2017),。這可以通過(guò)函數(shù)cal_process()解析每個(gè)推斷過(guò)程的百分比來(lái)實(shí)現(xiàn)。 trans_network class 微生物生態(tài)學(xué)中的共現(xiàn)模式分析是一個(gè)熱門話題,,通常是應(yīng)用網(wǎng)絡(luò)分析的方式進(jìn)行分析,。在trans_network類中,提供了三種網(wǎng)絡(luò)構(gòu)建方法:相關(guān)網(wǎng)絡(luò)(Deng等人,,2012),、SPIEC-EASI(SParse InversE Covariance Estimation for Ecological Association Inference)網(wǎng)絡(luò)(Kurtz等人,2015)和基于概率圖形模型(PGM)的網(wǎng)絡(luò)(Tackmann, Matias Rodrigues and Mering 2019),。對(duì)于基于相關(guān)的網(wǎng)絡(luò)(圖2中的步驟1),,三種相關(guān)計(jì)算方法是可選的,包括cor.test函數(shù),、WGCNA包(Langfelder和Horvath 2008)和SparCC(Friedman和Alm 2012),。相關(guān)系數(shù)的優(yōu)化可以選擇使用基于隨機(jī)矩陣?yán)碚摰姆椒ǎ―eng等人,2012),。另一種網(wǎng)絡(luò)構(gòu)建方法是SpiecEasi R包中的SPIEC-EASI(Kurtz等人,,2015)。我們實(shí)施的第三種網(wǎng)絡(luò)方法是PGM網(wǎng)絡(luò),,它可以自動(dòng)調(diào)用系統(tǒng)中的Julia語(yǔ)言和FlashWeave包(Tackmann, Matias Rodrigues and Mering 2019),。用函數(shù)save_network()和默認(rèn)設(shè)置保存網(wǎng)絡(luò)可以生成network.gexf文件,該文件可以用Gephi軟件(https://)打開(kāi),,用于網(wǎng)絡(luò)可視化,。模塊分類、網(wǎng)絡(luò)拓?fù)鋵傩院凸?jié)點(diǎn)拓?fù)鋵傩缘挠?jì)算都是基于igraph軟件包(Csardi and Nepusz 2006)開(kāi)發(fā)的,??焖儇澙返哪K優(yōu)化算法通過(guò)igraph中的cluster_fast_greedy()函數(shù)實(shí)現(xiàn)了模塊的分類,。在PCA分析的基礎(chǔ)上,提取每個(gè)模塊的OTU豐度矩陣的第一個(gè)主成分作為模塊的eigengenes,,以揭示高階組織信息(Deng等人,,2012)。模塊的eigengene分析由函數(shù)cal_eigen()提供,。此外,,我們還開(kāi)發(fā)了函數(shù)subset_network()用于提取網(wǎng)絡(luò)的一部分,函數(shù)cal_sum_links()用于總結(jié)任何分類等級(jí)的分類群之間的聯(lián)系,。 trans_func class 功能分析是微生物群落數(shù)據(jù)分析中一個(gè)有吸引力的部分,,主要來(lái)自其對(duì)生物學(xué)問(wèn)題的可解釋性。在微生物群落生態(tài)學(xué)中,,探索功能冗余是一個(gè)挑戰(zhàn),,因?yàn)楹茈y識(shí)別OTU或物種的功能特征。為了使這種分析在trans_func類中可行,,我們開(kāi)發(fā)了cal_spe_func()函數(shù),,將OTU的分類分配與原核生物的FAPROTAX數(shù)據(jù)庫(kù)(Louca, Parfrey and Doebeli 2016)的分類信息或與真菌的Funguild數(shù)據(jù)庫(kù)(Nguyen et al. 2016)的分類信息自動(dòng)匹配(圖3的步驟1)。FAPROTAX數(shù)據(jù)庫(kù)是根據(jù)Bergey's Manual of Systematic Bacteriology和相關(guān)文獻(xiàn)的信息建立的,,所以原核生物性狀鑒定的結(jié)果是可靠和保守的,。隨后,可以通過(guò)函數(shù)cal_spe_func_perc()來(lái)計(jì)算群落或網(wǎng)絡(luò)模塊中與每個(gè)性狀相關(guān)的類群(豐度未加權(quán))或個(gè)體(豐度加權(quán))的百分比(圖3中第2或3步),。我們認(rèn)為一個(gè)功能性狀的百分比越高,,說(shuō)明該性狀在群落或網(wǎng)絡(luò)模塊中的功能冗余度越高。 為了方便預(yù)測(cè)和分析群落的功能潛力,,我們整合了Tax4Fun R軟件包(A?hauer等人,2015)用于元基因組代謝途徑預(yù)測(cè)(圖3中的第6步)和FAPROTAX軟件(http://www./archive/FAPROTAX)來(lái)預(yù)測(cè)群落對(duì)生物地球化學(xué)循環(huán)的功能潛力,。在獲得群落的功能潛力后,,通過(guò)使用microeco軟件包很容易進(jìn)行以下統(tǒng)計(jì)分析(圖3中的第7-9步)。 結(jié)果和討論 microeco軟件包中的案例研究涉及中國(guó)濕地土壤的16S rRNA基因擴(kuò)增子測(cè)序數(shù)據(jù)集(An等人,,2019)和根瘤微生物組研究的ITS擴(kuò)增子測(cè)序數(shù)據(jù)集(Gao等人,,2019)。詳細(xì)的樣品信息在樣品信息表(sample_info_16S和sample_info_ITS)中進(jìn)行了描述,。16S rRNA基因擴(kuò)增子測(cè)序數(shù)據(jù)集被用來(lái)演示本文中的例子,。數(shù)據(jù)集中的樣本可分為中國(guó)內(nèi)陸濕地(IW)、沿海濕地(CW)和西藏高原濕地(TW),。我們提供了一個(gè)詳細(xì)的在線教程來(lái)展示microeco軟件包的使用(https://chiliubio./microeco/),。在此,我們重點(diǎn)介紹了幾個(gè)重要的例子和相應(yīng)的代碼(見(jiàn)補(bǔ)充材料),,可以應(yīng)用這些代碼來(lái)實(shí)現(xiàn)圖4-6的結(jié)果,。這里分析的這個(gè)例子數(shù)據(jù)的子集涉及90個(gè)樣本,,每組30個(gè)(CW、IW和TW),。我們首先創(chuàng)建了microeco表格對(duì)象,,并按照補(bǔ)充材料例1中的代碼進(jìn)行了基本的預(yù)處理操作。在去除未分配到 "k__Archaea "或 "k__Bacteria "界中的分類群或具有 "線粒體 "或 "葉綠體 "分配信息的分類群后,,總共留下了13 296個(gè)OTU,。對(duì)OTU表進(jìn)行了抽平化處理,使各樣品的序列號(hào)相同(每個(gè)樣品有10 000個(gè)序列),。分類群豐度,、α多樣性和β多樣性的距離矩陣都是為下游分析計(jì)算的(補(bǔ)充材料例1)。 首先,,在圖4和補(bǔ)充材料例2中顯示了幾個(gè)操作,。我們進(jìn)行了韋恩圖分析,并分析了每個(gè)共享或特定部分的OTU組成(圖4A),。在維恩圖中加入OTU的序列號(hào)百分比來(lái)說(shuō)明每個(gè)餾分中OTU的豐度信息(圖4A),。結(jié)果表明,CW,、IW和TW之間共享的OTU以及這些共享的OTU的豐度占總OTU數(shù)量和豐度的比例最大,。為了探索每個(gè)餾分中的分類群組成,我們對(duì)結(jié)果進(jìn)行了轉(zhuǎn)換,,得到了每個(gè)餾分的屬級(jí)的OTU組成(圖4B),。這種方法可以幫助解釋一些分類群(這里是指屬)是由特定的還是共享的OTU組成的。例如,,在共享部分CW-IW-TW中,,Planctomyces屬的比例比其他組相對(duì)較高。接下來(lái)的例子是組間α-多樣性的配對(duì)比較,,這表明IW中的Chao1明顯高于CW(圖4C),。為了進(jìn)一步顯示各組間的β多樣性是否存在較大差異,如補(bǔ)充材料例2所示,,進(jìn)行了基于Bray-Curtis距離的PCoA(圖4D),。我們還用trans_nullmodel來(lái)計(jì)算βNRI,以評(píng)估不同組內(nèi)是否存在不同的系統(tǒng)發(fā)育周轉(zhuǎn)模式,。結(jié)果表明,,TW的基本系統(tǒng)發(fā)育周轉(zhuǎn)的強(qiáng)度明顯高于CW和IW(圖4E)。用LEfSe(圖4F和G)來(lái)識(shí)別指示性類群,,表明指示性類群在不同組中是不同的,。例如,Proteobacteria and Firmicutes 在CW中明顯富集(圖4F和G),。為了進(jìn)一步探討環(huán)境因素如何影響這些指示性類群,,我們采用trans_env類將非生物因素與這些類群的豐度相關(guān)聯(lián),,并進(jìn)行相關(guān)熱圖(圖4H)。我們還評(píng)估了分類群和環(huán)境因素的聚類情況,,以揭示一些分類群比其他分類群具有更相似的生態(tài)位偏好的程度,。結(jié)果清楚地表明,相關(guān)熱圖可以提供有用的幫助,,使不同的指標(biāo)類群可能受到環(huán)境因素的影響(圖4H),。 為了進(jìn)一步研究物種共現(xiàn)模式,我們將trans_network類應(yīng)用于相關(guān)網(wǎng)絡(luò)分析(補(bǔ)充材料例3),。用特定的閾值(spearman相關(guān):R=0.7,,P=0.01)構(gòu)建相關(guān)網(wǎng)絡(luò),并用gephi可視化(圖5A),。我們用和弦圖來(lái)顯示門間內(nèi)部和之間的聯(lián)系數(shù)(圖5B),。為了探索網(wǎng)絡(luò)中節(jié)點(diǎn)的重要性,我們根據(jù)模塊內(nèi)和模塊間的連接性來(lái)分配節(jié)點(diǎn)的角色(圖5C),。這種方法已被廣泛應(yīng)用于網(wǎng)絡(luò)分析中,,并被驗(yàn)證為對(duì)網(wǎng)絡(luò)中節(jié)點(diǎn)作用的綜合評(píng)價(jià)(Deng等人,2012,;Shi等人,,2016)。然后計(jì)算模塊的eigengenes,,并與非生物因素相關(guān)(圖5D),,揭示了模塊的OTU組成可能由不同的環(huán)境因素主導(dǎo)。需要指出的是,,在非生物因素過(guò)濾所帶來(lái)的強(qiáng)系統(tǒng)發(fā)育聚類的條件下,,相關(guān)網(wǎng)絡(luò)可能由大量與生物相互作用無(wú)關(guān)的邊組成。因此,,最好使用相關(guān)網(wǎng)絡(luò)來(lái)解釋物種生態(tài)位的相似性和其背后的機(jī)制,,而不是生物相互作用(R?ttjers和Faust 2018)(小編注釋:共現(xiàn)網(wǎng)絡(luò)中的邊數(shù)只能表征微生物之間的潛在相互作用的強(qiáng)和弱,不能直接視為為微生物之間的真實(shí)相互作用),。 功能分析對(duì)于揭示物種共現(xiàn)模式和群落組合的結(jié)構(gòu)機(jī)制具有重要意義,。以前的研究幾乎沒(méi)有破譯過(guò)微生物共現(xiàn)網(wǎng)絡(luò)模塊的功能概況,,主要是由于方法上的困難,。我們使用FAPROTAX數(shù)據(jù)庫(kù)來(lái)識(shí)別物種特征,并分析了網(wǎng)絡(luò)模塊的功能冗余(圖6A),。結(jié)果顯示,,M2(第二大模塊)有很高比例的種群(OTU)具有好氧化合功能。在M4中沒(méi)有發(fā)現(xiàn)N-循環(huán)和S-循環(huán)相關(guān)的種群,。然后,,我們計(jì)算了群落的功能冗余度,,并將功能冗余度與非生物因素相關(guān)聯(lián),以探索非生物因素如何影響功能冗余度(圖6B),。結(jié)果表明,,電導(dǎo)率和MAT(年平均溫度)都與亞硫酸鹽呼吸和光合作用相關(guān)的功能冗余有極其顯著的正相關(guān)關(guān)系。最后,,我們用綜合函數(shù)預(yù)測(cè)代謝途徑的豐度,,并在CW、IW和TW之間進(jìn)行LEfSe(圖6C),。CW,、IW和TW中LDA得分最高的分別是遺傳信息處理、新陳代謝和環(huán)境信息處理,,這意味著每個(gè)區(qū)域的富集和指示性途徑反映了與群落結(jié)構(gòu)相關(guān)的獨(dú)特的生物和基因模式,。這一預(yù)測(cè)性的、有意義的結(jié)果可能為元基因組測(cè)序研究的設(shè)計(jì)和數(shù)據(jù)挖掘帶來(lái)更多的希望和更深的思考,。 有必要指出的是,,隨著研究的復(fù)雜性和深度的增加,尤其是在最近十年,,統(tǒng)計(jì)和繪圖方法在微生物生態(tài)學(xué)中極為多樣,。盡管我們?cè)趍icroeco包中打包了許多常用的和獨(dú)特的方法,但不可能考慮所有的方法,,也不可能滿足這個(gè)領(lǐng)域的所有要求,。我們?cè)O(shè)計(jì)microeco包的主要理念是簡(jiǎn)單而不失力量。因此,,關(guān)鍵是如何讓研究人員快速,、方便地在該領(lǐng)域進(jìn)行數(shù)據(jù)挖掘。我們選擇了先進(jìn)的和有代表性的方法來(lái)提高功率,,并將這些方法分為幾類,,以使框架清晰。 創(chuàng)建microeco項(xiàng)目的目標(biāo)之一是幫助研究人員縮小在學(xué)習(xí)分析方法的難度和對(duì)快速數(shù)據(jù)挖掘的需求之間一直存在的差距,,特別是對(duì)新手程序員,。目前,使用microeco軟件包可以實(shí)現(xiàn)對(duì)許多熱點(diǎn)和重大科學(xué)問(wèn)題的數(shù)據(jù)探索,,如物種共現(xiàn)模式(圖2)和功能概況(圖3),。使用microeco軟件包的另一個(gè)好處是,它對(duì)研究者來(lái)說(shuō)具有高度的可重復(fù)性,,便于在出版物中描述復(fù)雜的方法,。 結(jié)論 microeco軟件包的特點(diǎn)是:(i)高度模塊化,每個(gè)類涵蓋了分析的各個(gè)部分,,軟件包的結(jié)構(gòu)和功能易于理解,、記憶,、搜索和使用;(ii)高度靈活性,,每個(gè)部分都實(shí)現(xiàn)了不同的算法或方法,,使分析具有靈活性;(iii)快速行動(dòng),,一些算法已被優(yōu)化,;(iv)功能強(qiáng)大,實(shí)現(xiàn)了一些前沿的方法,,如LEfSe,、網(wǎng)絡(luò)分析、空模型和功能冗余計(jì)算,。 |
|
來(lái)自: 長(zhǎng)樂(lè)社_1 > 《方法拓展》