本文由卡內(nèi)斯坦編譯,董小橙,、江舜堯編輯,。 原創(chuàng)微文,歡迎轉(zhuǎn)發(fā)轉(zhuǎn)載,。 微生物組學(xué)研究主要涉及兩方面技術(shù):測序技術(shù)和數(shù)據(jù)分析技術(shù),。近年來,這兩方面技術(shù)都在不斷進(jìn)步,。如何為自己的研究選擇恰當(dāng)?shù)募夹g(shù)方法,,同時提高研究的規(guī)范性以增加結(jié)果的可重復(fù)性?在本綜述中,,作者基于當(dāng)前技術(shù)進(jìn)展對實驗方法選擇和流程標(biāo)準(zhǔn)化給出了全面的建議,。 論文ID 原名:Best practices for analysing microbiomes 譯名:微生物組學(xué)分析的最佳策略 期刊:Nat. Rev. Microbiol. IF:31.851 發(fā)表時間:2018年 通信作者:Rob Knight 通信作者單位:Center for Microbiome innovation, university of California san Diego, La Jolla, Ca, USA 綜述內(nèi)容 引言 近年來,,DNA測序技術(shù)和數(shù)據(jù)分析技術(shù)飛速發(fā)展。例如,,分類分辨率不斷提高,,錯誤發(fā)生率不斷降低。整合宏基因組和代謝組數(shù)據(jù)的方法,、成分?jǐn)?shù)據(jù)分析的方法和機(jī)器學(xué)習(xí)的應(yīng)用也都取得較大進(jìn)步,。研究結(jié)果表明,基于精確序列變異體(exact sequence variants)的分類方法較傳統(tǒng)基于操作分類單元(OTU)的方法具有明顯優(yōu)勢,。雖然技術(shù)進(jìn)步極大地提升了研究人員數(shù)據(jù)分析的能力,,但前期實驗設(shè)計依然應(yīng)該給予足夠重視。常見的實驗設(shè)計缺陷對研究的可重復(fù)性影響較大,。因此,,在應(yīng)用微生物組學(xué)新方法的同時,不應(yīng)忽略科學(xué)研究普遍要求,。 1 實驗設(shè)計 典型的科學(xué)問題,,例如病例控制研究和縱向干預(yù)研究,都可以采用微生物組學(xué)方法進(jìn)行分析,;且基本不受樣本來源如何的影響,。但要注意根據(jù)要回答的科學(xué)問題選擇恰當(dāng)?shù)姆椒āA硗?,不同方法的分析效能也有所不同,。比如?6S rRNA擴(kuò)增子測序與宏基因組測序的在某些樣本上獲得結(jié)果并不一致。實驗過程本身也在一些干擾因素,,需要在研究前充分考慮并選擇恰當(dāng)?shù)姆纸M方法和設(shè)置對照,,以降低其對實驗結(jié)果的干擾。嚴(yán)謹(jǐn)?shù)膶嶒炘O(shè)計對結(jié)果的準(zhǔn)確性有決定性作用,。 首先,,針對課題選擇合適的研究類型:(1)橫斷面研究可用于研究不同人群之間微生物群落的差異。例如,,健康人群和患病人群,,或者生活在不同地域的個體。但在實驗設(shè)計中應(yīng)排除飲食差異,、用藥與否和生理學(xué)差異的影響,。(2)縱向研究,特別是前瞻性縱向研究,,通過比較用藥前后的微生物群落的變化能夠闡明藥物的影響,。此類研究應(yīng)仔細(xì)規(guī)劃樣品采集時間,比如不同的受試者采樣時間應(yīng)一致,。(3)介入性研究,,包括隨機(jī)雙盲對照研究,,可用于評價治療對微生物組和疾病的影響。 其次,,提前確定數(shù)據(jù)分析方法和要回答的具體問題有助于明確實驗所需的樣本量,。例如,測試新的廣譜抗生素對小鼠腸道微生物群的影響,,比確定腸道微生物群變化,需要更大的樣本量,。同時,,應(yīng)采用適當(dāng)?shù)姆椒ㄔu估統(tǒng)計效能,以降低實驗過程中干擾信號對結(jié)果的影響,。目前微生物組研究中統(tǒng)計效能和效應(yīng)量化分析仍存在不少問題,。目前使用的相關(guān)分析方法主要基于PERMANOVA、Dirichlet Multinomial或者隨機(jī)森林分析(random forest analysis),。這些分析方法的改進(jìn),,不僅對研究設(shè)計和樣本量選擇有指導(dǎo)作用,對整合宏基因組,、宏轉(zhuǎn)錄組,、宏蛋白質(zhì)組和宏代謝組數(shù)據(jù)集也有很有幫助。 最后,,對于某些尚無成型規(guī)范的特殊實驗設(shè)計,,建議參考具有相似樣本類型和預(yù)期成果的成功研究范例。 對照設(shè)置和排除標(biāo)準(zhǔn) 在病例對照研究中,,必須適當(dāng)選擇和設(shè)置對照,。年齡和性別是常見的對照因素,盡管性別對微生物組的影響相對較弱,。藥物治療和飲食也必須嚴(yán)格控制,。環(huán)境研究也需要考慮類似的因素。文獻(xiàn)表明,,不同地塊的差異是常見的干擾因素,,應(yīng)該通過嵌套統(tǒng)計檢驗加以排除。通過設(shè)置對照獲得全面數(shù)據(jù),,并在此基礎(chǔ)上排除干擾因素對結(jié)果的影響,,是研究成功的關(guān)鍵。 定義明確的入組和排除標(biāo)準(zhǔn)能夠最大限度地限制協(xié)變量的干擾,。例如,,研究表明,抗生素干預(yù)后個體微生物群恢復(fù)需要6個月,。因此,,應(yīng)排除過去6個月內(nèi)接受抗生素治療的個體,。同樣,洗手后皮膚微生物組的恢復(fù)需要約2小時,。 動物模型 用于微生物組學(xué)研究的動物模型主要是嚙齒類動物,,如小鼠。其他模式生物,,如短尾魷魚,、昆蟲和斑馬魚,主要用于研究宿主和微生物之間的特定相互作用(例如,,微生物組與宿主遺傳特性之間的相互影響),。嚙齒動物,因與人類的生理相似性和樣本可及性,,是微生物組學(xué)研究的最優(yōu)選擇,。 嚙齒動物中的微生物組學(xué)研究中需要注意以下三個方面:(1)籠養(yǎng)效應(yīng)。吃食糞便的習(xí)慣導(dǎo)致同籠嚙齒動物的糞便微生物組隨時間推移會逐漸接近,。因此,,必須在多個籠子中重復(fù)實驗以控制籠養(yǎng)效應(yīng)。(2)早期微生物暴露和父母的影響,。單個研究應(yīng)選擇生產(chǎn)和早期生活環(huán)境都類似的小鼠,。同窩仔需要在不同籠之間隨機(jī)。(3)環(huán)境因素,。飲食,、墊料、供應(yīng)商,、運(yùn)輸條件和飼養(yǎng)設(shè)備等都會對小鼠微生物組有影響。 類似的因素也適合其他模式生物,,如斑馬魚,。 技術(shù)方法 微生物組研究的每個步驟都有多種技術(shù)和試劑盒可供選擇,但單個研究內(nèi)部統(tǒng)一步驟應(yīng)具有操作一致性,。在DNA提取,、PCR和測序過程中可加入空白對照,以避免該步驟發(fā)生污染,??赡艿那闆r下,盡量將樣本保存在-80°C,。這樣能夠有效降低污染微生物的增殖而導(dǎo)致污染數(shù)據(jù)的比例升高,、避免運(yùn)輸過程中微生物增殖導(dǎo)致的結(jié)果偏差。如果冷凍無法實現(xiàn),可采用95%乙醇或者商品化試劑(如RNAlater,、OMNIgene Gut)進(jìn)行保存,。不同測序批次間用模擬菌落(菌落組成已知的參考樣本)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化。 圖1 微生物組學(xué)實驗設(shè)計需要考慮的因素 2 測序靶標(biāo)和方法 測序方法主要分為三種:標(biāo)記基因測序,、宏基因組測序和宏轉(zhuǎn)錄組測序,。標(biāo)記基因測序可獲得高深度但低分辨率的數(shù)據(jù);宏基因組測序提供的DNA信息更為廣泛,,能夠?qū)崿F(xiàn)菌株分辨,、生物功能預(yù)測;依靠總RNA進(jìn)行的宏轉(zhuǎn)錄組測序主要用于表征微生物群的基因表達(dá),。應(yīng)根據(jù)所研究的問題,、假設(shè)、樣本類型和分析目標(biāo)選擇恰當(dāng)?shù)臏y序方法,。下面我們主要從成本、穩(wěn)健性,、分辨率和難度等方面對上述三種方法進(jìn)行比較,。 表1 不同基因組測序方法研究微生物群落的優(yōu)劣 圖2 16S rRNA、宏基因組測序,、宏轉(zhuǎn)錄組測序的最佳流程 標(biāo)記基因測序 標(biāo)記基因測序測定目標(biāo)基因的特定區(qū)域,,進(jìn)而確定樣品中微生物群中微生物的種類和豐度。所選的特定區(qū)域通常包含高可變區(qū)(用于進(jìn)行種屬鑒定)和高度保守的側(cè)翼區(qū)域(PCR引物的結(jié)合位置),。常見的區(qū)域是細(xì)菌和古細(xì)菌的16S rRNA,,以及真菌的內(nèi)部轉(zhuǎn)錄間隔區(qū)(ITS)。標(biāo)記基因測序是獲得微生物群落結(jié)構(gòu)低分辨視圖快速經(jīng)濟(jì)的辦法,。該方法的適用范圍極廣,,尤其對于受宿主DNA污染的樣本(如組織和低生物量樣本)具有較好的適用性。這種方法的主要問題是PCR擴(kuò)增期間的誘導(dǎo)偏倚,,即不同基因并非完全等比例擴(kuò)增,。造成這種偏倚的因素包括可變區(qū)本身、擴(kuò)增子大小,、PCR循環(huán)數(shù),、引物設(shè)計、樣品含量過低,。雖然優(yōu)化引物可以減少偏倚,,但即是最優(yōu)秀的引物一般也只能獲得屬級別的分類學(xué)分辨率。 全序列宏基因組測序 宏基因組測序?qū)悠分兴形⑸锘蜻M(jìn)行測序,。與標(biāo)記基因測序相比,,宏基因組測序獲得基因組信息更詳細(xì)、分類學(xué)分辨率也更高。但樣本制備,、測序和數(shù)據(jù)分析的成本也更高,。如果給定足夠的測序深度,宏基因組測序能夠準(zhǔn)確分別出物種或者菌株信息,,還能夠從短片段DNA拼接出整個微生物的基因組全序列 ,。但從頭基因注釋難以實現(xiàn)。宏基因組測序能夠從基因水平描述整個微生物群落的生物功能,。相較于標(biāo)記基因過程中的偏差,,研究人員對宏基因組測序在文庫構(gòu)件、組裝和注釋過程中引入的偏差目前了解較少,。隨著技術(shù)的發(fā)展,,基因注釋的能力將逐步提高。 宏轉(zhuǎn)錄組測序 宏轉(zhuǎn)錄組通過RNA測序來分析微生物中的轉(zhuǎn)錄情況,,從而提供有關(guān)基因表達(dá)和微生物功能的信息,。標(biāo)記基因測序和宏基因組測序測定樣本中的DNA,因此它們不受細(xì)胞活力和活性的影響,。而宏轉(zhuǎn)錄組測序一般主要用來分析具有活性的細(xì)胞,,且對高轉(zhuǎn)錄活性的生物體具有偏向性。當(dāng)然,,宏轉(zhuǎn)錄組測序?qū)θコ鼶NA的死細(xì)胞的RNA進(jìn)行分析,。高豐度的宿主rRNA是常見的污染源,因此應(yīng)將其去除,。RNA較容易降解,,應(yīng)小心保存。某些樣本的RNA提取需要采用特殊的純化方法,。例如,,土壤樣品需要去除具有酶抑制活性的腐殖物質(zhì)。在標(biāo)記基因測序和宏基因組測序之外,,宏轉(zhuǎn)錄組測序為了解微生物群的特征提供了另外的視角,。不同個體之間,宏轉(zhuǎn)錄組的變異比宏基因組要大,。 3 數(shù)據(jù)分析 同時使用以上三種測序方法對樣品進(jìn)行測序分析是最理想的情況,。但有些樣本可能不適合其中某一種方法,這時就需要根據(jù)研究目的進(jìn)行選擇,。如果預(yù)算有限,,我們建議進(jìn)行宏基因組測序而不是標(biāo)記基因測序。不過,,通常的做法是先通過標(biāo)記基因測序獲得微生物群落的低分辨率分類學(xué)數(shù)據(jù),;然后,在此基礎(chǔ)上,對某些樣本采用宏基因組測序進(jìn),。 標(biāo)記基因測序數(shù)據(jù)分析 標(biāo)記基因擴(kuò)增子測序數(shù)據(jù)分析的第一步是去除測序錯誤:盡管測序錯誤率非常低(例如,,在Illumina測序中,每個核苷酸的錯誤率大約是0.1%),,但大多數(shù)的序列多樣性仍然是來自測序錯誤,。傳統(tǒng)的分析方法是將相似序列聚類(通常以97%相似性作為閾值),稱為操作分類單元OTU,。這種方法將真正的SNP和測序錯誤都暫時忽略,,在進(jìn)一步分析OTU內(nèi)部差異時才會進(jìn)行考察。Oligotyping通過以下兩種方法提高了OTU分組的精準(zhǔn)度:(1)包含16S rRNA測序的位置信息以確定核苷酸變異,;(2)區(qū)分相似但不一致的分類,。Deblur和DADA2等算法利用核苷酸差異信息將DNA序列分到完全一致的組里,稱為subOTU,。獲得的分析結(jié)果是DNA序列和序列計數(shù),,而不是OTU及其計數(shù)。我們建議用新方法替代傳統(tǒng)的OTU法,。當(dāng)然,,某些特殊情況除外。比如,,同時處理不同技術(shù)、不同引物產(chǎn)生的數(shù)據(jù)時,。 另一個關(guān)鍵的步驟是將分類名稱分配給數(shù)據(jù)中的微生物序列,。分類通常是由機(jī)器學(xué)習(xí)方法完成,如RDP分類器(在屬水平上的準(zhǔn)確率大約為80%),。流行的微生物組學(xué)分析包,,如QIIME和Mothur等,都提供這一工具,。原則上,,與參考數(shù)據(jù)庫進(jìn)行精確比對能夠得到更為準(zhǔn)確的分類信息。但是,,由于存在大量無法分類的序列,,比對結(jié)果的靈敏度較差?;谳^短的標(biāo)記基因序列從頭構(gòu)建的系統(tǒng)發(fā)育樹準(zhǔn)確度也較差,。將測序結(jié)果插入到基于全長序列構(gòu)建的系統(tǒng)發(fā)育樹相對更為客觀。在進(jìn)行序列分析前,,應(yīng)先去除細(xì)胞器(線粒體或葉綠體)的基因組,。 功能預(yù)測是根據(jù)獲得的標(biāo)記基因序列對微生物群的宏基因組和生物功能進(jìn)行預(yù)測。首先通過與參考數(shù)據(jù)庫比對產(chǎn)生OTU表;對每個OUT基于進(jìn)化模型給出預(yù)測的置信區(qū)間:離參考序列較遠(yuǎn)的分支,,置信區(qū)間較寬,;離參考序列近的,則較窄,。因此,,參考序列的全面與否直接影響分析結(jié)果的精確度。另外一個影響因素是某些細(xì)菌的16S rRNA可變區(qū)非常相似,,盡管他們存在明顯的形態(tài)學(xué)和遺傳學(xué)差異,。 宏基因組和宏轉(zhuǎn)錄組數(shù)據(jù)分析 基于read的分析方法,將未拼接的read與數(shù)據(jù)庫比較,,從而進(jìn)行分類和注釋,。Kraken等采用k-mers的策略,將分類學(xué)信息分配給長度為k的片段,;Bowtie2和Centrifuge等利用Burrows-Wheeler轉(zhuǎn)換,,將相似序列合并后再進(jìn)行分類;MetaPhlAn2和TIPP等采用標(biāo)記基因策略,,利用特異的基因組區(qū)域(普遍存在的單拷貝序列)進(jìn)行分類,。HUMAnN2等工具能夠?qū)?biāo)注基因和代謝途徑信息。而MEGAN等包含以上兩種功能(片段分類以及基因和代謝途徑標(biāo)注),?;趓ead的方法是單獨分析每一個read,因此能夠方便地擴(kuò)展到大型的復(fù)雜數(shù)據(jù),。例如,,土壤微生物組數(shù)據(jù)。因為要將每一個read和數(shù)據(jù)庫比較,,數(shù)據(jù)庫的選擇就顯得尤為重要,。對于人類腸道等特征明顯的數(shù)據(jù),應(yīng)選擇有針對性的數(shù)據(jù)庫(如基因數(shù)據(jù)庫RefSeq,,蛋白質(zhì)數(shù)據(jù)庫Pfam或UniRef)以提高結(jié)果的準(zhǔn)確性并降低計算成本,。對于特征不清晰的樣本,應(yīng)考慮NCBI nr和nt以及IMG/M等大型數(shù)據(jù)庫,。因為數(shù)據(jù)庫較大,,計算的復(fù)雜性增加,但分析結(jié)果的特異性卻較低,。某些特定種類或者功能分析,,需要借助專門的數(shù)據(jù)庫:噬菌體采用PHASTER,抗生素耐藥基因采用Resfams,,環(huán)境樣本采用FOAM,。很多樣本類型都有對應(yīng)的宏基因組數(shù)據(jù)庫目錄:如Tara針對海洋樣本,,BGI針對小鼠腸道樣本,MetaHit針對人類腸道樣本,。 另外一種分析宏基因組和宏轉(zhuǎn)錄組數(shù)據(jù)的方法是將短read拼接成長序列,。這些長序列可以進(jìn)行分類,或者進(jìn)一步拼接得到部分甚至全部微生物基因組,。這樣不僅能夠獲得分類學(xué)信息或者基因信息,,甚至能夠獲得通路信息、構(gòu)建代謝通路(此類工具有antiSMASH),。這種方法并不是普遍適用的,。當(dāng)樣品的生物多樣性較高、樣品中存在多個相似菌株或者覆蓋率較低等將會導(dǎo)致拼接結(jié)果的碎片化,,從而使下游分類學(xué)信息不夠準(zhǔn)確,。例如,由于高生物多樣性和分布不均勻,,土壤樣本通常難以組裝,。如果不存在以上問題,宏基因組的拼接結(jié)果將為宏轉(zhuǎn)錄組的read策略分析和拼接策略分析提供極好的參考數(shù)據(jù)庫,,甚至能夠找到之前數(shù)據(jù)庫中不存在的“微生物暗物質(zhì)”,。基于拼接的分析工具metaSPAdes和MEGAHIT值得推薦,。在拼接某個微生物部分或者全部基因組的過程中,,MaxBin2和CONCOCT通過評價核苷酸組成和樣品間的豐度模式,將長序列歸給某個基因組,。CheckM通過分析普遍存在單拷貝基因?qū)Ψ纸M和拼接的結(jié)果進(jìn)行評價,,如序列的完整性和污染是否存在。VizBin等可視化工具在不與參考數(shù)據(jù)庫比對的條件下展示宏基因組序列的聚集形式,,讓研究者能夠據(jù)此判斷分組的合理性,。因為基于拼接的分析方法較為復(fù)雜,,建議使用工作流使數(shù)據(jù)處理自動化,。這方面的工具有Anvi’o,ATLAS和MetAMOS,。 對于read數(shù)存在差異的數(shù)據(jù),,歸一化的方法有每百萬中read數(shù)(依據(jù)reads總數(shù))、每一千個堿基的轉(zhuǎn)錄體個數(shù)(依據(jù)read數(shù)和read長度)或者將數(shù)據(jù)轉(zhuǎn)化成相對豐度,。這方面的工具也較多,,比如,edgeR和DESeq2,。 4 更高等級數(shù)據(jù)分析 微生物群之間的模式差異一般用α多樣性和β多樣性描述,。α多樣性對單個樣本中的特征多樣性進(jìn)行量化,,并且可以進(jìn)行樣本間比較。物種豐度(測定物種的數(shù)量或者Chao1豐度估計)和系統(tǒng)發(fā)育分析分布(Faith’s系統(tǒng)發(fā)育多樣性)都對序列數(shù)量敏感,。結(jié)合豐度和均勻度的方法(Shannon指數(shù))能克服這一問題,。α多樣性分析只適用于16S rRNA數(shù)據(jù)。β多樣性比較每對樣本之間的特征差異,,生成所有樣本之間距離矩陣,。定量矩陣(Bray-Curtis,Canberra和加權(quán)UniFrac)依據(jù)物種豐度值進(jìn)行計算,;而定性矩陣(binary-Jaccard和不加權(quán)UniFrac)僅考慮物種存在與否,。系統(tǒng)進(jìn)化分析(UniFrac)能夠?qū)?shù)據(jù)進(jìn)行生物學(xué)描述。這種分析需要構(gòu)建進(jìn)化樹,,對于不存在進(jìn)化樹的組學(xué)數(shù)據(jù)無法進(jìn)行此類分析,。QIIME、Mothur和R package vegan都可以進(jìn)行α多樣性和β多樣性分析,。非參數(shù)置換分析PERMANOVA和ANOSIM可用于評價顯著的β多樣性聚類,;PERMANOVA在組內(nèi)分散性變化較大的數(shù)據(jù)上表現(xiàn)較好??刂茰y序結(jié)果的數(shù)據(jù)量對與獲得有意義的α多樣性和β多樣性至關(guān)重要,。因為不同樣本間數(shù)據(jù)量的差異經(jīng)常達(dá)到幾個數(shù)量級。UniFrac通過稀釋策略解決這一問題,。但對于成對的豐度差異比較必須使用全部的測序數(shù)據(jù),。 β多樣性數(shù)據(jù)可以借助主坐標(biāo)分析(PCoA)或主成分分析(PCA)進(jìn)行可視化,并通過對樣本進(jìn)行分類著色從而實現(xiàn)自動聚類,。EMPeror提供了交互式操作PCoA圖的平臺,。 另一種分析方法是考察不同樣本間存在豐度差異的微生物或功能單位(基因或通路)。比較微生物的豐度差異是一個具有挑戰(zhàn)性的課題,。因為每個樣本的數(shù)據(jù)都是高維的(包含數(shù)千個分類),、稀疏的(存在很多0)且混合組成的。因總和為1,,當(dāng)一種微生物的比例增加時,,其他微生物的比例必然減少。這導(dǎo)致傳統(tǒng)的比較方法(參數(shù)檢驗法或Spearman秩檢驗)常出現(xiàn)高于90%的錯誤率,。最近,,將組成性納入考慮的新方法很好地解決了這一問題。一種方法是在統(tǒng)計檢驗中加入強(qiáng)烈的生物學(xué)假設(shè),。如Lovell’s的比例矩陣僅關(guān)心正相關(guān),;其他廣泛使用的且針對微生物組數(shù)據(jù)優(yōu)化的工具,如SparCC何SPEICEASI,,假設(shè)很少物種相關(guān),。我們推薦另一種方法,,它不假設(shè)物種很少相關(guān),而是對微生物群落之間的差異進(jìn)行等對數(shù)比例轉(zhuǎn)換(ilr),。這種方法能夠降低假陽性的原因是它比較的是微生物豐度對數(shù)比例的差異,,也就是平衡。這種平衡可以借助先驗的知識進(jìn)行構(gòu)建,,如進(jìn)化史或者對特定環(huán)境因素刺激(如低pH)的反應(yīng),。用ilr進(jìn)行數(shù)據(jù)處理后,即可以采用標(biāo)準(zhǔn)的統(tǒng)計方法進(jìn)行分析,,如多變量分析,、線性回歸和分類等。另外一種新方法是結(jié)合絕對數(shù)據(jù)量和細(xì)胞數(shù)進(jìn)行分析,,同樣也能解決組成性問題,。 機(jī)器學(xué)習(xí)被越來越多地應(yīng)用于微生物組學(xué)數(shù)據(jù)分析,比如依據(jù)現(xiàn)狀進(jìn)行分類或者預(yù)測微生物群未來狀態(tài),。例如,,可以根據(jù)口腔微生物群的狀態(tài)對牙齦炎的嚴(yán)重性和易感性進(jìn)行建模分析。機(jī)器學(xué)習(xí)技術(shù)隨機(jī)森林回歸被用于從回溯身體死亡時間到測定兒童發(fā)育過程中微生物群落成熟度,。SourceTracker能夠?qū)ξ⑸锶郝涞膩碓催M(jìn)行分析,。根據(jù)樣本的來源環(huán)境它能夠?qū)颖具M(jìn)行很好地分類。機(jī)器學(xué)習(xí)技術(shù)需要大量的樣本數(shù)據(jù),,同時還需要交叉驗證,、獨立的測試數(shù)據(jù)集或者實驗證實。 5 多組學(xué)數(shù)據(jù)整合 整合多組學(xué)數(shù)據(jù)——包括標(biāo)記基因測序數(shù)據(jù),、宏基因組,、宏轉(zhuǎn)錄組、宏蛋白質(zhì)組,、宏代謝組以及其他組學(xué)數(shù)據(jù)——能夠獲得特定微生物群的構(gòu)成和功能的全面信息,。但這項工作并不容易。比如,,基因表達(dá)和代謝的時間尺度不同,,微生物的很多代謝物是對環(huán)境應(yīng)激的結(jié)果。另外,,和宏蛋白質(zhì)組相比,,宏基因組和宏代謝組更加稀疏,,這也帶來技術(shù)上的難題,。不過,可喜的是用于多組學(xué)數(shù)據(jù)整合的工具越來越多,。例如,,XCMS在線能夠整合宏代謝組學(xué)與代謝通路,、蛋白質(zhì)組和轉(zhuǎn)錄組。雖然傳統(tǒng)的相關(guān)性檢驗方法(如Pearson和Spearman)能夠?qū)Τ蓪?shù)據(jù)的某些特征進(jìn)行跨組學(xué)相關(guān)性檢驗,,但因為組學(xué)數(shù)據(jù)的稀薄性和高維性,,這些方法易產(chǎn)生假陽性。Procrustes分析采用降維數(shù)據(jù),,能夠判斷一個數(shù)據(jù)集中的距離模式(向量空間而非單個特征)是否在另一個數(shù)據(jù)集中出現(xiàn),。另一些方法在考慮樣本間關(guān)系的同時整合多組學(xué)數(shù)據(jù)(比如,比較健康組和疾病組),。這類方法包含慣性分析(使用降維數(shù)據(jù)對兩個樣本組的多個數(shù)據(jù)集進(jìn)行整合),、偏最小平方法以及相關(guān)的規(guī)范相關(guān)分析、穩(wěn)健稀疏規(guī)范相關(guān)分析(一種處理稀疏組學(xué)數(shù)據(jù)的方法變體),。 圖3 其他組學(xué)數(shù)據(jù)與微生物組學(xué)數(shù)據(jù)整合 先進(jìn)的集成分析工具通過集成GNPS組件獲得分子網(wǎng)絡(luò)分析功能,,從而能夠發(fā)現(xiàn)代謝物和代謝通路信息,同時還集成通用系統(tǒng)性生物分析工具,。這方面比較突出的例子是XCMS在線,。多組學(xué)研究正在從空間模式的發(fā)現(xiàn)逐漸擴(kuò)展到時間模式的研究。工具“ili”提供的空間映射功能讓多組學(xué)分析結(jié)果可視化,,為研究人員解讀數(shù)據(jù)提供了極大的方便,。 多種統(tǒng)計學(xué)方法都可用于整合分析多組學(xué)數(shù)據(jù),但他們在微生物組學(xué)上的表現(xiàn)欠佳,。另外,,找到不同組學(xué)數(shù)據(jù)之間的相關(guān)性只是第一步。下一步的工作是建立因果關(guān)系,、找到多數(shù)據(jù)集之間的相關(guān)性,。表3列出了整合微生物組學(xué)和代謝組學(xué)的實例,并給出了進(jìn)行相關(guān)性和因果分析的工具,。因為組學(xué)數(shù)據(jù)包含成千上萬的微生物和代謝物,,很多相關(guān)性都是隨機(jī)產(chǎn)生的假象。因此,,非常有必要對多組學(xué)數(shù)據(jù)中的比較結(jié)果進(jìn)行修正,。顯著性分析的修正方式包括Benjaminl-Hockberg修正提供的錯誤發(fā)現(xiàn)率(false discovery rate)以及更保守的Bonferroni修正的家庭式錯誤(family-wise error)。充分考慮數(shù)據(jù)的稀疏性和組成性,,并用上述方法進(jìn)行結(jié)果修正能夠有效避免大規(guī)模多組學(xué)數(shù)據(jù)比較中的錯誤發(fā)生率,。 綜述結(jié)論 本綜述中,我們討論了微生物組學(xué)研究各個環(huán)節(jié)對實驗結(jié)果和生物學(xué)解讀的影響,。其中很多步驟造成的結(jié)果偏差遠(yuǎn)超出真實的差異范疇,。為對多個研究進(jìn)行比較和整合,非常必要對研究進(jìn)行標(biāo)準(zhǔn)化,。目前這方面的工作已有初步進(jìn)展,。例如,,國際人類微生物組學(xué)和微生物組學(xué)質(zhì)量控制(MBQC)。這些標(biāo)準(zhǔn)化方法采用生物信息學(xué)工作流程和對照,,結(jié)合云平臺上運(yùn)行的開源算法,,讓研究人員不僅可以重復(fù)文獻(xiàn)的內(nèi)容,也提高了組學(xué)研究的一致性和可比性,。標(biāo)準(zhǔn)化的工作不僅涉及制定各種實驗標(biāo)準(zhǔn)流程,,還包括建立標(biāo)準(zhǔn)化的真實生物樣本。這類樣本可用于定量分析微生物組學(xué)分析的系統(tǒng)準(zhǔn)確性,。 本文重點介紹的是群落水平的DNA分析,。隨著表達(dá)分析和單細(xì)胞分析的不斷發(fā)展,類似的考慮也適用于這兩個領(lǐng)域,。借鑒過去失敗的教訓(xùn),、采用標(biāo)準(zhǔn)化的操作流程,必將極大地加速這些領(lǐng)域的發(fā)展,。另外,,隨著數(shù)據(jù)量的急劇增大,充分考慮各種流行病學(xué)干擾因素,、進(jìn)行更加仔細(xì)的縱向?qū)嶒炘O(shè)計變得越來越重要,。隨著人體實驗、模式動物實驗和體外組織實驗數(shù)據(jù)獲得和處理技術(shù)的進(jìn)步,,干預(yù)性研究相對觀察性實驗的優(yōu)勢也變得更加明顯,。隨著技術(shù)標(biāo)準(zhǔn)化的建立和優(yōu)秀方法的廣泛傳播,微生物組學(xué)研究的結(jié)果必將走出實驗室,,進(jìn)入臨床應(yīng)用,、現(xiàn)場應(yīng)用和環(huán)境應(yīng)用。 評論 微生物組學(xué)研究需要有效結(jié)合實驗技術(shù)和生物信息學(xué)技術(shù),。尤其生物信息學(xué)技術(shù)的進(jìn)展,,簡直可以用日新月異來形容。各種生物學(xué)工具“亂花漸欲迷人眼”,,希望作者系統(tǒng)的介紹能為大家“昨夜西風(fēng)凋碧樹,,獨上高樓望盡天涯路”。同時作者也指出,,實驗設(shè)計才是基本功夫,,“基礎(chǔ)不牢,地動山搖”,。 謝謝大家閱讀~歡迎交流 |
|