久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

超強(qiáng)綜述 | Rob Knight等手把手教你分析菌群數(shù)據(jù)(全文翻譯1.8萬字)

 paul2020 2018-07-05

本文轉(zhuǎn)載自“熱心腸先生”,己獲授權(quán)。

導(dǎo)讀

自然微生物綜述(2017 IF:31.851)于2018年5月23日在線發(fā)表了Rob Knight親自撰寫(一作兼通訊)的微生物組領(lǐng)域研究方法綜述,,不僅系統(tǒng)總結(jié)了過去,,更為未來3-5年內(nèi)本領(lǐng)域研究方法的選擇,提供了清晰的技術(shù)路線,,讓大家走干道,,少跳坑,做出更好的研究,。值得本領(lǐng)域?qū)I(yè)人士細(xì)心品讀,。

Rob Knight (https://knightlab./)是誰你還不知道嗎?他有多牛呢,??jī)H2017發(fā)表高水平文章41篇,,截止2018年6月25日,累計(jì)發(fā)表文章565篇,,引用124661次,,代表作QIIME引用11215次,h指數(shù)高達(dá)142 (可怕,、恐怖,,霍金才62,世界紀(jì)錄才191),。

Rob Knight教授最早在科羅拉多大學(xué)任職,,目前就職于加州大學(xué)圣地亞哥分校微生物組創(chuàng)新中心主任。他是地球微生物組計(jì)劃(EMP),、美國(guó)腸道計(jì)劃的發(fā)起人之一,,詳見其主頁(yè) https://knightlab./

摘要

復(fù)雜的微生物群落形成動(dòng)態(tài)、多變的自然環(huán)境,,包括哺乳動(dòng)物腸道,、土壤等。DNA測(cè)序技術(shù)的和數(shù)據(jù)分析發(fā)展極大地推動(dòng)了微生物組學(xué)物種鑒定,、假陽性率控制等方面研究,。

本文作者從實(shí)驗(yàn)設(shè)計(jì)、分子分析技術(shù)選擇,、數(shù)據(jù)分析方法以及綜合多種組學(xué)數(shù)據(jù)集等不同方面,,對(duì)如何實(shí)現(xiàn)最優(yōu)的微生物組學(xué)研究進(jìn)行探討,。比如對(duì)近期快速發(fā)展的精確序列變異(exact sequence variants)的方法替代傳統(tǒng)基于OTU的聚類分析,將宏基因組學(xué)和代謝組學(xué)相結(jié)合的方法,,組成性數(shù)據(jù)分析等方面進(jìn)行探討,。

值得注意的是,盡管這些方法很新穎,,但在研究中還是應(yīng)當(dāng)關(guān)注實(shí)驗(yàn)設(shè)計(jì)和與研究可重復(fù)性相關(guān)的經(jīng)典問題,。本綜述對(duì)這些問題進(jìn)行了總結(jié),幫助研究者深入了解微生物組數(shù)據(jù),。

背景介紹

無論是哺乳動(dòng)物腸道還是深海沉積物,,DNA測(cè)序技術(shù)的快速發(fā)展改變了我們對(duì)各類復(fù)雜生境中微生物群落組成和動(dòng)態(tài)變化的認(rèn)識(shí)。這些技術(shù)上的發(fā)展推動(dòng)從臨床研究到生物技術(shù)等科學(xué)領(lǐng)域微生物組研究數(shù)量激增,。

與之而來的是研究人員留下的大量實(shí)驗(yàn)數(shù)據(jù),,并使用一系列令人眼花繚亂的計(jì)算工具和方法進(jìn)行分析。和其他研究一樣,,在微生物組研究中,,扎實(shí)的實(shí)驗(yàn)是至關(guān)重要的,實(shí)驗(yàn)方法,、環(huán)境因素和分析都會(huì)影響最終結(jié)果,。雖然本領(lǐng)域當(dāng)前研究獲得了很多令人信服的成果,但數(shù)據(jù)收集和分析方法的標(biāo)準(zhǔn)卻仍不斷變化,。

微生物組分析方法和標(biāo)準(zhǔn)在快速發(fā)展,。特別是過去的兩年中,使用精確序列變異來替代OTU分析進(jìn)行差異豐度檢測(cè),,以及相關(guān)性分析發(fā)展迅速,。可以預(yù)期,,在宏基因組分類和功能方面,、從多個(gè)測(cè)序數(shù)據(jù)中整合數(shù)據(jù)集、進(jìn)一步改善機(jī)器學(xué)習(xí),、組成型數(shù)據(jù)分析以及多種組學(xué)分析等其他領(lǐng)域,,也有類似的進(jìn)展。

然而,,很多與微生物研究相關(guān)的基本問題都來自于統(tǒng)計(jì)和實(shí)驗(yàn)設(shè)計(jì)問題,。因此本領(lǐng)域目前最重要的挑戰(zhàn)是,整理微生物組研究獨(dú)有的新方法,,制定可以廣泛應(yīng)用于科學(xué)研究的標(biāo)準(zhǔn),。

一篇文章中很難完整涵蓋本領(lǐng)域所有內(nèi)容,,本文旨在為微生物組實(shí)驗(yàn)設(shè)計(jì)和分析所得數(shù)據(jù)提供直接的指導(dǎo)標(biāo)準(zhǔn),,特別關(guān)注人類,、模式生物以及環(huán)境微生物組。

實(shí)驗(yàn)設(shè)計(jì)

設(shè)計(jì)可以獲得有意義數(shù)據(jù)的實(shí)驗(yàn)是分析的第一步,。典型的科學(xué)問題,,例如病例控制和縱向干預(yù)研究等都可以放在微生物組的背景下研究。研究者可以分析在不同群落之間或時(shí)間序列下,,微生物群落之間結(jié)構(gòu)組成,、遺傳學(xué)或功能的潛在差異。

值得注意的是,,無論樣本來源是什么,,微生物組分析的普遍方法(見知識(shí)點(diǎn)1)都適用,但是,,這些分析的特定細(xì)節(jié)取決于樣品來源,,例如,從成功的宏基因組測(cè)序結(jié)果來看,,不同樣品的16S rRNA基因所需的擴(kuò)增區(qū)域是不一樣的,。

在評(píng)估不同樣品時(shí),還需要考慮的重要問題是實(shí)驗(yàn)設(shè)計(jì)和樣品收集,。對(duì)人類微生物組相關(guān)研究容易出現(xiàn)的問題進(jìn)行分析,,發(fā)現(xiàn)實(shí)驗(yàn)設(shè)計(jì)對(duì)研究過程非常重要,通常這些值得注意的問題在動(dòng)物模型和環(huán)境樣品中同樣適合(見知識(shí)點(diǎn)2),。

知識(shí)點(diǎn)1. 優(yōu)秀工作示例

微生物組學(xué)分析中,,可重復(fù)性至關(guān)重要。類似的微生物組相關(guān)研究常常產(chǎn)生矛盾的結(jié)果,,如果沒有詳細(xì)的樣品采集方法,、實(shí)驗(yàn)設(shè)計(jì)、數(shù)據(jù)處理和分析過程記錄就很難檢查和解釋出現(xiàn)問題的原因,。隨著本領(lǐng)域新技術(shù)的發(fā)展,,也有必要使用新的工具來重新分析一些早期的實(shí)驗(yàn)數(shù)據(jù),因?yàn)橹貜?fù)性對(duì)此類研究非常重要,。

在收集樣品時(shí),,采樣的詳細(xì)過程應(yīng)當(dāng)完整記錄,并且應(yīng)當(dāng)考慮到更多的影響因素,。另外,,實(shí)驗(yàn)中要遵循基因組標(biāo)準(zhǔn)聯(lián)盟提出的標(biāo)記基因(marker gene)和宏基因組的基因組最小信息標(biāo)準(zhǔn)(minimum information standards, MIxS):MIMARKS和MIMS。

這些標(biāo)準(zhǔn)保證各個(gè)數(shù)據(jù)集可以橫向比較,。在生物信息學(xué)處理過程中,,研究人員應(yīng)該跟蹤它們運(yùn)行的所有命令和軟件版本,并且將原始數(shù)據(jù)儲(chǔ)存在公共數(shù)據(jù)庫(kù)中,。

我們推薦使用Jupyter Notebooks,,R Markdown等工具來實(shí)現(xiàn)這個(gè)目的,,然后將其儲(chǔ)存在GitHub等版本控制管理系統(tǒng)中。一些軟件包,,例如QIIME 2以及Galaxy等,,可以通過整合數(shù)據(jù)系統(tǒng)自動(dòng)追蹤研究者的這些信息。

QiitaEBI是強(qiáng)大的組學(xué)分析和數(shù)據(jù)存檔工具,,二者結(jié)合起來可以使研究者在成千上萬的其他樣品的大數(shù)據(jù)背景下分析自己的微生物組數(shù)據(jù),,同時(shí)這些數(shù)據(jù)也可以被其他研究者再次使用。(這些軟件,、數(shù)據(jù)庫(kù)的簡(jiǎn)介和鏈接見文末鏈接部分)

知識(shí)點(diǎn)2. 考慮不同的微生物組的差異

盡管,,微生物組數(shù)據(jù)分析方法廣泛應(yīng)用于多種樣品類型和環(huán)境中,對(duì)于不同的樣品,,實(shí)驗(yàn)設(shè)計(jì)和方法的選擇還是需要認(rèn)真全面的考慮,。

首先要注意的問題是樣品的組成和使用不同方法的可行性。對(duì)于被非微生物DNA嚴(yán)重污染的樣品,,如植物,、動(dòng)物組織(通常宿主DNA占樣本的90-99%,想要獲得6 Gb微生物數(shù)據(jù),,理論上需要測(cè)序60 - 600 GB原始數(shù)據(jù))等如果不排除掉宿主的DNA,,鳥槍法宏基因組測(cè)序是不太可行的。

根據(jù)不同的實(shí)驗(yàn)問題,,如果樣品被死亡微生物等DNA遺跡嚴(yán)重污染(如土壤樣品),,則需要在提取DNA之前使用物理方法來去除遺跡DNA(relic DNA),例如使用單疊氮化丙錠或其他方法,。收集的樣本量也取決于樣本類型,,比如生物量較高的糞便樣品可能只需要使用拭子、棉棒,,而微生物密度較低的樣品可能需要較大的體積或濃度才能獲取足夠的DNA,。

例如,海洋微生物群落樣品通常需要大量的水進(jìn)行過濾,,才能濃縮并獲取足夠的物質(zhì)進(jìn)行DNA提取,。盡管這樣,在所有情況下,,都應(yīng)當(dāng)包括合理的控制措施,,尤其是需要全面控制取樣過程中的污染物,需要維持環(huán)境中較低的生物量,,例如血液,、脊液或者干凈的實(shí)驗(yàn)室工作環(huán)境。

實(shí)際上,,DNA污染物在很多試劑中都能找到,,包括拭子,、DNA提取試劑盒和PCR試劑。另外,,樣品的保存方法同樣由分析方法和樣品類型決定。舉個(gè)例子,,宏轉(zhuǎn)錄組需要RNA酶抑制劑,,宏代謝組需要保存樣品的同時(shí)不影響其代謝物的提取和數(shù)據(jù)收集。

除了考慮樣品采集之外,,實(shí)驗(yàn)設(shè)計(jì)和原始數(shù)據(jù)的采集也需要根據(jù)樣品類型和環(huán)境進(jìn)行仔細(xì)調(diào)整,。例如,動(dòng)物研究需要評(píng)估同籠(co-housing cage)效應(yīng),,并且應(yīng)當(dāng)將實(shí)驗(yàn)組分成多個(gè)亞類,。應(yīng)當(dāng)收集新鮮的樣品,并且將原始的小鼠情況記錄在原始數(shù)據(jù)中,。環(huán)境樣品則需要收集和環(huán)境條件相關(guān)的原始數(shù)據(jù),,如pH、鹽度,、海拔,、取樣深度等。

收集的方式很大程度上取決于樣品類型,,在此可能無法對(duì)所有的樣品進(jìn)行詳細(xì)說明,。總之,,研究中收集,、保存和儲(chǔ)存的方法應(yīng)該在所有樣品中保持一致,以避免混淆和變異,。在室溫儲(chǔ)藏期間,,樣品的組分可能會(huì)受到某些微生物生長(zhǎng)的影響。室溫下保存樣本方法選擇,,推薦閱讀Microbiome:室溫存儲(chǔ)樣本方法比較,。

圖1. 微生物組實(shí)驗(yàn)設(shè)計(jì)中注意事項(xiàng)

開展一項(xiàng)可信度高的微生物組研究需要考慮眾多因素

a. 混雜因子對(duì)照:年齡、性別,、飲食和生活方式

按年齡,、性別、飲食和生活方式等潛在的混雜因子分層(分組/分類 stratification)可以部分解決由于混雜效應(yīng)掩蓋組間真實(shí)差異的問題

b. 縱向取樣

縱向研究是非常有力的手段,,即可以控制混雜因子,,又可以評(píng)估群體的穩(wěn)定性

c. 實(shí)驗(yàn)技術(shù)引入的差異

由于試劑盒、引物,、樣品儲(chǔ)存條件等因素可影響結(jié)果,,因此實(shí)驗(yàn)有標(biāo)準(zhǔn)化的樣本處理方法是必須的,。需要收集樣本處理各階段的元數(shù)據(jù)(metadata,相當(dāng)于樣本相關(guān)信息),,包括臨床可變因素,、樣本處理等,這些對(duì)于數(shù)據(jù)解釋非常重要,。沒有元數(shù)據(jù),,很難單從測(cè)序數(shù)據(jù)中得出有意義的結(jié)論。

d. 動(dòng)物模型

動(dòng)物研究中,,食糞性的影響必須在實(shí)驗(yàn)設(shè)計(jì)中注明

對(duì)微生物組研究而言,,細(xì)致的實(shí)驗(yàn)設(shè)計(jì)對(duì)獲得準(zhǔn)確和有意義的結(jié)果至關(guān)重要。如果不加以控制,,很多復(fù)雜因素可能會(huì)影響和干擾微生物組數(shù)據(jù)中的一些模式(圖1),。認(rèn)真記錄并檢查樣本信息,合理的對(duì)照組(包括提取物,、試劑空白對(duì)照),,周密的實(shí)驗(yàn)設(shè)計(jì)中總體和單個(gè)可變因素等都是至關(guān)重要的。

首先必須確定實(shí)驗(yàn)范圍,,然后為感興趣的問題選取適合的實(shí)驗(yàn)設(shè)計(jì),。

例如,橫向研究(cross-sectional studies)適用于發(fā)現(xiàn)不同人群(如健康個(gè)體和疾病患者)或生活在不同區(qū)域個(gè)體之間的微生物群落差異,。然而除了我們所感興趣的疾病原因之外,,個(gè)體之間微生物組較大差異的原因也可能是由于飲食、生活習(xí)慣以及藥物等所致,。例如糖尿病患者微生物組變化的研究表明可能與二甲雙胍等藥物作用相關(guān),。

而縱向研究(longitudinal studies,),特別是在疾病發(fā)作前收集基線樣本(baseline samples)可以幫助我們解決這些問題,,但此種方法成本較高,。為了方便下游統(tǒng)計(jì)分析,縱向研究應(yīng)該仔細(xì)規(guī)劃樣品采集的時(shí)間安排:對(duì)于人類相關(guān)研究而言,,這可能意味著要為每個(gè)被試者在相同的時(shí)間點(diǎn)采集樣品,。

有趣的是,與在同一時(shí)間點(diǎn)表現(xiàn)出的特定分類群相比,,疾病活動(dòng)的有利預(yù)測(cè)因子可能更源自于群落的不穩(wěn)定性,。例如和炎癥性腸道疾病相比,個(gè)體的微生物組群落結(jié)構(gòu)波動(dòng)比對(duì)照組更大,。對(duì)于包括雙盲選隨機(jī)對(duì)照實(shí)驗(yàn)在內(nèi)的介入性(interventional)研究,,對(duì)于確定治療過程的微生物組和疾病狀態(tài)關(guān)系中較為有效。

基于分析計(jì)劃和特定的科學(xué)問題來設(shè)計(jì)實(shí)驗(yàn)可以幫助我們確定樣本量。(推薦閱讀:樣品生物學(xué)重復(fù)數(shù)據(jù)選擇 1必要性 2需要多少重復(fù),?),。例如,為了研究新的廣譜性抗生素對(duì)小鼠腸道菌群的影響,,與評(píng)估α多樣性(定量測(cè)定種群內(nèi)多樣性)的變化規(guī)律相比,,可能需要更多的樣本來觀察特定類群對(duì)抗生藥物治療的影響,因?yàn)樵诓煌∈箝g,,它們的基礎(chǔ)微生物群落組成就是不同的,。

預(yù)期抗生素可以降低所有小鼠的α多樣性,但它可能通過不同的方式來影響微生物群落組成,。對(duì)于任何的實(shí)驗(yàn)設(shè)計(jì)來說,,需要采用適當(dāng)?shù)姆椒▉碓u(píng)估統(tǒng)計(jì)能力,,辨別技術(shù)的可變性以及真實(shí)的生物學(xué)結(jié)果,。然而統(tǒng)計(jì)能力(statistical power)和效應(yīng)量分析(effect size analysis)仍然是微生物組研究中的一大挑戰(zhàn)。

目前用于分析統(tǒng)計(jì)能力和效應(yīng)量分析的方法大多基于相似性分析PERMANOVA(Adonis和ANOSIM方法組間整體差異評(píng)估原理),、狄利克雷-多項(xiàng)式分布(Dirichlet Multinomial)或者隨機(jī)森林分析,。

隨著這些方法的進(jìn)一步發(fā)展,和宏基因組學(xué),、宏轉(zhuǎn)錄組學(xué),、宏蛋白質(zhì)組學(xué)以及代謝組學(xué)數(shù)據(jù)相結(jié)合,實(shí)驗(yàn)設(shè)計(jì)和適當(dāng)樣本量的選擇也都得到了合理的改進(jìn),。對(duì)于具體的實(shí)驗(yàn)設(shè)計(jì),,建議閱讀類似樣本類型和預(yù)期結(jié)果的相關(guān)研究。下面我們對(duì)微生物組實(shí)驗(yàn)設(shè)計(jì)的一些重要問題進(jìn)行了擴(kuò)展,。

確定對(duì)照和篩選標(biāo)準(zhǔn)

確定明確的選擇和篩選標(biāo)準(zhǔn),,以免混淆新的變量。例如,,在個(gè)體抗生素治療后恢復(fù)時(shí)間的變化表明,,在過去六個(gè)月內(nèi)接受抗生素治療的個(gè)體應(yīng)當(dāng)排除在微生物組的相關(guān)研究之外,類似的,,手經(jīng)過水洗(不用洗手液等清潔劑)后的2個(gè)小時(shí)后皮膚微生物組才能恢復(fù),。

在病例對(duì)照實(shí)驗(yàn)設(shè)計(jì)中,必須進(jìn)行適當(dāng)?shù)倪x擇和匹配,。年齡和性別是最常見的控制標(biāo)準(zhǔn),。但實(shí)際上,性別對(duì)于大多數(shù)人的微生物組而言,,在身體各部位的影響較弱,,而其他的影響因素,如藥物和飲食,相對(duì)于其他變量而言往往是更重要的控制因素,。這些微生物組變量的相對(duì)效應(yīng)值仍在持續(xù)出現(xiàn)中,。

收集全面的臨床數(shù)據(jù)對(duì)于識(shí)別無法控制的復(fù)雜因素而言至關(guān)重要,這個(gè)主題的討論詳見15年我發(fā)表的綜述(McDonald, D., Birmingham, A. & Knight, R. Context and the human microbiome. Microbiome),。對(duì)于環(huán)境類研究而言,,也必須說明類似的混雜因素,在生態(tài)學(xué)文獻(xiàn)中,,繪圖變化是一個(gè)容易混淆的現(xiàn)象,,應(yīng)當(dāng)使用巢式/嵌套統(tǒng)計(jì)檢驗(yàn)(nested statistical tests)來解決這個(gè)問題。

動(dòng)物模型

研究微生物組的主要?jiǎng)游锬P褪菄X動(dòng)物,,如小鼠,。其他具有不同微生物復(fù)雜性的模型,如魷魚,,昆蟲或斑馬魚,,通常可用于研究宿主和微生物之間的特定相互作用(例如,,微生物群和宿主遺傳學(xué)如何相互影響),。但是小鼠通常是首選,因?yàn)樗鼈兙哂休^好的代表性,,并且和人類有較多生理上的相似性,。

嚙齒類微生物組研究需要仔細(xì)的實(shí)驗(yàn)設(shè)計(jì),由于他們具有嗜糞性,,因此隨著時(shí)間的推移,,在一個(gè)生存空間中的生物學(xué)個(gè)體和微生物組會(huì)變得均勻化,因此實(shí)驗(yàn)必須在多個(gè)籠子中加以控制,,才能防止同籠效應(yīng)(cage effects),。其他的如母體效應(yīng)(需要隨機(jī)化母體效應(yīng)),避免一只小鼠一只籠子導(dǎo)致的單間脅迫 single housing stresses,。

即使是基因相同的嚙齒動(dòng)物,,由于環(huán)境因素(包括飲食,胎次,,供應(yīng)商,,運(yùn)輸和設(shè)施等)的不同,它們的微生物群體也可能不同,。此外,,早期微生物組的暴露大大影響已形成的微生物群體,并且有可能影響免疫系統(tǒng)的發(fā)育,。類似的問題也存在于其他兩棲動(dòng)物模型,,如斑馬魚等,。

技術(shù)差異

從DNA提取到測(cè)序,不同實(shí)驗(yàn)方法之間的技術(shù)差異很大,。在研究中所有樣品必須使用相同的試劑盒,,并且在縱向研究中,應(yīng)當(dāng)收集多個(gè)基礎(chǔ)樣品用來評(píng)估時(shí)間點(diǎn)的內(nèi)在變異性,。

在采樣,、DNA提取、PCR和測(cè)序過程中,,設(shè)計(jì)空白(陰性)對(duì)照對(duì)于監(jiān)測(cè)污染至關(guān)重要,。在運(yùn)輸過程中產(chǎn)生的污染的微生物的reads在分析過程中應(yīng)當(dāng)盡量減少,因此樣品應(yīng)當(dāng)在-80℃保存,。

對(duì)于一些現(xiàn)場(chǎng)研究或其他不能及時(shí)冷凍保存的情況,,可以使用環(huán)境儲(chǔ)存方法,例如95%乙醇儲(chǔ)存,,或商業(yè)產(chǎn)品如RNAlater或OMNIgene Gut試劑盒,。人工模擬的菌群(Mock communities 具有己知的樣品組成成分)可用于標(biāo)準(zhǔn)化分析,即在每次DNA測(cè)序過程中包括相同的標(biāo)準(zhǔn)樣本,??傊?,使用不同方法產(chǎn)生的微生物組數(shù)據(jù)一致依然是一個(gè)未能解決的難題,。

根據(jù)實(shí)驗(yàn)的規(guī)模(包括整體實(shí)驗(yàn)設(shè)計(jì),樣品類型和來源,,測(cè)序方法以及下文討論的其他因素),,研究人員可以先獲得樣本在群落水平上的概述,再進(jìn)一步從微生物群體組水平對(duì)功能變異進(jìn)行深入的分析的探索,。

測(cè)序目標(biāo)與方法

包括標(biāo)記基因,、宏基因組以及宏轉(zhuǎn)錄組測(cè)序,不同的微生物組具有不同的方法,,從而產(chǎn)生不同的結(jié)果,。所有廣泛應(yīng)用的方法都具有其不同的優(yōu)缺點(diǎn),因此,,問題,、假設(shè)、樣品類型和分析目標(biāo)都應(yīng)該與所選的方法相關(guān)(表1),。

在這里,,我們對(duì)標(biāo)記基因、宏基因組以及宏轉(zhuǎn)錄組的測(cè)序成本,、合理性,、分辨率、以及難度等多方面進(jìn)行綜合比較。概述了圖2二中每個(gè)方法的最佳工作流程,。如果實(shí)驗(yàn)?zāi)康氖窍氆@到微生物組較高水平、但低分辨率較低的概述,,首選標(biāo)記基因測(cè)序,。

宏基因組測(cè)序可以通過分析樣品中的總DNA而獲得更多的細(xì)節(jié),可以在菌株的水平上加以辨別,,并提供更多的分子功能信息的基因,。對(duì)于宏轉(zhuǎn)錄組測(cè)序,則是更多地用于描述微生物群落中的基因表達(dá),。

圖2. 16S,、宏基因組和宏轉(zhuǎn)錄組測(cè)序的最優(yōu)工作流程

在仔細(xì)設(shè)計(jì)和樣本采集后,微生物組數(shù)據(jù)產(chǎn)生主要包括16S,、宏基因組或宏轉(zhuǎn)錄組測(cè)序,。16S測(cè)序后,我們推薦使用Deblur獲得單堿基變異的參考序列(sOTUs),。盡管DADA2與Deblur結(jié)果類似,,但Deblur支持并行處理速度更快且更穩(wěn)定(在不同樣品中獲得相同sOTUs)。

宏基因組和宏轉(zhuǎn)錄組首先要去除宿主DNA和RNA,,所有rRNA,。過濾后的序列可以采用有參方法Kraken、MEGAN或HUMAnN,,或De novo組裝的方法metaSPAdes和MEGAHIT分析,。

基于以上三種方法的基本分析,接下來的高級(jí)分析,,如α, β多樣性,,物種組成、機(jī)器學(xué)習(xí)等可進(jìn)一步挖掘微生物組變異的樣式,。隨機(jī)森林回歸有許多成功的應(yīng)用,,如尸體死亡時(shí)間預(yù)測(cè),微生物組成熟指數(shù)等,。來源貝葉斯估計(jì)軟件SourceTracker可非常有效地估計(jì)微生物樣本分類在環(huán)境中的來源,。ITS,轉(zhuǎn)錄間隔區(qū),。

標(biāo)記基因測(cè)序(擴(kuò)增子)

標(biāo)記基因測(cè)序使用的引物,,常常是針對(duì)某一感興趣的特定區(qū)域進(jìn)行設(shè)計(jì),從而能夠確定樣品中微生物的系統(tǒng)發(fā)育關(guān)系,。這個(gè)區(qū)域通常包含高度可變區(qū),,可用于區(qū)分研究對(duì)象的組成,,并且兩側(cè)包含可以用作PCR引物結(jié)合位點(diǎn)的高度保守區(qū)。例如用于細(xì)菌和古細(xì)菌鑒定的16S rRNA基因和用于真菌鑒定的轉(zhuǎn)錄間隔區(qū)(ITS),。

標(biāo)記基因的擴(kuò)增和測(cè)序經(jīng)過了大量的測(cè)試,,是一種可以高效低成本獲得較低分辨率微生物群落結(jié)構(gòu)的方法。這種方法適合于被宿主DNA污染的樣品,,比如植物或動(dòng)物組織,、以及較低生物量的樣品。

但是由于這些引物擴(kuò)增區(qū)域的DNA序列不同,,可能對(duì)DNA序列的親和力不同產(chǎn)生偏好性,,從而影響PCR擴(kuò)增結(jié)果。標(biāo)記基因測(cè)序中的偏好性來源可能是由于不同的可變區(qū)選擇,、擴(kuò)增子片段大小和PCR循環(huán)次數(shù)等,。

引物偏好性對(duì)較低生物量的樣品影響尤其顯著,因?yàn)殡S著PCR次數(shù)增多,,污染微生物就會(huì)被過多的擴(kuò)增,,從而產(chǎn)生較大的影響。優(yōu)化引物有助于減輕引物偏好,,但這需要有關(guān)微生物群落組成的一些先驗(yàn)知識(shí),,用于評(píng)估目標(biāo)群落中微生物組成分、分類以及覆蓋度等,。

然而,,即使經(jīng)過較好優(yōu)化的引物也常常受限于種屬等分類學(xué)水平。標(biāo)記基因測(cè)序通常與基因組背景的相關(guān)性較好,,所以這也適用于最廣泛的樣品類型和實(shí)驗(yàn)設(shè)計(jì),。關(guān)于擴(kuò)增子引物選擇,,可進(jìn)一步閱讀:16S結(jié)構(gòu) 16S單V4區(qū)是最佳選擇? 引物評(píng)估等文章,。

全宏基因組分析

宏基因組分析就是對(duì)樣本內(nèi)所有微生物基因組進(jìn)行測(cè)序的方法。宏基因組測(cè)序與單獨(dú)的標(biāo)記基因測(cè)序相比,,能夠獲到更加詳細(xì)的基因組信息以及更高的分類學(xué)分辨率,,但是在樣品制備、測(cè)序和分析的成本上更加昂貴,。

研究者需要得到樣品中存在的所有DNA ,,包括真核生物DNA以及病毒等。達(dá)到足夠的測(cè)序深度(即每個(gè)樣品測(cè)序讀段的數(shù)量),、才能夠確定物種或者菌株水平的分類學(xué)信息,、以及盡可能依靠較短的DNA序列來組裝成整個(gè)微生物基因組。

然而,,在這種環(huán)境下,,功能基因的重新注解是不可能實(shí)現(xiàn)的,。宏基因組測(cè)序在基因水平上獲得整個(gè)群落功能的能力遠(yuǎn)超標(biāo)記基因可以分析的范圍。但是在文庫(kù)構(gòu)建,、組裝以及參考數(shù)據(jù)庫(kù)進(jìn)行注釋等方面,,則不如標(biāo)記基因的方法成熟。

隨著宏基因組領(lǐng)域的發(fā)展,,這些注釋步驟將得到進(jìn)一步的驗(yàn)證和改進(jìn),,關(guān)于宏基因組學(xué)的全面綜述,推薦閱讀2017年自然生物技術(shù)的綜述:宏基因組從取樣到分析(Quince, C., Walker, A. W. & Simpson, J. T. Shotgun metagenomics, from sampling to analysis. Nat. Biotechnol. 35, 833–844 (2017).),。

全宏轉(zhuǎn)錄組分析

宏轉(zhuǎn)錄組分析是通過使用RNA測(cè)序來分析微生物組的轉(zhuǎn)錄過程,,從而提供關(guān)于基因表達(dá)和微生物組功能活性等信息。之前介紹的標(biāo)記基因以及宏基因組寫個(gè)裝方法,,僅對(duì)樣品中的DNA序列進(jìn)行分析,,不管其細(xì)胞存活情況和活性如何,而宏轉(zhuǎn)錄組是以RNA為研究對(duì)象,。

雖然有一些方法從死細(xì)胞中消除遺跡DNA,,但對(duì)微生物RNA進(jìn)行測(cè)序可以更好地了解微生物群落的功能活性,但對(duì)于轉(zhuǎn)錄活性較高的生物體有一定的偏向,。值得注意的是,,采用疊氮溴化丙錠(propidium monoazide, PMA)去除遺跡DNA的方法也是獲得活性微生物組的可選方法之一。

宿主RNA污染,,特別是較高豐度的rRNAs,,也是另一個(gè)重要的考慮因素,應(yīng)當(dāng)考慮從樣本中去除rRNAs的方法,。盡管有些樣品類型可能有專門的RNA純化方案,,RNA還是必須小心保存,以免在各種情況下被降解,。

例如,,土壤樣品需要去除酶抑制腐殖質(zhì)。盡管這些技術(shù)較為困難,,但是轉(zhuǎn)化成宏轉(zhuǎn)錄組數(shù)據(jù)可以為研究者提供新穎獨(dú)特的見解,;轉(zhuǎn)錄組的變化幅度要大于宏基因組,宏轉(zhuǎn)錄組可以研究微生物群落對(duì)異型生物質(zhì)(藥物,、殺蟲劑,、致癌物等)的響應(yīng)過程。

如果你想全面了解宏轉(zhuǎn)錄組學(xué)分析,,請(qǐng)閱讀《使用宏轉(zhuǎn)錄組進(jìn)行微生物組研究》的文章(Bashiardes, S., Zilberman- Schapira, G. & Elinav, E. Use of metatranscriptomics in microbiome research. Bioinform. Biol. Insights. 10, 19–25 (2016).),。

表1. 三種常用菌群研究方法的優(yōu)缺點(diǎn)

標(biāo)記基因分析

優(yōu)點(diǎn)
  • 樣品制備和分析速度快、簡(jiǎn)單,、成本較低

  • 與基因組含量的相關(guān)性較高,,適合于生物量較低,、宿主DNA污染程度較高的樣品

  • 可用于與現(xiàn)有的大量公共數(shù)據(jù)集比較

缺點(diǎn)
  • 不能區(qū)分DNA來源中生物體是否有生命

  • 受到擴(kuò)增偏好性的影響較大

  • 引物和可變區(qū)的選擇對(duì)結(jié)果影響較大

  • 要求對(duì)微生物群落有一定的先驗(yàn)知識(shí)

  • 物種鑒定分辨率通常限于屬水平

  • 需要適當(dāng)?shù)年幮詫?duì)照

  • 獲得的功能信息有限

全宏基因組測(cè)序

優(yōu)點(diǎn)
  • 可以直接獲得微生物功能基因的相對(duì)豐度;鑒定分辨率可達(dá)物種,、甚至菌株水平

  • 不需要微生物群落相關(guān)的先驗(yàn)知識(shí)(如捕獲噬菌體,、病毒、質(zhì)粒以及微小真核生物等)

  • 一般不會(huì)產(chǎn)生PCR偏好性

  • 可以估算有參考基因組微生物的原位生長(zhǎng)速率

  • 可組裝獲得群體平均基因組(甚至可以獲得其中一些微生物較完整的基因組)

  • 可以挖掘新的基因家族

缺點(diǎn)
  • 成本相對(duì)較高,,樣品制備和分析較復(fù)雜

  • 來自宿主和細(xì)胞器的DNA污染可能會(huì)掩蓋微生物的特征

  • 病毒和質(zhì)粒通常無法自動(dòng)化注釋

  • 與其他方法相比,,通常需要較高的測(cè)序通量(幾G - 幾百G)

  • 不能區(qū)分DNA來源于有生命或無生命的生物體

  • 由于受組裝影響,平均群體微生物基因組往往不準(zhǔn)確

全宏轉(zhuǎn)錄組測(cè)序

優(yōu)點(diǎn)
  • 當(dāng)與標(biāo)記基因分析結(jié)合使用時(shí),,可以估算群落中哪些微生物正在進(jìn)行積極的轉(zhuǎn)錄過程

  • 只能鑒定活動(dòng)生物,,排除休眠、死亡微生物及胞外DNA

  • 能夠捕捉個(gè)體內(nèi)部的動(dòng)態(tài)變化

  • 直接評(píng)估微生物的活性,,包括對(duì)干擾或者暴露等情況的響應(yīng)

缺點(diǎn)
  • 費(fèi)用最高,,樣品制備和分析過程最復(fù)雜

  • 必須排除宿主的mRNA、和rRNA污染

  • 樣品的收集和存儲(chǔ)要十分小心

  • 數(shù)據(jù)結(jié)果對(duì)有高轉(zhuǎn)錄率的生物體有偏向性

  • 需要與DNA測(cè)序結(jié)果結(jié)合,,才能獲得細(xì)菌豐度變化和轉(zhuǎn)錄率

分析

理想情況下,,每個(gè)微生物組研究將使用以上三種方法來分析樣本,然而在大多數(shù)情況下,,沒有足夠的樣品信息或足夠的項(xiàng)目資金來完成全部三種分析,,并且在一些情況下,,樣品可能并不適用于其中的一種測(cè)序方法,。因此需要研究人員根據(jù)科學(xué)問題來選擇那種方法是最有效的。

如果沒有預(yù)算限制,,我們推薦使用宏基因組學(xué)測(cè)序,,不要使用標(biāo)記基因測(cè)序。然而通常情況下通過標(biāo)記基因測(cè)序可低成本快速獲得對(duì)微生物群落組成的最基本信息,。接下來就取決于研究的重點(diǎn),,研究人員可以繼續(xù)進(jìn)行宏基因組學(xué)和轉(zhuǎn)錄組學(xué)測(cè)序,但是有可能需要二次研究,,進(jìn)行更合理的樣品采集和處理,。

標(biāo)記基因分析

綜上,標(biāo)記基因的方法對(duì)諸如引物選擇之類的技術(shù)因素較為敏感,,因此應(yīng)當(dāng)對(duì)實(shí)驗(yàn)方案進(jìn)行充分的驗(yàn)證,,例如,,在地球微生物組項(xiàng)目中,,設(shè)置多樣化樣品統(tǒng)一的實(shí)驗(yàn)方案是值得學(xué)習(xí)的,。

分析標(biāo)記基因數(shù)據(jù)的第一步是去除序列錯(cuò)誤:盡管序列錯(cuò)誤率很低,,在Illumina測(cè)序中,,每個(gè)核苷酸的錯(cuò)誤率僅為 ~ 0.1%,,但是很大部分明顯的序列多樣性來源于測(cè)序錯(cuò)誤,。直到最近,這個(gè)問題得在序列聚類成OTUs中被發(fā)現(xiàn)并關(guān)注,。

OTUs聚類,,即將相似的序列(通常具有97%相似性閾值)合并歸為單個(gè)的小分類單元,然后將序列的變體(包括通過序列錯(cuò)誤引入的序列變體)合并成可用于隨后分析的單個(gè)OTU,。但是這種方法會(huì)在一定程度上,遺漏一些細(xì)微但真實(shí)的生物序列變異情況,,例如存在SNP的序列本該為多個(gè)獨(dú)立OTUs卻被的合并成了單個(gè)OTU,。

基于16S rRNA基因測(cè)序中位置的特異性信息,來鑒定單堿基變異(SNP)從而加以區(qū)分密切相關(guān)但也不同的分類群,。諸如DeblurDADA2等算法,,使用測(cè)序錯(cuò)誤校正的模型來分析測(cè)序數(shù)據(jù)并將其根據(jù)精確序列特征(標(biāo)記基因序列)分為了亞-OTUs(sOTUs)。這些方法得到的結(jié)果是一個(gè)DNA序列表,,是每個(gè)樣品中的不同序列數(shù),,而不是OTU群組。

因此我們推薦,,當(dāng)需要與常見的全長(zhǎng)數(shù)據(jù)參考數(shù)據(jù)庫(kù)比對(duì)的時(shí)候,,這些方法替代現(xiàn)有基于OTU的方法,除非需要組合使用不同技術(shù)(即Illumina測(cè)序和454焦磷酸測(cè)序)產(chǎn)生的測(cè)序數(shù)據(jù)或者是引物不同,。

一個(gè)關(guān)鍵的分析步驟是為微生物序列進(jìn)行物種分類注釋,。物種分類常用機(jī)器學(xué)習(xí)的方法,如,,RDP分類器,,它使用的是傳統(tǒng)的貝葉斯模型,在屬的水平上,,對(duì)核苷酸的出現(xiàn)頻率進(jìn)行訓(xùn)練,,然后在屬的水平上進(jìn)行分配,準(zhǔn)確度可達(dá)~80%,。

另外,,較為常見的微生物組分析軟件流程還有QIIME以及Mothur,包括物種分類的功能模塊,。原則上,,與三大參考數(shù)據(jù)庫(kù)(三個(gè)最具特色且經(jīng)常使用的是Greengenes,,RDPSilva)精確匹配應(yīng)當(dāng)提供更好的分類學(xué)依據(jù),或指定特異性,,但是鑒于大量未知的分類群,,這種方法的敏感性較差。

此外,,由片段較短的標(biāo)記基因構(gòu)建的系統(tǒng)發(fā)育樹通常結(jié)果較差,,將標(biāo)記基因序列插入到基于全長(zhǎng)序列的參考序列系統(tǒng)發(fā)育樹中是一種更好的做法。

另外,,應(yīng)當(dāng)對(duì)未分類的微生物進(jìn)行核糖核酸序列分析是否為細(xì)胞器的序列,,如葉綠體、線粒體,。在很多研究中,,這些細(xì)胞器序列是應(yīng)該在分析前過濾去除的(腸道樣品研究中,這些序列可以用來鑒定食用的食物種類,,不應(yīng)當(dāng)完全忽略),。

功能預(yù)測(cè)分析是一種將標(biāo)記基因和可用的微生物基因組相聯(lián)系的技術(shù),用來預(yù)測(cè)宏基因組,,從而推斷其生物功能,。這種分析通常需要基于參考數(shù)據(jù)庫(kù)生成OTU表,然后基于演繹模型(如PICRUSt)為這些基因含量預(yù)測(cè)提供置信區(qū)間,,即在距離參考基因組較遠(yuǎn)的樹置信度低,,而在許多參考基因組可用的區(qū)域則置信度高。

因此,,影響這些結(jié)果準(zhǔn)確性的重要因素就是參考基因組的可用性,。預(yù)測(cè)功能分析的另一個(gè)限制就是,有些細(xì)菌家族的表型和基因型上存在差異,,但是它們的16S rRNA可變區(qū)非常相似,,難以區(qū)分。

大多數(shù)可應(yīng)用于微生物組標(biāo)記基因測(cè)序的統(tǒng)計(jì)方法,,也同樣適合于在接下來高級(jí)分析中提到的其它組學(xué)數(shù)據(jù)分析,。

宏基因組和宏轉(zhuǎn)錄組分析

研究測(cè)序樣本的完整核酸情況,可以獲得微生物群體更大范圍的物種組成,、功能和進(jìn)化方面的信息,,甚至污染都可以提供重要的發(fā)現(xiàn)(如宿主所占比例,潛在的污染源等),。和擴(kuò)增子分析類似,,分析方法的選擇需要考慮樣本的來源和特定的假設(shè)。這里我們將討論此類分析的最優(yōu)方法,。

將未組裝的DNA或mRNA序列與參考數(shù)據(jù)庫(kù)比對(duì),,可以獲得物種和功能基因注釋。隨著輸入數(shù)據(jù)和數(shù)據(jù)量前所未有的增長(zhǎng),,為提高分類速度,,相關(guān)方法也在不斷優(yōu)化。

許多工具使用k-mers分類DNA片段的物種,,如Kraken,;或使用Burrows-Wheeler變換算法實(shí)現(xiàn)壓縮合并數(shù)據(jù)庫(kù)相似序列,如Bowtie2和Centrifuge等軟件,。

關(guān)于更廣泛的工具選擇,,我們推薦讀者閱讀17年基因組生物學(xué)的相關(guān)軟件評(píng)測(cè)文章(McIntyre, A. B. R. et al. Comprehensive benchmarking and ensemble approaches for metagenomic classifiers. Genome Biol.)。

物種分類標(biāo)記基因方法采用廣泛關(guān)注的單拷貝基因,,如MetaPhlAn2一條命令獲得宏基因組物種組成, TIPP,。此外HUMAnN2:人類微生物組統(tǒng)一代謝網(wǎng)絡(luò)分析2可進(jìn)一步注釋基因和代謝通路。

一些工具整理了功能和物種注釋,,如MEGAN,。因?yàn)槊織l測(cè)序序列/讀段(reads)是獨(dú)立的,基于有參比對(duì)(read-based)方法對(duì)于土壤微生物組的大數(shù)據(jù)集是有效的,。

值得注意的是,,基于序列相似有參比對(duì)的物種和功能注釋,數(shù)據(jù)庫(kù)的選擇是至關(guān)重要的,。為了更好的描述人類腸道環(huán)境的特征,,高質(zhì)量(curated是指是由專業(yè)人士校正并審核)的基因組數(shù)據(jù)庫(kù)如RefSeq,和蛋白家族數(shù)據(jù)庫(kù)如Pfam或UniRef,,可以增加結(jié)果的準(zhǔn)確性并減少計(jì)算資源的消耗,。

對(duì)于研究較少的環(huán)境樣本,可以考慮使用NCBI nr/nt和IMG/M的大數(shù)據(jù)庫(kù),,雖然會(huì)增加計(jì)算資源的消耗和降低物種分類的特異性,,但數(shù)據(jù)庫(kù)更大結(jié)果會(huì)更全面無偏。專用數(shù)據(jù)庫(kù)用于注釋特別的物種和功能類別,,如專注噬菌體的PHASTER,、抗生素抗性基因的Resfams、環(huán)境樣本的FOAM,。

此外,,許多宏基因組是有參考基因集的,如Tarar的 海洋樣本,、華大基因BGI的小鼠腸道樣本,、MetaHit的人類腸道樣本。

另一種分析宏基因組和宏轉(zhuǎn)錄組的方法是拼接短序列為長(zhǎng)序列(contigs也叫疊連群),這些長(zhǎng)序列可進(jìn)一步按相似性進(jìn)行分類或分箱(bin按序列組分類物種),,以獲得部分或完整的微生物基因組,。

此方法不僅可以挖掘數(shù)據(jù)的物種和功能基因組成,而且可以預(yù)測(cè)多基因的生物合成通路,,甚至可以使用如antiSMASH:微生物次生代謝物基因簇預(yù)測(cè)的工具來重構(gòu)代謝產(chǎn)物的基因簇,。 

然而,使用基于組裝的分析方法是條件的(不適合所有項(xiàng)目),,如果樣本生物多樣性高,、存在較多相關(guān)菌株、以及測(cè)序量覆蓋度較低等,,會(huì)導(dǎo)致低豐度物種在下游分析中不準(zhǔn)確或丟失,。例如,土壤樣本因其微生物多樣性較高,、物種分布不均勻等特點(diǎn),,組裝非常困難(一些研究單樣本測(cè)序量可達(dá)300 Gb)。

想要避免復(fù)雜的宏基因組組裝,,可選同行發(fā)表的己組裝好的宏基因組參考數(shù)據(jù)集,,或組裝宏轉(zhuǎn)錄組,這樣可發(fā)現(xiàn)高質(zhì)量數(shù)據(jù)集中缺少的“微生物暗物質(zhì)”,。組裝推薦的工具有metaSPAdes,、MEGAHIT和評(píng)估quast

對(duì)這些工具的討論,,推薦閱讀 17年的宏基因組組裝軟件評(píng)估(Vollmers, J., Wiegand, S. & Kaster, A. K. Comparing and evaluating metagenome assembly tools from a microbiologist’s perspective - not only size matters! PLoS ONE),。 

想要組裝獲得部分或完善的單菌基因組,長(zhǎng)序列通常采用MaxBin2,,或CONCOCT進(jìn)行分箱(binning,,或分類)為假定的單菌基因組,分箱主要原理是基于豐度和核酸組成等信息,。

分箱的理論可閱讀一文讀懂宏基因組binning,;實(shí)戰(zhàn)可閱讀分箱宏基因組binning, MaxBin, MetaBin, VizBin。評(píng)估分箱基因組的質(zhì)量,,CheckM使用單拷貝基因來估算基因組的完整性和污染率,。

VizBin可以在不基于參考序列條件下,可視化宏基因組序列組裝結(jié)果,,使用戶可以方便查看相關(guān)物種的序列分類簇,,輸助評(píng)估分箱的質(zhì)量。 由于宏基因組組裝的復(fù)雜性,,我們推薦使用在這方面整合好的工作流程,,可以自動(dòng)化進(jìn)行數(shù)據(jù)分析,,如,ATLAS,,或MetAMOS,。

為了比較不同測(cè)序量的樣品,可通過許多標(biāo)準(zhǔn)化方法解決這一問題,。常用的標(biāo)準(zhǔn)化方法有RPM (reads per million,,每百萬的序列數(shù),,即百萬比,,類似于百分比),TPKM (transcripts per kilobase million,,每百萬單位kb長(zhǎng)度轉(zhuǎn)錄本數(shù)量,,對(duì)數(shù)據(jù)量和基因長(zhǎng)度同時(shí)標(biāo)準(zhǔn)化,使不同基因間相對(duì)豐度可比),,或相對(duì)豐度(relative abundance,,如百分比,或總體為1的小數(shù)),。

此外,,有許多工具可以進(jìn)行更為復(fù)雜的標(biāo)準(zhǔn)化方法,如edgeR和DESeq2(采用基于負(fù)二項(xiàng)分析的標(biāo)準(zhǔn)化方法,,在測(cè)序數(shù)據(jù)領(lǐng)域應(yīng)用極廣泛,,edgeR使用實(shí)戰(zhàn)詳見3熱圖:差異菌、OTU及功能),。

新工具在有參(reads-based)和無參/組裝(aseembly-based)方法均快速發(fā)展,。軟件方法的選擇、優(yōu)缺點(diǎn)評(píng)估應(yīng)該基于背景研究清楚的數(shù)據(jù)集,,或人工合成的數(shù)據(jù)集(Nat. Methods: 宏基因組軟件評(píng)估—人工重組宏基因組基準(zhǔn)數(shù)據(jù)集),,這樣才能根據(jù)自己的項(xiàng)目特點(diǎn),選擇合適的方法,,有利于微生物群體研究獲得更合理的結(jié)果,。

高級(jí)分析

微生物組數(shù)據(jù)經(jīng)過處理,可以獲得特征(features,,如物種不同分類級(jí)或基因)與樣本的豐度矩陣,。但這一結(jié)果是存在迷惑性(deceptively)的,因?yàn)槲⑸锝M數(shù)據(jù)通常是高維數(shù)據(jù),,包括幾千個(gè)不同物種,,矩陣數(shù)據(jù)(表格)稀疏存在許多零值;因此需要注意的統(tǒng)計(jì)處理方法,,以挖掘有意義的結(jié)果,。

AlphaBeta多樣性常用于評(píng)估微生物組的整體變異,。Alpha多樣性可以量化樣品內(nèi)的特征多樣性,也可以進(jìn)行樣品組間比較,。例如,,我們一個(gè)疾病個(gè)體與健康對(duì)照 ,研究者可比較組間Alpha多樣性的物種均值,。

Alpha多樣性物種測(cè)量的方法有三類:豐富度(richness)的測(cè)量常用觀測(cè)的物種數(shù)(Observed OTU / Richness)和Chao1豐度估計(jì)(估計(jì)真實(shí)物種多樣性),,進(jìn)化距離測(cè)量采用信任系統(tǒng)發(fā)育多樣性(Faith’s phylogenetic diversity),這兩類方法受樣本測(cè)序深度影響很大,;此外還有一類即考慮豐富度,,又考慮均勻度的Shannon指數(shù),對(duì)測(cè)序量不敏感,。

詳見箱線圖:Alpha多樣性解讀,。請(qǐng)注意,這些方法僅限用于16S數(shù)據(jù),,應(yīng)用于其它微生物組數(shù)據(jù)類型可能并不合適,。

Beta多樣性比較每對(duì)樣品間特異的差異,產(chǎn)生所有成對(duì)樣品間的距離矩陣,。度量標(biāo)準(zhǔn)的選擇對(duì)結(jié)果影響較大,,需牢記我們?cè)诮馕錾飳W(xué)數(shù)據(jù)。Bray-Curtis, Canberra, 有權(quán)重的UniFrac等定量度量標(biāo)準(zhǔn)采用特征的豐度信息進(jìn)行計(jì)算,,binary-Jaccard,無權(quán)重的UniFrac定性方法僅考慮特征的有無,。

進(jìn)化方法的Unifrac分析需要進(jìn)化樹文件,提供更生物學(xué)的解析,,但缺少樹文件時(shí)無法使用,。 可提供alpha, beta多樣性分析的軟件有QIIME,、Mothur和R語言vegan包,。

無參數(shù)的置換(permutation)檢驗(yàn)方法PERMANOVA、ANOSIM用于估計(jì)的不同組間beta多樣性的顯著性,,其中PERMANOVA應(yīng)用于組間變異較大的數(shù)據(jù)集更好用,。

計(jì)算Alpha和beta多樣性,需要研究者掌握抽樣技術(shù)(即每個(gè)樣本中抽取相同數(shù)量的序列),,不同的抽樣數(shù)量級(jí)可影響結(jié)果,。目前計(jì)算Unifrac最好的方式是稀疏/稀釋(rarefracation),但一些特殊情況下的成對(duì)差異豐度比較需要完整的樣本數(shù)據(jù)集,。

Beta多樣性數(shù)據(jù)可視化采用排序的技術(shù),,常用如主坐標(biāo)軸分析(PCoA)或主成分分析(PCA)。點(diǎn)我讀懂PCA和PCoA,。這類方法將復(fù)雜的距離矩陣,,轉(zhuǎn)換為可觀察的2或3維空間,,代表樣品間距離。樣品可以按分組信息著色,,方便觀察組間差異,,屬于無監(jiān)督的方法。EMPeror框架提供可交互式的顯示PCoA圖,。

另一種常用分析方法是比較感興趣組間(處理,、對(duì)照)微生物或功能(基因、通路)的差異,。微生物組數(shù)據(jù)具有高維,、松散組成等特征,鑒定解析微生物群落差異的分類群是極有挑戰(zhàn)性的,。組成是問題的關(guān)鍵,;當(dāng)一種微生物增長(zhǎng),因?yàn)楸壤偤蜑?,,其它必然會(huì)降低。

例如,,己知某個(gè)病人的藥物只影響一個(gè)微生物屬,,對(duì)其它菌無任何影響。盡量其它微生物不受藥物影響,,但它們相對(duì)豐度減少,,是由單個(gè)微生物屬過度生長(zhǎng)引起的。這種情況影響許多經(jīng)典方法的結(jié)果,,如參數(shù)統(tǒng)計(jì)檢驗(yàn)(如student' t-test和ANOVA),、計(jì)算相關(guān)性(如Spearman排序相關(guān)系數(shù))通常導(dǎo)致完全不可接受的超90%假陽性率。

最近,,組成意識(shí)(compositionally aware)方法提到了組成和相對(duì)豐度方法的問題,。一種方法是在統(tǒng)計(jì)檢驗(yàn)上強(qiáng)制進(jìn)行強(qiáng)生物假設(shè):如Lovell's比例度量方法僅檢測(cè)正相關(guān)。其它一些工具為微生物組數(shù)據(jù)專門做了優(yōu)化,,假定小部分物種是相關(guān)的,,大多數(shù)的相關(guān)系數(shù)為0,如SparCC和SPEIC-EASI,。

BAnOCC是另一個(gè)提出組成問題的工作,,它對(duì)數(shù)據(jù)無任何假設(shè)。我們推薦使用另一種方法,,等距對(duì)數(shù)比例轉(zhuǎn)換(isometric log ratio transform , ilr),,用于檢測(cè)微生物群體間差異。ilr方法控制假陽性率,,采用檢測(cè)微生物豐度對(duì)數(shù)變化檢驗(yàn),,通常認(rèn)為平衡,。

平衡構(gòu)建基于先驗(yàn)知識(shí),如進(jìn)化歷史或微生物對(duì)環(huán)境因子pH響應(yīng)的生態(tài)位分化,。ilr應(yīng)用后,,標(biāo)準(zhǔn)統(tǒng)計(jì)工具(如多元響應(yīng)、線性回歸和分類)可更有效的檢測(cè)平衡或?qū)?shù)比例的微生物組數(shù)據(jù)差異,。最近也有絕對(duì)定量的方法,,包括測(cè)序和細(xì)胞計(jì)數(shù)。

機(jī)器學(xué)習(xí)是在微生物組領(lǐng)域非常有效的方法,,可基于當(dāng)前狀態(tài)區(qū)分樣品(分類,,由己知的分類與結(jié)果學(xué)習(xí),預(yù)測(cè)末知分類,,如健康和疾病),,或預(yù)測(cè)將來某一狀態(tài)。例如,,可根據(jù)口腔菌群預(yù)測(cè)牙齦炎的易感性和嚴(yán)重程度,。

隨機(jī)森森回歸有許多應(yīng)用,如預(yù)測(cè)尸體死亡時(shí)間,、確定兒童菌群成熟度,。SourceTracker可以估計(jì)末知群體微生物來源和組成,最有用的是可根據(jù)環(huán)境樣品來分類微生物的來源,。注意,,機(jī)器學(xué)習(xí)需要足夠的樣本量,用于交叉驗(yàn)證,,一定是獨(dú)立的實(shí)驗(yàn)或數(shù)據(jù)集來確定模型的可靠性,。

整合多組學(xué)數(shù)據(jù)

了解微生物群落的組成并不是研究的終點(diǎn),我們更想知道群體的功能,。多組學(xué)數(shù)據(jù)整合,,擴(kuò)增子測(cè)序,宏基因組,,宏轉(zhuǎn)錄組,,宏蛋白組,宏代謝組和其它技術(shù)都可用于特定微生物群體功能和組成的深入理解研究,。

例如,,改變的代謝組成反應(yīng)生物合成的活性,mRNA和蛋白表達(dá),,以及蛋白活性,。多組學(xué)分析將化學(xué)和生物學(xué)知識(shí)結(jié)合,提供研究對(duì)象更完整的生物學(xué)系統(tǒng)的新方法,,是一個(gè)活躍的研究領(lǐng)域(圖3),。

圖3. 整合微生物組與多組學(xué)數(shù)據(jù)

分子生物學(xué)的中心法則

以細(xì)菌細(xì)胞為例:從DNA —— RNA —— 蛋白 —— 代謝物的過程的概述,,正好對(duì)應(yīng)多組學(xué)研究的6個(gè)層面。

a. 空間相關(guān)性分析

采用三維可視化分子和微生物特征地圖,,幫助我們理解空間相關(guān)性

b. 稀疏典型相關(guān)分析

鑒定線性的兩個(gè)子集存在高度相關(guān)

c. 相關(guān)網(wǎng)絡(luò)

相關(guān)網(wǎng)絡(luò)分析展示成簇的微生物與代謝物,,這些代謝物可能是相關(guān)微生物的產(chǎn)物,方便確定合成源頭

d. 代謝活性網(wǎng)絡(luò)

依賴特定物種分子機(jī)制的數(shù)學(xué)模型,,代謝活性網(wǎng)絡(luò)幫助預(yù)測(cè)微生物群體結(jié)構(gòu)和功能

GSSG,,氧化型谷胱甘肽

e. 普氏分析法

普氏分析法可以在同一主坐標(biāo)軸內(nèi)可視化數(shù)據(jù)的趨勢(shì),直接比較具有相同內(nèi)部結(jié)構(gòu)的不同組學(xué)數(shù)據(jù),,

f. 多重共慣性分析

MCIA可以通過圖形代表不同類型,,多維比較不同組學(xué)數(shù)據(jù),相似的組學(xué)數(shù)據(jù)可以更容易理解,。

RNA-Seq,,轉(zhuǎn)錄組測(cè)序或RNA測(cè)序

知識(shí)點(diǎn)3. 代謝組與微生物組

微生物產(chǎn)生代謝物可影響宿主,微生物群體動(dòng)態(tài)變化并與宿主疾病和健康有關(guān),。代謝物有益處(如短鏈脂肪酸)和壞處(基因毒率大腸桿菌素)影響宿主,。

然而,鑒定微生物組中代謝物來源是非常有挑戰(zhàn)的,。更有挑戰(zhàn)的是鑒定代謝物來源的微生物,,收集微生物產(chǎn)物,修飾特定代謝物,。

下面簡(jiǎn)單總結(jié)解決這些困難的策略:

  • 比較自然樣品與微生物組培養(yǎng)菌(分離的微生物)代謝物。一種有效的方法是比對(duì)臨床或環(huán)境樣品串聯(lián)質(zhì)譜和分離培養(yǎng)菌的數(shù)據(jù),,發(fā)現(xiàn)特異的代謝物標(biāo)志可被認(rèn)為來源于某個(gè)可培養(yǎng)微生物,。

  • 在微生物基因組和宏基因組中定位代謝物基因。一些代謝物只存在于特定的微生物分類中,。檢測(cè)自然樣本的代謝物,,可以確定挖掘基因組數(shù)據(jù)的可能來源。例如,,2,,3-丁二酮是一種特異的發(fā)酵產(chǎn)物,由鏈球菌代謝產(chǎn)物,。檢測(cè)臨床樣品,,結(jié)合生物合成基因可加速定位生物途徑至來源物種的基因組。

  • 構(gòu)建微生物與代謝物的共現(xiàn)網(wǎng)絡(luò),。共現(xiàn)網(wǎng)絡(luò)或相關(guān)方法把微生物與代謝建立聯(lián)系,。這是一個(gè)熱門研究領(lǐng)域,可用的算法對(duì)檢測(cè)松散的微生物數(shù)據(jù)進(jìn)行了優(yōu)化,,如SparCC,、CCLasso和其它等,。需要注意,此方法在多元數(shù)據(jù)集中假陽性率過高,。

  • 無菌與特異無病原小鼠模型,。這樣比較鑒定微生物組代謝物來定殖小鼠,和末定殖的小鼠,。無菌小鼠(包括單菌定殖,,定殖群體)有助于鑒定特定的微生物和關(guān)注的代謝產(chǎn)物。

整合多組學(xué)數(shù)據(jù)存在本質(zhì)的困難,。例如,,基因表達(dá)與代謝物來自不同的時(shí)間尺度, 微生物產(chǎn)生許多種代謝物,,通常僅是響應(yīng)其它物種的信號(hào),。宏基因組和宏代謝組的數(shù)據(jù)集(數(shù)據(jù)矩陣中大多數(shù)為0)比宏蛋白組的數(shù)據(jù)更松散,這對(duì)很多分析方法無法處理,。

盡管多組學(xué)整合是正在發(fā)展中的領(lǐng)域,,相關(guān)可用工具也逐漸增加。例如XCMS可在線整合代謝物數(shù)據(jù)和代謝通路,,也可整合蛋白組和轉(zhuǎn)錄組,。傳統(tǒng)的成對(duì)相關(guān)分析方法Spearman和Pearson,也可以進(jìn)行多組學(xué)分析,。

然而,,高維度、高稀疏度的微生物組數(shù)據(jù),、代謝組數(shù)據(jù)存在較高假陽性率,。普氏分析采用降維數(shù)據(jù)樣本數(shù)據(jù)間樣式或距離,必須的是相關(guān)排序空間而不是個(gè)體的特征(使用Mantel或PROcrustes隨機(jī)檢驗(yàn)),。

其它方法整合組學(xué)數(shù)據(jù)集時(shí),,不僅考慮樣本間關(guān)系,而且關(guān)聯(lián)樣本與特定元數(shù)據(jù)中關(guān)注的分類信息(如檢查健康,、疾病組,,或?qū)φ张c處理組)。

此類方法如多重共慣性分析,,在兩個(gè)不同數(shù)據(jù)集中對(duì)樣本相關(guān)多維數(shù)據(jù)進(jìn)行降維,,還有相關(guān)元數(shù)據(jù)(relevant metadata)、偏最小二乘(partial least-squares),、典型相關(guān)分析(canonical correlation analysis),、穩(wěn)健稀疏(robust sparse)典型相關(guān)分析(是一種處理稀疏組學(xué)數(shù)據(jù)的方法)。

優(yōu)秀的綜合分析工具有全球自然產(chǎn)物協(xié)會(huì)(GNPS)分子網(wǎng)絡(luò)(鑒定代謝物與注釋通路)、普適的系統(tǒng)生物學(xué)工具如XCMS在線,。多組學(xué)研究空間樣式研究己久,,目前正在增加時(shí)間序列上的研究??臻g地圖可以使用工具ili展示,,使研究多維多組學(xué)數(shù)據(jù)更方便挖掘和解析。

綜合分析多組學(xué)數(shù)據(jù)需要多種統(tǒng)計(jì)方法,。但這些方法在微生物組數(shù)據(jù)中不是最優(yōu)的,。簡(jiǎn)單發(fā)現(xiàn)組學(xué)數(shù)據(jù)內(nèi)部的相關(guān)是第一步,建立因果聯(lián)系是下一階段的挑戰(zhàn),。

知識(shí)點(diǎn)3介紹了代謝組學(xué)和微生物組數(shù)據(jù)集聯(lián)合分析方法,,使研究從相關(guān)向因果推進(jìn)。在多組學(xué)分析中,,多重比較校正問題是關(guān)鍵,;數(shù)據(jù)集可能包括幾千種不同的微生物和代謝物,所以會(huì)有很多偶然的顯著相關(guān),。

校正顯著性檢驗(yàn)的方法有假陽性率(如Benjamini–Hochberg校正),,更保守的總體錯(cuò)誤率(family-wise error)校正(如Bonferroni校正)。使用這些方法校正,,對(duì)降低多組學(xué)分析中假陽性率非常有幫助,。

盡管仍存眾多挑戰(zhàn),但多組學(xué)數(shù)據(jù)聯(lián)合分析是非常有前景的,。也有一些宏基因組,、宏轉(zhuǎn)錄組和代謝組成功整合的例子,闡明微生物組中基因調(diào)控,、微生物與代謝物共現(xiàn)相關(guān),。

這類研究發(fā)現(xiàn)遠(yuǎn)超單組學(xué)研究,如研究腸道細(xì)菌代謝異生質(zhì),,和抗生素誘導(dǎo)的微生物組減少產(chǎn)生艱難梭菌適宜的代謝組環(huán)境。相對(duì)的,,宏蛋白組和微生物組數(shù)據(jù)是一個(gè)新研究領(lǐng)域,,成功的案例有鑒定Crohn疾病的生物標(biāo)記、研究永久凍土層中的微生物蛋白產(chǎn)物,。

此外,,宏蛋白組注釋和分析的工具正在開發(fā)中。綜上所述,,綜合多組學(xué)數(shù)據(jù)可以更全面的理解微生物組的DNA鑒定,、蛋白和代謝物功能,使用研究結(jié)果可有指導(dǎo)意義,。

結(jié)論

本綜述討論了微生物研究全階段工作的指導(dǎo),,從實(shí)驗(yàn)設(shè)計(jì),、收集儲(chǔ)存樣品、從測(cè)序數(shù)據(jù)的圖形結(jié)果中挖掘結(jié)果,,均對(duì)結(jié)果與生物學(xué)解釋產(chǎn)生影響,。由于許多實(shí)驗(yàn)步驟對(duì)生物學(xué)結(jié)果有影響,因此建立標(biāo)準(zhǔn)化的實(shí)驗(yàn)步驟是必須的,,這樣才可能跨實(shí)驗(yàn)聯(lián)合分析,。

第一步努力是提出推薦使用最優(yōu)方法,如國(guó)際人類微生物標(biāo)準(zhǔn),、微生物質(zhì)量控制(MBQC)計(jì)劃(DNA提取也能發(fā)Nature,?NB:實(shí)驗(yàn)vs分析,,誰對(duì)結(jié)果影響大),。

生物信息分析流程和對(duì)照也正向標(biāo)準(zhǔn)化而努力,如使用云平臺(tái)實(shí)現(xiàn)可重計(jì)算,、公開原始數(shù)據(jù)和分析源代碼實(shí)現(xiàn)可重復(fù)研究,,這些方面的快速發(fā)展為微生物組領(lǐng)域結(jié)果的一致和可比較成為可能。

一個(gè)最重要的是引入內(nèi)參標(biāo)準(zhǔn)的標(biāo)準(zhǔn)化(在生物芯片分析領(lǐng)域中已經(jīng)非常普遍),,使微生物組分析中生物學(xué)真實(shí)樣本可以在系統(tǒng)水平量化,。

本文主要關(guān)注了群體水平DNA層面的分析,轉(zhuǎn)錄組和單細(xì)胞測(cè)序先進(jìn)技術(shù)也涉及并有一些應(yīng)用,。同時(shí)提到要避免在昂貴分析中經(jīng)常出現(xiàn)的錯(cuò)誤,,如不合理的樣本量和驗(yàn)證,使用最優(yōu)方法作為標(biāo)準(zhǔn),,樣本處理,,組成型數(shù)據(jù)分析,和其它常見的陷阱,。使用MBQC和環(huán)境微生物組(EMP)中標(biāo)準(zhǔn)化,、樣式清楚的樣品收集新方法,可極大縮短探索新方法意義的時(shí)間,。

本領(lǐng)域的趨勢(shì)是向前所末有大數(shù)據(jù)集,、理解流行病學(xué)家長(zhǎng)期熟知的混雜因子、更重視縱向研究設(shè)計(jì)等將成為重點(diǎn),。尤其是人,、動(dòng)物模型、體外實(shí)驗(yàn)在系統(tǒng)層面和大尺度基礎(chǔ)上,,從觀察研究向干預(yù)研究是值得考慮的,。標(biāo)準(zhǔn)化方法應(yīng)用的增長(zhǎng),可以降低噪音和偏好,對(duì)微生物領(lǐng)域研究從實(shí)驗(yàn)室范圍向臨床,、田間和自然環(huán)境的深入提供廣泛前景,。

附錄:名詞解釋

  • Exact sequence variants:準(zhǔn)確序列變異。在擴(kuò)增子(標(biāo)記基因)測(cè)序數(shù)據(jù)分析中,,使用測(cè)序讀短的原始序列代替之前聚類生成的OTUs,。此方法的出現(xiàn)是受近幾年測(cè)序錯(cuò)誤糾正算法提高才得以實(shí)現(xiàn),代表方法有Delbur, dada2和unoise3,,較OTUs僅有屬水平的精度相對(duì),,此方法最高可達(dá)株水平的單堿基精度,推薦閱讀 擴(kuò)增子分析還聚OTU就真OUT了,、 主流非聚類方法dada2,deblur和unoise3介紹與比較

  • Operational taxonomic units:可操作分類單元(OTUs),,經(jīng)過比對(duì),通常將一組相似性大于97%的序列定義為一個(gè)微生物種群(群體),。推薦閱讀:16S測(cè)序,,你必須認(rèn)識(shí)OTU

  • Machine learning:機(jī)器學(xué)習(xí),使用算法來學(xué)習(xí)和預(yù)測(cè)數(shù)據(jù),。常見的兩種應(yīng)用是分類(如 Nature:腸道菌群高鹽與高血壓關(guān)系)和回歸( 如作者早期Sciences發(fā)表的16S+功能預(yù)測(cè)尸體死亡時(shí)間 ),。

  • Metadata:元數(shù)據(jù),即樣品的信息,。在很多研究中通常以表格(矩陣)的形式出現(xiàn),,其中樣品名稱為行,元數(shù)據(jù)的各種不同分類,、屬性為列,,如年齡、性別,、經(jīng)緯度,、平均月降水量、季節(jié),、疾病狀態(tài)等等,。

  • Alpha diversity:樣品組內(nèi)多樣性的描述指數(shù)。

  • Effect size analysis:效應(yīng)量化分析,。指量化分析元數(shù)據(jù)集中的一些類別(如性別,、處理組、測(cè)序板等)對(duì)菌群的影響程度,。

  • Marker genes:標(biāo)記基因。通常指的是如16S rRNA,、18S rRNA以及轉(zhuǎn)錄間隔區(qū)(ITS)等保守基因,,它們具有典型特征包括:可以用來鑒定物種分類單元的高可變區(qū),同時(shí)其兩端是高保守區(qū)域可作為PCR引物的結(jié)合位點(diǎn)。

  • Nested statistical tests:統(tǒng)計(jì)檢驗(yàn)中涉及到的和主效應(yīng)有關(guān)的變量,。例如,,土壤地塊就是測(cè)試肥料對(duì)土壤微生物群的影響的嵌套因子。

  • Coprophaic:食糞性,,涉及到糞便的消耗,。一些動(dòng)物物種通過食用糞便,對(duì)食物中的植物組織進(jìn)行二次分解消化,。這將導(dǎo)致同籠中的動(dòng)物腸道菌腸較相似,。

  • Reads:測(cè)序讀取的單個(gè)DNA片段,可翻譯為讀段,,大家在平時(shí)交流更喜歡直接叫reads

  • Metatranscriptome:宏轉(zhuǎn)錄組測(cè)序一個(gè)生物群落中基因轉(zhuǎn)錄物的總和,。

  • Humic substances:腐殖質(zhì),通過有機(jī)質(zhì)的生物降解而產(chǎn)生的,。腐殖質(zhì)是腐殖土壤的主要成分,。

  • Metagenomes:宏基因組,生物群落中遺傳物質(zhì)的總和,,例如,,人類腸道樣品中的所有微生物的所有遺傳物質(zhì)。

  • Naive Bayesian classifier:在機(jī)器學(xué)習(xí)中使用的簡(jiǎn)單概率分類器,,是基于貝葉斯定理的一個(gè)應(yīng)用,,推測(cè)兩類樣品間的獨(dú)立性。

  • K-mers:通過DNA測(cè)序獲得的序列中所有可能的長(zhǎng)度為k的序列,。

  • Beta diversity:樣品組間多樣性的描述指數(shù),。

  • Faith’s phylogenetic diversity:基于系統(tǒng)發(fā)育進(jìn)化樹來計(jì)算樣品多樣性的一種α多樣性方法。

  • Shannon index:描述群落多樣性的一個(gè)常見的指標(biāo),,是一種綜合指數(shù),,它即包括豐富度(richness),又考慮均勻度(evenness),。

  • False discovery rates:假陽性率,,進(jìn)行多重比較時(shí),揭示無效假設(shè)檢驗(yàn)中I型錯(cuò)誤率的方法,。

  • Isometric log ratio transform (ilr):等距對(duì)數(shù)比例轉(zhuǎn)換,。使用樹作為參考,將比例向量轉(zhuǎn)換為對(duì)數(shù)比例向量,。 計(jì)算的對(duì)數(shù)比率由樹內(nèi)相鄰分支之間物種比例的平均對(duì)數(shù)的差異組成,。

  • Random forests regression:隨機(jī)森林回歸,是一種使用決策樹執(zhí)行分類的機(jī)器學(xué)習(xí)技術(shù),,可以用于學(xué)習(xí)后預(yù)測(cè)某事發(fā)生時(shí)間,,如生長(zhǎng)階段,,死亡時(shí)間等。

  • Family-wise error:總體錯(cuò)誤率,,在執(zhí)行多個(gè)假設(shè)檢驗(yàn)時(shí),,發(fā)生一個(gè)或多個(gè)I型錯(cuò)誤的概率。

相關(guān)鏈接

  • EBI (http://www./) 世界三大生物數(shù)據(jù)庫(kù)之一,,我們常用它存儲(chǔ)和分享宏基因組領(lǐng)域產(chǎn)生的海量數(shù)據(jù),,實(shí)現(xiàn)數(shù)據(jù)共享、保障結(jié)果可重復(fù),,以及數(shù)據(jù)的再利用,。有很多特色分析工具,尤其在宏基因組領(lǐng)域的分析平臺(tái)很有名 https://www./metagenomics/

  • Galaxy (https:///) 一種生物信息分析平臺(tái)的框架,,把傳統(tǒng)的代碼分析包裝為網(wǎng)頁(yè)中圖形和菜單,,可以更方便無程序語言基礎(chǔ)的生物學(xué)家使用,但與終端下代碼交互相比會(huì)損失靈活性,。如很多軟件為方便大家使用,,都布置在galaxy平臺(tái)上,如KO通路預(yù)測(cè)PICRUSt,、 差異分析LEfSe等,。

  • GitHub (https://github.com) 世界上最大的代碼備份和共享平臺(tái),近期剛被微軟65億美無收購(gòu)?,F(xiàn)在文章中分析所占的比重非常大,,幾十到上百項(xiàng)分析,可涉及成千上萬行的代碼,,如不分享原始代碼,,文章中的結(jié)果僅憑方法部分的描述幾乎是無法重復(fù)的。GitHub為代碼,、及中間文件的分享提供了目前最方便的平臺(tái),。很多頂級(jí)文章都分享全部分析代碼于此,如 德國(guó)Paul組的Nature: 培養(yǎng)組學(xué)—高通量細(xì)菌分離培養(yǎng)鑒定 ,、美國(guó)Dangl組的Nature:根系菌群參與磷脅迫和免疫的平衡等文章中都提供了Github地址,,即可以重復(fù)大牛的研究,更是非常好的學(xué)習(xí)材料,。

  • Jupyter Notebooks (http://) 一種交互式代碼編輯器,,可以實(shí)現(xiàn)代碼、注釋,、結(jié)果和格式混排,,方便代碼運(yùn)行和結(jié)果展示,是很用Python用戶的最愛,。

  • QIIME 2 (https://) 引用過萬次的QIIME軟件的最新版本,,于2018年正式發(fā)布,,提供了標(biāo)準(zhǔn)化的格式,可實(shí)現(xiàn)更好的標(biāo)準(zhǔn)化分析和可重復(fù)計(jì)算,,快速了解可閱讀本平臺(tái)早期翻譯的 QIIME2中文教程-把握分析趨勢(shì) 。需要注意的是,,此軟件每月都有較大更新,,如下定決心使用此流程,請(qǐng)務(wù)必閱讀官方最新版本英文教程,。

  • Qiita (http://qiita.) 開源的微生物研究管理平臺(tái),,可支持多組學(xué)、多研究的管理和分析,,支持第三方的分析流程,。

  • R Markdown (https://rmarkdown./) Markdown是一種輕量標(biāo)準(zhǔn)語言,可以用純文本快速實(shí)現(xiàn)網(wǎng)頁(yè)效果(公眾號(hào)每天的推文大部分用Markdown書寫),。其中R markdown版本可將R語言統(tǒng)計(jì)繪圖過程,、結(jié)果混排為網(wǎng)頁(yè),方便共享分析過程,,實(shí)現(xiàn)可重復(fù)計(jì)算,,在科學(xué)計(jì)算領(lǐng)域有很廣泛的應(yīng)用,如 斯坦福大學(xué)統(tǒng)計(jì)系教授帶你玩轉(zhuǎn)微生物組分析其中一篇PNAS就提供了整篇文章所有圖表分析的代碼,、講解和結(jié)果混排的R markdown文檔,,方便同行閱讀學(xué)習(xí)。

熱心腸日?qǐng)?bào)導(dǎo)讀

一文讀懂:Rob Knight手把手指導(dǎo)菌群研究(必讀綜述)

原標(biāo)題:菌群分析的規(guī)范

① 菌群研究和分析方法正高速發(fā)展,,研究方法標(biāo)準(zhǔn)化,、數(shù)據(jù)共享平臺(tái)的推廣為聯(lián)合獨(dú)立項(xiàng)目、完善已有成果提供可能,;

② 實(shí)驗(yàn)設(shè)計(jì)需合理設(shè)置空白和對(duì)照組,,并考慮實(shí)驗(yàn)動(dòng)物的習(xí)性;

③ 可參考對(duì)已知菌群的分析效果,,決定采用標(biāo)志基因組,、宏基因組還是宏轉(zhuǎn)錄組研究手段和分析方法;

④ 基于序列實(shí)際差異的菌群分析方法應(yīng)逐步代替OTU分析,;

⑤ 基于菌群相對(duì)豐度的相關(guān)性分析容易出現(xiàn)假陽性,,需要優(yōu)化分析方法;

⑥ 多組學(xué)數(shù)據(jù)聯(lián)合有助于進(jìn)行全面的,、機(jī)制性的菌群研究,。

主編評(píng)語

菌群研究和分析方法日新月異,本文系統(tǒng)性地介紹了菌群研究的實(shí)驗(yàn)設(shè)計(jì),、方法選擇和數(shù)據(jù)分析方式,,在列舉和比較大量研究方法的同時(shí),,指出了目前OTU分析、菌群豐度分析和相關(guān)性分析的缺陷,,強(qiáng)調(diào)數(shù)據(jù)共享,、方法標(biāo)準(zhǔn)化的重要性。文中提及大量最新研究,、分析方法和平臺(tái),,指導(dǎo)作用強(qiáng),值得專業(yè)人士參考,。

參考文獻(xiàn)

  1. 文章主頁(yè) https://www./articles/s41579-018-0029-9

  2. PDF下載鏈接 https:///10.1038/s41579-018-0029-9

  3. 何茂章本文閱讀筆記 https://note.youdao.com/share/mobile.html?id=1070e1e78a8e1d7d8b7049f160bbd523&type=note&from=timeline

  4. 一文讀懂:Rob Knight手把手指導(dǎo)菌群研究 https://www./papers/read/1052334830

  5. 相關(guān)技術(shù)文檔鏈接來自 宏基因組公眾號(hào),,ID: meta-genome

文章譯者簡(jiǎn)介

秦媛,博士在讀,。2014年畢業(yè)于河北農(nóng)業(yè)大學(xué)植物保護(hù)專業(yè),,2017年于中國(guó)林業(yè)科學(xué)研究院獲森林保護(hù)碩士學(xué)位,現(xiàn)就讀于中科院遺傳發(fā)育所?,F(xiàn)己發(fā)表論文6篇,,專利1項(xiàng);其中第一作者3篇發(fā)表于Biotechnology Advances,、Frontiers in Microbiology,、Fungal Ecology,累計(jì)影響因子17.9,。主要研究方向包括根際微生物組結(jié)構(gòu)與功能,、宏基因組學(xué)分析方法和科研插圖繪制。

劉永鑫,,博士,。2008年畢業(yè)于東北農(nóng)大微生物學(xué)專業(yè)。2014年中科院遺傳發(fā)育所獲生物信息學(xué)博士學(xué)位,,2016年博士后出站留所工作,,任宏基因組學(xué)實(shí)驗(yàn)室工程師,目前主要研究方向?yàn)楹昊蚪M學(xué),、數(shù)據(jù)分析與可重復(fù)計(jì)算和植物微生物組,。發(fā)于論文10篇,SCI收錄7篇,。2017年7月創(chuàng)辦“宏基因組”公眾號(hào),,不到一年關(guān)注人數(shù)超2萬,累計(jì)閱讀超200萬,。

宏基因組/微生物組是當(dāng)今世界科研最熱門的研究領(lǐng)域之一,,為加強(qiáng)本領(lǐng)域的技術(shù)交流與傳播,推動(dòng)中國(guó)微生物組計(jì)劃發(fā)展,,中科院青年科研人員創(chuàng)立“宏基因組”公眾號(hào),,目標(biāo)為打造本領(lǐng)域純干貨技術(shù)及思想交流平臺(tái),。公眾號(hào)每日推送,內(nèi)容涉及科研思路,、實(shí)驗(yàn)和分析技術(shù),、文獻(xiàn)解讀、重要成果報(bào)導(dǎo)等,。目前經(jīng)過近一年發(fā)展,,分享近200篇原創(chuàng)文章,已有21000+小伙伴在這里一起學(xué)習(xí)了,,感興趣的趕快關(guān)注吧。

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多