16S科研項(xiàng)目是一個(gè)完整的閉環(huán),,前期的課題項(xiàng)目設(shè)計(jì)方案,、取樣和重復(fù)實(shí)驗(yàn)設(shè)置決定了后期分析報(bào)告的數(shù)據(jù)完整性和項(xiàng)目類型。 想要拿到一手有利用價(jià)值的科研報(bào)告和項(xiàng)目數(shù)據(jù),,前期的實(shí)驗(yàn)方案設(shè)計(jì)和后續(xù)的分析都起著關(guān)鍵性的作用,。 然而有時(shí)候拿到報(bào)告不知道如何去解讀,這里為大家梳理一下16s科研項(xiàng)目的全過(guò)程,,幫助大家更好的了解報(bào)告內(nèi)容,,快速獲取關(guān)鍵信息。 NO.1 實(shí)驗(yàn)方案設(shè)計(jì) 實(shí)驗(yàn)方案設(shè)計(jì)就像一個(gè)總工程的設(shè)計(jì)圖紙,,決定了未來(lái)科研分析報(bào)告的類型走向,,并且前期的分組設(shè)計(jì)的越詳細(xì),各種理化指標(biāo),、生化指標(biāo),、代謝物等信息準(zhǔn)備越充分,后續(xù)報(bào)告的完整度越高,。 明確項(xiàng)目課題類型 第一步要做的就是明確項(xiàng)目課題類型: 最常見的就是多分組之間差異分析比較:例如,,要比較對(duì)照組,、模型組、實(shí)驗(yàn)組,,之間的差異結(jié)果,。 還有多分組中,任意兩組之間比較:例如某實(shí)驗(yàn)設(shè)計(jì)了正常組,、疾病組,、用藥組服用奧氮平、阿立哌唑,、氨磺必利,、利培酮,像比較不同的用藥組和疾病組之間的菌群的差異結(jié)果,,就用到了分組之間兩兩差異比較,。 ?舉個(gè)例子 圖中1組與3組、4組,、6組 組間差異顯著 還有隨時(shí)間的變化比較菌群之間的變化規(guī)律:例如在用藥不同時(shí)間段包括3天,,5天,2周,,1個(gè)月,,2個(gè)月,觀察菌群的變化情況,。如下圖所示: 收集理化指標(biāo)非常重要 如果前期搜集好每個(gè)樣本的相關(guān)理化指標(biāo),,還可以計(jì)算這些指標(biāo)與菌群之間是否具有相關(guān)性。 ?舉個(gè)例子 例如該項(xiàng)目比較自閉癥兒童與正常兒童的菌群差異,??蛻粼跇颖拘畔卫镞€詳細(xì)搜集了母孕期的各種詳細(xì)指標(biāo),例如孕期天數(shù),、出生體重,、白細(xì)胞介素6、腫瘤壞死因子a,、五羥色氨等數(shù)值型理化指標(biāo),。 還搜集了是否順產(chǎn)、是否妊娠高血壓,、是否孕期感染,、是否妊娠糖尿病、是否先兆流產(chǎn)等因子型理化指標(biāo),。其中0代表否,,1代表是: 根據(jù)這些理化指標(biāo)與菌群數(shù)據(jù)做相關(guān)性分析,從因子型的結(jié)果可以看出,,自閉癥(ASD)與正常兒童之間的分組與菌群之間相關(guān)性極顯著**,,其次是否有先兆流產(chǎn)的分組與菌群之間有顯著相關(guān)性*,,其他的包括是否喝牛奶,、孕期是否感染,、妊娠高血壓都與菌群有相關(guān)性。 在數(shù)值型理化指標(biāo)中,,孕期的天數(shù)與菌群之間相關(guān)性顯著*,,其次是白細(xì)胞介素6與菌群之間有相關(guān)性。 小結(jié) 因此,,前期搜集相關(guān)資料越詳細(xì)充分,,對(duì)分析報(bào)告的完整性也會(huì)有幫助,分析人員也會(huì)根據(jù)您的樣本信息單提供的相關(guān)內(nèi)容,,做出個(gè)性化的分析和售后指導(dǎo)建議,。 NO. 2 取 樣 首先基于樣本類型,最常見的環(huán)境樣本來(lái)源是人體,、動(dòng)物,、土壤、水體等,。而人體中的腸道菌群樣本是目前研究最廣泛,,可鑒定的物種也最為豐富,谷禾在腸道菌群與人體健康方面有深入研究,,目前已完成超20萬(wàn)例臨床腸道菌群樣本檢測(cè),,并構(gòu)建了超過(guò)60萬(wàn)各類人群糞便樣本數(shù)據(jù)庫(kù)。 其他樣本類型還包括人體/動(dòng)物唾液樣本,、組織樣本,、尿液樣本等。 ? 糞便樣本 目前糞便樣本從采樣到提取數(shù)據(jù)分析技術(shù)較為成熟,、應(yīng)用較為廣泛,,谷禾最早在15年就開發(fā)了針對(duì)糞便樣本的取樣管,也是最早致力于研發(fā)糞菌取樣盒的公司,,方便實(shí)驗(yàn)室,、個(gè)人日常取樣需求,實(shí)現(xiàn)了糞菌樣本的常溫運(yùn)輸,。 谷禾取樣管常溫保存,,取樣也較為方便衛(wèi)生,在家就可以輕松完成,,相較于傳統(tǒng)取樣方法都有所升級(jí),。并且該取樣管也有專利證書。該取樣方法被大量客戶采用并接納,,大大降低了采集糞便樣本的難度,,縮短了搜集樣本的時(shí)間周期,。 取樣示意圖 ? 其他樣本 土壤樣本也相對(duì)較為容易提取出DNA,但需要注意的是土壤樣本的菌群特征容易受植物腐殖質(zhì)基因的影響和干擾,,所以提取時(shí)要進(jìn)行純化,。 而口腔、組織,、尿液等樣本,,由于DNA含量較少,在實(shí)驗(yàn)階段提取相對(duì)較為困難,,所以提前準(zhǔn)備樣本時(shí),,盡量多取一些,并且可以多取幾個(gè)重復(fù),,盡量避免擴(kuò)增不出來(lái)的情況,。 并且這些樣還很容易受到環(huán)境樣的污染,所以在實(shí)驗(yàn)階段,,可以取空白樣本,,和陽(yáng)性樣本ST做對(duì)照,數(shù)據(jù)分析時(shí)可以用來(lái)純化樣本,,排除來(lái)自環(huán)境的干擾序列,。 ?組間差異分析需重復(fù)取樣 要做組間差異分析時(shí),每組要重復(fù)取樣,,才能做組與組之間的統(tǒng)計(jì)檢驗(yàn),。理論上,每個(gè)組至少3個(gè)樣就滿足基本的統(tǒng)計(jì)差異分析需求,。所以在重復(fù)取樣時(shí),,每個(gè)分組至少取3個(gè)樣。取樣時(shí)要保證每個(gè)分組內(nèi)部的樣本一致性,,如果組內(nèi)樣本之間的個(gè)體差異性較大,,則會(huì)影響后期組間差異結(jié)果分析。 ?舉個(gè)例子 例如從該圖可以看出,,分組之間組間差異較大,,并且組內(nèi)的樣本之間較為接近和相似。 但從該圖可以看出,,Control組中Control3樣本明顯與組內(nèi)的其他樣本差異較大,,與DSS組內(nèi)的樣本較為相近,這樣就對(duì)后期組間差異分析的時(shí)候會(huì)產(chǎn)生影響,,需要將該樣本去除,。 又例如在該圖中,TA200組中的TA3樣本的Anaeroplasmatales物種豐度含量非常高,該樣本與組內(nèi)的其他樣本明顯差異較大,,該樣本可能受到環(huán)境污染等其他因素干擾,,這樣就沒有辦法保證組內(nèi)樣本的均一性,也會(huì)影響分組之間的差異分析統(tǒng)計(jì)結(jié)果,,再后期分析的時(shí)候建議把該樣本去掉重新分析,。 建議 為了便于后期數(shù)據(jù)整理修改,每個(gè)分組需要保留一定量的重復(fù)樣本,,假如每個(gè)分組只取了3次重復(fù),,假如其中有一個(gè)樣本質(zhì)量不好需要去除,該分組只剩2個(gè)樣本,,則不滿足每組至少3個(gè)樣的分組條件,整體就沒有辦法做組間差異分析統(tǒng)計(jì),。 所以這里建議每個(gè)分組至少取5個(gè)樣做重復(fù),,一般6到10個(gè)樣就能分析出比較完善的結(jié)果。具體分組和組內(nèi)的重復(fù)取樣數(shù)量視具體的實(shí)驗(yàn)設(shè)計(jì)方案而定,。 在經(jīng)費(fèi)允許的情況下,,建議多取一些重復(fù)。假設(shè)每組取50到100個(gè)重復(fù)或者以上,,得到的分析結(jié)果就基本可以涵蓋該分組情況所有的菌群構(gòu)成情況,,可以較為全面的研究分組之間的菌群構(gòu)成差異情況。 NO. 3 科研分析報(bào)告 當(dāng)拿到16S科研分析報(bào)告以后,,面對(duì)紛繁復(fù)雜,,各式各樣的圖表分析結(jié)果犯了難,不知道如何從這么多的圖表中入手,,快速找到報(bào)告中需要的圖表結(jié)果,。 這里對(duì)16S科研分析結(jié)果抽絲剝繭,概括出報(bào)告中的主要幾大內(nèi)容板塊,。 ·16S科研分析究竟是在做什么,? 16S rDNA 是一種對(duì)特定環(huán)境樣品中所有的細(xì)菌進(jìn)行高通量測(cè)序,以研究環(huán)境樣品中微生物群體的組成,,解讀微生物群體的多樣性,、豐富度及群體結(jié)構(gòu),探究微生物與環(huán)境或宿主之間的關(guān)系的技術(shù),。 16S分析流程 主要是對(duì)原始數(shù)據(jù)進(jìn)行拼接過(guò)濾得到的優(yōu)化序列,,降噪方法得到ASV,再對(duì)ASV進(jìn)行物種注釋,,注釋到門,、綱、目、科,、屬,、種各層次上的分類結(jié)果。 通過(guò)ASV表計(jì)算Alpha多樣性,,樣本內(nèi)的多樣性指數(shù),,Beta多樣性,樣本間相似性的指標(biāo),。 對(duì)ASV表進(jìn)行功能預(yù)測(cè),,例如Picrust2功能預(yù)測(cè)分析、Bugbase菌群表型特征分析,,F(xiàn)APROTAX生態(tài)功能預(yù)測(cè)等,。 得到的每個(gè)樣的數(shù)據(jù)結(jié)果,根據(jù)客戶提供的分組情況和理化指標(biāo),,進(jìn)一步做組間差異分析,,以及和環(huán)境理化指標(biāo)之間做關(guān)聯(lián)分析,相關(guān)性分析,,比較分組之間是否有差異,,差異是否顯著,來(lái)驗(yàn)證分組是否合理,,和環(huán)境宿主之間是否有關(guān)聯(lián)性,。 原始數(shù)據(jù)處理 Illumina NovaSeq測(cè)序平臺(tái)測(cè)序得到的雙端數(shù)據(jù)Raw PE,經(jīng)過(guò)拼接和質(zhì)控,,根據(jù)一定的標(biāo)準(zhǔn)過(guò)濾掉低質(zhì)量數(shù)據(jù),、接頭或PCR錯(cuò)誤,得到Raw Tags,。再經(jīng)過(guò)去重復(fù)序列,,去singleton序列,過(guò)濾嵌合體,,得到可用于后續(xù)分析的有效數(shù)據(jù) Effective Tags,。 OTU(ASV) 表生成 微生物多樣性分析中最重要的就是OTU特征表,一切后續(xù)分析都圍繞OTU表來(lái)進(jìn)行,。生成OTU除了傳統(tǒng)的聚類的方法(一般按照97%的相似度進(jìn)行聚類),,現(xiàn)在最新用到的技術(shù)的是降噪的方法得到ASV。 簡(jiǎn)單來(lái)講ASV就是在去除了錯(cuò)誤序列之后,,將Identity的標(biāo)準(zhǔn)設(shè)為100%進(jìn)行聚類,,常見的有DADA2、Deblur,、Unoise三種降噪方法,。項(xiàng)目里用到的是UNOISE2降噪方法獲得ASV數(shù)據(jù)。 物種的分類與注釋 采用QIIME2訓(xùn)練分類器方法對(duì)ASVs代表序列進(jìn)行分類學(xué)注釋,默認(rèn)選用SILVA138數(shù)據(jù)庫(kù)進(jìn)行物種注釋,。并在各個(gè)分類水平上:domain(域),,phylum(門),class(綱),,order (目),,family(科),genus(屬),,species(種)對(duì)每個(gè)樣本的群落組成統(tǒng)計(jì),。 alpha多樣性 Alpha多樣性主要反映樣本內(nèi)多樣性。對(duì)ASV表進(jìn)行計(jì)算可以獲得每個(gè)樣本的simpson,,ace,,shannon,chao1以及goods_coverage等指數(shù),,alpha多樣性指數(shù)用來(lái)來(lái)評(píng)估樣本菌群物種的豐富度(richness)和多樣性(diversity) beta多樣性 Beta多樣性反映的是樣本間多樣性,,Beta多樣性是衡量個(gè)體間微生物組成相似性的一個(gè)指標(biāo)。通過(guò)計(jì)算樣本間距離可以獲得β多樣性矩陣,,基于OTU的群落比較方法報(bào)告中給出了,歐式距離,、bray curtis距離,、Unweighted UniFrac距離和Weighted UniFrac距離等。 功能預(yù)測(cè) 得到群落的微生物組成之后,,也可以對(duì)群落功能組成進(jìn)行預(yù)測(cè),,常用的16S功能預(yù)測(cè)的相關(guān)軟件有PICRUSt2、FAPROTAX,、BugBase,。 PICRUSt2用來(lái)預(yù)測(cè)功能,通常指的是基因家族,,PICRUSt2支持基于多個(gè)基因家族數(shù)據(jù)庫(kù)的預(yù)測(cè),,報(bào)告中包括了KEGG同源基因,KO直系同源物,EC酶分類編號(hào),,MetaCyc途徑的豐度,,CAZy碳水化合物活性酶數(shù)據(jù)庫(kù),GMM是腸道代謝模塊和GBM是腸腦模塊,。 FAPROTAX是原核的微生物注釋代謝或其他生態(tài)相關(guān)的功能(例如硝化,,反硝化,發(fā)酵)的一個(gè)數(shù)據(jù)庫(kù)和軟件,。FAPROTAX預(yù)測(cè)的功能主要集中在海洋,、湖泊等環(huán)境樣本微生物的功能,特別是硫、碳,、氫,、氮的循環(huán)功能。 BugBase能進(jìn)行表型預(yù)測(cè),,其中表型類型包括革蘭氏陽(yáng)性(Gram Positive),、革蘭氏陰性(Gram Negative)、生物膜形成(Biofilm Forming),、致病性(Pathogenic),、移動(dòng)元件(Mobile Element Containing)、氧需求(Oxygen Utilizing,,包括Aerobic,、Anaerobic、facultatively anaerobic)及氧化脅迫耐受(Oxidative Stress Tolerant)等7類,。 以上這些部分,,我們通過(guò)數(shù)據(jù)處理分析,得到了每個(gè)樣本相關(guān)的大量數(shù)據(jù)結(jié)果,,包括每個(gè)樣本的序列統(tǒng)計(jì),、ASVs表格、物種分類注釋統(tǒng)計(jì),、alpha多樣性指數(shù),、beta多樣性指數(shù)、功能預(yù)測(cè)等,。這些數(shù)據(jù)主要集中在報(bào)告里的這些內(nèi)容: ? 科研分析報(bào)告結(jié)果文件夾 01_pick_otu/ 文件夾主要是對(duì)樣本ASV表格統(tǒng)計(jì) 02_sequence_statistic/ 文件夾是對(duì)樣本序列數(shù)據(jù)的統(tǒng)計(jì) 03_diversity-metrics / 文件夾是對(duì)樣本的alpha多樣性指數(shù),、beta多樣性指數(shù)的統(tǒng)計(jì) 04_Taxonomic/ 文件夾是對(duì)物種分類注釋的統(tǒng)計(jì)(門到種水平) Picurst2/ 文件夾是Picrust2功能預(yù)測(cè)得到的每個(gè)樣本的相關(guān)功能預(yù)測(cè)數(shù)據(jù) Groups/ 文件夾下是對(duì)組間差異分析結(jié)果 紅框是樣本個(gè)體的相關(guān)數(shù)據(jù)統(tǒng)計(jì),Group是分組比較 根據(jù)以上常規(guī)分析得到的相關(guān)數(shù)據(jù)進(jìn)行作圖,,其路徑也在對(duì)應(yīng)文件夾下,,可以打開 分析報(bào)告.html 有相關(guān)分析的圖表和對(duì)應(yīng)文件的詳細(xì)介紹和路徑說(shuō)明。 ★拿到樣本后需要進(jìn)行統(tǒng)計(jì)分析 當(dāng)我們拿到這些樣本大量的數(shù)據(jù)結(jié)果,,之后關(guān)鍵的一步就是做對(duì)這些數(shù)據(jù)進(jìn)行處理,,做統(tǒng)計(jì)分析,比較分組之間的差異結(jié)果,,找出菌群和環(huán)境之間的關(guān)聯(lián)性等,,對(duì)數(shù)據(jù)進(jìn)一步做研究,找出課題方案對(duì)應(yīng)的結(jié)果,。 差異分析 不同的數(shù)據(jù)用到的統(tǒng)計(jì)檢驗(yàn)方法也不太一樣,,接下來(lái)我們對(duì)報(bào)告中的不同的分析結(jié)果對(duì)應(yīng)的統(tǒng)計(jì)差異分析方法進(jìn)行介紹說(shuō)明。 ? alpha多樣性 alpha多樣性指數(shù)組間差異統(tǒng)計(jì)分析用到的檢驗(yàn)方法是:?jiǎn)我蛩胤讲罘治觯ㄈ绻挥袃蓚€(gè)分組,,用Wilcoxon秩和檢驗(yàn),,3個(gè)及以上的分組用Kruskal-Wallis 檢驗(yàn)),,圖上方顯示P值 ? beta多樣性 beta多樣性指數(shù)的統(tǒng)計(jì)檢驗(yàn)方法有ANOSIM相似性分析和Adonis多元方差分析,這兩種都是基于距離矩陣的檢驗(yàn)方法,。 ?Anosim相似性分析 Anosim分析是一種非參數(shù)檢驗(yàn),,用來(lái)檢驗(yàn)組間的差異是否顯著大于組內(nèi)差異,從而判斷分組是否有意義,。 報(bào)告中給出了加權(quán)距離和非加權(quán)距離的Anosim結(jié)果圖,,圖中給出了R值和P值。 R值用于比較不同組間是否存在差異,,R-value 介于(-1,,1)之間,R-value > 0,,說(shuō)明組間差異大于組內(nèi)差異,。R-value < 0,說(shuō)明組間差異小于組內(nèi)差異,。R只是組間是否有差異的數(shù)值表示,,并不提供顯著性說(shuō)明。 統(tǒng)計(jì)分析的可信度用 P-value 表示,,P< 0.05 表示統(tǒng)計(jì)具有顯著性,。 圖中能看出R>0,說(shuō)明組間差異大于組內(nèi)差異,,P<0.05 ,說(shuō)明差異顯著,,證明該分組情況效果較好。 ?Adonis多元方差分析 Adonis多元方差分析,,其實(shí)就是PERMANOVA,亦可稱為非參數(shù)多元方差分析,。 其原理是利用距離矩陣(比如基于Bray-Curtis距離,、Euclidean距離)對(duì)總方差進(jìn)行分解,分析不同分組因素對(duì)樣品差異的解釋度,,并使用置換檢驗(yàn)對(duì)其統(tǒng)計(jì)學(xué)意義進(jìn)行顯著性分析,。 它與Anosim的用途相似,也能夠給出不同分組因素對(duì)樣品差異的解釋度(R值)與分組顯著性(P值),。 報(bào)告中PCoA bray距離,、PCoA weighted_unifrac距離、PCoA unweighted_unifrac距離的圖片右下角有給出PERMANOVA檢驗(yàn)的P值和R值,。 圖中看出PCoa bray距離得到的檢驗(yàn)P<0.05 組間差異顯著,,并且分組之間區(qū)分較為明顯。 PCoa bray距離的PERMANOVA檢驗(yàn)結(jié)果路徑: 多組間檢驗(yàn)結(jié)果:Groups/betadiv/pcoa_bray_analysis/PERMANOVA.result_all.csv 兩組間檢驗(yàn)結(jié)果:Groups/betadiv/pcoa_bray_analysis/ PERMANOVA_paired_result.csv 不同分類水平下的檢驗(yàn)方法 在很多分析報(bào)告當(dāng)中,,例如在不同疾病的腸道菌群分組中,,本身樣本個(gè)體之間腸道菌群的物種多樣性,,豐富度差異并不大,alpha多樣性組間差異并不顯著,,beta多樣性分組間區(qū)分不是很明顯,,這樣就需要進(jìn)一步找出分組之間的差異物種或者差異功能來(lái)進(jìn)行分析。 對(duì)于不同分類水平的物種和功能預(yù)測(cè)結(jié)果用到以下幾種檢驗(yàn)方法: Tukey檢驗(yàn) Tukey主要應(yīng)用于3組或以上的多重比較,適合于各組例數(shù)相等的每?jī)蓛煞纸M之間比較,。 Tukey檢驗(yàn)的一個(gè)重要的優(yōu)點(diǎn)是非常簡(jiǎn)單,,而且所需實(shí)驗(yàn)樣本相對(duì)較少。 其檢驗(yàn)結(jié)果的可信度達(dá)到95%的置信水平時(shí),,最少的情況下只需6個(gè)樣本進(jìn)行驗(yàn)證(改善前3個(gè)樣本,、改善后3個(gè)樣本)。 ·舉個(gè)例子 圖中的字母代表顯著性差異的字母表示法,,只要含有相同的字母,,就表明兩組之間沒有顯著性差異。 例如a和ab含有相同字母“a”,,表示兩組之間沒有顯著性差異,。ab中的“b”表示這一組和其他含有字母b的組(比如bc)沒有顯著性差異,但是a和bc就有顯著性差異了,。 圖中只展示Tukey檢驗(yàn)差異顯著的物種或功能,,如果數(shù)量較多,則只展示前10個(gè),。 路徑:Groups/diff_analysis/TukeyHSD/ 圖中顯示的都是Tukey檢驗(yàn)組間差異顯著的物種,,依次按照豐度從高到底排列,如果差異結(jié)果較大,,則顯示前10個(gè)物種,。例如在該圖中,Tukey檢驗(yàn)結(jié)果,,門水平物種Actinobacteriota在BB與MG1組,、BB與MG2、BF與GG組,、BF與MG1組,、BF與MG2組,這些分組之間組間差異顯著,。 組間差異箱型圖 組間差異箱型圖用到的檢驗(yàn)方法是通過(guò)單因素方差檢驗(yàn)(只有兩個(gè)分組,,用的是Wilcoxon秩和檢驗(yàn),3個(gè)及以上的分組用的是Kruskal-Wallis 檢驗(yàn)),,Var檢驗(yàn)和one-way相結(jié)合,,篩選出組間差異性物種。 路徑:Groups/diff_analysis/TaxaMarkers 圖中每一個(gè)箱型圖代表一個(gè)組間差異顯著的物種 圖中顯示的都是統(tǒng)計(jì)方法得到的差異顯著的物種,,圖中能看出這3個(gè)物種分組之間差異顯著,。 命名格式是,,例如:Cen_Nitrosopumilus 指的是,當(dāng)前分類水平(屬水平)的名字 g__Nitrosopu 加上一級(jí)分類水平(科水平)的名字 f__Cenarchaeaceae 的前 3 個(gè)字母簡(jiǎn)寫Cen,,如果當(dāng)前水平?jīng)]有注釋到名字則以全稱的名字表示,。 統(tǒng)計(jì)結(jié)果表:Groups/diff_analysis/TaxaMarkers/ xxx.Groups.sig.meanTests.csv 例如這是一個(gè)表格的截圖 紅框 mean_ 是分組組間的平均值 藍(lán)框 sd_ 代表組間的標(biāo)準(zhǔn)差 粉色 .test 代表不同統(tǒng)計(jì)檢驗(yàn)結(jié)果的P-value P值,這里有var檢驗(yàn) T 檢驗(yàn) Wilcoxon檢驗(yàn)(或Kruskal-Wallis 檢驗(yàn)) 綠色 _BH 例如Wilcoxon.test_BH代表Wilcoxon.test檢驗(yàn)BH矯正的Q-value,,Q值 UnivarTest檢驗(yàn)(單因素方差分析) 單因素方差分析是指如果只有兩個(gè)分組,,用Wilcoxon秩和檢驗(yàn),3個(gè)及以上的分組用Kruskal-Wallis 檢驗(yàn),。 路徑:Groups/diff_analysis/UnivarTestXXX Groups\diff_analysis\UnivarTestKEGG\figure 文件夾下有做成柱狀圖,、箱型圖和單個(gè)物種之間的圖,其中有橫著排列和豎著排列的,,有用原始值計(jì)算的,,還有對(duì)原始值取log后進(jìn)行統(tǒng)計(jì)的。圖中只展示Univar 檢驗(yàn)組間差異顯著的物種/功能,。 統(tǒng)計(jì)結(jié)果表:Groups/diff_analysis/UnivarTestXXX/ UnivarTest_sign.txt ·舉個(gè)例子 圖中顯示的是該統(tǒng)計(jì)檢驗(yàn)差異顯著的物種的柱狀圖或箱型圖,,按照豐度從高到低排列,如果差異物種/功能較大,,則只顯示前10個(gè),。例如該圖中Therobifida、Staphylococcus,、Streptomyces等物種用Kruskal-Wallis 檢驗(yàn)得到的組間顯著差異物種,。 該圖展示了Bacillus物種Kruskal-Wallis 檢驗(yàn)差異結(jié)果,所有分組中P<0,001 多組間差異顯著,,兩組間BB與GG,、BB與MG1、BB與MG2,、BF與GG,、BF與MG1、BF與MG2,,組間差異顯著。 LEfse分析 LEfse分析即LDA Effect Size分析,,是一種用于發(fā)現(xiàn)和解釋高維度數(shù)據(jù)生物標(biāo)識(shí)(基因,、通路和分類單元等)的分析工具,可以進(jìn)行兩個(gè)或多個(gè)分組的比較,,它強(qiáng)調(diào)統(tǒng)計(jì)意義和生物相關(guān)性,,能夠在組與組之間尋找具有統(tǒng)計(jì)學(xué)差異的生物標(biāo)識(shí)(Biomarker)。 LEfSe用到的統(tǒng)計(jì)分析方法是將線性判別分析與非參數(shù)的Kruskal-Wallis以及Wilcoxon秩和檢驗(yàn)相結(jié)合,。 LEfse分析結(jié)果中一般會(huì)出現(xiàn)兩個(gè)圖,,一張表( LDA值分布柱狀圖,、進(jìn)化分支圖以及特征表)。 LDA值分布柱狀圖 這個(gè)條形圖主要為我們展示了LDA score大于預(yù)設(shè)值的顯著差異物種,,即具有統(tǒng)計(jì)學(xué)差異的Biomaker,,默認(rèn)值為2.0(看橫坐標(biāo),只有LDA值的絕對(duì)值大于2才會(huì)顯示在圖中),;柱狀圖的顏色代表各自的分組,,長(zhǎng)短代表的是LDA score,即不同組間顯著差異物種的影響程度,。 路徑: Group/Lefse_Analysis/out_formant.cladogram.png 圖中展示了不同分組特有的Lefse組間差異標(biāo)記物,,例如BB組的標(biāo)記物是目水平的Bacillales和科水平的Bacillaceae,不同的分組標(biāo)記物也不同,圖中如果只展示了部分分組,,則代表只有部分分組通過(guò)Lefse分析篩選出組間差異標(biāo)記物,。 進(jìn)化分支圖 小圓圈: 圖中由內(nèi)至外輻射的圓圈代表了由門至屬的分類級(jí)別(最里面的那個(gè)黃圈圈是界)。不同分類級(jí)別上的每一個(gè)小圓圈代表該水平下的一個(gè)分類,,小圓圈的直徑大小代表了相對(duì)豐度的大小,。 顏色: 無(wú)顯著差異的物種統(tǒng)一著色為黃色,差異顯著的物種Biomarker跟隨組別進(jìn)行著色,,紅色節(jié)點(diǎn)表示在紅色組別中起到重要作用的微生物類群,,藍(lán)色節(jié)點(diǎn)表示在藍(lán)色組別中起到重要作用的微生物類群。 未能在圖中顯示的Biomarker對(duì)應(yīng)的物種名會(huì)展示在右側(cè),,字母編號(hào)與圖中對(duì)應(yīng)(為了美觀,,右側(cè)默認(rèn)只顯示門到科的差異物種)。 路徑:Group/Lefse_Analysis/out_formant.png 圖中右側(cè)展示了分支圖中的字母對(duì)應(yīng)的物種信息,,例如a 代表GG組的標(biāo)記物目水平的Microtrichales ,,b代表GG組的標(biāo)記物剛水平的Acidimicrobiia。在分支圖的最外層顯示的是各分組門水平物種的標(biāo)記物,,例如BF組的是Actinobacteriota,、MG1組的是Proteobacteria、 MG2組的是Cyanobacteria 特征表 路徑:Group/Lefse_Analysis/out_formant.res.csv 第一列是樣本中從門到屬水平所有分類單位的列表 Lefse會(huì)逐一判斷這些分類單位的在分組之間是否具有統(tǒng)計(jì)學(xué)顯著性差異,。 第二列:各組分豐度平均值中最大值的log10,,如果平均豐度小于10的按照10來(lái)計(jì)算;如果該分類單位未體現(xiàn)出顯著組間差異,,則后三列為空,。 對(duì)于具有統(tǒng)計(jì)學(xué)差異的分類單位: 第三列:差異基因或物種富集平均豐度最高的分組組名; 第四列:LDA差異分析的對(duì)數(shù)得分值,; 第五列:Kruskal-Wallis秩和檢驗(yàn)的p值,,若不是Biomarker用“-”表示。 默認(rèn)LDA>2,,P<0.05 通常根據(jù)第4列的LDA差異分析對(duì)數(shù)得分值和第五列的P值,,可以描述組間具有顯著差異的分類單位統(tǒng)計(jì)學(xué)效力強(qiáng)弱,。 metagenomeSeq metagenomeSeq是用R開發(fā)的一個(gè)包,metagenomeSeq的基本思想,,用normalization實(shí)現(xiàn)分類注釋時(shí)的biases處理,,同時(shí)用零膨脹高斯分布(zero-flated Gaussian distribution)處理了測(cè)序深度所帶來(lái)的影響,在此基礎(chǔ)上,,利用線性模型找到存在的差異所在,。 路徑:Groups/diff_analysis/ metagenomeRXXX metagenomeSeq 差異顯著物種/功能 熱圖 圖中顏色越深相關(guān)性越小,顏色越接近黃色相關(guān)性越大,,從圖中能看出Actinobacteria物種與BB組和BF組相關(guān)性較大,。 metagenomeSeq差異菌屬于功能代謝關(guān)聯(lián)分析 圖中紅色代表正相關(guān),藍(lán)色代表負(fù)相關(guān),,顏色越深,,圓圈越大,相關(guān)性也越大,,例如圖中能看出MGB049余MF0025 之間成正相關(guān),,且相關(guān)性較大。 隨機(jī)森林模型 一種非線性分類器,,隨機(jī)森林屬于集成類型的機(jī)器學(xué)習(xí)算法,,挖掘變量之間復(fù)雜的非線性的相互依賴關(guān)系。通過(guò)隨機(jī)森林重要性點(diǎn)圖,,可以找出分組間差異的關(guān)鍵物種/功能,。 反映了分類器中對(duì)分類效果起主要作用的特征,按重要性從大到小排列,。 Error rate:表示使用下方的特征進(jìn)行隨機(jī)森林方法預(yù)測(cè)分類的錯(cuò)誤率,,數(shù)值越高表示基于特征分類準(zhǔn)確度不高,可能分組之間特征不明顯,。分值越低證明分組效果比較好,。 ·舉個(gè)例子 圖中按照隨機(jī)森林模型效果篩選出的對(duì)分組效果有重要性作用的物種,按照重要性從高到低進(jìn)行排列,,例如圖中最終要的是a,依次往下是b,、c等。錯(cuò)誤率較小,,表明該分組效果較好,。 ROC曲線 ROC曲線分析是一種常用的統(tǒng)計(jì)學(xué)分析方法,在醫(yī)學(xué)研究中主要用于評(píng)價(jià)診斷試驗(yàn)的效能,。在16S測(cè)序報(bào)告中,我們通過(guò)繪制ROC曲線,,并計(jì)算ROC曲線下面積(AUC),,來(lái)確定分組對(duì)于菌群是否有診斷價(jià)值,。 ROC曲線圖是反映敏感性與特異性之間關(guān)系的曲線。ROC曲線下的面積值在1.0和0.5之間,。在 AUC>0.5的情況下,,AUC越接近于1,說(shuō)明診斷效果越好,。 AUC在0.5~0.7時(shí)有較低準(zhǔn)確性,,AUC在0.7~0.9時(shí)有一定準(zhǔn)確性,AUC在0.9以上時(shí)有較高準(zhǔn)確性,。AUC=0.5時(shí),,說(shuō)明診斷方法完全不起作用,無(wú)診斷價(jià)值,。AUC<0.5不符合真實(shí)情況,,在實(shí)際中極少出現(xiàn)。 ·舉個(gè)例子 從圖中能看出各分組的AUC都大于大于0.9,,各分組的分組效果較好,,BF組AUC等于1,該分組效果最好,,可能樣本之間較為相近,,并且跟其他分組組間差異也比較大。 以上是組間統(tǒng)計(jì)差異的方法介紹,,其他的還包括關(guān)聯(lián)分析,。 例如客戶提供了每個(gè)樣的相關(guān)理化指標(biāo)數(shù)據(jù),想計(jì)算這些指標(biāo)與均屬之間有什么相關(guān)性,,就可以做一下分析,。 關(guān)聯(lián)性分析 ?相關(guān)性熱圖 圖中X軸代表屬水平物種,Y軸代表代謝指標(biāo),,紅色代表正相關(guān),,藍(lán)色代表負(fù)相關(guān),**代表相關(guān)極顯著P<0.01,,* 代表相關(guān)性顯著P<0.05相關(guān)性具有統(tǒng)計(jì)學(xué)意義,。 例如從該圖中能看出6與n物種成正相關(guān),并且相關(guān)性極顯著**,,7與b物種成負(fù)相關(guān),,并且相關(guān)性極顯著**。 可以得到表格:任意菌屬和代謝的相關(guān)性的值和P值 ?CCA圖 可以分析樣本,、菌群,、理化指標(biāo)之間的關(guān)聯(lián)關(guān)系。圖中使用點(diǎn)代表不同的樣本,從原點(diǎn)發(fā)出的箭頭代表不同的環(huán)境因子,。 箭頭的長(zhǎng)度越長(zhǎng),,表示環(huán)境因子的影響越大;夾角越小,,代表相關(guān)性越高,。樣本點(diǎn)與箭頭距離越近,該環(huán)境因子對(duì)樣本的作用越強(qiáng),。 圖像中坐標(biāo)軸標(biāo)簽中的數(shù)值,,代表了坐標(biāo)軸所代表的環(huán)境因子組合對(duì)物種群落變化的解釋比例。 例如從圖中能看出pH ,、NO2N,、02與 Acinetobacter、Weissella等物種成正相關(guān),,與T3D0,、T1D0、T4D0等D0組的樣本成正相關(guān),。 ?RDA 冗余分析 例如從圖中能看出pH與Helicobacer物種成正相關(guān),,相關(guān)性較大,pH與NC組有一定的相關(guān)性,。 ?Envfit分析 回歸擬合分析結(jié)果: 圖中能看出ASD與正常兒童之間的分組與菌群之間相關(guān)性極顯著**,,其次是否有先兆流產(chǎn)的分組與菌群之間有顯著相關(guān)性*,其他的包括是否喝牛奶,、孕期是否感染,、妊娠高血壓都與菌群有相關(guān)性。 環(huán)境因子與功能/物種的相關(guān)性線形圖P<0.05顯著,,圖中紅色點(diǎn)代表正相關(guān),,綠色點(diǎn)代表負(fù)相關(guān),灰色相關(guān)性不顯著,。 圖中能看出pH 與Candidatus Rhabdochlamydia 之間成正相關(guān),,且相關(guān)性顯著,pH 與Sinorhizobium,、Euzebya 之間成負(fù)相關(guān),,切相關(guān)性顯著。 ?Network網(wǎng)絡(luò)分析 還可以做菌屬之間的網(wǎng)絡(luò)分析關(guān)聯(lián)圖,,共發(fā)生網(wǎng)絡(luò)圖為研究復(fù)雜微生物環(huán)境的群落結(jié)構(gòu)和功能提供了新的視角,。 由于不同環(huán)境下微生物的共發(fā)生關(guān)系截然不同,通過(guò)物種共發(fā)生網(wǎng)絡(luò)圖,,可以直觀看出不同環(huán)境因素對(duì)微生物適應(yīng)性的影響,,以及某個(gè)環(huán)境下占互作主導(dǎo)地位的優(yōu)勢(shì)物種,、互作緊密的物種群,這些優(yōu)勢(shì)物種以及物種群往往對(duì)維持該環(huán)境的微生物群落結(jié)構(gòu)和功能穩(wěn)定發(fā)揮著獨(dú)特以及重要的作用,。 ·舉個(gè)例子 圖中展示了相關(guān)性的物種,,例如Bacteroidota、Actinobacteriota,、Proteobacteria 這些物種與其他物種相關(guān)較大,圖中這些物種與其他物種連線較多,,字體比較大也代表相關(guān)性較強(qiáng),,例如Actinobacteriota與Deinococcota連線是綠色的代表這兩個(gè)物種是負(fù)相關(guān)。 這兩個(gè)圖類似的物種相關(guān)性的圖,,用同一個(gè)數(shù)據(jù)做出來(lái)的,,圖中能看出Bacillales、Desulfovibrionales,、Selenomonadales與其他物種相關(guān)性較強(qiáng),。 結(jié) 語(yǔ) 報(bào)告中已經(jīng)基本都涵蓋了16S科研數(shù)據(jù)分析所需要的圖表、差異統(tǒng)計(jì),,以及相關(guān)性分析結(jié)果,。如果在幾種不同類型的統(tǒng)計(jì)方法對(duì)比之下有略微的差異結(jié)果,選取其中一組差異結(jié)果即可,。 報(bào)告里涵蓋了大部分16S所需要的圖片,,不過(guò)也有個(gè)別個(gè)性化的圖需要單獨(dú)用到軟件去做,可以單獨(dú)完成個(gè)性化圖表生成,。 隨著16s分析報(bào)告的不斷升級(jí),,報(bào)告中的圖表以及相應(yīng)的解讀也會(huì)越來(lái)越精細(xì)完善,谷禾也將盡可能為大家的科研之路帶來(lái)更多便利,。 |
|