久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

微生物多樣研究—差異分析

 Mobio_Lab_Sun 2019-11-05

1. 隨機森林模型

  • 隨機森林是一種基于決策樹(Decisiontree)的高效的機器學習算法,,可以用于對樣本進行分類(Classification),,也可以用于回歸分析(Regression)。

  • 它屬于非線性分類器,,因此可以挖掘變量之間復雜的非線性的相互依賴關系,。通過隨機森林分析,可以找出能夠區(qū)分兩組樣本間差異關鍵OTU。

Feature Importance Scores表格-來源于隨機森林結果

記錄了各OTU對組間差異的貢獻值大小,。

注:一般地,,選取Mean_decrease_in_accuracy值大于0.05的OTU,作進一步分析,;對于組間差異較小的樣本,,該值可能會降至0.03。

2. 交叉驗證分析

  • 交叉驗證(Crossvalidation),,是一種統(tǒng)計學上將數(shù)據(jù)樣本切割成較小子集的實用方法,。先在一個子集上做分析,而其它子集則用來做后續(xù)對此分析的確認及驗證,。一開始的子集被稱為訓練集,。而其它的子集則被稱為驗證集或測試集。

  • 其中最常見的為k-foldercross-validation,,它指的是將所有數(shù)據(jù)分成k個子集,,每個子集均做一次測試集,,其余的作為訓練集,。交叉驗證重復k次,,每次選擇一個子集作為測試集,,并將k次的平均交叉驗證識別正確率作為結果,。

  • 所有的樣本都被作為了訓練集和測試集,每個樣本都被驗證一次,。

  • 對隨機森林方法篩選出的關鍵OTU的組合進行遍歷,,以期用最少的OTU數(shù)目組合構建一個錯誤率最低高效分類器。

一般地,,對隨機森林分析篩選出的關鍵OTU,,按照不同組合進行10倍交叉驗證分析,找出能夠最準確區(qū)分組間差異的最少的OTU組合,,再做進一步的分析,,如ROC分析等。

注:圖中橫坐標表示不同數(shù)量的OTU組合,,縱坐標表示該數(shù)量OTU組合下分類的錯誤率,。OTU組合數(shù)越少,且錯誤率越低,,則該OTU組合被認為是能夠區(qū)分組間差異的最少的OTU組合,。

3. ROC曲線

  • 接收者操作特征曲線(Receiveroperating characteristic curve,ROC 曲線)也是一種有效的有監(jiān)督學習方法,。ROC分析屬于二元分類算法,,用來處理只有兩種分類的問題,可以用于選擇最佳的判別模型,選擇最佳的診斷界限值。  

  • 可依據(jù)專業(yè)知識,,對疾病組和參照組測定結果進行分析,,確定測定值的上下限、組距以及截斷點(cut-offpoint),,按選擇的組距間隔列出累積頻數(shù)分布表,,分別計算出所有截斷點的敏感性(Sensetivity)、特異性和假陽性率(1-特異性:Specificity),。以敏感性為縱坐標代表真陽性率,,(1-特異性)為橫坐標代表假陽性率,作圖繪成ROC曲線,。ROC曲線越靠近左上角,,診斷的準確性就越高。亦可通過分別計算各個試驗的ROC曲線下的面積(AUC)進行比較,,哪一種試驗的AUC最大,,則哪一種試驗的診斷價值最佳。

注:圖中橫坐標為假陽性率false positive rate(FPR):Specificity,,縱坐標為真陽性率true positive rate(TPR):Sensetivity,。最靠近左上角的ROC曲線的點是錯誤最少的最好閾值,其假陽性和假陰性的總數(shù)最少,。ROC曲線下的面積值在1.0和0.5之間,。在AUC>0.5的情況下,AUC越接近于1,,說明診斷效果越好,。AUC在 0.5~0.7時有較低準確性,AUC在0.7~0.9時有一定準確性,,AUC在0.9以上時有較高準確性,。AUC=0.5時,說明診斷方法完全不起作用,,無診斷價值,。AUC<0.5不符合真實情況,在實際中極少出現(xiàn),。

4. Wilcoxon秩和檢驗分析

Wilcoxonrank-sum test,,也叫曼-惠特尼U檢驗(Mann–WhitneyU test),是兩組獨立樣本非參數(shù)檢驗的一種方法,。其原假設為兩組獨立樣本來自的兩總體分布無顯著差異,,通過對兩組樣本平均秩的研究來實現(xiàn)判斷兩總體的分布是否存在差異,該分析可以對兩組樣品的物種進行顯著性差異分析,,并對p值計算假發(fā)現(xiàn)率(FDR)q值,。

注:mean分別為兩組樣品物種的平均相對豐度,,sd分別是兩組樣本物種相對豐度的標準差。P值為對兩組檢驗原假設為真的概率值,,p<0.05表示存在差異,,p<0.01表示差異顯著,q值為假發(fā)現(xiàn)率,。

5.  差異菌群Heatmap分析

  • 以10倍交叉驗證(10-foldcross-validation)估計泛化誤差(Generalizationerror)的大小,,其余參數(shù)使用默認設置。建模結果同時包含“基線”誤差(Baselineerror)的期望值,,即數(shù)據(jù)集中屬于最優(yōu)勢分類的樣本全部被錯誤分類的概率,。每個OTU根據(jù)其被移除后模型預報錯誤率增加的大小確定其重要度數(shù)值,重要度越高,,該OTU對模型預報準確率的貢獻越大,。  

  • 根據(jù)挑選出來的差異OTU,根據(jù)其在每個樣品中的豐度信息,,對物種進行聚類,,繪制成熱圖,便于觀察哪些物種在哪些樣品中聚集較多或含量較低,。

注:圖中越接近藍色表示物種豐度越低,,越接近橙紅色表示豐度越高。左邊的聚類樹是根據(jù)各物種間的spearman相關性距離進行聚類,;上邊的聚類樹是采用樣本間距離算法中最常用的Bray-Curtis算法進行聚類,。

6. 兩組樣本W(wǎng)elch's t-test分析

兩組不同方差的樣本可使用Welch’st-test進行差異比較分析,通過此分析可獲得在兩組中有顯著性差異的物種[或差異基因豐度—適用于元(宏)基因組],。

注:上圖所示為不同基因豐度(或物種)在兩組樣品中的豐度比例,,中間所示為95%置信度區(qū)間內,,物種豐度的差異比例,,最右邊的值為p值,p值<0.05,,表示差異顯著,。

7. Shannon多樣性指數(shù)比較盒狀圖

將不同分類或環(huán)境的多組樣本的Shannon多樣性指數(shù)進行四分位計算,比較不同樣本組的組間Shannon指數(shù)差異,。同時進行非參數(shù)Mann-Whitney判斷樣本組間的顯著性差異,。

注:橫坐標表示樣本分組,縱坐標表示相對應的Alpha多樣性指數(shù)值,;圖形可以顯示5個統(tǒng)計量(最小值,,第一個四分位,中位數(shù),,第三個中位數(shù)和最大值,,及由下到上5條線),。p<0.05,表示差異顯著,;P<0.01,,表示差異極顯著。

8. 基于距離的箱式圖

  • 將不同分類或環(huán)境的多組樣本的距離進行四分位計算,,比較不同樣本組的組內和組間的距離分布差異,。同時進行multipleStudent’s two-sample t-tests判斷樣本組間差異的顯著性。  

  • 箱式圖的作用:識別數(shù)據(jù)異常值,;粗略估計和判斷數(shù)據(jù)特征,;比較幾批數(shù)據(jù)的形狀,同一數(shù)軸上,,幾批數(shù)據(jù)的箱形圖并行排列,,幾批數(shù)據(jù)的中位數(shù)、尾長,、異常值,、分布區(qū)間等形狀信息一目了然。 

  • 箱線圖(Boxplot)也稱箱須圖(Box-whiskerPlot),,是利用數(shù)據(jù)中的五個統(tǒng)計量:最小值,、第一四分位數(shù)、中位數(shù),、第三四分位數(shù)與最大值來描述數(shù)據(jù)的一種方法,,它也可以粗略地看出數(shù)據(jù)是否具有對稱性,分布的分散程度等信息,,特別可以用于對幾組樣本的比較,。簡單箱線圖由五部分組成,分別是最小值,、中位數(shù),、最大值和兩個四分位數(shù)。

注:第一四分位數(shù) (Q1),,又稱“下四分位數(shù)”,,等于該樣本中所有數(shù)值由小到大排列后第25%的數(shù)字。第二四分位數(shù) (Q2),,又稱“中位數(shù)”,,等于該樣本中所有數(shù)值由小到大排列后第50%的數(shù)字。 第三四分位數(shù) (Q3),,又稱“上四分位數(shù)”,,等于該樣本中所有數(shù)值由小到大排列后第75%的數(shù)字。

9.  LEfSe分析

  • LEfSe是一種用于發(fā)現(xiàn)高維生物標識和揭示基因組特征的軟件,。包括基因,,代謝和分類,,用于區(qū)別兩個或兩個以上生物條件(或者是類群)。該算法強調的是統(tǒng)計意義和生物相關性,。讓研究人員能夠識別不同豐度的特征以及相關聯(lián)的類別,。

  • LEfSe通過生物學統(tǒng)計差異使其具有強大的識別功能。然后,,它執(zhí)行額外的測試,,以評估這些差異是否符合預期的生物學行為。

  • 具體來說,,首先使用non-parametric factorial Kruskal-Wallis (KW) sum-rank test(非參數(shù)因子克魯斯卡爾—沃利斯和秩驗檢)檢測具有顯著豐度差異特征,,并找到與豐度有顯著性差異的類群。最后,,LEfSe采用線性判別分析(LDA)來估算每個組分(物種)豐度對差異效果影響的大小,。

說明:左邊的圖為統(tǒng)計兩個組別當中有顯著作用的微生物類群通過LDA分析(線性回歸分析)后獲得的LDA分值。右邊的圖為聚類樹,,節(jié)點大小表示豐度,,默認從門到屬依次向外排列。紅色區(qū)域和綠色區(qū)域表示不同分組,,樹枝中紅色節(jié)點表示在紅色組別中起到重要作用的微生物類群,,綠色節(jié)點表示在綠色組別中起到重要作用的微生物類群,黃色節(jié)點表示的是在兩組中均沒有起到重要作用的微生物類群,。圖中英文字母表示的物種名稱在右側圖例中進行展示,。

10. ANOSIM相似性分析

  • 相似性分析(ANOSIM)是一種非參數(shù)檢驗,用來檢驗組間(兩組或多組)的差異是否顯著大于組內差異,,從而判斷分組是否有意義,。首先利用Bray-Curtis算法計算兩兩樣品間的距離,然后將所有距離從小到大進行排序,,按以下公式計算R值,,之后將樣品進行置換,重新計算R*值,,R*大于R的概率即為P值,。

Table.   Anosim analysis

注:理論上,R值范圍為-1到+1,,實際中R值一般從0到1,R值接近1表示組間差異越大于組內差異,,R值接近0則表示組間和組內沒有明顯差異,。P值則反映了分析結果的統(tǒng)計學顯著性,P值越小,,表明各樣本分組之間的差異顯著性越高,,P< 0.05表示統(tǒng)計具有顯著性,;Number of permutation表示置換次數(shù)。

11. Adonis多因素方差分析

Adonis又稱置換多因素方差分析(permutationalMANOSVA)或非參數(shù)多因素方差分析(nonparametricMANOVA),。它利用半度量(如Bray-Curtis)或度量距離矩陣(如Euclidean)對總方差進行分解,,分析不同分組因素對樣品差異的解釋度,并使用置換檢驗對劃分的統(tǒng)計學意義進行顯著性分析,。

Table  permutational MANOVA analysis

注:

Group:表示分組,;

Df:表示自由度;

SumsOfSqs:總方差,,又稱離差平方和,;

MeanSqs:平均方差,即SumsOfSqs/Df,;

F.Model:F檢驗值,;

R2:表示不同分組對樣品差異的解釋度,即分組方差與總方差的比值,,即分組所能解釋的原始數(shù)據(jù)中差異的比例,,R2越大表示分組對差異的解釋度越高;

Pr(>F):通過置換檢驗獲得的P值,,P值越小,,表明組間差異顯著性越強。

    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多