在微生物多樣性分析中,,LEfSe分析自從”出生“就倍受青睞,,今天小昌寶寶就跟大家嘮嘮這個(gè)高頻出鏡的LEfSe分析,從LEfSe的定義,、結(jié)果,、原理、涉及到的檢驗(yàn)四個(gè)方面進(jìn)行解釋,。 一LEfSe的定義 LEfSe分析即LDA Effect Size分析,,是一種用于發(fā)現(xiàn)和解釋高維度數(shù)據(jù)生物標(biāo)識(shí)(基因、通路和分類單元等)的分析工具,,可以進(jìn)行兩個(gè)或多個(gè)分組的比較,,它強(qiáng)調(diào)統(tǒng)計(jì)意義和生物相關(guān)性,能夠在組與組之間尋找具有統(tǒng)計(jì)學(xué)差異的生物標(biāo)識(shí)(Biomarker),。 二LEfSe結(jié)果分析 一般地,,在微生物多樣性分析結(jié)果中,會(huì)出現(xiàn)兩個(gè)圖,,一張表( LDA值分布柱狀圖,、進(jìn)化分支圖及特征表)。 1. LDA值分布柱狀圖 這個(gè)條形圖主要為我們展示了LDA score大于預(yù)設(shè)值的顯著差異物種,,即具有統(tǒng)計(jì)學(xué)差異的Biomaker,,默認(rèn)預(yù)設(shè)值為2.0(看橫坐標(biāo),只有LDA值的絕對(duì)值大于2才會(huì)顯示在圖中),;柱狀圖的顏色代表各自的組別,,長短代表的是LDA score,即不同組間顯著差異物種的影響程度,。 2. 進(jìn)化分支圖: 小圓圈: 圖中由內(nèi)至外輻射的圓圈代表了由門至屬的分類級(jí)別(最里面的那個(gè)黃圈圈是界),。不同分類級(jí)別上的每一個(gè)小圓圈代表該水平下的一個(gè)分類,小圓圈的直徑大小代表了相對(duì)豐度的大小,。 顏色: 無顯著差異的物種統(tǒng)一著色為黃色,,差異顯著的物種 Biomarker跟隨組別進(jìn)行著色,,紅色節(jié)點(diǎn)表示在紅色組別中起到重要作用的微生物類群,藍(lán)色節(jié)點(diǎn)表示在藍(lán)色組別中起到重要作用的微生物類群,。未能在圖中顯示的Biomarker對(duì)應(yīng)的物種名會(huì)展示在右側(cè),,字母編號(hào)與圖中對(duì)應(yīng)(為了美觀,右側(cè)默認(rèn)只顯示門到科的差異物種),。 3. 特征表: 第一列:Biomarker名稱,; 第二列:各組分豐度平均值中最大值的log10,如果平均豐度小于10的按照10來計(jì)算,; 第三列:差異基因或物種富集的組名,; 第四列:LDA值; 第五列:Kruskal-Wallis秩和檢驗(yàn)的p值,,若不是Biomarker用“-”表示,。 三LEfSe分析原理 A. 首先在多組樣本中采用的非參數(shù)因子Kruskal-Wallis秩和檢驗(yàn)檢測(cè)不同分組間豐度差異顯著的物種; B. 再利用Wilcoxon秩和檢驗(yàn)檢查在顯著差異物種類中的所有亞種比較是否都趨同于同一分類級(jí)別,; C. 最后用線性判別分析(LDA)對(duì)數(shù)據(jù)進(jìn)行降維和評(píng)估差異顯著的物種的影響力(即LDA score),。 四LEfSe分析中的檢驗(yàn) 參數(shù)檢驗(yàn):即總體分布類型已知,用樣本指標(biāo)對(duì)總體參數(shù)進(jìn)行推斷或作假設(shè)檢驗(yàn)的統(tǒng)計(jì)檢驗(yàn)方法,。 非參數(shù)檢驗(yàn):即不考慮總體分布類型是否已知,,不比較總體參數(shù),只比較總體分布的位置是否相同的統(tǒng)計(jì)方法,。 參數(shù)檢驗(yàn)分類:T檢驗(yàn),,方差分析,(要求:方差齊性,、正態(tài)分布),。 選用非參數(shù)檢驗(yàn)的情況有:①總體分布不易確定(即不知道是不是正態(tài)分布) ②分布呈非正態(tài)而無適當(dāng)?shù)臄?shù)據(jù)轉(zhuǎn)換方法③等級(jí)資料等。 一般地,,微生物多樣性分析中,,樣本群落分布不確定,多采用非參數(shù)檢驗(yàn),。 1. 秩和檢驗(yàn): 秩和檢驗(yàn)是一種非參數(shù)檢驗(yàn)法,,它是一種用樣本秩來代替樣本值的檢驗(yàn)法,。根據(jù)樣本分組的不同可分為兩樣本W(wǎng)ilcoxon秩和檢驗(yàn)和多樣本Kruskal-Wallis檢驗(yàn),。 首先來了解幾個(gè)容易搞混的詞。 秩次(rank):秩統(tǒng)計(jì)量,,是指全部觀察值按從小到大排列的位序,; 秩和(rank sum):同組秩次之和。秩和檢驗(yàn)就是通過秩次的排序列求出秩和,,進(jìn)行假設(shè)檢驗(yàn),。 a) Wilcoxon秩和檢驗(yàn)(Wilcoxon rank sum test,,也稱為Mann-Whitney Test): 基本思想是:若檢驗(yàn)假設(shè)成立,則兩組的秩和不應(yīng)相差太大,。通過編秩,,用秩次代替原始數(shù)據(jù)信息來進(jìn)行檢驗(yàn)。 原理就是不管樣本中的數(shù)據(jù)到底是多少,,將兩樣本數(shù)據(jù)混合后從小到大排序,,然后按順序賦秩,最小的賦為1,,最大的賦為n1+n2,,分別對(duì)兩個(gè)樣本求平均秩,如果兩個(gè)樣本的平均秩相差不大,,則說明兩個(gè)總體不存在顯著差異,;反之,若相差較大,,先分別求出兩個(gè)樣本的秩和,,再計(jì)算檢驗(yàn)統(tǒng)計(jì)量(含量較小的樣本秩和)和統(tǒng)計(jì)量(期望秩和,查T值表可知)的P值并作出決策,。 補(bǔ)充材料:Wilcoxon秩和檢驗(yàn)是由F. Wilcoxon于1945年提出,,1947年,Mann和Wiltney對(duì)Wilcoxon秩和檢驗(yàn)進(jìn)行了補(bǔ)充,,后面就有了Mann-Wiltney檢驗(yàn),。 b) Kruskal-Wallis秩和檢驗(yàn): 原理與兩樣本W(wǎng)ilcoxon檢驗(yàn)類似。不同的是Kruskal-Wallis秩和檢驗(yàn)針對(duì)多組獨(dú)立樣本,,且進(jìn)行的是H檢驗(yàn),;在實(shí)際秩和與期望秩和差值的基礎(chǔ)上計(jì)算檢驗(yàn)統(tǒng)計(jì)量,最后計(jì)算出統(tǒng)計(jì)量的P值并作出決策,。需注意的是,,多組樣本差異顯著時(shí),應(yīng)進(jìn)行多樣本的兩兩比較的秩和檢驗(yàn),。 2. LDA: LDA的全稱是Linear Discriminant Analysis(線性判別分析),,是一種supervised learning(有監(jiān)督學(xué)習(xí))。有些資料上也稱為是Fisher’s Linear Discriminant,,由Ronald Fisher發(fā)明自1936年,,是在目前機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘領(lǐng)域經(jīng)典且熱門的一個(gè)算法,。 LDA的思想可以用一句話概括,,就是“投影后類內(nèi)方差最小,類間方差最大”,。簡單來說就是一種投影,,是將一個(gè)高維的點(diǎn)投影到一個(gè)低維空間,,我們希望映射之后,不同類別之間的距離越遠(yuǎn)越好,,同一類別之中的距離越近越好,。 是不是很抽象哇,讓小昌來幫你舉個(gè)栗子吧,。假設(shè)我們有兩類數(shù)據(jù):分別為紅色和藍(lán)色,,如下圖所示,這些數(shù)據(jù)特征是二維的,,我們希望將這些數(shù)據(jù)投影到一維的一條直線,,讓每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而紅色和藍(lán)色數(shù)據(jù)中心之間的距離盡可能的大,。 從直觀上可以看出,,右圖要比左圖的投影效果好,因?yàn)橛覉D的紅色數(shù)據(jù)和藍(lán)色數(shù)據(jù)各個(gè)較為集中,,且類別之間的距離明顯,。左圖則在邊界處數(shù)據(jù)混雜。當(dāng)然在實(shí)際應(yīng)用中,,我們的數(shù)據(jù)是多個(gè)類別的,,我們的原始數(shù)據(jù)一般也是超過二維的,投影后的也一般不是直線,,而是一個(gè)低維的超平面,。 我們不生產(chǎn)知識(shí),我們只是知識(shí)的搬運(yùn)工,。 參考資料: Segata N, Izard J, Waldron L, et al. Metagenomic biomarker discovery and explanation[J]. Genome Biol, 2011, 12(6): R60. http://www.cnblogs.com/pinard/p/6244265.html |
|