久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

STAMP:擴(kuò)增子,、宏基因組統(tǒng)計(jì)分析神器(中文幫助文檔)

 微笑如酒 2018-05-28

今天帶來(lái)了更詳細(xì),、深入的講解和高級(jí)玩法。

簡(jiǎn)介

軟件簡(jiǎn)介

STAMP是一款用于分析微生物分類(lèi)和功能譜的軟件,,不僅可以做統(tǒng)計(jì),,更能繪制多種圖形,方便發(fā)表使用,。

1.0于2010年發(fā)表于Bioinformatics,,被引493次;2.0于2014年1月發(fā)表于Bioinformatics,,引用483次(截止2018年5月26日),。

官網(wǎng)地址:http://kiwi.cs./Software/STAMP

最新版本2.1.3,Downloads部分可以下載適合自己系統(tǒng):如Windows/Linux/MacOS版本的軟件,。本文內(nèi)容主要翻譯自STAMP用戶手冊(cè)v2,,2014年12月15日版本 http://kiwi.cs./Software/images/c/cd/STAMP_Users_Guide.zip ,讀者添加了自己的理解,,以及按讀者自己的學(xué)習(xí)邏輯重排,。一些章節(jié)標(biāo)注了原文頁(yè)碼,如P4代表原文第4頁(yè),。

安裝目錄中Examples目錄提供了示示例分析結(jié)果,,以及演示數(shù)據(jù)實(shí)例。

STAMP能干什么

STAMP可以現(xiàn)實(shí)不同平臺(tái)下兼容性分析數(shù)據(jù),,主要包括Beta多樣性散點(diǎn)圖,、物種豐度柱狀圖、箱線圖,,以及Post-hoc圖展示差異物種/功能,。

還可以繪制帶誤差線柱狀圖、誤差線和柱分離組合圖,、相關(guān)散點(diǎn)圖,、密度柱狀圖、P值柱狀圖等統(tǒng)計(jì)圖表,。

分析實(shí)戰(zhàn)

輸入文件

本質(zhì)上是文本的OTU表或功能組成矩陣 + 實(shí)驗(yàn)設(shè)計(jì)即可,。同時(shí)也支持biom格式。MG—RAST,、IMG/M,、CoMet、RITA等軟件的結(jié)果,。

OTU表/功能組成矩陣

最常見(jiàn)的是OTU表,、各分類(lèi)級(jí)物種組成;宏基因組的物種和功能組成表/矩陣。支持多列特征分級(jí)屬性,,但必須是嚴(yán)格的等級(jí),。多級(jí)時(shí)容易報(bào)錯(cuò),通常只使用1或2級(jí)行名,,如下表門(mén)和屬對(duì)應(yīng)樣品中相對(duì)豐度,。

Phyla    Genera    AM-AD-1    AM-AD-2    AM-F10-T1    AM-F10-T2Bacteroidetes    Bacteroides    9.7172748    5.248866    1Chlorobi    Prosthecochloris    0.0    0.0    0.0    0.0    0.0    0Chloroflexi    Chloroflexus    0.0    0.0    0.0    0.0    0.0    0.0    0Chloroflexi    Dehalococcoides    0.0    19.9791942    2.3873250

實(shí)驗(yàn)設(shè)計(jì)Metadata

一定要包括樣品名和組名,可以有多種分組方式

Sample Id    Enterotype    Nationality    Clinical Status    Gender    Project    Clinical Status [filtered]    Nationality [filtered]    Gender [filtered]AM-AD-1    Unclassified    american    healthy    F    gill06    na    na    naAM-AD-2    Unclassified    american    healthy    M    gill06    na    na    na

多組比較——腸型

安裝好軟件,,Load data打開(kāi)example中的EnterotypesArumugam目錄中的腸型數(shù)據(jù)(spf是數(shù)據(jù)矩陣,,tsv是實(shí)驗(yàn)設(shè)計(jì)),打開(kāi)默認(rèn)顯示PCA結(jié)果如下:

展示PC1-3之間組合的散點(diǎn)圖,。圖片大小,、關(guān)閉其它軸、圖例位置等可以下方Configure plot中設(shè)置,,圖例在右側(cè),,每組不同顏色,可在Group field中選擇實(shí)驗(yàn)設(shè)計(jì)中不同的分組,,分組可通過(guò)勾選進(jìn)行取消或選擇,,并實(shí)時(shí)顯示分析結(jié)果。(大數(shù)據(jù)時(shí),,請(qǐng)點(diǎn)擊右下角實(shí)時(shí)計(jì)算,,減少等待時(shí)間)

重現(xiàn)腸型分類(lèi)

選擇右上角Group fieldEnterotype,去除后三個(gè)非主要分組,,只保留三種腸型,;同時(shí)左側(cè)的數(shù)據(jù)屬性中,Profile level選擇Genera,,現(xiàn)在我們可以看到三種腸型的不同形狀在圖中分開(kāi)比較明顯,。

屬性面板功能簡(jiǎn)介

  • Parent level:標(biāo)準(zhǔn)化的總體范圍

  • Profile level: 分析的具體級(jí)別,如科,、屬,、種或OTU

  • Unclassified: 末分類(lèi)數(shù)據(jù)處理方法,分別為Retain保留,、Remove移除和僅用于計(jì)算比例,。不同處理方法,結(jié)果會(huì)很大差異,。

  • Statistical properties:統(tǒng)計(jì)屬性,,主要包括統(tǒng)計(jì)檢驗(yàn)方法,,事后檢驗(yàn)方法和置信區(qū)間,,效應(yīng)大小,,多重檢驗(yàn)校正方法等的選擇,;

  • Filtering: 過(guò)濾閾值,,主要是設(shè)置P值和效應(yīng)大小,。修改后,下方同步有符合條件的結(jié)果數(shù)量,。方便在查看圖表結(jié)果時(shí)只關(guān)注符合條件的features,。

圖表類(lèi)型介紹

比較常用的是兩組比較,本軟件對(duì)多組比較支持也非常好,,很容易進(jìn)一步探索數(shù)據(jù),。

  • 柱狀圖:顯示每個(gè)樣品中feature的相對(duì)比例,并添加組均值,,方便查看單個(gè)Feature的數(shù)據(jù)分布,,如下圖顯示三種腸型中擬桿菌屬的相對(duì)豐度。

注:Feature列表下方,,可勾遠(yuǎn)Show active來(lái)只顯示符合條件的結(jié)果,。

  • 箱線圖:簡(jiǎn)單快速顯示組內(nèi)數(shù)據(jù)分布。


箱線圖展示三種腸型中擬桿菌的相對(duì)豐度分布和整體統(tǒng)計(jì)P

具體解析,,可閱讀 - 擴(kuò)增子圖表解讀-理解文章思路

  • 熱圖:顯示每個(gè)Features在樣品中豐度的比例,,優(yōu)熱在于不僅顯示所有樣本的豐度值,更可以對(duì)行Features和列樣品進(jìn)行聚類(lèi)顯示之間的關(guān)系,;

  • 主成分分析PCA:散點(diǎn)圖在低維空間顯示高維數(shù)據(jù)間主要差異,;

  • Post-hoc圖:多組統(tǒng)計(jì)檢驗(yàn)的無(wú)效假設(shè)(如ANOVA或Kruskal-Wallis)是所有組相等。提供每對(duì)組間測(cè)量的P-value和效應(yīng)大小,。

擴(kuò)展柱狀圖/事后圖顯示組間兩兩比較柱狀圖,,及置信區(qū)間分布和P值。

圖片的具體參數(shù)見(jiàn)Configure plot頁(yè)面,,可在File菜單中Save plot保存圖片,,有PNG位圖,和PDF, PS,, EPS, SVG共4種矢量圖可選,,推薦PDF格式方便查看和修改。

統(tǒng)計(jì)表導(dǎo)出

我們想導(dǎo)出統(tǒng)計(jì)結(jié)果的表格,,方便發(fā)表文章作為原始數(shù)據(jù),,和進(jìn)一步分析。

View —— Multiple group statistics table

可以看到特征Feature,、P值,、假陽(yáng)性率FDR、效應(yīng)大小,、各組均值和標(biāo)準(zhǔn)差等,??蛇x擇全部或顯示部分,Save保存表格至文件,。(P12)

其它功能

全局設(shè)置:Setting - Preferences中可設(shè)置豐度過(guò)濾,、bootstrap次數(shù)、圖標(biāo)簽截短長(zhǎng)度,、軸顏色,、其它樣本顏色、和P-value閾值等

軟件的擴(kuò)展:可編寫(xiě)添加新統(tǒng)計(jì)方法和圖表類(lèi)型

統(tǒng)計(jì)方法

關(guān)于樣本重復(fù)

需要多少樣本才能檢測(cè)統(tǒng)計(jì)顯著,?推薦閱讀:Suresh and Chandrashekara (2012) and the article “Getting the Sample Size Right” by Jeremy Miles (http://www./misc/power/),。

我們的建議是沒(méi)有最小的樣本數(shù),但統(tǒng)計(jì)假設(shè)必須符合數(shù)據(jù)分布,。小樣本量更可能不符合假設(shè),。小樣本量也不太可能有足夠的統(tǒng)計(jì)強(qiáng)度來(lái)鑒定效應(yīng)大小。如t-test考慮每組4個(gè)樣本,,可以提供足夠的準(zhǔn)確度和精確度的信息,。

樣本數(shù)量也由樣品本身決定,如果原始樣本穩(wěn)定且測(cè)量結(jié)果精度高,,只需極少樣本可決定統(tǒng)計(jì)差異,,如不同面值硬幣間重量差異,因?yàn)樗鼈冎谱鞯木雀咔覝?zhǔn)確稱量較容易,。

生物學(xué)數(shù)據(jù)充滿了各種噪音,,物種和功能組成也容易受多種因素影響,具有低準(zhǔn)確度和精密度的特點(diǎn),。實(shí)驗(yàn)和分析每步都可能對(duì)想結(jié)果有影響,,因此我們需要生物學(xué)重復(fù),才能鑒定組間差異,。如健康和疾病樣本,,有多種因素不可控,需要極大量樣本才可能發(fā)現(xiàn)均值和方差顯著的不同,。(P6,、原文Page|6)

多組比較

統(tǒng)計(jì)假設(shè)方法描述
ANOVA方差分析(analysis of variance)的縮寫(xiě),用于檢驗(yàn)多組均值是否相等的方法,??杀徽J(rèn)為是可分析多組的t-test
Kruskal-Wallis H-test無(wú)參數(shù)的秩合檢驗(yàn)方法,檢驗(yàn)多組的中位數(shù)是否相等,。它考慮樣品排序位置而不是真實(shí)數(shù)值或比例,。它不基于數(shù)據(jù)是正態(tài)分布的前提。此方法要求每組至少5個(gè)樣本,。
事后檢驗(yàn)描述
Games-Howell當(dāng)ANOVA產(chǎn)生了顯著P值后,,檢驗(yàn)具體哪兩個(gè)均值顯著不同,。用于組樣本和方差不同。當(dāng)方差不同,,組樣本量小時(shí)推薦使用Tukey-Kramer方法
Scheffe考慮所有可能的比較,,而Tukey-Kramer只考慮成對(duì)均值。此種方法較保守
Tukey-Kramer用于ANOVA顯著后進(jìn)一步成對(duì)比較,??紤]所有可能的均值隊(duì),,并考慮多次比較的錯(cuò)誤率控制,。推薦使用Games-Howell輸出最終結(jié)果,而Tukey-Kramer用于探索分析,。推薦此方法的另一個(gè)原因是此法使用廣泛,,被研究者所熟知。
Welch’s(uncorrected)只是成隊(duì)均值比較,,但不進(jìn)行多次比較的錯(cuò)誤率控制
多重檢驗(yàn)校正方法描述
Benjamini-Hochberg FDR控制假陽(yáng)性率FDR
Bonferroni控制整體錯(cuò)誤率的經(jīng)典方法,,被批評(píng)太保守
Sidak在整體錯(cuò)誤率控制中使用不多,但均勻分布數(shù)據(jù)上比Bonferroni更強(qiáng),,但需要假設(shè)個(gè)體檢驗(yàn)是獨(dú)立的
Storey’s FDR控制FDR的新方法,,比BH更強(qiáng)。需要估計(jì)一些參數(shù)和更多的計(jì)算資源,。

表1. STAMP中可用的多組比較方法,,其中加粗為推薦方法(STAMP官方幫助文檔P14)

分析兩組


統(tǒng)計(jì)假設(shè)方法描述
t檢驗(yàn)T檢驗(yàn),亦稱student t檢驗(yàn)(Student’s t test),,假設(shè)兩組有相同的方差,,當(dāng)假設(shè)成立時(shí),它比Welch’s檢驗(yàn)更強(qiáng),,主要用于樣本含量較?。ɡ鏽<>
Welch’s t-testt-test的一種變形,用于當(dāng)兩組無(wú)法滿足方差相同的假設(shè)時(shí)使用,。
White’s無(wú)參t-test無(wú)參數(shù)的檢驗(yàn),,由White為臨床宏基因組數(shù)據(jù)分析提出。此方法使用排序過(guò)程移除標(biāo)準(zhǔn)t-test的正態(tài)假設(shè),。此外,,它使用啟法式鑒定松散的特征,可采用Fisher精確檢驗(yàn)和pooling的策略,,適合組樣本一致,,或小于8個(gè)樣品。大數(shù)據(jù)集計(jì)算耗時(shí),。
置信區(qū)間方法描述
DP: t-test inverted只有當(dāng)方差相等的t檢驗(yàn)可用,。
Scheffe考慮所有可能的比較,,而Tukey-Kramer只考慮成對(duì)均值。此種方法較保守
DP: Welch’s inverted為Welch’s t檢驗(yàn)提供置信區(qū)間,。
DP: bootstrap適合White’s 無(wú)參t-test
多種檢驗(yàn)校正方法描述
Benjamini-Hochberg FDR控制假陽(yáng)性率FDR
Bonferroni控制整體錯(cuò)誤率的經(jīng)典方法,,被批評(píng)太保守
Sidak在整體錯(cuò)誤率控制中使用不多,但均勻分布數(shù)據(jù)上比Bonferroni更強(qiáng),,但需要假設(shè)個(gè)體檢驗(yàn)是獨(dú)立的
Storey’s FDR控制FDR的新方法,,比BH更強(qiáng)。需要估計(jì)一些參數(shù)和更多的計(jì)算資源,。

表2. STAMP中可用的多組比較方法,,其中加粗為推薦方法(STAMP官方幫助文檔P17)

分析兩樣品

統(tǒng)計(jì)假設(shè)方法描述
Bootstrap一種無(wú)參方法,與Barnard精確檢驗(yàn)相似,,假設(shè)放回抽樣
卡方Chi-squre大樣本與Fisher精確檢驗(yàn)類(lèi)似,,但更自由
Yates卡方在卡方基礎(chǔ)上考慮了分布,比Fisher更保守
Fisher精確檢驗(yàn)條件精確檢驗(yàn),,P值采用最大似然方法,。宏基因組大數(shù)據(jù)樣本計(jì)算速度快,應(yīng)用廣泛且公眾認(rèn)可
G-test大樣本與Fisher近似,,比卡方更合適,,比Fisher更靈活
G-test with Yates’大樣本與Fisher類(lèi)似,考慮自然離散校正,,比Fisher更保守
G-test(w/Yates’)+Fisher’s當(dāng)列聯(lián)表中小于20使用Fisher精確檢驗(yàn),,其它使用G-test。為了結(jié)果清楚,,我們推薦只使用Fisher精確檢驗(yàn),。而在探索數(shù)據(jù)階段,使用混合的統(tǒng)計(jì)方法可能更有效
超幾何分布P值使用兩種方法的條件精確檢驗(yàn),。比最小似然法(在R和StatXact中常用)更快,。但更保守。
置換與Fisher類(lèi)似,,假定無(wú)放回抽樣
置信區(qū)間方法描述
DP: 漸近標(biāo)準(zhǔn)的大樣本方法
Scheffe考慮所有可能的比較,,而Tukey-Kramer只考慮成對(duì)均值。此種方法較保守
DP: CC漸近考慮自然離散分布和連續(xù)校正
DP: Newcombe-WilsonNewcombe推薦的7種漸近方法中最優(yōu)的
OR: Haldane adjustmet大樣本方法結(jié)合校正解決退化問(wèn)題
RP: 漸近標(biāo)準(zhǔn)的大樣本方法
多重檢驗(yàn)校正方法描述
Benjamini-Hochberg FDR控制假陽(yáng)性率FDR
Bonferroni控制整體錯(cuò)誤率的經(jīng)典方法,,被批評(píng)太保守
Sidak在整體錯(cuò)誤率控制中使用不多,,但均勻分布數(shù)據(jù)上比Bonferroni更強(qiáng),但需要假設(shè)個(gè)體檢驗(yàn)是獨(dú)立的
Storey’s FDR控制FDR的新方法,,比BH更強(qiáng),。需要估計(jì)一些參數(shù)和更多的計(jì)算資源。

表3. STAMP中兩樣品統(tǒng)計(jì)方法,。推薦方法加粗,。CC = 連續(xù)校正,,DP = 比例差異,OR = 讓步比,,RP = 比例,。

常見(jiàn)問(wèn)題

讀入文件錯(cuò)誤

Data does not form a strick hierarchy. Child Unassigned has multiple parents.

它要求的輸入分類(lèi)級(jí)不允許在各級(jí)別有重名,而物種命名總有些不規(guī)范的級(jí)別和末命名的,,所以建議將門(mén),、綱、目,、科,、屬、OTU水平分別制作成spf文件給STAMP分析,,可確保正常使用,;

STAMP也提供了檢查不符合要求的,,非層級(jí)的分類(lèi)檢查腳本

wget http://kiwi.cs./Software/images/e/e6/CheckHierarchy.zipunzip CheckHierarchy.zipchmod +x checkHierarchy.py# 一個(gè)使用RDP注釋結(jié)果,,發(fā)現(xiàn)4419條非層級(jí)結(jié)果,我想哭,,完全無(wú)法使用checkHierarchy.py result/otutab_stamp.spf | wc -l# 檢查結(jié)果如下checkHierarchy v0.0.1:  by Donovan Parks ([email protected])Identified 3880 samples.Identified 8 hierarchical columns.The following entries have two (and potentially more) parents:12      Order   Actinomycetales Actinobacteria,Alphaproteobacteria35      Family  Rhodospirillaceae       Actinomycetales,Rhodospirillales38      Family  Sphingobacteriaceae     Sphingobacteriales,Cytophagales54      Order   Clostridiales   Clostridia,Acidobacteria_Gp21

末注釋的最好統(tǒng)計(jì)標(biāo)記為unclassified,,上文提到有多種處理方法,但沒(méi)有完美解決問(wèn)題,。

實(shí)驗(yàn)設(shè)計(jì)和豐度矩陣樣品名不對(duì)應(yīng)

Metadat warnings: Missing metadat for the following samples:

實(shí)驗(yàn)設(shè)計(jì)中缺失OTU表中的樣品名,,如果是人為注釋或去除掉的,可以忽略此警告,,否則仔細(xì)檢查實(shí)驗(yàn)設(shè)計(jì)是否與矩陣中樣品名對(duì)應(yīng)

總結(jié)

分析三步曲:

整體:PCA plot,,可通過(guò)不斷篩選分組來(lái)觀察組間整體差異

多組: 組間重復(fù)數(shù)3-15個(gè),可用bar或boxplot逐個(gè)查看顯著差異的OTUs,,大于15個(gè)最好只用boxplot,;組內(nèi)樣本波動(dòng)大用boxplot更直觀,波動(dòng)小可選barplot+error bar也很漂亮,。組間差異明顯,,組內(nèi)重復(fù)好,可選熱圖+聚類(lèi)信息更豐富,。

兩組:boxplot,,barplot用原始數(shù)據(jù)。整體可用extended barplot

軟件功能非常強(qiáng)大,,但還是些局限性:如有些步驟不能選擇原始數(shù)據(jù)統(tǒng)計(jì),;強(qiáng)行進(jìn)行了標(biāo)準(zhǔn)化,這樣對(duì)部分?jǐn)?shù)據(jù)分析可能會(huì)有影響,;軟件無(wú)法保存工作狀態(tài),、上次訪問(wèn)路徑等,;新項(xiàng)目必須關(guān)閉軟件重新打開(kāi)才能開(kāi)始分析等。

Reference

  • Parks DH and Beiko RG. (2010). Identifying biologically relevant differences between metagenomic communities. Bioinformatics, 26, 715-721.

  • Parks DH, Tyson GW, Hugenholtz P, Beiko RG. (2014). STAMP: Statistical analysis of taxonomic and functional profiles. Bioinformatics, 30, 3123-3124.

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,,所有內(nèi)容均由用戶發(fā)布,,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購(gòu)買(mǎi)等信息,,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請(qǐng)點(diǎn)擊一鍵舉報(bào),。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類(lèi)似文章 更多