今天帶來(lái)了更詳細(xì),、深入的講解和高級(jí)玩法。 簡(jiǎn)介軟件簡(jiǎn)介STAMP是一款用于分析微生物分類(lèi)和功能譜的軟件,,不僅可以做統(tǒng)計(jì),,更能繪制多種圖形,方便發(fā)表使用,。 1.0于2010年發(fā)表于Bioinformatics,,被引493次;2.0于2014年1月發(fā)表于Bioinformatics,,引用483次(截止2018年5月26日),。 官網(wǎng)地址:http://kiwi.cs./Software/STAMP 最新版本2.1.3,Downloads部分可以下載適合自己系統(tǒng):如Windows/Linux/MacOS版本的軟件,。本文內(nèi)容主要翻譯自STAMP用戶手冊(cè)v2,,2014年12月15日版本 http://kiwi.cs./Software/images/c/cd/STAMP_Users_Guide.zip ,讀者添加了自己的理解,,以及按讀者自己的學(xué)習(xí)邏輯重排,。一些章節(jié)標(biāo)注了原文頁(yè)碼,如P4代表原文第4頁(yè),。 安裝目錄中 STAMP能干什么STAMP可以現(xiàn)實(shí)不同平臺(tái)下兼容性分析數(shù)據(jù),,主要包括Beta多樣性散點(diǎn)圖,、物種豐度柱狀圖、箱線圖,,以及Post-hoc圖展示差異物種/功能,。 還可以繪制帶誤差線柱狀圖、誤差線和柱分離組合圖,、相關(guān)散點(diǎn)圖,、密度柱狀圖、P值柱狀圖等統(tǒng)計(jì)圖表,。 分析實(shí)戰(zhàn)輸入文件本質(zhì)上是文本的OTU表或功能組成矩陣 + 實(shí)驗(yàn)設(shè)計(jì)即可,。同時(shí)也支持biom格式。MG—RAST,、IMG/M,、CoMet、RITA等軟件的結(jié)果,。 OTU表/功能組成矩陣 最常見(jiàn)的是OTU表,、各分類(lèi)級(jí)物種組成;宏基因組的物種和功能組成表/矩陣。支持多列特征分級(jí)屬性,,但必須是嚴(yán)格的等級(jí),。多級(jí)時(shí)容易報(bào)錯(cuò),通常只使用1或2級(jí)行名,,如下表門(mén)和屬對(duì)應(yīng)樣品中相對(duì)豐度,。 Phyla Genera AM-AD-1 AM-AD-2 AM-F10-T1 AM-F10-T2Bacteroidetes Bacteroides 9.7172748 5.248866 1Chlorobi Prosthecochloris 0.0 0.0 0.0 0.0 0.0 0Chloroflexi Chloroflexus 0.0 0.0 0.0 0.0 0.0 0.0 0Chloroflexi Dehalococcoides 0.0 19.9791942 2.3873250 實(shí)驗(yàn)設(shè)計(jì)Metadata 一定要包括樣品名和組名,可以有多種分組方式 Sample Id Enterotype Nationality Clinical Status Gender Project Clinical Status [filtered] Nationality [filtered] Gender [filtered]AM-AD-1 Unclassified american healthy F gill06 na na naAM-AD-2 Unclassified american healthy M gill06 na na na 多組比較——腸型安裝好軟件,, 展示PC1-3之間組合的散點(diǎn)圖,。圖片大小,、關(guān)閉其它軸、圖例位置等可以下方 重現(xiàn)腸型分類(lèi) 選擇右上角 屬性面板功能簡(jiǎn)介
圖表類(lèi)型介紹比較常用的是兩組比較,本軟件對(duì)多組比較支持也非常好,,很容易進(jìn)一步探索數(shù)據(jù),。
注:Feature列表下方,,可勾遠(yuǎn)Show active來(lái)只顯示符合條件的結(jié)果,。
具體解析,,可閱讀 - 擴(kuò)增子圖表解讀-理解文章思路
擴(kuò)展柱狀圖/事后圖顯示組間兩兩比較柱狀圖,,及置信區(qū)間分布和P值。 圖片的具體參數(shù)見(jiàn)Configure plot頁(yè)面,,可在File菜單中Save plot保存圖片,,有PNG位圖,和PDF, PS,, EPS, SVG共4種矢量圖可選,,推薦PDF格式方便查看和修改。 統(tǒng)計(jì)表導(dǎo)出我們想導(dǎo)出統(tǒng)計(jì)結(jié)果的表格,,方便發(fā)表文章作為原始數(shù)據(jù),,和進(jìn)一步分析。 View —— Multiple group statistics table 可以看到特征Feature,、P值,、假陽(yáng)性率FDR、效應(yīng)大小,、各組均值和標(biāo)準(zhǔn)差等,??蛇x擇全部或顯示部分, 其它功能全局設(shè)置:Setting - Preferences中可設(shè)置豐度過(guò)濾,、bootstrap次數(shù)、圖標(biāo)簽截短長(zhǎng)度,、軸顏色,、其它樣本顏色、和P-value閾值等 軟件的擴(kuò)展:可編寫(xiě)添加新統(tǒng)計(jì)方法和圖表類(lèi)型 統(tǒng)計(jì)方法關(guān)于樣本重復(fù)需要多少樣本才能檢測(cè)統(tǒng)計(jì)顯著,?推薦閱讀:Suresh and Chandrashekara (2012) and the article “Getting the Sample Size Right” by Jeremy Miles (http://www./misc/power/),。 我們的建議是沒(méi)有最小的樣本數(shù),但統(tǒng)計(jì)假設(shè)必須符合數(shù)據(jù)分布,。小樣本量更可能不符合假設(shè),。小樣本量也不太可能有足夠的統(tǒng)計(jì)強(qiáng)度來(lái)鑒定效應(yīng)大小。如t-test考慮每組4個(gè)樣本,,可以提供足夠的準(zhǔn)確度和精確度的信息,。 樣本數(shù)量也由樣品本身決定,如果原始樣本穩(wěn)定且測(cè)量結(jié)果精度高,,只需極少樣本可決定統(tǒng)計(jì)差異,,如不同面值硬幣間重量差異,因?yàn)樗鼈冎谱鞯木雀咔覝?zhǔn)確稱量較容易,。 生物學(xué)數(shù)據(jù)充滿了各種噪音,,物種和功能組成也容易受多種因素影響,具有低準(zhǔn)確度和精密度的特點(diǎn),。實(shí)驗(yàn)和分析每步都可能對(duì)想結(jié)果有影響,,因此我們需要生物學(xué)重復(fù),才能鑒定組間差異,。如健康和疾病樣本,,有多種因素不可控,需要極大量樣本才可能發(fā)現(xiàn)均值和方差顯著的不同,。(P6,、原文Page|6) 多組比較
表1. STAMP中可用的多組比較方法,,其中加粗為推薦方法(STAMP官方幫助文檔P14) 分析兩組
表2. STAMP中可用的多組比較方法,,其中加粗為推薦方法(STAMP官方幫助文檔P17) 分析兩樣品
表3. STAMP中兩樣品統(tǒng)計(jì)方法,。推薦方法加粗,。CC = 連續(xù)校正,,DP = 比例差異,OR = 讓步比,,RP = 比例,。 常見(jiàn)問(wèn)題讀入文件錯(cuò)誤Data does not form a strick hierarchy. Child Unassigned has multiple parents. 它要求的輸入分類(lèi)級(jí)不允許在各級(jí)別有重名,而物種命名總有些不規(guī)范的級(jí)別和末命名的,,所以建議將門(mén),、綱、目,、科,、屬、OTU水平分別制作成spf文件給STAMP分析,,可確保正常使用,; STAMP也提供了檢查不符合要求的,,非層級(jí)的分類(lèi)檢查腳本 wget http://kiwi.cs./Software/images/e/e6/CheckHierarchy.zipunzip CheckHierarchy.zipchmod +x checkHierarchy.py# 一個(gè)使用RDP注釋結(jié)果,,發(fā)現(xiàn)4419條非層級(jí)結(jié)果,我想哭,,完全無(wú)法使用checkHierarchy.py result/otutab_stamp.spf | wc -l# 檢查結(jié)果如下checkHierarchy v0.0.1: 末注釋的最好統(tǒng)計(jì)標(biāo)記為unclassified,,上文提到有多種處理方法,但沒(méi)有完美解決問(wèn)題,。 實(shí)驗(yàn)設(shè)計(jì)和豐度矩陣樣品名不對(duì)應(yīng)Metadat warnings: Missing metadat for the following samples: 實(shí)驗(yàn)設(shè)計(jì)中缺失OTU表中的樣品名,,如果是人為注釋或去除掉的,可以忽略此警告,,否則仔細(xì)檢查實(shí)驗(yàn)設(shè)計(jì)是否與矩陣中樣品名對(duì)應(yīng) 總結(jié)分析三步曲: 整體:PCA plot,,可通過(guò)不斷篩選分組來(lái)觀察組間整體差異 多組: 組間重復(fù)數(shù)3-15個(gè),可用bar或boxplot逐個(gè)查看顯著差異的OTUs,,大于15個(gè)最好只用boxplot,;組內(nèi)樣本波動(dòng)大用boxplot更直觀,波動(dòng)小可選barplot+error bar也很漂亮,。組間差異明顯,,組內(nèi)重復(fù)好,可選熱圖+聚類(lèi)信息更豐富,。 兩組:boxplot,,barplot用原始數(shù)據(jù)。整體可用extended barplot 軟件功能非常強(qiáng)大,,但還是些局限性:如有些步驟不能選擇原始數(shù)據(jù)統(tǒng)計(jì),;強(qiáng)行進(jìn)行了標(biāo)準(zhǔn)化,這樣對(duì)部分?jǐn)?shù)據(jù)分析可能會(huì)有影響,;軟件無(wú)法保存工作狀態(tài),、上次訪問(wèn)路徑等,;新項(xiàng)目必須關(guān)閉軟件重新打開(kāi)才能開(kāi)始分析等。 Reference
|
|