分析需求:找到TINAGL1基因在TCGA數(shù)據(jù)庫(kù)中乳腺癌數(shù)據(jù)的表達(dá)量分組看其是否影響生存
1. 下載TINAGL1在TCGA中按表達(dá)量分組的生存情況網(wǎng)站介紹:OncoLnc該網(wǎng)站整合了TCGA的各種RNA數(shù)據(jù)和患者臨床數(shù)據(jù),提供生存分析的數(shù)據(jù)和圖表 登陸網(wǎng)站,,輸入目標(biāo)基因以及按目標(biāo)基因的高低表達(dá)的分組的百分比 輸入目標(biāo)基因 選擇BRCA數(shù)據(jù)集,,點(diǎn)擊“yes please' 輸入50,50,,則所有的TINAGL1的表達(dá)量按50%,,50%分成高低兩組。 點(diǎn)擊click here,,可以得到高低TINAGL1表達(dá)分組的Brca患者的生存情況文檔,。命名為“BRCA_64129_50_50.csv”
2. 用R語言復(fù)現(xiàn)在的高低TINAGL1分組的Brca患者中的生存情況代碼參考https://github.com/jmzeng1314/tcga_example 教程參考TCGA的28篇教程- 對(duì)TCGA數(shù)據(jù)庫(kù)的任意癌癥中任意基因做生存分析 在R中,有個(gè)包survival做生存分析就很方便,!只需要記住和熟練使用三個(gè)函數(shù): Surv:用于創(chuàng)建生存數(shù)據(jù)對(duì)象 survfit:創(chuàng)建KM生存曲線或是Cox調(diào)整生存曲線 survdiff:用于不同組的統(tǒng)計(jì)檢驗(yàn)
rm (list = ls()) # 清空環(huán)境變量 options(stringsAsFactors = F) a <>'BRCA_64129_50_50.csv', sep = ',', fill = T, header = T) library(ggplot2) library(survival) library(survminer) table(da$Status) # Alive Dead 871 135
da <> da$Status <>'Dead', 1, 0) survf <> ggsurvplot(survf, conf.int = F, pval = T)
3. 用R語言分析將乳腺癌分成亞型之后的生存情況背景知識(shí)介紹: 使用DNA微陣列技術(shù)描繪乳腺癌的特性已供開發(fā)乳腺癌的基因表達(dá)譜分類體系,。 根據(jù)DNA 微陣列基因表達(dá)譜已經(jīng)確定5個(gè)主要的乳腺癌亞型:ER陽性/HER2陰性(管狀A(yù)與管狀B亞型);ER陰性/HER2陰性(基底細(xì)胞樣亞型),;HER2陽性以及具有類似于正常乳腺組織特征的腫瘤,。在回顧性分析中,這些基因表達(dá)亞型具有不同的無復(fù)發(fā)生存期和總生存期,。
在cbioportal網(wǎng)站下載乳腺癌患者在不同分型的信息 選擇一個(gè)樣本數(shù)目相對(duì)較大的數(shù)據(jù)集,。 如果連續(xù)選擇多個(gè)數(shù)據(jù)集,會(huì)提示樣本可能會(huì)重疊,,一般一次選一個(gè)數(shù)據(jù)集進(jìn)行分析即可,。
選擇plot按鈕,選擇臨床信息,,腫瘤亞型,,選擇下載數(shù)據(jù),重命名保存為'plot (2).txt' 用R語言進(jìn)行分析處理,,以normal組亞型為例 b <>'plot (2).txt', sep = '\t', fill = T, header = T) # txt與csv的讀入方式,,區(qū)別在于sep的參數(shù)不同 head(b) # 查看b的數(shù)據(jù)結(jié)構(gòu)
colnames(b) <>'Patient', 'Subtype', 'Expression', 'mutation') #重命名b的數(shù)據(jù)表行名 bPatientEEsubstringbPatient,1,12) tmp = merge(a, b, by = 'Patient') #將a和b兩個(gè)數(shù)據(jù)表合并 head(tmp) # Patient Days Status Expression.x Group Subtype Expression.y mutation 1 TCGA-3C-AAAU 4047 Alive 174.05 Low BRCA_LumA -0.7159 2 TCGA-3C-AALI 4005 Alive 243.61 Low BRCA_Her2 -0.6316 3 TCGA-3C-AALJ 1474 Alive 202.18 Low BRCA_LumB -0.6818 4 TCGA-3C-AALK 1448 Alive 716.59 High BRCA_LumA -0.0582 5 TCGA-4H-AAAK 348 Alive 469.79 Low BRCA_LumA -0.3574 6 TCGA-5L-AAT0 1477 Alive 621.79 High BRCA_LumA -0.1731 table(tmp不能識(shí)別此Latex公式: Subtype) # 0 1 26 6 dat = tmp [tmp Subtype == 'BRCA_Normal', ] # 選擇目標(biāo)亞型 library(ggplot2) library(survival) library(survminer) table(dat
datStatusdatStatus <>'Dead', 1, 0) sfit <> sfit summary(sfit) ggsurvplot(sfit, conf.int = F, pval = T)
出圖 其他幾個(gè)亞型如法炮制, 只需要在R語言分析時(shí),修改一下目標(biāo)亞型的名稱,,即可得出 Brca_Basal Brca_Her2 Brca_LumA Brca_LumB
學(xué)習(xí)體會(huì):1,、首先感謝Jimmy大大的教程和代碼,十足的良心之作,,只要跟著一步步學(xué)下來,,肯定能復(fù)現(xiàn)漂亮的圖 2、另外,,感謝Jimmy大大在我學(xué)習(xí)過程中耐心的指導(dǎo),,Jimmy大大不僅編程能力了得,還有十分豐富的教學(xué)經(jīng)驗(yàn),,能一下了解我遇到的代碼問題在哪里,,比我檢索十幾篇教程都有用。 3,、當(dāng)然,,還是要學(xué)著自己檢索,繼續(xù)練習(xí),,提高生信數(shù)據(jù)挖掘的能力,。實(shí)戰(zhàn)真的比只看不練收獲得多得多得多。 4,、繼續(xù)跟著Jimmy大大學(xué)習(xí),,爭(zhēng)取以后做出更多好看的圖圖,和大家分享心得體會(huì),。 5,、生信跟著Jimmy大大入門和進(jìn)階,肯定是個(gè)明智的選擇,。大家一起加油,! 后記: 值得注意的是,各個(gè)數(shù)據(jù)庫(kù)關(guān)于生存信息資料其實(shí)是有沖突的:TCGA數(shù)據(jù)庫(kù)生存分析的網(wǎng)頁(yè)工具哪家強(qiáng)
|