TCGA胃癌的數(shù)據(jù)批量做生存分析示例PS:生存分析下載工具:http://gap./tool/7/ 數(shù)據(jù)準(zhǔn)備 1、下載TCGA RNA-Seq數(shù)據(jù),,我們使用TCGA簡易下載工具進(jìn)行下載,,因?yàn)槲覀兪亲鲱A(yù)后所以就沒有顯著正常樣本,如圖共有407個樣本(這是包含所有可下載的樣本,,要全部下載就將右上角的復(fù)選框全部取消勾選即可): 下載完成,,我們點(diǎn)擊合并文件功能進(jìn)行數(shù)據(jù)合并 因?yàn)镕PKM數(shù)據(jù)區(qū)間跨度太大,我們將其轉(zhuǎn)換成TPM,使用TCGA RNA-Seq歸一化工具 轉(zhuǎn)換完成之后得到了新的矩陣,,但是這個矩陣中包含有六萬多個轉(zhuǎn)錄本,,這里面包含了編碼基因和lncRNA,所以我們使用TCGA簡易下載工具的ENSG_ID轉(zhuǎn)換工具進(jìn)行轉(zhuǎn)換提取 將Merge_Matrix.TPM.txt導(dǎo)入到TCGA簡易下載工具使用ENSG_ID進(jìn)行轉(zhuǎn)換得到lncRNA和編碼基因的表達(dá)矩陣 2,、下載TCGA Clinical數(shù)據(jù),,因?yàn)镃linical 數(shù)據(jù)是針對于病人的,也就是說沒有癌與癌旁等組織之分了,,共有443個病人的隨訪數(shù)據(jù) 下載完成之后我們點(diǎn)擊ClinicalFull按鈕提取我們的臨床信息,,不懂解讀的看這里:TCGA臨床病理隨訪資料解讀 隨訪數(shù)據(jù)解讀和處理,打開合并后的臨床數(shù)據(jù)表格找到這三列 第一個紅色箭頭處表示樣本編號我們將其復(fù)制出來作為預(yù)后數(shù)據(jù)的第一列,,第二第三個箭頭處分別表示死亡時間和最后一次隨訪時間,,我們將其合并成一列,,因?yàn)閮闪惺腔コ獾模兴劳鰰r間就木有最后隨訪時間,,木有死亡時間的就有最后隨訪時間 簡單處理方法將Not Available,、Not Applicable替換為0,然后兩列相加即可,,如 最后我們找到死亡事件列 復(fù)制到我們的樣本信息表中,,當(dāng)然仔細(xì)比對之后發(fā)現(xiàn)有些時間數(shù)據(jù)丟失的比如下圖 這種樣本我們刪除掉即可,共有兩例 最終表格形式如: 另存為txt文件如 開始做生存分析 我們選擇編碼基因的表達(dá)譜來做TCGA生存分析,,將樣本信息和表達(dá)譜導(dǎo)入到批量計算生存分析工具如 注意圖中紅色圈圈里的,,一定要選擇正確,我這里選擇TCGA數(shù)據(jù)集,,日期選擇days,,選擇隨訪信息大于30天的的樣本,程序會自動匹配滿足條件的樣本,,如圖中匹配上234個樣本,,如果沒有選對會報沒有匹配的樣本錯誤 坐等跑完,可能需要一點(diǎn)時間 跑完后我們發(fā)現(xiàn)只有一萬三千多個基因,,實(shí)際上我們有一萬九千多個基因,,其他基因去哪里了呢,剔除的這些基因是因?yàn)樗麄冊谄ヅ渖系?34個樣本中表達(dá)水平怪異比如很多的0或者很多很大的值,,無法做生存分析 進(jìn)一步的導(dǎo)出結(jié)果就行 其他的畫圖功能雙擊運(yùn)行的結(jié)果就可以畫了,,另外注意的是結(jié)果中的HR是取了log自然對數(shù)之后的HR值。 |
|