生存分析(Survival Analysis)是研究生存現(xiàn)象和響應(yīng)時(shí)間數(shù)據(jù)及其統(tǒng)計(jì)規(guī)律的一種統(tǒng)計(jì)學(xué)方法,,是關(guān)聯(lián)表型與患者預(yù)后的重要手段,。今天,我們帶領(lǐng)大家,,看看如何用R語(yǔ)言做生存分析,,快速鎖定目標(biāo)基因。 大學(xué)本科的統(tǒng)計(jì)課上,,老師就教我們用SPSS做生存分析,,現(xiàn)在看了這么多文獻(xiàn),是不是發(fā)現(xiàn)生存分析的出鏡率確實(shí)挺高的呢,。特別是一些隊(duì)列龐大,、隨訪數(shù)據(jù)完整的高IF文章,經(jīng)常能看到下圖所示的Kaplan-Meier圖,。 關(guān)于生存分析的重要性,,這里就不多贅述了。大家都知道,,要比較不同分組患者的生存差異需要有三個(gè)數(shù)據(jù):
要知道,,準(zhǔn)備這幾個(gè)數(shù)據(jù)還是有點(diǎn)煩的,如果再放到SPSS里面'搗鼓'一下,,也要半個(gè)小時(shí)到一個(gè)小時(shí)的時(shí)間,。很多同學(xué)會(huì)想,SPSS不行,,那GraphPad也能夠做生存分析,,而且界面簡(jiǎn)潔,操作簡(jiǎn)單,,那我也沒必要換其他工具了,,其實(shí)不然~。 不管SPSS或者GraphPad,,雖然它能夠幫我們快速高效地實(shí)現(xiàn)生存分析,,但是這些現(xiàn)有的工具都存在一個(gè)非常嚴(yán)重的問題:每次只能做一組樣本。如果我要對(duì)多個(gè)組別批量做生存分析呢,?設(shè)想一下,,我們經(jīng)常碰到這樣的問題:做了差異基因篩選出了上百個(gè)基因,但是哪個(gè)才更重要呢,,我們這個(gè)時(shí)候可以將基因表達(dá)和患者預(yù)后進(jìn)行生存分析,,當(dāng)然預(yù)后有差異的基因更為重要。如果有幾個(gè)基因的話,,我們可以用現(xiàn)成工具,,一個(gè)一個(gè)分析,然后把結(jié)果一個(gè)一個(gè)存起來(lái),,但是如果有上百個(gè)上千個(gè)甚至上萬(wàn)個(gè)基因呢,?就按一個(gè)3分鐘,100個(gè)基因就是300分鐘,,5個(gè)小時(shí),! 這個(gè)時(shí)候,我們就要求助于一種更為高級(jí)的方式,,那就是R語(yǔ)言,。前面我們就說過,R語(yǔ)言可以幫我們實(shí)現(xiàn)任何一種統(tǒng)計(jì)分析,,這其中當(dāng)然也包括Survival Analysis. 我們先以“NRAS表達(dá)與肺癌患者預(yù)后”為例,,給大家講解一下使用R語(yǔ)言進(jìn)行生存分析的具體步驟,學(xué)會(huì)這個(gè),,我們?cè)倥e一反三,,擴(kuò)展到批量操作中去。 從哪里獲取TCGA中肺癌樣本的表達(dá)值呢,?答案是cBioportal,,具體鏈接如下:
找到自己感興趣的數(shù)據(jù)集(dataset),,點(diǎn)擊下載的箭頭就能下載。下載下來(lái)是一個(gè)名叫luad_tcga.tar.gz 的壓縮包,。 為了能夠?qū)颖具M(jìn)行分組,我們首先要提取基因表達(dá)值,,按照基因的表達(dá)值對(duì)樣本進(jìn)行分組(高表達(dá)組 vs 低表達(dá)組),。那么樣本的表達(dá)值存儲(chǔ)在什么地方呢?解壓前面的壓縮包,,里面會(huì)出現(xiàn)密密麻麻的文件,,這其中一個(gè)有個(gè)文件是我們想要的: data_RNS_Seq_v2_mRNA_median_Zscore.txt 里面存儲(chǔ)了所有基因的表達(dá)值,有了表達(dá)值就可以按照表達(dá)值的高低,,對(duì)樣本進(jìn)行分組啦~想要哪個(gè)基因的表達(dá)值,,直接查找即可。 有了患者的分組信息,,將overall survival date和overall survival status從表型信息中提取出來(lái),。那么患者的臨床信息存儲(chǔ)在哪個(gè)文件當(dāng)中呢?就是壓縮包中的data_bcr_clinical_data_patient.txt 文件,。這個(gè)文件里面有兩列:OS_STATUS 和OS_MONTHS 就是我們想要的數(shù)據(jù),。 將患者分組,、生存數(shù)據(jù)放到一個(gè)表格中,,使用R語(yǔ)言的survival包就可以實(shí)現(xiàn)生存分析了。 想想也沒幾步,,是不是很簡(jiǎn)單,?這次的教程先到這里,本期第二我們一氣呵成,,再來(lái)跟大家講講如何在上述分析的基礎(chǔ)上實(shí)現(xiàn)批量的操作,,一下實(shí)現(xiàn)上千上萬(wàn)個(gè)基因的生存分析。 視 頻 教 學(xué) |
|