最近偶然看到一篇生信建模的文章,,思路清奇,讓人茅塞頓開,。 從標(biāo)題上來看 是一篇分析胰腺癌甲基化異常的 基因的預(yù)后signature,,這個(gè)題材的文章 看個(gè)標(biāo)題就差不多能猜出來干了什么事,但好奇的我感覺發(fā)五分應(yīng)該是有什么特別之處,,于是仔細(xì)的看了一下,,與大家分享。 本文整體思路簡(jiǎn)單鋝了鋝,,大概如下: 1,、下載ICGC數(shù)據(jù)庫(kù)的甲基化數(shù)據(jù)和TCGA數(shù)據(jù)庫(kù)的RNAseq數(shù)據(jù) 2,、分別篩選差異甲基化位點(diǎn)和差異基因 3,、緊接著 使用GEO的表達(dá)譜數(shù)據(jù)集GSE21501進(jìn)行驗(yàn)證,,驗(yàn)證這些種子基因的差異表達(dá) 4、將甲基化差異結(jié)果和基因表達(dá)差異結(jié)果關(guān)聯(lián),,選擇差異上調(diào)的基因并且啟動(dòng)子區(qū)域甲基化下調(diào)的基因和差異下調(diào)的基因并且啟動(dòng)子區(qū)域甲基化上調(diào)的基因作為候選基因(此步相似文章看這里:https://www.ncbi.nlm./pmc/articles/PMC5545832/) 5,、對(duì)候選基因分別進(jìn)行單因素生存分析(開始進(jìn)一步找和預(yù)后相關(guān)的基因) 6、然后進(jìn)一步使用lasso回歸進(jìn)行特征選擇和構(gòu)建預(yù)后模型 7,、用驗(yàn)證數(shù)據(jù)集進(jìn)行驗(yàn)證 8,、分析模型在不同的臨床分期中的預(yù)后預(yù)測(cè)效率 9、和已有的signature模型進(jìn)行比較說明模型優(yōu)勢(shì) 10,、功能富集分析模型中基因的功能 下面我們來看一下細(xì)節(jié): 1,、數(shù)據(jù)下載 從ICGC上下載DNA甲基化數(shù)據(jù)(https://www./research/cancer/pancreatic-cancer-research/)。 從TCGA上下載RNAseq數(shù)據(jù)(https://cancergenome./)及臨床隨訪信息 從GEO上下載兩個(gè)基因表達(dá)譜數(shù)據(jù)(GSE21501和GSE62452)(https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE21501,,https://www.ncbi.nlm./geo/query/acc.cgi?acc=GSE62452)及對(duì)應(yīng)的臨床隨訪信息,。 2、差異分析 作者使用R軟件包limma進(jìn)行差異篩選,,選擇閾值FDR<0.01作為閾值,,最終得到了9227 個(gè)差異表達(dá)的基因(圖1A),進(jìn)一步與ICGC的甲基化譜進(jìn)行整合分析,,確定了81個(gè)下調(diào)基因,,這些基因是高甲基化的(81 / 480,16.9%)(圖1B)和1287個(gè)低甲基化的上調(diào)基因(1287 / 847,44.7)(圖1C) 疑問有三個(gè): 3,、單因素生存分析 作者使用單因素cox分別對(duì)第二步中得到的1368個(gè)候選基因進(jìn)行生存分析,選擇p值小于0.05作為閾值,,最終得到了三個(gè)基因:SULT1E1,、IGF2BP3、MAP4K4,。利用數(shù)據(jù)集GSE62452觀察這三個(gè)基因在癌與癌旁中的表達(dá)差異 疑問: 4、使用lasso回歸對(duì)這三個(gè)基因構(gòu)建預(yù)后模型:risk score=0.195 * of SULT1E1+ 0.129 * of IGF2BP3 + 0.65 * of MAP4K4,;并分別在驗(yàn)證數(shù)據(jù)集中驗(yàn)證驗(yàn)證,。 利用預(yù)后模型 分別將訓(xùn)練集和驗(yàn)證集數(shù)據(jù)代入模型計(jì)算樣本的風(fēng)險(xiǎn)得分,再使用風(fēng)險(xiǎn)得分進(jìn)行單因素和多因素生存分析,同時(shí)比較TNM分期在這三套數(shù)據(jù)集中的單因素和多因素生存分析結(jié)果,,最終結(jié)果如Table1,從中可以看出模型在三套數(shù)據(jù)集中單因素和多因素都具有顯著差異,,同時(shí)與臨床分期相比更顯著 作者進(jìn)一步根據(jù)樣本風(fēng)險(xiǎn)得分將樣本平均分成高低兩組,觀察兩組的預(yù)后差異,,如圖,,從中可以看出三套數(shù)據(jù)集中也具有顯著的預(yù)后差異 6、分層分析,,觀察模型在不同的臨床分期中的預(yù)測(cè)效果 作者根據(jù)樣本的臨床TNM分期,,分別將不同的分期樣本單獨(dú)拿出來使用模型去預(yù)后高低風(fēng)險(xiǎn)樣本,結(jié)果如Table2所示,,從中可以看出在多數(shù)臨床分期中分類具有顯著的差異,,并且在T3/T4類型的樣本中分類效果最好 作者選擇了一個(gè)已經(jīng)發(fā)表的利用TCGA的基因表達(dá)數(shù)據(jù)篩選的基因模型,,分別比較了他們的1年,、3年、5年的ROC,,證明作者的模型線下面積最大,,完勝他們。 疑問: 選一個(gè)兩三分的文章的模型來比較來說明你的模型好,,這是啥意思呢 8,、功能富集 作者分別計(jì)算了這三個(gè)基因與基因組中其他基因的表達(dá)關(guān)系,選擇最顯著的前200個(gè)基因使用在線工具M(jìn)etascape (http:///)進(jìn)行功能富集分析,,發(fā)現(xiàn)最顯著的前三個(gè)生物學(xué)途徑是 Rho GTPases, chromosome segregation and focal adhesion pathways,,已有報(bào)道表明這三個(gè)通路均參與腫瘤進(jìn)展,為進(jìn)一步研究胰腺癌的三基因模型的詳細(xì)分子機(jī)制提供了依據(jù),。 以上便是文章的全部,,總的來說 文章很多細(xì)節(jié)沒有展示出來,有一種 欲蓋彌彰的感覺,,不過整個(gè)思路還是值得學(xué)習(xí)的,。 |
|