今天,我將為大家解讀一篇3.96分的SCI,,借此來學(xué)習(xí)GEO數(shù)據(jù)庫甲基化芯片發(fā)SCI的套路,,文章的題目是:Aberrantly methylated-diferentially expressed genes and pathways in colorectal cancer。 首先簡單介紹一下,,GEO數(shù)據(jù)庫(GENE EXPRESSION OMNIBUS)是NCBI旗下主打基因表達(dá)芯片的數(shù)據(jù)庫,,它的網(wǎng)址是http://www.ncbi.nlm./geo,或者直接通過PUBMED的菜單欄進(jìn)入,。 小碩在此申明,,GEO數(shù)據(jù)庫的芯片數(shù)據(jù)是不花錢的!而且數(shù)據(jù)海量,,更新較快,!小伙伴們迫不及待了吧,Let′s go! 全文思路明確,,從GEO數(shù)據(jù)庫中下載4張芯片,,其中2張基因表達(dá)芯片(GSE68468, GSE44076)和2張甲基化的芯片(GSE29490, GSE17648),是不是感覺芯片在手,,天下我有,? 接著利用GEO2R工具找出甲基化的差異基因(methylated-DEGs),,DAVID網(wǎng)站做功能和富集分析,STRING網(wǎng)站做蛋白互作網(wǎng)絡(luò)圖(PPI),,利用Cytoscape軟件的MCODEapp構(gòu)建PPI聚類功能模塊,。 最終,找出了異常甲基化的差異表達(dá)基因和通路,,這些Hub基因可能作為異常甲基化的生物標(biāo)志物,,以此服務(wù)于結(jié)腸癌的精準(zhǔn)治療。 “Totally 186 CRC and 55normal mucosa specimens were enrolled in GSE68468 (platform: GPL96 AfymetrixHuman Genome U133A Array) while 98 CRC and 50 normal mucosa specimens wereenrolled in GSE44076 (platform: GPL13667 Afym[1]etrix Human Genome U219 Array).”這句來源于原文中,,咋一看,不了解GEO的小伙伴可能有點(diǎn)懵,,一會(huì)GSE,一會(huì)GPL?請看下面表格內(nèi)容,。 總結(jié)一下,GEO數(shù)據(jù)庫的表達(dá)譜信息主要儲(chǔ)存在DataSets和Profiles中,,而數(shù)據(jù)下載說到底就是要得到表達(dá)矩陣,,即“基因在行,樣本在列”的矩陣,。 在下圖的GEO DataSets輸入研究的癌癥,,然后就可以選擇自己需要的芯片,里面關(guān)于芯片的信息非常詳細(xì),,下載原始文件,,整理后即可得到需要的表達(dá)矩陣。哈哈,,還是挺容易實(shí)現(xiàn)的,。 利用GEO數(shù)據(jù)庫自帶的GEO2R工具將樣本分為正常組和病例組,,設(shè)定cut-off值(P < 0.05and |t| > 2),尋找出差異表達(dá)基因(DEGs)和差異甲基化基因(DMGs),。 再利用EXCEL中的MATCH函數(shù)進(jìn)行匹配,去除重疊的基因,,同時(shí)獲得甲基化芯片和表達(dá)譜芯片的交集,,最終得到低甲基化-高表達(dá)基因411個(gè),高甲基化-低表達(dá)基因239個(gè),,利用R軟件代碼實(shí)現(xiàn)韋恩圖制作,,文中的韋恩圖確實(shí)不錯(cuò)哈。 選取典型的芯片的TOP100基因(包括50高表達(dá)和50低表達(dá)基因)做差異基因的熱圖,,可通過R代碼實(shí)現(xiàn)熱圖的制作,。微信公眾號回復(fù)“熱圖”,可獲得R軟件熱圖制作代碼,。 DAVID網(wǎng)站(網(wǎng)址https://david./)實(shí)現(xiàn)GO功能富集分析,,這個(gè)還是比較簡單的,直接上圖了,。分別從生物學(xué)過程(BP),,細(xì)胞組成(CC),分子功能(MF)對低甲基化-高表達(dá)基因,、高甲基化-低表達(dá)基因功能注釋,,選取排名前5的富集分析制成下表。 同樣,,利用DAVID網(wǎng)站進(jìn)行KEGG通路分析,分別預(yù)測了低甲基化-高表達(dá)基因,、高甲基化-低表達(dá)基因富集的通路,。 蛋白互作網(wǎng)絡(luò)圖(PPI)通過STRING網(wǎng)站來制作(網(wǎng)址https:///),,PPI聚類功能模塊則用Cytoscape軟件的MCODEapp制作。其中PPI網(wǎng)絡(luò)圖,,以Interactionscore>0.4作為cut-off值,;利用Cytoscape軟件,篩選出MCODE評分>3,、節(jié)點(diǎn)數(shù)>4的PPI網(wǎng)絡(luò)中的模塊制作聚類模塊分析圖,。篩選出節(jié)點(diǎn)degree大于10的即為Hub基因。 最終分別篩選出低甲基化-高表達(dá)基因排名前五的Hub基因:CAD,CCND1, ATM, RB1 and MET,;高甲基化-低表達(dá)基因排名前五的Hub基因:EGFR,ACTA1, SST, ESR1 and DNM2,。 分別將低甲基化-高表達(dá)的Hub基因和高甲基化-低表達(dá)的Hub基因在TCGA中觀察Hub基因的甲基化狀態(tài)和表達(dá)差異,,最終結(jié)果如下表,大部分Hub基因在TCGA中和GEO數(shù)據(jù)庫中的甲基化狀態(tài)和表達(dá)差異是一致的,,這對作者的GEO數(shù)據(jù)庫分析加強(qiáng)了說服力,。 綜上,可以看出本文甲基化數(shù)據(jù)挖掘步驟: (1)GEO芯片下載和預(yù)處理:GEO數(shù)據(jù)庫直接下載原始數(shù)據(jù),;R軟件的GEOquery包(上bioconductor官網(wǎng)搜索),。預(yù)處理一般就是將原始文件整理成我們需要的表達(dá)矩陣。 (2)差異基因和甲基化基因的篩選:本文采用的是GEO在線工具GEO2R分組后設(shè)定cut-off值P < 0.05and |t| > 2,,分別可以篩選出高,、低表達(dá)基因,高,、低甲基化基因,,利用EXCEL中的MATCH函數(shù)去除重疊的基因,,同時(shí)對低甲基化高表達(dá)的基因求交集,對高甲基化低表達(dá)基因求交集,。制作韋恩圖,,選取典型芯片做熱圖。當(dāng)然,,這一步也可以用R軟件跑,,最終結(jié)果是一致的。 (3)GO和KEGG分析:DAVID網(wǎng)站直接實(shí)現(xiàn),。 (4)PPI網(wǎng)絡(luò)構(gòu)建,、模塊分析和Hub基因選擇:STRING網(wǎng)站做蛋白互作網(wǎng)絡(luò)圖,利用Cytoscape軟件的MCOD app構(gòu)建PPI聚類功能模塊,。通過cut-off值設(shè)定,,節(jié)點(diǎn)degree大于10的即為Hub基因。 (5)TCGA數(shù)據(jù)庫驗(yàn)證:利用TCGA數(shù)據(jù)庫分析Hub基因的甲基化狀態(tài)和表達(dá)差異,,看是否與GEO數(shù)據(jù)庫一致,,以增強(qiáng)說服力。 做到這里,,已經(jīng)3.96分了,,小碩設(shè)想,如果繼續(xù)把Hub基因進(jìn)行共表達(dá)或預(yù)后分析,,是不是影響因子又得上漲呢,!當(dāng)然,前面這些步驟都不用花經(jīng)費(fèi),!假如你的老板經(jīng)費(fèi)充足,,繼續(xù)來個(gè)小樣本的實(shí)驗(yàn)驗(yàn)證吧,估計(jì)小伙伴們手已癢癢,,趕緊準(zhǔn)備發(fā)文吧,!我們明天將手把手教你R語言實(shí)操分析GEO數(shù)據(jù)庫甲基化芯片。 關(guān)注微信公眾號“百味科研芝士”,,一個(gè)分享干貨的地方 |
|