隨著公共數(shù)據(jù)庫的建立和開放,,越來越多的研究者可以接觸到測序數(shù)據(jù),非常適合想我們這種“三無”研究者(無課題,,無經(jīng)費,無文章)運用公共數(shù)據(jù)找點事情干,,可以是另辟蹊徑從某個獨特的視角重新分析已有的數(shù)據(jù)發(fā)發(fā)文章,,也可以在沒錢做測序的情況下看看自己研究的基因在別人的數(shù)據(jù)里是什么樣子,,積攢一些研究基礎(chǔ)。不過想玩轉(zhuǎn)生信大數(shù)據(jù),,面前總是隔著一座計算機編程的高山,,門檻太高讓眾多小白望而卻步。 今天就來介紹一個非常友好的TCGA數(shù)據(jù)分析和可視化的神奇網(wǎng)站,。TCGA應(yīng)該不用過多介紹了,,癌癥和腫瘤基因圖譜計劃,包含了最全面的測序數(shù)據(jù),。提起TCGA的數(shù)據(jù)分析網(wǎng)站,,cBioPortal 的大名誰人不知,誰人不曉,?不過今天要介紹的不是它,,關(guān)于cBioPortal使用的文章已經(jīng)鋪天蓋地了,我湊個啥熱鬧,。今天要介紹的是另一款國人建造數(shù)據(jù)庫,,個人覺得在分析的自由度上面秒殺cBioPortal。更重要的是真好用的網(wǎng)站居然沒有搜到太多的帖子來介紹,,真是太不應(yīng)該了,。 好了, 寫了那么一大段居然還沒有出現(xiàn)主角的名字,,我實在該打,。當(dāng)當(dāng)當(dāng)當(dāng)~上圖上鏈接!GEPIA(Gene Expression Profiling Interactive Analysis),,基因表達譜數(shù)據(jù)動態(tài)分析,官方網(wǎng)站:http://gepia./index.html ,。 GEPIA首頁
界面是不是非常簡潔干凈?
該網(wǎng)站由北大張澤民教授團隊開發(fā),,更新一下前人帖子所述的,,目前已經(jīng)發(fā)表了文章。記得引用,!記得引用?。∮浀靡茫,。,。。ㄖ匾氖抡f三遍,,這是對原創(chuàng)工作者的尊重)
由官方介紹可以看到,,GEPIA數(shù)據(jù)庫是基于UCSC Xena計劃的數(shù)據(jù)獲得的。從搜索欄可以看出,,該網(wǎng)站的分析主要有三個板塊,。為了方便看,,我用思維導(dǎo)向圖的形式給大家總結(jié)出來。 GEPIA index.png
Single Gene Analysis顧名思義,,單基因分析,,縱觀感興趣的基因在不同腫瘤中的概況。和大部分數(shù)據(jù)庫一樣,,輸入基因名的時候會出現(xiàn)下拉菜單,,方便準(zhǔn)確定位基因名。我們以網(wǎng)站給出的示例基因ERBB2檢索,。也可以從網(wǎng)頁右上角的GoPIA進入,,然后從Quick Search處輸入,進行檢索,。兩種方法都會跳轉(zhuǎn)到同樣的界面下,。 ERBB2檢索結(jié)果
檢索出來的頁面中有不同的標(biāo)簽,可以針對檢索的基因進行各種分析,,比如做表達水平圖,,生存分析,相關(guān)性分析等,。一會兒慢慢說,。 General 概況首先是對ERBB2基因概況的介紹。包括該基因在其他數(shù)據(jù)庫的快速鏈接,,包括GeneCard,,NCBI等。最拉風(fēng)可愛的是右邊這個Bodymap小人兒圖,,顯示了該基因在人體不同器官組織中的表達情況,,紅色的表示腫瘤組織,綠色的表示正常組織,。顏色越深表示表達水平越高,。ERBB2可能看不出非常大的差別,我找了兩個奇葩一點的例子,,一個是器官分布具有特異性,,并且只在腫瘤中異常高表達;一個是腫瘤情況下該表達的器官低表達,,不該表達的器官異常表達,。 Bodymap1
Bodymap2
往下拉是ERBB2基因在各種腫瘤 / 正常組織中的表達水平展示,散點圖和柱狀圖各取所需,??床欢┌Y分類的縮寫沒關(guān)系,網(wǎng)站非常貼心的在最上面放了一個“Click here to get the extensio of tumor abbreviations”,點擊即可顯示這些所寫的全程,,也不會跳轉(zhuǎn)頁面或者彈出新的窗口,。 dot plot
bar plot
再往下走是與正在檢索的基因表達類似的基因,點擊任意基因的名字就可以進入這個基因自己的GoPIA檢索頁面,,對它進行單獨分析。該頁面是新建窗口彈出的,,所以不用擔(dān)心正在檢索的基因找不到了,,因此也可以同時查看多個基因,方便挑選合適的伙伴,。 Expression DIY 表達水平作圖在Expression DIY標(biāo)簽下可以對檢索的基因進行表達水平的作圖,,從下拉菜單可以選擇Profile散點圖,Boxplot箱式圖和Stage plot小提琴圖,。Multiple gene comparison不用管它,,那是做多基因分析時用的。每一種格式的圖都可以DIY作圖的參數(shù),,選擇呈現(xiàn)的癌種并對其進行排序,,甚至顏色和大小。這里我特別想吐槽一句,,不愧是國人的數(shù)據(jù)庫,,畫起來就是快,刷刷刷,!生成的圖點擊download或者右鍵進行下載,,均是pdf格式。 Survival 生存分析然后我們來看看激動人心的生存分析,,畢竟對于醫(yī)學(xué)研究來說,,最關(guān)心的是研究對象是否具有臨床意義。同樣Survival標(biāo)簽也有下拉菜單,,單基因分析時只用Survival Plots就可以了,,另一個是多基因分析時用的。生存分析超高的自由度令人驚嘆,,配合作圖的網(wǎng)速加成,,是我強烈推薦這個數(shù)據(jù)庫的原因。我們就來上圖看看參數(shù)設(shè)置界面是怎么樣的,。 生存分析參數(shù)設(shè)置界面
首先在“Datasets Selection”處選定要分析的癌癥腫瘤,,點擊“Plot”就可以生成生存曲線圖。生存曲線圖上面講所有的參數(shù)進行了羅列,,并計算了Logrank和HR值,。不需要呈現(xiàn)的也可以通過勾選來去除。 生存曲線圖
對于大部分研究來說,僅僅看看總生存(Overall Survival)就可以了,,但是有些基因可能對總生存沒有什么影響,,但是卻能左右疾病的進展和預(yù)后,仍然非常有意義,。大部分生存在線工具,,只能分析總生存,GEPIA非常全面的也未大家提供了分析PFS的選項,。另外一個最大的優(yōu)勢是在于基因表達高低分組這里,,上下限的cutoff可以自己定義,真的是想怎么分就可以怎么分,,隨心所欲,。對應(yīng)獲得多少例分組到高表達,多少例分組到低表達,,在生存曲線圖上都顯示記錄了,。雖然這樣做出來的“有意義”的生存曲線多少有點玩數(shù)據(jù)嫌疑,可能無法提供多大的臨床意義,,但是對用于對基因的探索還是有幫助的,,了解這個基因與患者生存因素相關(guān)的表達模式,為研究者提供參考,。 Similar Gene這里是General界面下相似基因的擴展頁面,,在參數(shù)選擇上更加細分,可以羅列Top 1 到Top 9999999的相似性基因,,是的,,你沒看錯,Top 9999999,,選擇框里填多少都不報錯,,只是會死機……大家不要像我這么無聊的去嘗試這個上限。當(dāng)然,,列那么多也沒有什么意義了,。此外,也可以選擇分析相似基因的范圍,,是指定類型的腫瘤上的,,或者是指定類型的癌旁上的,抑或者是組織特異性表達數(shù)據(jù)庫里的,。 Correlation 相關(guān)性分析單基因分析里最后一個能做的就是單基因的相關(guān)性分析了,。可以查看感興趣的兩個基因在指定的組織中表達的相關(guān)性,。所以這個標(biāo)簽頁也可以說是做multiple gene analysis分析的,。Gene A和Gene B可以手動輸入,使用的是HGNC數(shù)據(jù)庫的Gene Symbol,當(dāng)然我試了一下,,用ERBB2另外一個名字,,Her2也能認出來。但是想含有希臘字母的其他基因,,如NF-kB,,b-catenin,還是推薦使用Gene symbol,,避免出錯,。 Correlation analysis
到這里,單基因能做的分析就做完了,,是不是已經(jīng)對課題設(shè)計有了些思路呢?或者已經(jīng)獲得了些可以用的分析結(jié)果,?下面我們來看看多基因可以做些什么分析,。 Multiple Gene Analysis多基因分析時和單基因分析的套路一樣,基因表達水平的呈現(xiàn),,相關(guān)性分析和PCA主成分分析,。相關(guān)性分析和上述單基因分析時在同一個界面下,所以我們就不再復(fù)述,,剩下的我們一個一個來看看,。 Multiple Gene Comparison這個在之前說到的Expression DIY標(biāo)簽下,最后一個,。參數(shù)設(shè)置頁面如下,。可以在Gene list里給定一些基因,,然后在Dataset里選擇想分析腫瘤類型,,Tissue Order里可以運用鼠標(biāo)拖動排序,在選擇欄里可以選擇只看腫瘤樣本還是匹配上正常組織的樣本,。同樣點擊“Plot”進行繪圖,。 Multiple Gene Comparison設(shè)置界面
這里想強調(diào)一下,幾個基因或者幾個癌種的比較就不要用這個功能來作圖了,,做出來的如下所示,,巨丑。人家是做大數(shù)據(jù)分析的,,那么請拿出點數(shù)據(jù)量來,。太少的話,我推薦直接用單基因作圖的方法做,,然后在photoshop里面合并,。 巨丑且沒意義
要做就做這樣的
光標(biāo)停在圖上時,左上角會出現(xiàn)一排選擇按鈕,從左到右第一個是直接保存圖片,,為png格式,。如果不滿意目前的配色,可以點擊第二個按鈕,,save and edit plot in cloud,。會跳轉(zhuǎn)到另一個網(wǎng)站上,對圖片進行修改和保存,。這個網(wǎng)站就留給大家自己探索了,。似乎是個專業(yè)進行數(shù)據(jù)可視化的網(wǎng)站,可以做各種圖,。需要注冊,。等我有空探索完,再來寫個攻略,。 save and edit plot in cloud
PCA 主成分分析多基因的降維分析一般使用的是PCA主成分分析(Principal Component Analysis),,主要原理和算法我們不需要詳細了解,我們只要知道它可以將一系列基因,,根據(jù)其表達模式,,進行一個分析,使得表達相近的聚在一起,。反過來,,也可以利用基因,對樣本進行主成分分析,,能將腫瘤和正常組織分開的基因,,被認為具有很好的診斷價值。一般基因2個或者3個主成分分析,。也就是對應(yīng)繪制2維和3維的PCA圖,。無奈,GEPIA不知道為啥,,這一功能在我的電腦上總是報錯,。引用這篇文章的圖進行說明,《PCA主成分分析原理及分析實踐詳細介紹》,,侵刪,。 PC2
PC3
Cancer Type Analysis針對癌癥類型的研究和前面兩塊從基因出發(fā),在特定的腫瘤中進行分析的思路不同,,相反是從指定的某種腫瘤類型出發(fā),,找出最有意義的基因,可以是在腫瘤和正常之間存在表達差異基因,,或者是最能有效對患者進行生存和疾病進展預(yù)后的基因,。當(dāng)然這種已經(jīng)在不同文章里做爛了的分析,,大家也別想在這個網(wǎng)站獲得新奇的發(fā)現(xiàn)。個人認為只能是提供一些參考價值,。開發(fā)者做出來也只是讓網(wǎng)站的結(jié)構(gòu)更加完整罷了,。大家可以自己探索。 |
|
來自: 醫(yī)學(xué)院的石頭 > 《待分類》