腫瘤基因組圖譜 (TCGA) 計劃由美國 National Cancer Institute(NCI) 和 National Human Genome Research Institute(NHGRI)于 2006 年聯(lián)合啟動的項目,,目前共計研究 36 種癌癥類型,。 TCGA 利用大規(guī)模測序為主的基因組分析技術,通過廣泛的合作,,理解癌癥的分子機制,。提高人們對癌癥發(fā)病分子基礎的科學認識及提高我們診斷、治療和預防癌癥的能力,。 最終完成一套完整的與所有癌癥基因組改變相關的「圖譜」,。 下面我們就以肝癌為例,著重介紹 TCGA 數(shù)據(jù)庫及利用 TCGA 數(shù)據(jù)庫現(xiàn)有的數(shù)據(jù)深入挖掘尋找肝癌發(fā)生的關鍵基因,。 TCGA 數(shù)據(jù)及功能 組織處理 1. 癌癥病人自愿捐贈腫瘤組織及正常組織樣本,,由人類癌癥生物標本核心資源庫承擔癌癥組織標本和正常組織標本的采集、處理和分配工作 2. 組織樣本經過嚴格標準處理(處理標準根據(jù)不同后續(xù)分析類型而異,,具體標準請參見),,確保質量可以用于進一步分析及測序,并由相關中心采用高通量測序技術進行基因和基因組排序 3. 獲得的臨床資料中,,可以識別病人身份的信息去掉 整合研究 1. TCGA 基因組分析中心(GCC)比對腫瘤和正常組織,,尋找異常的基因重組現(xiàn)象 2. 高通量測序中心(GSC)分析與各癌癥或者亞型相關的基因突變、擴增或者缺失,。 3. 資料分析中心(GDAC)進行資料的整理,、匯總、并提供圖表報告給全體研究團隊 資料分享 1. 資料綜合中心(DCC)集中處理各個團隊產生的資料,,定期公開于網(wǎng)絡上供全世界研究人員利用 2. 提供公開的資料下載網(wǎng)站入口以方便進行資料搜索和下載 TCGA 數(shù)據(jù)類型和數(shù)據(jù)水平 TCGA 數(shù)據(jù)類型分為以下幾種: TCGA 數(shù)據(jù)水平及類型: TCGA 標準方法 下載肝細胞肝癌癌癥組織及正常組織信息,,統(tǒng)計分析采用 R 語言(3.1.1 版本)軟件,需安裝及加載的程序包(pheatmap,,venndiagram,,hist 等),然后用 DESeq 和 edgeR 程序包進行分析,,結果以熱圖(pheatmap),、韋恩圖(VennDiagram)hist、PlotMA 等表示,。具體的差異基因分析策略參考 oshlack 等報道的方法 [1],。差異基因的判斷標準:1-表達量在 2 倍以上或者 0.5 倍以下,2-P<0.05,3-基因排名在前 10%,。TCGA 數(shù)據(jù)分析方法TCGA 數(shù)據(jù)水平及類型 以肝癌為例實戰(zhàn) 數(shù)據(jù)檢索 進入 TCGA 主頁(點我進入)---Lunch Data Portal---Download Data---Data Matrix---Filter setting: select a disease (LIHC-liver hepatocellular carcinoma),Data Type(RNA Seq), platform: genome wide mRNA levels (Illumina mRNA-seq), microRNA levels (Illumina microRNA-seq),Tumor/Normal(tumor-matched or normal-matched) --- Apply---Color cells by (tumor/nomal)---下載,。 本次下載共得到癌組織芯片信息 17 張,正常組織芯片信息 9 張,,共 26 張,。 表達譜差異基因 2.1 基因分布 對所下載的 26 張芯片進行 hist、plotMA 分析結果見圖 1,。 Hist 圖反映的是每個統(tǒng)計后 P 值的分布規(guī)律,,圖中可看出 P 值接近 0 處頻率很高,,反映差異基因的數(shù)量很大。PLotMA 圖反應的是基因表達量的分布規(guī)律,,圖中紅線代表與正常組織比較表達量無差異的基因,,紅線以上表示表達量升高的基因,反之表示表達量下降,,由圖可以看出大部分差異表達基因屬于高表達,。 圖 1 PlotMA 和 hist 圖。左圖顯示的 PLotMA 圖,,圖中紅線代表與正常組織比較表達量相同的基因,,紅線以上表示表達量升高的基因,反之表示表達量下降,。 2.2 差異基因熱圖 分別用 DESeq 和 edgeR 程序包對下載的 26 張芯片信息進行熱圖(pheatmap)分析,,結果見圖 2。由于符合差異基因判斷的基因較多,,熱圖中右側基因名稱無法清晰顯示,,圖 3 列出 DESeq 方法差異基因中的 30 個。 Fig2. 左圖顯示用 DESeq 方法找到的差異基因熱圖,,右圖顯示用 edgeR 方法找到的差異基因熱圖,。紅色代表基因表達上調,綠色代表基因表達下調,。 Fig.3 DEseq 方法找到的差異基因中的 30 個基因熱圖,。紅色代表基因表達上調,綠色代表基因表達下調,。 2.3 共同差異基因 圖 4 顯示的是用 DESeq 和 edgeR 方法尋找差異基因的韋恩圖,。圖中我們可以看出用 DESeq 方法一共找到 719 個差異基因,而用 edgeR 方法找到 4413 個差異基因,,兩種方法都鑒別出的共同差異基因 713 個,,包含三個表達下降(MT1B、BMP10 和 SYT10)和 710 個升高的基因(ALB,、HP,、FGB 等) Fig.4 用 DESeq 和 edgeR 方法尋找差異基因的韋恩圖。藍色代表 edgeR 方法找出的特有基因,,橘黃色為 DESeq 方法尋找出的特有基因,中間粉紅色部分為兩種方法共同鑒別出的差異基因,。 2.4 興趣基因驗證 本次共檢索到 719 個癌和正常組織的差異基因,,通過差異倍數(shù)及相關文獻可以確定自己感興趣的基因,進行大樣本的驗證,。 作者語 本研究以肝癌為例介紹了 TCGA 的基本情況包括數(shù)據(jù)處理,、整合,、數(shù)據(jù)水平及類型、統(tǒng)計分析方法,,可以全面認識 TCGA,。 文章結合了當下最熱的生物信息學理論介紹了一種新的發(fā)現(xiàn)腫瘤差異基因包括 mRNA、micRNA,、拷貝數(shù)變異等,,該方法相較于傳統(tǒng)的芯片篩選具有樣本數(shù)量大、費用小,、分析簡單等優(yōu)勢,,為更多的人進行大規(guī)模的肝癌基因組學研究以及基于基因組學的后續(xù)功能研究提供了可能性。 但 TCGA 也有自己的不足:免費版 TCGA 數(shù)據(jù)不包含患者基本情況及預后,;只能描繪靜態(tài)的突變或變異,;不能反映基因水平到蛋白水平的改變。 不管怎樣 TCGA 項目將對癌癥生物學,、基因組學技術,、生物儲藏庫和生物信息學領域的最新成果得到協(xié)調發(fā)展和最佳應用,科學合理的應用 TCGA 數(shù)據(jù)庫可以使得科研工作尤其是腫瘤研究事半功倍,。 注:本文主要內容來自于 2015 年 Hans Journal of Surgery,,作者排序為:賈俊君,何寧,,張靜,,姜驪,周燕飛,,周琳,,鄭樹森 參考文獻 1. Oshlack A, Robinson MD, Young MD (2010) From RNA-seq reads to differential expression results. Genome Biol 11: 220. 2. Alexandrov LB, Nik-Zainal S, Wedge DC, Aparicio SA, Behjati S, et al. (2013) Signatures of mutational processes in human cancer. Nature 500: 415-421. 3. Hoadley KA, Yau C, Wolf DM, Cherniack AD, Tamborero D, et al. Multiplatform Analysis of 12 Cancer Types Reveals Molecular Classification within and across Tissues of Origin. Cell 158: 929-944. 4. Barrio-Real L, Benedetti LG, Engel N, Tu Y, Cho S, et al. (2014) Subtype-specific overexpression of the Rac-GEF P-REX1 in breast cancer is associated with promoter hypomethylation. Breast Cancer Res 16: 441. 5. Yang D, Sun Y, Hu L, Zheng H, Ji P, et al. (2013) Integrated analyses identify a master microRNA regulatory network for the mesenchymal subtype in serous ovarian cancer. Cancer Cell 23: 186-199. 6. Brennan CW, Verhaak RG, McKenna A, Campos B, Noushmehr H, et al. The somatic genomic landscape of glioblastoma. Cell 155: 462-477. 本文轉自公眾號:科研論文時間
|
|