前面我講到TCGA的數(shù)據(jù)可以在5個組織機構可以獲取,,他們都提供了類似的接口來供用戶下載數(shù)據(jù) 每個接口都有使用教程,,比如http:///tutorial/FireBrowse-Tutorial.pdf 非常詳細?。?! 有的還專門寫了軟件接口:https://confluence./display/GDAC/Download 或者寫了R的接口:http://www./cgds_r.jsp 接下來我們要講的就是cbioportal網(wǎng)站提供的一個R接口,,非常好用,只需記住4個函數(shù)即可?。,。?/p> 只需熟記getCancerStudies,,getCaseLists,,getGeneticProfiles,getProfileData需要什么參數(shù)以及它們返回了什么對象即可,! install.packages("cgdsr",repos="
library(cgdsr) 第一個函數(shù)就是獲取我們的cbioportal網(wǎng)站里面存儲的關于TCGA的研究項目列表(每個study都是一篇文章),,至今有126個(2016年7月12日21:37:40) 具體的文章可以見:https://tcga-data.nci./docs/publications/ 前面我下載過胃癌的RNA表達數(shù)據(jù),我們這里可以驗證一下: 我這里用R來下載一次看看 stad2014 <- "stad_tcga_pub" ##這篇文章里面的數(shù)據(jù) ## 獲取在stad2014數(shù)據(jù)集中有哪些樣本列表,, all_tables <- getCaseLists(mycgds, stad2014) dim(all_tables) ## 我們需要驗證一下下載的mRNA表達量數(shù)據(jù),,所以我們選擇下面這個樣本列表 my_table <- "stad_tcga_pub_rna_seq_v2_mrna" ## 而后獲取有哪些數(shù)據(jù)可以下載 all_dataset <- getGeneticProfiles(mycgds, stad2014) my_dataset <- 'stad_tcga_pub_rna_seq_v2_mrna' ##然后我們選擇下載mRNA數(shù)據(jù) BRCA1 <- getProfileData(mycgds, "BRCA1", my_dataset, my_table) ## 根據(jù)my_table這個樣本列表來下載my_dataset這種數(shù)據(jù) ##還可以下載臨床數(shù)據(jù)來對比 getClinicalData(mycgds, my_table) ##臨床數(shù)據(jù)經(jīng)常下載失敗,不知道為什么 拿到的數(shù)據(jù),,就可以與之前在TCGA官網(wǎng)里面下載的數(shù)據(jù)比較啦?。?/p> 但是下面的鏈接已經(jīng)失效啦,! 臨床數(shù)據(jù):https://tcga-data.nci./docs/publications/stad_2014/20140110_STAD_Clinical_Data_Blacklisted_Cases_Removed.xlsx RPKM值表達數(shù)據(jù):https://tcga-data.nci./docs/publications/stad_2014/RPKM_Expression_Matrix.291Samples_GAF3genes.BCGSC.20131127.tsv
|
|