文章來(lái)源于:sci666 TCGA數(shù)據(jù)庫(kù)目前是科研中最常用的數(shù)據(jù)庫(kù)之一,,其中儲(chǔ)存著多種疾病的各組學(xué)的數(shù)據(jù),借助該數(shù)據(jù)庫(kù),,幫助了很多研究生們發(fā)表了自己的文章,,達(dá)到了畢業(yè)條件。但是,,如果你是剛?cè)腴T的新手,,不用擔(dān)心,跟著我們的系列推文,完成TCGA數(shù)據(jù)庫(kù)的認(rèn)識(shí)與下載,,開(kāi)啟TCGA數(shù)據(jù)庫(kù)的大門,。今天我們就來(lái)學(xué)習(xí)一下TCGA數(shù)據(jù)庫(kù)中癌癥的RNAseq數(shù)據(jù)下載。 1.TCGA數(shù)據(jù)庫(kù)簡(jiǎn)介 TCGA數(shù)據(jù)庫(kù)全稱為The Cancer Genome Atlas,,如名所示,,它主要儲(chǔ)存關(guān)于各類腫瘤的一個(gè)基本信息,包括RNAseq,,miRNAseq,,DNA甲基化,CNV,,SNP等信息,,它是目前為止我們可以獲得的公開(kāi)數(shù)據(jù)庫(kù)里面數(shù)據(jù)相對(duì)全面的一個(gè),在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,,為腫瘤基礎(chǔ)醫(yī)學(xué)和轉(zhuǎn)化醫(yī)學(xué)研究者提供了海量的基因組數(shù)據(jù)和與其關(guān)聯(lián)的臨床數(shù)據(jù),這為挖掘有意義的基因組變化和發(fā)現(xiàn)影響腫瘤起始,、發(fā)展、分化,、轉(zhuǎn)移等生物學(xué)機(jī)制提供了海量數(shù)據(jù)基礎(chǔ)。 2.TCGA網(wǎng)址 https://portal.gdc./ 首頁(yè)模樣如下: 3. 點(diǎn)擊 Repository,,進(jìn)入數(shù)據(jù)存儲(chǔ)地,,就會(huì)出現(xiàn)下面這個(gè)界面 4. 點(diǎn)擊 Case,選擇疾病類型,,就會(huì)出現(xiàn)下面這個(gè)界面,,用于挑選各類癌癥,比如我們選擇喉癌(Larynx),,在其前面打鉤即可,。 5.接著點(diǎn)擊 File,選擇文件類型,,就會(huì)出現(xiàn)下面這個(gè)界面,,用于選擇需要下載文件的數(shù)據(jù)類型,因?yàn)槲覀冃枰螺d的是RNAseq的數(shù)據(jù),,所以需要在Transcriptome Profiling,,在其前面打鉤即可。 6.在Data Type選擇Gene Expression Quantification,,在Experimental Strategy上由于只有一個(gè)選項(xiàng),,所以我們不用選擇也可以,主要看到有三種類型,,分別是counts,,F(xiàn)PKM和FPKM-UQ,分別表示counts數(shù)和兩種歸一化后的值,,一般推薦下載counts數(shù)據(jù),。 7. 點(diǎn)擊counts之后,,我們可以看到每一步操作都會(huì)記錄在里面,如下,,也可以看到數(shù)據(jù)大小是31兆,。 8. 點(diǎn)擊Add All Files to Cart,然后就會(huì)看到箭頭所指的地方,,變?yōu)橄鄳?yīng)的樣本數(shù),,接著點(diǎn)擊cart,如下: 9. 點(diǎn)擊download,,下載cart即可 這樣你就完成了第一步基于網(wǎng)頁(yè)版tcga數(shù)據(jù)的下載,。 10.下載的數(shù)據(jù)模樣 下載的結(jié)果是一個(gè)壓縮包,我們解壓之后就會(huì)發(fā)現(xiàn),,每個(gè)文件存儲(chǔ)的為一個(gè)樣本,。 OK,今天的數(shù)據(jù)下載先講到這,,下期再見(jiàn),。 關(guān)注公眾號(hào),后臺(tái)回復(fù)“生信資源”,,獲取200G生信資源包 |
|
來(lái)自: 創(chuàng)客小組 > 《sci666》