TCGA數據庫分析宮頸鱗狀細胞癌(CESC) 生物信息學是將分子生物學與信息處理技術結合,以計算機為工具對生物信息進行儲存,、檢索和分析的交叉學科,,其目的是利用各種數據庫,分析整理其數據的意義而揭示大量復雜的生物數據所賦予的生物學奧秘,。癌癥基因組圖譜(TCGA)數據庫是由美國國家癌癥研究所(NCI)及國家人類基因組研究所(NHGRI)聯(lián)合建立,,其中包括豐富的數據類型和腫瘤類型,不需要任何費用即可獲得大量數據,,其次在TCGA下載的數據已經經過了前期繁瑣的標準化處理,,節(jié)省了人工處理時間和資源。 在分析之前,,先把我們做出來的結果劇透給大家 圓形代表DERAN,方塊代表DEmiRNA,,綠色外邊圓形代表DElncRNA 分析GEO的朋友可以參考一下 分析GEO,,并且在TCGA結合分析癌癥的可以參考: GEO多芯片聯(lián)合分析&TCGA數據庫分析、生成分析對差異基因驗證,,論文&報告思路交流 一,、 數據下載 使用TCGA數據庫獲取腫瘤和正常配對組織的基因數據及miRNA數據。得到3個正常樣本和304個CESC腫瘤樣本,。分別做臨床分析,、mRNA差異分析,、lncRNA差異分析、miRNA差異分析,、生存分析,、ceRNA調控網絡構建。 二,、 mRNA差異表達 1,、如何得到矩陣文件? 下載的是counts文件,,每個樣本的壓縮包保存在單獨的文件中,。 首先需要把所有的壓縮包放在同一個文件夾內,統(tǒng)一解壓,,然后從幾百個counts文件提取矩陣,。得到Ensembl的矩陣,用Homo_sapiens.GRCh38.87.chr.gtf文件進行轉換,,得到symbol的矩陣,,包括mRNA,和lncRNA及其他一起,。 分別提取mRNA的矩陣和lncRNA的矩陣,。 2、使用R的edgeR包,,篩選條件|logFC|>2 & FDR<0.01 得到1933個差異基因,,1195個下調,738個上調,,部分差異基因如下表 3,、用heatmap包得到前100上調差異基因和前100下調差異基因的熱圖 4、GO功能分析 DAVID在線工具分析所有差異基因的GO功能,,篩選條件PValue<0.01,,得到223個GO。用R做柱狀圖得到GO功能分析圖: 5,、KEGG分析 對差異差異基因做KEGG分析,,使用的是KOBAS 3.0,這是一款簡單容易操作的在線分析工具,,需要注意的是,,KOBAS在線工具需要輸入的是Entrez Gene ID,而我們得到的差異基因是Gene ID,,這個需要轉換,,轉換的工具很多,我們選擇DAVID在線工具做轉換。結果可以得到KEGG通路圖和詳細的表,,篩選條件P-Value<0.01,,得到67個KEGG通路,其中一條通路如下圖: 6,、蛋白互作網絡 蛋白互作網絡在論文出現(xiàn)的次數沒有以前頻繁,,不過要看文章研究的重點和方向。我們選擇String軟件作為研究工具,,這款可視在線工具使用非常簡單,,需要注意的是輸入的Gene ID不能超過2000,輸出PNG時需要對圖片進行調整,,調整有很多參數可以選擇,,比如相關性、是否出現(xiàn)游離基因,,如果圖片很大很混亂,,需要把相關性調大,一般情況下剔除游離基因,。 得到下面的蛋白互作網絡: 三,、lncRNA差異表達 1、獲得lncRNA矩陣 TCGA數據庫下載的轉錄數據,,包含mRNA和lncRNA,,是在同一部分文件中,提取lncRNA矩陣選取antisense,、lincRNA,、sense_intronic等。 2,、使用edgrR包,,篩選條件|logFC|>2 & FDR<0.01,得到494個差異lncRNA,,其中下調360個,,上調134個,部分差異lncRNA如下表 火山圖 3,、上調前100個,,下調前100個lncRNA聚類做熱圖 四、miRNA差異表達 1,、首先需要獲得miRNA的矩陣文件,,從TCGA下載下來的是每個樣本單獨的矩陣文件,需要利用perl或者python腳本提取,,提取得到需要進行分析的文本文件。 2、使用edgrR包,,篩選條件|logFC|>2 & FDR<0.01,,得到74個差異miRNA,其中下調43個,,上調31個,,部分差異miRNA如下表: 3、熱圖分析,,分析和前面mRNA差不多,。
五、ceRNA網絡構建 1,、用在線工具,,比如StarBase,做lncRNA和miRNA的比對,,這一步是構建ceRNA的關鍵,。這里494個差異lncRNA和74個差異miRNA進行比對。得到39個DElncRNA和18DEmiRNA相互作用,。 2,、miRNA靶基因預測 利用TargetScan、miRDB,、miRanda,、miRTarBase在線工具對18個miRNA進行靶基因預測,得到的靶基因在去和差異基因做淘汰,,得到69個靶基因也就是DEmRNA,。 3、構建ceRNA網絡 經過一次比對,,一次預測,,最終得到39個DElncRNA、18個DEmiRNA和69個DEmRNA,,以及它們之間的相互關系,。使用cytoscape對具有相關性的lncRNA、miRNA,、miRNA靶基因進行可視化,。就可以得到ceRNA網絡。cytoscape的使用有很多學問,,如何做出漂亮的圖需要很多時間和審美,。 希望這個帖子對大家有幫助 |
|