這篇文章對于初次接觸數(shù)據(jù)挖掘的同學十分友好,整篇文章思路十分清楚,,作者是借助GEO數(shù)據(jù)集-差異分析-PPI網(wǎng)絡-核心節(jié)點一個流程實現(xiàn)對數(shù)據(jù)的挖掘,。目前這種純分析得套路雖然發(fā)不了4分,但是以此類簡單分析為基礎,,篩選核心基因后續(xù)再用組織樣本驗證得話還是可以發(fā)到不錯的分數(shù),。因此也具有一定得借鑒意義。 一 識別差異基因 作者下載了四套GEO數(shù)據(jù)集GSE28000, GSE21815, GSE44076 和GSE75970,,作者分別取差異基因(cancer VS normal),最后四套數(shù)據(jù)集的差異基因取交集,,共獲得292個一致的差異基因。Cutoff :p< 0.05 and [logFC]>1 二 差異表達基因的GO富集分析 作者利用上述的292個差異基因進行GO富集分析,,GO分析分別選擇了DAVID和Panther兩個在線工具,,分別進行了molecular function, biological process 以及cellular component分析,結果如下: 三 差異表達基因的通路富集分析 作者在進行完GO富集分析之后,,便開始通路富集分析,,作者并不是簡簡單單的kegg富集,而是整合了多個數(shù)據(jù)庫的結果,,包括KEGG PATHWAY, Reactomen, BioCyc, Panther, NHGRI and Gene Ontology,。 四 PPI網(wǎng)絡構建 作者借助STRing數(shù)據(jù)庫,將292個差異基因輸入到string數(shù)據(jù)庫中,,其中180個節(jié)點有相互作用關系,,作者借助Cytoscape進行可視化網(wǎng)絡關系。 五 關鍵模塊選取 作者借助Mcode工具(Cytoscape插件),,從PPI網(wǎng)絡中選取了兩個節(jié)點度較高的模塊,,接著分別對兩個模塊進行富集分析。 六 利用TCGA驗證差異表達基因 作者并不是簡單的進行核心節(jié)點的差異結果驗證,,而是將所有的差異基因分為上調(diào)和下調(diào),,采用TCGA同樣進行差異分析,,發(fā)現(xiàn)將近95.5%的基因出現(xiàn)了重合,說明了結果的可靠性,。 文章思路總結 作者綜合了四套GEO數(shù)據(jù)集進行差異分析,然后取交集,,分別進行GO/KEGG分析,,接著進行PPI網(wǎng)絡的構建,再接著進行模塊選取以及TCGA數(shù)據(jù)庫的驗證,。 OK,,這個文章就結束了,,這篇文章思路非常清晰,,以GEO數(shù)據(jù)即為切入點來分析,整個流程相當簡單,。 |
|
來自: 生物_醫(yī)藥_科研 > 《待分類》