挖掘GEO速成SCI文章系列教程
GEO數(shù)據(jù)庫挖掘(2)--快速鎖定目標(biāo)數(shù)據(jù) 挖掘GEO速成SCI文章系列教程(3)-R語言基礎(chǔ) 前面三期的課程中,我們從GEO基礎(chǔ)知識(shí),、快速鎖定目標(biāo)數(shù)據(jù)以及R語言基礎(chǔ)這三個(gè)方面講解了GEO數(shù)據(jù)挖掘的背景知識(shí),。 眾所周知,GEO里面大部分是表達(dá)譜數(shù)據(jù),,而表達(dá)譜的數(shù)據(jù)挖掘涉及眾多的分析方法和繁瑣的分析步驟,,這里給大家做了一個(gè)大致的流程圖,以便大家有一個(gè)整體而全面的認(rèn)知,。簡(jiǎn)而言之,,GEO的數(shù)據(jù)分析就分為兩大步驟:(1)從原始數(shù)據(jù)到基因表達(dá)值,這里要經(jīng)過繁瑣的數(shù)據(jù)前處理過程,;(2)從表達(dá)值到功能分析(差異基因/聚類/功能富集等),。下面我們就按部就班地進(jìn)行講解。 Step1:從原始數(shù)據(jù)到表達(dá)值 這一步驟是相對(duì)比較簡(jiǎn)單,、比較固定的流程,,但是其在數(shù)據(jù)分析過程中的地位至~關(guān)~重~要!因?yàn)楹罄m(xù)所有的高級(jí)分析都是建立在表達(dá)值的基礎(chǔ)上,,如果這里出了問題,,那么后續(xù)所有分析都會(huì)產(chǎn)生極大的偏差。在GEO中,所有的data series除了上傳原始數(shù)據(jù)外,,還會(huì)有一個(gè)已經(jīng)處理好的表達(dá)值矩陣,,這個(gè)是GEO強(qiáng)制要求submitter在上傳過程中必須上傳的,就存儲(chǔ)在series matrix file中,。我們?cè)诜治鰯?shù)據(jù)的時(shí)候,,可以直接使用這個(gè)series matrix file作為表達(dá)值進(jìn)行后續(xù)的分析。 Step2:從表達(dá)值到功能分析 有了表達(dá)值以后,,我們就可以“暢所欲為”了,。常見的后續(xù)分析有:差異表達(dá)分析、層次聚類,,主成分分析等,,主要根據(jù)我們的分析目的來定。現(xiàn)在,,我們來對(duì)他們進(jìn)行逐個(gè)講解,。 a. 差異表達(dá)分析 這個(gè)分析相對(duì)較好理解,其實(shí)就是兩個(gè)不同分組之間基因表達(dá)值有差異的基因,。一般通過兩個(gè)指標(biāo)去進(jìn)行篩選:Fold change(變化倍數(shù),,簡(jiǎn)稱FC),以及P value(P值),。常用的FC閾值為2,,P value的閾值為0.05或者0.01。 b. 層次聚類分析 這個(gè)也是表達(dá)譜分析中的常用套路,,其理論基礎(chǔ)是:基因之間存在共表達(dá),,在表達(dá)譜上具有相似性的基因或樣本可能具有潛在的相關(guān)性。在聚類分析中,,基因被看作是一個(gè)向量,,通過元素與元素之間的距離,將不同的元素歸類,。通過層次聚類,,我們把表達(dá)譜相近似的基因或者樣本富集在一起,然后再對(duì)特定的基因進(jìn)行功能分析,,或者對(duì)臨床樣本進(jìn)行表型的挖掘,。 c. 主成分分析 Principle Component Analysis, PCA。屬于降維分析的一種,,將樣本從輸入空間通過線性或非線性映射到一個(gè)低維空間,,減少了后續(xù)步驟處理的計(jì)算量,當(dāng)降至三維以下時(shí)還可用于可視化技術(shù),,從而發(fā)揮人在低維空間感知上的優(yōu)點(diǎn),,發(fā)現(xiàn)數(shù)據(jù)集的空間分布,、聚類性質(zhì)等結(jié)構(gòu)特征。PCA對(duì)于分析樣本的相關(guān)性具有自己獨(dú)到的優(yōu)勢(shì),。 好了,,講了這么多原理,是不是覺得有點(diǎn)頭暈?zāi)X脹呢,,大家可能會(huì)想:講了這么多,,還沒有教我們?cè)趺醋觯惺裁从茫?/span> 嗯~~那我就要放干貨了,,各位請(qǐng)接招吧,。為了方便大家對(duì)GEO數(shù)據(jù)進(jìn)行深入的分析挖掘,我們開發(fā)了一款高效,、集成的數(shù)據(jù)分析流程,,整合在一個(gè)R代碼中,,大家只需輸入數(shù)據(jù)集的幾個(gè)相關(guān)編號(hào)即可,。 我給這個(gè)代碼起了一個(gè)非常炫酷的名字:GEO Terminator??赡苡悬c(diǎn)夸張,,但是絕對(duì)實(shí)用。我們要做的就是到GEO找到你要分析的數(shù)據(jù),,不知道怎么找的,,請(qǐng)參見我們的上一篇(GEO數(shù)據(jù)庫挖掘(2)--快速鎖定目標(biāo)數(shù)據(jù)),輸入GSExxx,,以及檢測(cè)平臺(tái)GPLxxx,,自定義一下要分析的樣本表型,然后全選(Ctrl+A),,運(yùn)行(Ctrl+Enter)即可,。整個(gè)代碼運(yùn)行可能需要幾分鐘到十幾分鐘的時(shí)間,根據(jù)你的數(shù)據(jù)大小和網(wǎng)速快慢而定,,最終結(jié)果是這樣的: 獵豹一出手,,便知有沒有~。只需輸入幾個(gè)編號(hào),,所有分析全自動(dòng)運(yùn)行,,包括:(1)質(zhì)控箱線圖,(2)差異表達(dá)基因,,(3)層次聚類熱圖,,(4)差異表達(dá)火山圖,(5)主成分分析散點(diǎn)圖,,囊括表達(dá)譜數(shù)據(jù)挖掘的所有基本分析,。 相信大家都參加在線上或者線下的諸多收費(fèi)型培訓(xùn),這種技術(shù)含量超高的“黑科”的價(jià)格不菲,現(xiàn)在睜大雙眼,,握緊水杯,,科研貓正式宣布,免費(fèi)分享此代碼,,惠及更多被科研折磨的脫毛的貓貓們~~ 代碼免費(fèi)分享,, 代碼免費(fèi)分享, 代碼免費(fèi)分享 只要掃描下方二維碼 聯(lián)系“折耳貓”小姐姐 免費(fèi)獲??! 為了避免個(gè)別同學(xué)運(yùn)行中遇到問題,強(qiáng)迫癌晚期的小獵豹又給大家錄視頻嘍,,教大家該如何運(yùn)行這個(gè)代碼,,完成GEO的數(shù)據(jù)挖掘。 視頻操作 騰訊視頻地址: https://v.qq.com/x/page/i08494wgw5o.html 如果你在操作過程中還是需要問題 點(diǎn)擊下方留言板留言 可直接聯(lián)系到小獵豹師兄哦~ |
|