各種各樣的高通量測序和分析平臺的運(yùn)用,,使得在一次實(shí)驗(yàn)中就能產(chǎn)生數(shù)以百計(jì)的候選基因,這個(gè)時(shí)候就需要對其進(jìn)行注釋和篩選,。這個(gè)過程需要了解每個(gè)基因的功能描述和生物學(xué)過程以及明確它們是否是G蛋白偶聯(lián)受體,,是否分泌蛋白質(zhì),是否在感興趣的組織中表達(dá)等各類問題,。雖然每一個(gè)注釋步驟,,都有其對應(yīng)的專屬數(shù)據(jù)庫,比如生物學(xué)過程分析數(shù)據(jù)庫GO和通路數(shù)據(jù)庫KEGG等,,但是每一個(gè)基因如果都在每個(gè)數(shù)據(jù)庫中單獨(dú)走一遍分析流程的話,,這顯然是不現(xiàn)實(shí)的。況且,,通常情況下我們會得到一個(gè)擁有數(shù)十或數(shù)百個(gè)基因的list,,這個(gè)時(shí)候就需要一個(gè)能將各個(gè)數(shù)據(jù)庫都整合起來做基因分析的有效工具。 說起基因注釋分析工具,,很多人第一時(shí)間都會想到DAVID,。不可否認(rèn),DAVID的確能實(shí)現(xiàn)基因功能和通路注釋等功能,。但是,!DAVID有一個(gè)非常明顯的不足,就是數(shù)據(jù)更新實(shí)在是太太太慢了,!前一陣大家不是都沉迷于旅行青蛙這種佛系的小游戲嘛,按我說,,做生物信息的同胞們不如來看一下DAVID吧,,沒有比它更佛系的數(shù)據(jù)資源了,更新頻率快慢全憑心情,。6.7版本是2010年1月份更新的,,然后一直用到了2016年……6.8版本則是2016年5月份更新的,然而現(xiàn)在已經(jīng)是2018年4月份了,,下一個(gè)更新版本還遙遙無期…… 那么有沒有比DAVID更新更快,,效果更好的工具呢?答案是:必須滴,!今天小編給大家介紹這個(gè)秒殺DAVID的工具,,叫Metascape。 Metascape的slogan——Fresh,、Free & Easy,,真的是非常簡明扼要地概括了它的核心競爭力,。
首先,Metascape的數(shù)據(jù)每隔月余就會更新一次,,最近的一次更新在2018年1月30日,。這極大程度保證了數(shù)據(jù)的時(shí)效性和可信度。很幽默的是,,在Metascape的官方介紹中,,還截圖了DAVID的頁面,然后將“David died”用紅色圈出來,,這種正面叫板的操作也是666,。 Metascape的數(shù)據(jù)不僅更新快,其覆蓋面也相當(dāng)廣泛,。從數(shù)據(jù)庫種類來說,,Metascape整合了GO、KEGG,、UniProt和DrugBank等多個(gè)權(quán)威的數(shù)據(jù)資源,,使其不僅能完成通路富集和生物過程注釋,還能做基因相關(guān)的蛋白質(zhì)網(wǎng)絡(luò)分析和涉及到的藥物分析,,致力于為科研工作者提供每個(gè)基因全面而詳細(xì)的信息,。
從所支持的物種數(shù)量來說,Metascape不僅能處理人類物種的基因,,還能處理包含動物,、植物、真菌類和原生生物等多個(gè)類別中主要的模式生物的基因,。
從數(shù)據(jù)處理規(guī)模上來說,,Metascape能一次性處理包含上千個(gè)基因的list,并且支持多個(gè)不同的gene list同時(shí)上傳,。Metascape對多個(gè)不同gene list提供兩種分析模式,,第一種可以將不同的gene list進(jìn)行合并分析,從而免去使用者自行合并不同list的煩惱,;第二種可以將不同gene list進(jìn)行獨(dú)立分析,,通過比較找出不同list之間共享或者特異存在的生物過程與通路等。 除了具備以上諸多優(yōu)點(diǎn),,Metascap被廣泛推薦的另一個(gè)重要的原因就是它完全不收費(fèi),,并且使用方式非常非常簡單,傻瓜操作級別,,出來的結(jié)果卻非常的酷炫,。那么現(xiàn)在就跟著小編開始學(xué)習(xí)如何應(yīng)用Metascape吧! 首先,,我們來學(xué)習(xí)Metascape的基礎(chǔ)用法——Express Analysis,。此用法對非生物信息專業(yè)的科研人員堪稱親媽級友好,,所有過程只相當(dāng)于把大象裝冰箱——總共分三步,跟著小編走,,完全沒難度,。 第一步:提交基因列表。 打開Metascape的主頁(http://),,頁面左側(cè)最明顯的一塊就是進(jìn)行Express Analysis的區(qū)域
提交基因的時(shí)候,,可以選擇從本地文件上傳gene list,如果需要分析的基因數(shù)目較少,,也可以直接在輸入框中粘貼基因,。 這一步需要注意的友情小tip:要留心所支持的文件格式與表示基因的方式。Metascape支持3種gene list提交格式,,分別是Excel表格,,CSV格式與TXT文本格式。在基因列表提交框的右側(cè),,有每一種格式的具體示例可供下載,。Metascape支持的基因表示方式也有三種,分別是Gene Symbol,,RefSeq ID和Entrez Gene ID,,這三種表示方式在輸入框的右側(cè)也有具體示例。 除此之外,,當(dāng)一起提交多個(gè)gene list時(shí),,還需要特別注意一點(diǎn):如果想將不同的list分別進(jìn)行分析,則一定要勾選最上方的【Multiple Gene List】選項(xiàng),,否則Metascape會將多個(gè)list整合成一個(gè)list一起分析,。
為了方便進(jìn)行后續(xù)的結(jié)果說明,小編選擇了John Dick實(shí)驗(yàn)室發(fā)布的不同類型的血細(xì)胞中的差異表達(dá)基因列表,,從中抽取了ProB,、MLP和MEP三種血細(xì)胞的TOP 250差異基因作為測試數(shù)據(jù)。 第二步:選擇物種信息 選擇提交的gene list的物種來源信息和想以哪個(gè)物種作為基準(zhǔn)來分析,。
第三步:點(diǎn)擊【Express Analysis】然后開心的等待收結(jié)果
Metascape的運(yùn)行速度不慢。像這次小編提交了3個(gè)list共750個(gè)gene,,也就運(yùn)行了兩三分鐘的樣子,。 Metascape所生成的結(jié)果文件無敵酷炫,其中包含很多不同種類的數(shù)據(jù)和圖片,。為了方便科研工作者進(jìn)行使用,,Metascape將數(shù)據(jù)類的結(jié)果文件生成Excel統(tǒng)計(jì)表格式,供用戶進(jìn)行下載,。而圖片類的結(jié)果,,則會被Metascape自動生成一個(gè)PPT?。∫獠灰馔??,!驚不驚喜?,!而且這個(gè)PPT從布局到配色都做得相當(dāng)有質(zhì)感,,一股高冷學(xué)術(shù)風(fēng)撲面而來~ Metascape還提供所有種類結(jié)果文件的打包下載,一個(gè)壓縮包全部搞定,。當(dāng)然了,,作為一個(gè)在線應(yīng)用工具,Metascape也可以在網(wǎng)頁上瀏覽生成的結(jié)果報(bào)告,,但需要注意的是,,在線結(jié)果報(bào)告只能保留72小時(shí),超過72小時(shí)之后就需要對數(shù)據(jù)進(jìn)行重新分析,。 接下來我們以小編的測試數(shù)據(jù)為例來看看生成的結(jié)果吧~ 首先是對輸入的不同的gene list中的gene進(jìn)行的數(shù)據(jù)統(tǒng)計(jì)結(jié)果: 小編每一個(gè)list中上傳了250個(gè)基因,,后面unique列的數(shù)目表示,該list中,,為其獨(dú)有的gene個(gè)數(shù),,即這些基因在其他list中不存在。后面的色塊表示不同gene list在結(jié)果報(bào)告中顯示的顏色,。 這張圖也是進(jìn)一步表示gene list之間的關(guān)系,。外弧用不同色塊表示輸入的不同gene list,內(nèi)圈淺橙色表示這些基因?yàn)檫@個(gè)list特有,,深橙色表示list之間存在著基因重疊,。紫色線表示基因與基因之間的重疊,而藍(lán)色線則表示基因與基因之間存在著功能相關(guān),。該圖為gene list之間的關(guān)聯(lián)提供了一個(gè)宏觀的初步印象,。 對于輸入的每一個(gè)gene list,Metascape對其進(jìn)行通路和生物學(xué)過程富集分析時(shí)所參考的數(shù)據(jù)資源有: KEGG Pathway GO Biological Processes 生物學(xué)反應(yīng)及信號通路數(shù)據(jù)庫 Reactome Pathway Database 經(jīng)典通路 Canonical Pathways 哺乳動物蛋白復(fù)合物數(shù)據(jù)庫 CORUM 上圖即是結(jié)果中表示富集到的通路或生物學(xué)過程的熱圖,,顏色深淺代表富集程度,,后面則是在GO中富集到的term等信息。該圖對每一個(gè)gene list中的基因主要在那些過程中發(fā)揮作用提供了一個(gè)初步的闡述,。 上圖會對富集程度比較高的GO term進(jìn)行單獨(dú)統(tǒng)計(jì),,最左側(cè)一列用色塊表示不同的gene list,右側(cè)幾列則統(tǒng)計(jì)了該list中富集到這個(gè)term的gene個(gè)數(shù)和百分比,。以上圖的第一行為例,,表示MLP與ProB細(xì)胞在GO中富集到【淋巴細(xì)胞活化】這個(gè)term,這與我們所得的先驗(yàn)知識是一致的。 接下來,,Metascape會根據(jù)每個(gè)list富集到的通路和生物學(xué)過程,,來分群和構(gòu)建網(wǎng)絡(luò)。 上圖是在gene list富集到的term中,,挑選出富集程度較高的,,然后根據(jù)功能相關(guān)性聚成幾類,并按照關(guān)聯(lián)性和相似性來構(gòu)建網(wǎng)絡(luò),。圖中用不同的顏色代表不同的類,。 上圖則是通過富集程度來著色,顏色越深,,表示富集到該類通路或生物學(xué)過程的基因數(shù)目越多,。 這幅圖則是根據(jù)不同的gene list來著色。通過以上三幅圖之間的比較,,用戶就可以輕松了解哪個(gè)list中的基因以什么程度富集到哪些通路和生物學(xué)過程上,。值得一提的是,每張網(wǎng)絡(luò)結(jié)果圖不僅支持PDF與PNG圖片格式下載,,還支持以.cys為擴(kuò)展名的文件格式,,使用戶可以在下載該文件后直接在Cytoscape上打開,并按照自己的需求對圖片進(jìn)行調(diào)整或修改,。 Metascape還可以根據(jù)基因來生成其相關(guān)的蛋白質(zhì)互作網(wǎng)絡(luò),。用來構(gòu)建蛋白質(zhì)互作網(wǎng)絡(luò)的數(shù)據(jù)主要來源于UniProt數(shù)據(jù)庫、BioGRID數(shù)據(jù)庫和inBio Map數(shù)據(jù)資源等,。BioGRID蛋白質(zhì)互作數(shù)據(jù)庫通過整合多方面經(jīng)過人工校正或?qū)嶒?yàn)驗(yàn)證過的數(shù)據(jù)集,,能提供廣泛而全面的蛋白互作信息。而inBio Map數(shù)據(jù)資源則是由麻省總醫(yī)院MGH和Broad研究院領(lǐng)銜完成的,,提供經(jīng)過整合的人類蛋白質(zhì)互作網(wǎng)絡(luò),。 這些權(quán)威的數(shù)據(jù)資源保證了Metascape結(jié)果的可信性。 上圖以gene list-MEP為例,,展現(xiàn)的是MEP基因列表中所有基因相關(guān)的蛋白質(zhì)的全連接互作網(wǎng)絡(luò),。四種不同的顏色表示互作網(wǎng)絡(luò)中識別到的模塊子結(jié)構(gòu)。 將形成的模塊從全連接互作網(wǎng)絡(luò)中抽象出來,,就形成了下圖: 將蛋白質(zhì)互作數(shù)據(jù)與通路和生物學(xué)過程富集數(shù)據(jù)相結(jié)合,,為蛋白質(zhì)互作網(wǎng)絡(luò)中識別到的子結(jié)構(gòu)添加生物學(xué)意義。每個(gè)MOCDE中保留最顯著相關(guān)的三個(gè)GO term,,如下圖(截圖只截取部分),。 每一個(gè)gene list所涉及到的蛋白質(zhì)互作網(wǎng)絡(luò)都會如上呈現(xiàn),因篇幅所限,,這里就不一一貼圖列舉了,。 最后Metascape還會將所有的list放在一起,,識別蛋白質(zhì)互作網(wǎng)絡(luò)中的模塊,,通過識別到的模塊來觀察不同list的gene之間是否存在蛋白質(zhì)互作網(wǎng)絡(luò)的共享,。 下圖是從所有l(wèi)ist中的gene生成的蛋白質(zhì)互作網(wǎng)絡(luò)中抽象出來的子結(jié)構(gòu)圖,并以不同顏色來表示不同的模塊,。 下圖用不同的顏色來代表不同list,,表示在蛋白質(zhì)互作模塊中,不同list的gene之間的共享關(guān)聯(lián)情況,。 和前面分析單個(gè)list時(shí)一樣,,同樣在每個(gè)MCODE中選取最顯著的相關(guān)的三個(gè)GO term進(jìn)行列表展示。如下圖所示:
以上呢,,就是Express Analysis的全部過程和主要的結(jié)果介紹,。那么除了這種簡單友好的一鍵式操作之外呢,Metascape為擁有一定生物信息學(xué)分析基礎(chǔ)的用戶,,提供了更為靈活的進(jìn)階用法,。即Custom Analysis。 使用時(shí),,前兩個(gè)步驟和Express Analysis是一樣的,,只有在第三個(gè)步驟的時(shí)候,換成點(diǎn)擊右邊的Custom Analysis即可,。 和一般用法不同,,進(jìn)階用法是一個(gè)由四部分組成的workflow。 首先,,第一個(gè)步驟是進(jìn)行g(shù)ene ID的轉(zhuǎn)換,。雖然在輸入時(shí),Metascape支持用戶以多種gene ID進(jìn)行數(shù)據(jù)輸入,,但是在實(shí)際處理過程中,,不論用戶輸入什么類型的ID,都要先經(jīng)過轉(zhuǎn)化變成相應(yīng)的Entrez Gene ID,,才能進(jìn)入后續(xù)的分析步驟,。在這一步,用戶可以根據(jù)自己的需求,,對提交的基因進(jìn)行初步篩選,。 第二個(gè)步驟Annotation,用戶可以根據(jù)自己的需要,,選擇自己感興趣的,,想在結(jié)果中體現(xiàn)的基因注釋項(xiàng)目來進(jìn)行勾選。勾選完成之后,,點(diǎn)擊左上角的Apply按鈕運(yùn)行,。 第三步Membership,支持用戶自行選擇通路富集、生物過程富集,、功能相關(guān)和產(chǎn)物分析等每一個(gè)注釋步驟所用到的數(shù)據(jù)集,,并可以在搜索框中輸入感興趣的字段,比如GO中的某一個(gè)或某幾個(gè)term,,或者一些功能性的描述,,以便進(jìn)行更有針對性地分析。 輸入完成感興趣的字段之后,,點(diǎn)擊左側(cè)的Search按鈕進(jìn)行查找,,之后點(diǎn)擊左上方Apply生成這一步驟的結(jié)果。 最后一個(gè)步驟Enrichment,,則支持用戶選擇通路和功能富集過程中的各項(xiàng)指標(biāo),,以及蛋白質(zhì)互作網(wǎng)絡(luò)形成過程中的各項(xiàng)指標(biāo)。用戶可以根據(jù)自己的需求,,來設(shè)定顯著性閾值,,網(wǎng)絡(luò)中包含元素的最大或最小值,以及分析步驟中想用到的數(shù)據(jù)集等參數(shù),。 至此,,進(jìn)階用法的分析步驟就全部完成,生成的結(jié)果種類和Express Analysis 所生成的結(jié)果種類差不多,,這里就不多作介紹了,。 |
|