今天介紹廈門大學(xué)劉向榮老師團(tuán)隊(duì)在Briefings in Bioinformatics上發(fā)表的一篇綜述論文,該論文首先介紹了應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)上的深度學(xué)習(xí)幾種典型的模型,,然后根據(jù)不同的生物網(wǎng)絡(luò)數(shù)據(jù)分類,,介紹了現(xiàn)有的實(shí)際研究和工作;最后對(duì)這篇文章提到的方法進(jìn)行了總結(jié)和討論,。 背景 生物系統(tǒng)有很多不同層面和不同組織形式的網(wǎng)絡(luò),,包括基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)、生物代謝與信號(hào)傳導(dǎo)網(wǎng)絡(luò),、蛋白質(zhì)相互作用網(wǎng)絡(luò)等,。除此之外,人們利用各種實(shí)驗(yàn)研究手段獲得了像藥物靶點(diǎn)網(wǎng)絡(luò),,疾病與生物分子的關(guān)聯(lián)網(wǎng)絡(luò)等,。生物網(wǎng)絡(luò)的研究也涉及到生物分子以及與生物分子相關(guān)的各個(gè)方面,。這些網(wǎng)絡(luò)中的節(jié)點(diǎn)可以代表蛋白質(zhì),基因,,疾病,,以及一些與靶點(diǎn)相關(guān)聯(lián)的藥物等,網(wǎng)絡(luò)中的邊對(duì)應(yīng)著節(jié)點(diǎn)之間的各種生化,,物理或者功能交互等關(guān)聯(lián),。深度學(xué)習(xí)的框架是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,通過多層處理,,逐漸將初始的“低層”特征表示轉(zhuǎn)化為“高層”特征表示后,,用“簡(jiǎn)單模型”即可完成復(fù)雜的分類預(yù)測(cè)等學(xué)習(xí)任務(wù)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,,被應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)上的深度學(xué)習(xí)算法也取得了很好的效果,。這篇綜述主要的目的就是為了介紹已有的利用深度學(xué)習(xí)模型在生物網(wǎng)絡(luò)上的應(yīng)用,及其可能應(yīng)用的前景,,為對(duì)這個(gè)領(lǐng)域感興趣的研究人員提供一個(gè)參考,。 圖1 生物分子網(wǎng)絡(luò)和深度學(xué)習(xí)發(fā)展的重要事件 2 模型介紹 這一部分,作者簡(jiǎn)要介紹了一些應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)上具有代表性的深度學(xué)習(xí)模型,,包括基于RandomWalk的DeepWalk,,基于AutoEncoder的Graph AutoEncoders (GAEs),基于CNN的Graph Convolution Networks (GCNs),,基于RNN的Graph Recurrent Neural Networks (Graph RNNs),。 圖2 應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)上具有代表性的深度學(xué)習(xí)模型 3 深度學(xué)習(xí)在生物網(wǎng)絡(luò)中的應(yīng)用 生物網(wǎng)絡(luò)包含了生物體之間的大量信息。生物網(wǎng)絡(luò)的探索對(duì)于理解生物分子的內(nèi)在聯(lián)系,、藥物的發(fā)現(xiàn),、疾病的治療以及微生物的作用機(jī)制都是非常重要的。這些應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)上的深度學(xué)習(xí)模型可以多層次地表示網(wǎng)絡(luò)結(jié)構(gòu),,捕捉已知生物網(wǎng)絡(luò)的拓?fù)涮卣?,并結(jié)合其他異構(gòu)信息挖掘生物網(wǎng)絡(luò)中的潛在關(guān)聯(lián)。在這一部分該論文通過對(duì)基因組數(shù)據(jù)研究,、蛋白質(zhì)組數(shù)據(jù)研究,、轉(zhuǎn)錄組數(shù)據(jù)研究、藥物發(fā)現(xiàn),、疾病生物學(xué)和微生物組數(shù)據(jù)研究六個(gè)方面,,對(duì)現(xiàn)有的利用深度學(xué)習(xí)方法在生物網(wǎng)絡(luò)數(shù)據(jù)上的研究應(yīng)用進(jìn)行了總結(jié)和介紹,希望夠?yàn)榻窈罄蒙疃葘W(xué)習(xí)技術(shù)挖掘生物網(wǎng)絡(luò)中包含的信息提供思路,。在介紹的過程中,,作者選擇了三個(gè)典型的研究案例,繪制了具體研究實(shí)例的流程圖。 圖3 生物網(wǎng)絡(luò)數(shù)據(jù)中運(yùn)用AutoEncoder模型的研究實(shí)例流程圖 圖4 生物網(wǎng)絡(luò)數(shù)據(jù)中運(yùn)用DeepWalk模型的研究實(shí)例流程圖 圖5 生物網(wǎng)絡(luò)數(shù)據(jù)中運(yùn)用GCN模型的研究實(shí)例流程圖 4 挑戰(zhàn)和機(jī)遇 該論文主要從數(shù)據(jù)處理,,異構(gòu)信息,,深度學(xué)習(xí)模型的限制方面介紹了現(xiàn)在深度學(xué)習(xí)在生物網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用上的挑戰(zhàn)。對(duì)于數(shù)據(jù)處理,,目前許多生物數(shù)據(jù)集在樣本類別上存在不平衡,,生物數(shù)據(jù)的質(zhì)量保證可能需要更為專業(yè)的研究人員獲取更準(zhǔn)確的數(shù)據(jù)。在計(jì)算時(shí)還應(yīng)該找到克服數(shù)據(jù)冗余,、不平衡和不完整的方法,,以提高預(yù)測(cè)的準(zhǔn)確性。生物網(wǎng)絡(luò)可能包含多種生物分子,,除了生物網(wǎng)絡(luò)數(shù)據(jù),,還需要結(jié)合不同的生物信息來提高計(jì)算的準(zhǔn)確性,如基因表達(dá)譜,、蛋白質(zhì)分子序列,、藥物分子結(jié)構(gòu)、疾病的CT圖像等,。所以怎樣更好的結(jié)合這些異構(gòu)信息去進(jìn)行計(jì)算,,也是未來發(fā)展的重點(diǎn)和難點(diǎn)。雖然隨著現(xiàn)在生物系統(tǒng)中可用的數(shù)據(jù)越來越多,,但是對(duì)于許多深度學(xué)習(xí)框架來說,,其數(shù)量級(jí)仍然很小,并且無法充分利用深度學(xué)習(xí)訓(xùn)練的優(yōu)勢(shì),。未來仍然需要提出更適合不同生物數(shù)據(jù)的深度學(xué)習(xí)模型來解決一些小而稀疏的生物數(shù)據(jù)集研究,。 5 關(guān)鍵點(diǎn)總結(jié)
參考資料 Shuting Jin, Xiangxiang Zeng, Feng Xia, Wei Huang, Xiangrong Liu, Application of deep learning methods in biological networks, Briefings in Bioinformatics, , bbaa043, https:///10.1093/bib/bbaa043 |
|