久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

BMC Biology:香港城市大學孫燕妮組發(fā)表高準確度預測病毒宿主的工具

 宏基因組 2022-01-28

使用基于 GCN 的半監(jiān)督學習預測原核病毒的宿主

Predicting the hosts of prokaryotic viruses using GCN-based semi-supervised learning

BMC Biology [IF: 7.431]

DOI:https:///10.1186/s12915-021-01180-4

發(fā)表日期:2021-11-24

第一作者: Jiayu SHANG(商家煜)1

通訊作者:Yanni SUN(孫燕妮)([email protected])1

主要單位:1香港城市大學(Electrical Engineering, City University of Hong Kong, Hong Kong, China)

摘要

原核病毒(包括噬菌體和古菌病毒)是生物圈中最豐富、最多樣的生物實體,。為了了解原核病毒在各種生態(tài)系統(tǒng)中的調(diào)節(jié)作用,,并利用噬菌體在治療中治愈耐藥菌的潛力,人們需要了解更多的病毒-宿主關(guān)系的知識,。高通量測序及其在微生物組中的應(yīng)用為預測病毒的宿主提供了新的機會,。然而,宿主的預測面臨兩個主要挑戰(zhàn),。首先是已知的病毒宿主關(guān)系非常有限,。第二,雖然原核病毒和宿主之間的序列相似性被用作宿主預測的主要特征,但在許多情況下,,這種序列比對結(jié)果要么是缺失的,,要么是模糊的。因此,,還需要進一步提高宿主預測的準確性,。

在這項工作中,我們提出了一個半監(jiān)督學習模型,,命名為HostG,,用于對新原核病毒進行宿主預測。我們利用病毒蛋白質(zhì)相似性和病毒與宿主DNA序列相似性構(gòu)建知識圖,。然后利用圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN)同時對已知宿主和未知宿主的病毒進行訓練,,以提高模型的感受域(receptive field)和學習能力。在GCN訓練過程中,,我們最小化了預期校準誤差(Expected Calibration Error,, ECE),以確保預測的可信度,。我們在模擬和真實的測序數(shù)據(jù)上對HostG進行了測試,并將其性能與其他專為病毒宿主分類設(shè)計的最先進的方法(VHM-net,、WIsH,、PHP、HoPhage,、RaFAH,、vHULK和VPF-Class)進行了比較。

HostG的結(jié)果優(yōu)于其他已知的方法,,證明了使用基于GCN的半監(jiān)督學習方法的有效性,。同時,HostG的另一個特殊優(yōu)勢是它能夠從新的分類群中預測宿主,。

背景

原核病毒(以下簡稱病毒)在微生物學中發(fā)揮著重要作用,。它們通過持續(xù)的溶菌行為限制宿主的數(shù)量來調(diào)節(jié)生態(tài)系統(tǒng)。由于病原菌對抗生素的耐藥性的威脅,,人們重新燃起了使用噬菌體作為治療細菌感染的替代策略的興趣,。利用噬菌體治療細菌感染的一個基本步驟是確定噬菌體的宿主,這將提供使用噬菌體作為潛在抗生素的關(guān)鍵知識,。除了噬菌體療法,,鑒定新病毒的宿主還有其他應(yīng)用,如基因轉(zhuǎn)移搜索,、疾病診斷和新型細菌檢測,。

然而,已知的病毒與宿主的對應(yīng)關(guān)系只是冰山一角。測序得到的原核病毒和已知的病毒-宿主關(guān)系數(shù)量之間的差距正在迅速擴大,。實驗方法,,如單細胞病毒標記,可以直接從生物學實驗中確定病毒-宿主關(guān)系,。然而,,這些方法不僅昂貴而且耗時,更糟糕的是,,由于實驗室中能夠成功培養(yǎng)的微生物宿主不到1%,,所以很少能檢測到病毒-宿主的直接關(guān)系。因此,,急需一種直接對預測宿主的計算方法,。

病毒-宿主關(guān)系預測有兩個主要挑戰(zhàn)。首先,,已知的病毒-宿主關(guān)系是有限的,。VHM數(shù)據(jù)集是使用最廣泛的數(shù)據(jù)集之一,它包含1426個病毒,,僅為RefSeq中已知原核病毒的37%,。PHP的作者從RefSeq中添加了到2020年的病毒-宿主關(guān)系。兩個數(shù)據(jù)集總共包含大約2000個已知的病毒-宿主關(guān)系,??紤]到原核病毒是重新作為最豐富的生物實體,與未知的病毒-宿主關(guān)系相比,,已知的病毒-宿主關(guān)系的數(shù)量仍然非常有限,。第二,雖然病毒和原核生物之間的序列相似性已被用作宿主鑒定的一個重要特征,,但并非所有病毒都與其宿主基因組具有顯著的序列相似性,。如,在VHM數(shù)據(jù)集中,,約54%的病毒與宿主基因組不匹配,。因此,序列相似度搜索無法對這些病毒進行任何預測,。

在這項工作中,,我們提出了一種新的方法HostG,用以預測病毒的宿主標簽(從門到屬),。雖然宿主分類預測可以在種級甚至株級進行,,但考慮到廣譜噬菌體(可以感染多種菌株的噬菌體)和已知病毒-宿主關(guān)系的信息缺乏,為了提供更可靠的預測結(jié)果,,我們將重點預測宿主從門到屬的分類排序,。我們的方法的關(guān)鍵組成部分是半監(jiān)督學習模型GCN,。GCN可以利用知識圖譜靈活地對病毒和原核生物之間的關(guān)系進行建模,并利用知識圖譜的節(jié)點特征和拓撲結(jié)構(gòu)進行卷積,。GCN中的每個節(jié)點都可以有一個不同的卷積核,,這取決于它與其他節(jié)點的連接。每個節(jié)點利用自己的特征和相鄰節(jié)點的組合特征進行卷積,。因此,,信息可以在未知標簽的樣本/節(jié)點和未知標簽的樣本/節(jié)點之間傳遞。在生物數(shù)據(jù)分析中,,存在著基因共享網(wǎng)絡(luò),、疾病-藥物關(guān)系圖、疾病-基因關(guān)系圖等拓撲結(jié)構(gòu),。GCN利用這些關(guān)系已經(jīng)有許多成功的應(yīng)用,。

在這項工作中,我們提出了一種新的方法HostG,,用以預測病毒的宿主標簽(從門到屬),。雖然宿主分類預測可以在種級甚至株級進行,但考慮到廣譜噬菌體(可以感染多種菌株的噬菌體)和已知病毒-宿主關(guān)系的信息缺乏,,為了提供更可靠的預測結(jié)果,,我們將重點預測宿主從門到屬的分類排序。我們的方法的關(guān)鍵組成部分是半監(jiān)督學習模型GCN,。GCN可以利用知識圖譜靈活地對病毒和原核生物之間的關(guān)系進行建模,,并利用知識圖譜的節(jié)點特征和拓撲結(jié)構(gòu)進行卷積。GCN中的每個節(jié)點都可以有一個不同的卷積核,,這取決于它與其他節(jié)點的連接,。每個節(jié)點利用自己的特征和相鄰節(jié)點的組合特征進行卷積,。因此,,信息可以在未知標簽的樣本/節(jié)點和未知標簽的樣本/節(jié)點之間傳遞。在生物數(shù)據(jù)分析中,,存在著基因共享網(wǎng)絡(luò),、疾病-藥物關(guān)系圖、疾病-基因關(guān)系圖等拓撲結(jié)構(gòu),。GCN利用這些關(guān)系已經(jīng)有許多成功的應(yīng)用,。

結(jié)果

在RefSeq數(shù)據(jù)上的測試性能

我們將已知的病毒-宿主關(guān)系按照病毒在RefSeq 數(shù)據(jù)庫上發(fā)布時間,分成訓練集和測試集,。2015年之前發(fā)布的病毒以及其對應(yīng)的宿主關(guān)系用來訓練HostG,,2015年之后病毒則用以測試。我們將我們的工具與幾個最先進的工具進行了比較:WIsH[22],、PHP[12],、HoPhage[24]、VPF-Class[21]、VHM-net[14],、vHULK[25]和RaFAH[23],。我們還記錄了BLASTN的輸出,以顯示基于alignment的工具的性能,。為了將HostG[41]與其他工具進行比較,,我們遵循了他們的實驗設(shè)計,也使用了相同的指標:預測率(prediction rate)和準確率(accuracy),。預測率表示測試集中病毒被工具預測的數(shù)量,。準確率則表示有多少個病毒-宿主的關(guān)系被正確的預測。

我們在圖1中比較了HostG與其他病毒宿主分類工具的性能,。為了保證公平的對比,,我們使用我們的訓練數(shù)據(jù)對vHULK和RaFAH進行了再訓練。由于其他工具未能提供重新訓練的腳本或已經(jīng)使用與我們相似的訓練數(shù)據(jù)進行訓練,,我們直接使用這些工具提供的預訓練模型進行測試,。對于基于alignment的方法VPF-Class,,我們直接使用他們的數(shù)據(jù)庫,并在測試數(shù)據(jù)集上運行它,。圖1顯示了HostG在不同的層級標簽(從門到屬)中優(yōu)于其他工具,。隨著層級的增加,所有工具的性能都有所提高,。這是因為較高的分類等級有更多的關(guān)系數(shù)據(jù)需要學習。此外,,等級越高的分類群組的特征也越明顯,。結(jié)果表明,HostG具有較高的預測精度和預測率,。盡管圖1中BLASTN的性能優(yōu)于一些基于學習的模型,,但BLASTN只能返回測試集中65.5%的病毒預測。所有其他方法都能預測90%以上病毒的宿主,。

圖1 測試集上從屬到門的宿主預測準確率

X軸:物種分類排名;Y軸:準確率,。

然后,,我們進一步研究了模型對于缺乏與原核生物基因組序列相似性(alignment)的病毒的宿主預測性能。在本實驗中,,只使用沒有BLASTN比對結(jié)果的病毒作為測試序列,。圖2中的結(jié)果顯示,,即使在病毒和宿主之間沒有統(tǒng)計上顯著的BLASTN alignment 結(jié)果,HostG仍然呈現(xiàn)出最好的性能,。

圖2 非BLASTN比對結(jié)果的病毒的宿主預測精度

X軸:物種分類排名;Y軸:準確率,。

ECE對模型的提升以及在短序列上的測試性能

我們結(jié)合“預期校準誤差 (ECE)”和L2來更新GCN中的參數(shù),。我們將SoftMax值劃分為10個區(qū)段,因此每個區(qū)段覆蓋一個大小為0.1的區(qū)域,。圖3顯示了在訓練過程中加入ECE之前(圖3A)和之后(圖3B)的結(jié)果,。在目標函數(shù)中加入ECE后,,置信度較高的bin (SoftMax值)具有較高的準確性,。

圖3 目水平添加ECE損失之前(A)和之后(B)的準確性與置信度(SoftMax值)

ECE 從 13.16 降至 2.61。X 軸:置信度(SoftMax 值),;Y軸:準確率,。

然后我們進一步展示ECE的實用性。我們首先根據(jù)SoftMax值(或其他工具提供的score)對宿主的預測結(jié)果進行排序,,然后在圖4中顯示不同工具在屬級的準確率和預測率的比較,。如預期的那樣,,準確率和預測率隨著預測率的增加而下降,。同時,圖4表明,,在相同的預測率下,,HostG比現(xiàn)有的大多數(shù)工具都能實現(xiàn)更高的宿主預測精度,。此外,,當SoftMax閾值分別為0.88,、0.89和0.94時,,HostG在目,、科和屬級別上的準確率均為100%,。

圖4 不同工具在宿主屬級的預測的準確率和預測率的比較

直線上的每個數(shù)據(jù)點對應(yīng)不同的置信閾值,。X 軸:預測率;Y軸:準確率,。

之前的實驗是使用整個基因組進行的,,為了進一步的驗證模型的效果,,我們將研究輸入不同長度的短序列(contigs)來檢驗序列長度如何影響預測性能,。首先,我們從測試數(shù)據(jù)集中的病毒基因組以三種不同長度(3kbp,、5kbp、10kbp)采樣短序列,。然后我們運行所有的工具并記錄預測結(jié)果。如圖5所示,,雖然所有方法的性能都隨著短序列長度的減小而下降,但HostG在不同長度的序列上仍優(yōu)于目前最先進的方法,。

圖5 不同工具在短重疊群上的病毒宿主預測效果對比

X 軸:輸入的重疊群的長度,;Y軸:準確率,。

同時,我們使用SoftMax 閾值的形式來提升預測的準確性,。圖6顯示了SoftMax閾值大于0.8時HostG在短序列(contigs)的分類性能。雖然有預測率的犧牲,,但對于短的contigs,預測標簽變得更準確,。結(jié)果表明,,當用戶指定嚴格的SoftMax閾值時,,HostG對于短序列的預測結(jié)果仍然是可靠的。

圖6 SoftMax閾值在0.8以上的短重疊群的預測性能線圖

線圖:重疊群的準確性與長度;條形圖:預測率與重疊群長度的關(guān)系,。

擴展模型:可預測其他新的宿主

為了檢驗HostG預測新類群寄主的性能,,我們設(shè)計了兩個實驗,,利用通過單細胞病毒標記獲得的139對新病毒-宿主關(guān)系。在此數(shù)據(jù)集中,,與VHM數(shù)據(jù)集中的1426個病毒-宿主關(guān)系相比,,這139個關(guān)系中宿主基因組的屬標簽是新的。因此,,在這些新標簽上缺乏訓練樣本會妨礙監(jiān)督學習模型(如CNN)預測139種新病毒的正確標簽。但是,,HostG可以通過在知識圖譜中添加相應(yīng)的節(jié)點,方便地包含來自新分類標簽(如新的目,,科,,屬),。

我們考慮了兩個可以受益于標簽擴展的場景,。在圖7A中,,由于用戶缺乏某些病毒的宿主的具體信息,,因此,,對NCBI基因組數(shù)據(jù)庫中(2020年前)獲得的60,105個原核基因組添加節(jié)點,擴展知識圖,。在60k+基因組中,86個基因組具有與真正的宿主基因組相同的屬標簽,。因此,圖的拓展方式可以將真實宿主的屬標簽整合到原始知識圖譜中,。為了增加難度,我們還去掉了真實宿主的基因組,,以檢驗?zāi)P驮诓话鎸嵥拗骰蚪M的情況下是否能夠預測宿主的屬標簽,。圖7B側(cè)重于第二種場景,我們假設(shè)用戶具備先驗知識,,可以獲取數(shù)據(jù)中存在真實的宿主基因組,,例如從相同類型的環(huán)境樣本組裝而成的基因組。因此,,由單細胞標記數(shù)據(jù)集給出的289個原核基因組的節(jié)點被添加到圖中,。

圖7 為新的宿主標簽擴展知識圖的兩種方法

a A圖擴展,,添加60,105個原核基因組和139個通過單細胞病毒標記獲得的病毒;

b B圖擴展,從單細胞標記數(shù)據(jù)集中添加289個原核基因組和139個病毒,。

圖8顯示了HostG在兩種擴展知識圖上進行訓練的結(jié)果,。因為PHP支持對標簽擴展進行模型再培訓,,即使在訓練時不包含宿主物種的標簽,,我們將與PHP的預測結(jié)果進行比較,。如圖8所示,擴展版的HostG在兩種情況下都可以達到更高的精度,。正如預期的那樣,,當使用實際的宿主基因組作為標記序列時,HostG和PHP都有更好的性能,。當實際的宿主基因組不在知識圖中時,,HostG仍然可以利用同一類群(如屬)的原核生物進行更可靠的預測。

圖8 單細胞病毒標簽數(shù)據(jù)集上的預測性能

“-86”:在圖7A所示的擴展-86上訓練和預測,;“-289”:在圖7B所示的擴展-289上訓練和預測,。

我們還記錄了HostG的SoftMax值最高20%和PHP得分最高20%的結(jié)果。如圖9所示,,施加閾值具有更好的準確性,。

圖9 具有最高20% SoftMax值的重疊群的預測準確度

X 軸:物種分類排名;Y軸:準確率,。

討論

實驗表明,,基于序列相似性(alignment)的方法,性能在很大程度上依賴于參考數(shù)據(jù)庫,。某些不可靠的alignment或缺失與宿主基因組共享區(qū)域會降低分類精度和預測率?,F(xiàn)有的的工具,如PHP,,在屬和科等分類等級較低的情況下,,無法實現(xiàn)良好的性能。當病毒序列(contigs)很短時,,結(jié)果會變得更糟,。在這項工作中,我們證明了HostG優(yōu)于最先進的宿主預測方法,。我們不只是使用病毒-宿主對的DNA模式,,還考慮病毒之間的蛋白質(zhì)相似性來構(gòu)建知識圖。然后,,利用半監(jiān)督學習方法GCN,,使HostG能夠利用知識圖中已知標簽的節(jié)點和未知標簽節(jié)點的特征,預測病毒的宿主。為了保證HostG的可靠性,,我們使用ECE來校準預測的置信度,,用戶可以根據(jù)自己的需要設(shè)置閾值,從而達到更高的準確性,。最后,,我們證明了HostG可以通過知識圖的擴展能力預測新的分類標簽。這項工作將有助于識別宏基因組數(shù)據(jù)中的病毒-宿主相互作用,,并將擴展我們對新識別病毒的理解,。

作者簡介

第一作者:商家煜,香港城市大學博士研究生,,主要研究方向是深度學習在宏基因組中的應(yīng)用等,。目前發(fā)表文章有1篇Briefings in Bioinformatics、1篇 BMC Biology,、1篇BMC Genomics等,,并有一篇論文被ISMB/ECCB 2021收錄。

通訊作者:孫燕妮,,香港城市大學電機工程系(Electrical Engineering)副教授,,博士生導師。在美國圣路易斯的華盛頓大學(Washington University in Saint Louis)取得計算機系博士學位后在密西根州立大學計算機系擔任助理教授和副教授(with tenure),。2018年加入香港城市大學,。主要研究方向是生物信息學,序列分析,,宏基因組學,,和病毒基因組學。具體的研究課題,,發(fā)表的論文,,以及實驗室的位置請參加作者個人主頁:https://yannisun./

Reference

Jiayu Shang,Yanni Sun.Predicting the hosts of prokaryotic viruses using GCN-based semi-supervised learning. BMC Biology,(2021) 19:250. https:///10.1186/s12915-021-01180-4

    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多