今天給大家介紹的是約翰·開(kāi)普勒林茨大學(xué)Ana Sanchez-Fernandez 團(tuán)隊(duì)最新發(fā)表在ICLR 2022上的文章——“Contrastive learning of image- and structure-based representations in drug discovery”,。此前,對(duì)比學(xué)習(xí)方法CLIP和CLOOB就已經(jīng)證明,,當(dāng)在多個(gè)模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),,學(xué)習(xí)到的表征可以高度遷移到大量不同的任務(wù)中去。在藥物發(fā)現(xiàn)領(lǐng)域,,分子圖像和化學(xué)結(jié)構(gòu)是類(lèi)似的多模態(tài)數(shù)據(jù)集,目前還沒(méi)有在這兩者上做對(duì)比學(xué)習(xí)的工作,,這種方法在標(biāo)簽成本高昂的藥物發(fā)現(xiàn)領(lǐng)域極具研究?jī)r(jià)值,。因此該工作從易獲取的分子顯微圖像和結(jié)構(gòu)入手,提出一種基于CLOOB(Contrastive Leave One Out Boost)的新的對(duì)比學(xué)習(xí)方法——CLOOME(Contrastive Leave One Out Boost for Molecule Encoders),。通過(guò)對(duì)分子活性預(yù)測(cè)任務(wù)進(jìn)行線(xiàn)性探測(cè),,證明了該方法可遷移表征的能力,此外,,這種表征同樣可以用于生物異構(gòu)的替代任務(wù),。 方法 該工作從分子的顯微圖像和化學(xué)結(jié)構(gòu)數(shù)據(jù)對(duì)中對(duì)比學(xué)習(xí)分子的表征,以獲得高度可遷移的分子編碼器(如圖1所示)。CLOOME相比于傳統(tǒng)分子編碼器或手工提取分子特征,,其最大的創(chuàng)新在于能在沒(méi)有活性分子數(shù)據(jù)的輸入或者人工先驗(yàn)知識(shí)的情況下優(yōu)化分子的表征,。 圖 1. CLOOME示意圖。 然后,,將InfoLOOB損失作為目標(biāo)函數(shù): 顯微鏡圖像編碼器 顯微圖像與自然圖像存在著些許差異,,比如染色會(huì)影響圖像通道數(shù),本文所有實(shí)驗(yàn)都采用5個(gè)輸入通道的ResNet-50作為編碼器,,并將顯微鏡圖像縮小到320*320,。 分子結(jié)構(gòu)編碼器 CLOOME使用基于描述符的全連接網(wǎng)絡(luò)。此外,,經(jīng)過(guò)了適當(dāng)池化操作的圖神經(jīng)網(wǎng)絡(luò),、消息傳遞神經(jīng)網(wǎng)絡(luò)或基于序列的神經(jīng)網(wǎng)絡(luò)都能作為結(jié)構(gòu)編碼器。 結(jié)果 活性預(yù)測(cè)和下游任務(wù) 下游的活性預(yù)測(cè)任務(wù)的預(yù)測(cè)性能如表1所示,。CLOOME的平均AUC為0.714,,這表明學(xué)習(xí)到的表征確實(shí)可以遷移。CLOOME甚至優(yōu)于完全監(jiān)督的方法,,如M-CNN和SC-CNN,。 表 1. 學(xué)習(xí)表征的線(xiàn)性評(píng)估與全監(jiān)督方法的比較。需要注意的是,,盡管CLOOME編碼器沒(méi)有訪(fǎng)問(wèn)任何活性數(shù)據(jù),,它產(chǎn)生的特征卻仍然可以預(yù)測(cè)活性數(shù)據(jù),(通過(guò)所提線(xiàn)性探測(cè)模塊完成),。CLOOME達(dá)到了幾種監(jiān)督方法的性能,,這表明學(xué)習(xí)到的表征的可轉(zhuǎn)移性。 CLOOME對(duì)分子結(jié)構(gòu)正確檢索的能力 在這個(gè)實(shí)驗(yàn)中,,評(píng)估了CLOOME在給定顯微圖片檢索出其分子結(jié)構(gòu)的能力,。值得注意的是,這對(duì)專(zhuān)家而言也是一項(xiàng)極具挑戰(zhàn)性的任務(wù),,即給定細(xì)胞的顯微圖像,,匹配出與之最相似的分子結(jié)構(gòu)。這在生物異構(gòu)的替代任務(wù)中至關(guān)重要,。這種基于圖像的檢索任務(wù)也可以理解為生物等構(gòu)體替換任務(wù),,所以還評(píng)估了CLOOME在給定顯微圖像的情況下正確排列匹配分子結(jié)構(gòu)的能力。排序靠前的分子結(jié)構(gòu)極可能是潛在的生物異構(gòu)體,。表2 給出了對(duì)結(jié)構(gòu)檢索能力的量化結(jié)果,。圖2給出了檢索任務(wù)的結(jié)果示例。 表 2. 生物異構(gòu)替代任務(wù)的結(jié)果,。給定分子擾動(dòng)的顯微圖片,,從一組候選分子中選擇正確的分子,。這里根據(jù)相似性給出了前1、前五,、前10的準(zhǔn)確率,。 圖 2. 檢索任務(wù)結(jié)果示例。給定一張顯微圖片,,CLOOME能從數(shù)個(gè)分子結(jié)構(gòu)中檢索到與顯微圖片對(duì)應(yīng)的分子結(jié)構(gòu)(圖中藍(lán)色框?yàn)槠ヅ涞降姆肿咏Y(jié)構(gòu)),。CLOOME可用于提取可對(duì)處理過(guò)的細(xì)胞產(chǎn)生類(lèi)似生物效應(yīng)的分子,即生物異構(gòu)體,。 總結(jié) 該工作引入了一種分子多模態(tài)對(duì)比學(xué)習(xí)方法CLOOME﹐學(xué)習(xí)基于顯微鏡圖像和化學(xué)結(jié)構(gòu)的分子表征,。在最大的可用數(shù)據(jù)集上﹐證明CLOOME能夠?qū)W習(xí)可遷移的分子表征。這為使用所學(xué)的表征進(jìn)行新數(shù)據(jù)的活性或特性預(yù)測(cè)以及其他例如尋找分子的生物替代物等任務(wù)提供了可能,。但該方法也存在其局限性:該工作的訓(xùn)練網(wǎng)絡(luò)僅限于特定類(lèi)型的顯微圖片,;當(dāng)表征的維度過(guò)高時(shí),線(xiàn)性探測(cè)存在過(guò)擬合的風(fēng)險(xiǎn),。除了以上局限性,, CLOOME在學(xué)習(xí)分子表征上的出色表現(xiàn)為藥物發(fā)現(xiàn)的前進(jìn)又貢獻(xiàn)出一份力量。 參考資料 Sanchez-Fernandez, A., Rumetshofer, E., Hochreiter, S. and Klambauer, G., 2022, March. Contrastive learning of image-and structure-based representations in drug discovery. In ICLR2022 Machine Learning for Drug Discovery. |
|
來(lái)自: DrugAI > 《待分類(lèi)》