研究背景 如何高效地設計有效的分子合成路徑是藥物設計與發(fā)現(xiàn)的一個重要研究領域,。傳統(tǒng)的基于規(guī)則的分子合成專家系統(tǒng)往往需要大量的人工編碼規(guī)則。這種做法不但會受到規(guī)則的限制,,而且隨著反應規(guī)則的增加,,人工編碼規(guī)則的成本會越來越高,因此人們開始探索通過計算的方法來預測反應路徑。近年來隨著人工智能技術的興起,,利用深度學習模型來進行反應預測成為了一種可行的方案,。這些反應預測模型大體上可以劃分成兩類方法:基于選擇的以及基于生成的?;谶x擇的方法將合成預測轉化成一個打分或分類問題,,其目的是為了盡可能挑出可行的反應模板或目標分子來完成反應預測。這類方法由于在一定程度上引入了編碼后的化學知識,,更容易完成反應預測,,但都無法預測訓練集以外的模板或目標分子,這使得其難以泛化到復雜的實際應用中,?;谏傻姆椒▌t可以緩解這一問題,因此如何提升基于生成的方法的效果成為了一個重要問題,。 在當前基于生成的方法中,,一種流行的計算模式是先將分子用SMILES字符串表示,再使用Transformer等自然語言翻譯模型來將反應預測建模成機器翻譯的問題,。SMILES(simplified molecular-input line-entry specification)是一種根據(jù)分子圖的深度優(yōu)先遍歷(depth-first traversal)而生成的分子的字符串表示形式,,由于其本身的易讀性和易使用性,在反應預測領域得到了廣泛應用,。由于SMILES是由深度優(yōu)先遍歷而生成的,,所以一個分子往往可以通過枚舉的方式,來獲得多個有效的SMILES表示形式,,稱之為randomized SMILES,。因此,一個化學反應通常也可以用多組不同的輸入輸出來表示,,這作為深度模型的數(shù)據(jù)增強的一種手段而被許多模型所使用,。但因為缺乏輸入與輸出之間明確的對應關系,這種數(shù)據(jù)增強實際上隱含了輸入和輸出之間的一對多關系,,這使得計算模型不僅得掌握用于化學反應的相關知識,,還得學習復雜的SMILES語法。盡管當前有一些標準化算法(canonicalization algorithm)可以將保證一個分子只能有一個canonical SMILES來表示,,但這些標準化算法往往是針對單一分子而設計的,,沒有考慮化學反應中反應物和生成物的SMILES之間的關系。因此通過這些算法而獲得的輸入輸出SMILES對,,盡管保證了輸入和輸出的一一對應關系,,但往往使得輸入和輸出之間較大的編輯距離(edit distance),最終導致了模型的搜索空間過大,;同時這些算法也使得模型無法枚舉SMILES來進行數(shù)據(jù)增強來緩解模型的過擬合問題,。 如圖1所示,與前人使用的randomized SMILES和 canonical SMILES不同,本研究提出的Root-aligned SMILES(R-SMILES),,通過將輸入和輸出的根原子進行對齊的方式,,不僅保證了輸入和輸出之間的一一對應關系,也大大約束了輸入和輸出之間的編輯距離,,使得兩者之間高度相似,。這些性質使得模型從學習復雜的SMILES語法中解脫出來,并專注于學習化學反應相關的化學知識,。作者將R-SMILES應用到Transformer模型上,,在正向反應和逆向反應的多個反應預測任務都進行了實驗,都取得了當前最先進的效果,。作者還通過可視化Transformer模型中的交叉注意力,,來進一步證明模型掌握到了想要的化學反應知識。此外,,作者還證明了R-SMILES相比于以往的SMILES表示,,在復雜反應(如手性反應)上更加具有優(yōu)勢。最后作者通過讓模型預測了多條文獻中切實存在的多步反應路徑,,來闡述在該方法在復雜的現(xiàn)實場景中的應用潛力,。 圖1. 在逆向反應預測中基于不同的分子表示的輸入和輸出的對比。 2 實驗方法 實驗任務 作者在反應物到生成物,、生成物到反應物、生成物到合成子,、合成子到反應物等多個化學反應預測任務上都進行了實驗,。為了簡化,將反應物(Reactant)簡寫為R,,生成物(Product)簡寫為P,,合成子(Synthon)簡寫為S,對應的反應預測任務也簡寫為P2R,,R2P,,P2S,S2R等,。 數(shù)據(jù)集 本研究中使用了三個公開的分子反應數(shù)據(jù)集:USPTO-50K,,USPTO-MIT與USPTO-FULL,這三個數(shù)據(jù)集分別包括大約50,000,、400,000,、1,000,000條反應數(shù)據(jù)。作者是用了與前人相同的數(shù)據(jù)劃分方式來保證對比的公平性,??紤]到現(xiàn)實場景中往往無法獲知反應類型,在本研究中進行的所有實驗都不包括反應類型的信息。 R-SMILES 在逆向反應的P2R階段中,,獲得R-SMILES的流程如表1所示,,其中包含以下主要步驟:(1)隨機挑選一個帶有原子映射的反應SMILES作為原始數(shù)據(jù);(2)在生成物SMILES中隨機挑選一個原子作為根原子,,在表1中挑選了[Cl:8]作為根原子,;(3)根據(jù)挑選的根原子,獲得一個新的生成物SMILES(4)移除生成物SMILES中的原子映射信息,。(5)從左往右遍歷新的生成物SMILES的原子映射,,如果該原子映射在某一個反應物分子的SMILES中出現(xiàn),那么這個原子映射就作為該反應物SMILES的根原子,。在表1中,,[C:1]和[Cl:8]被選為兩個反應物分子的根原子;(6)根據(jù)新的根原子,,獲得新的反應物SMILES,;(7)將(4)和(6)中獲得的反應物和生成物的SMILES進行字符劃分,獲得模型最終的輸入和輸出,。逆向反應的P2S階段的根對齊操作也與此類似,。對于逆向反應的S2R階段,作者將生成物和合成子拼湊在一起作為模型的輸入,。為了最小化輸入和輸出之間的編輯距離,,作者將具有一一對應關系的合成子和反應物之間進行根對齊操作,而生成物則是向最大的合成子對齊,。在正向反應的R2P階段,,作者將生成物向最大的反應物進行對齊。 表1. 在逆向合成的P2R階段進行根對齊操作 3 實驗結果 使用R-SMILES后的編輯距離 表2. 有無根對齊下的編輯距離比較,。Datasetxm::m為數(shù)據(jù)增強的倍數(shù),。Pro.:生成物SMILES。Rea.:反應物SMILES,。 作者首先分析了在有無根對齊操作下,,對于逆向預測的P2R階段的輸入輸出之間的編輯距離的變化。編輯距離指的是由一個字符串通過增加,、修改,、刪除字符來獲得另一個字符串所需要的操作數(shù)??梢钥吹脚ccanonical SMILES對比時(即不進行數(shù)據(jù)增強的情況),,使用R-SMILES后在三個數(shù)據(jù)集上編輯距離分別下降了21%、21%和16%,。而在與randomized SMILES對比時(即進行數(shù)據(jù)增強的情況),,R-SMILES減小編輯距離的效果變得更加顯著,。在USPTO-50K數(shù)據(jù)集上進行5倍數(shù)據(jù)增強時,在使用R-SMILES后編輯距離保持不變,,而不使用R-SMILES時編輯距離從17.9增長到了28.3,,甚至達到了使用R-SMILES后的編輯距離的兩倍以上。 表3. 在USPTO-MIT數(shù)據(jù)集上R2P階段的top-K正確率,。 表4. 在USPTO-50K(上),、USPTO-MIT(中)、USPTO-FULL(下)數(shù)據(jù)集上的P2R階段的top-K正確率,。 與其他先進方法的比較 作者在這里主要選擇了top-K正確率來與其他方法進行比較,,top-K正確率代表的是預測的前K個結果中出現(xiàn)正確結果的百分比。 正向反應預測:作者在兩種不同的實驗設置“separated”和“mixed”下進行了實驗,。這兩種實驗設置的區(qū)別是是否在輸入的反應物中區(qū)分出試劑,。如表3所示,可以看到無論是在哪一種實驗設置下,,作者所提出的方法在除了top-1之外的所有正確率都取得了最好的效果,。 逆向反應預測:作者在三個數(shù)據(jù)集上都進行了實驗。實驗證明,,在數(shù)據(jù)量較小的USPTO-50K數(shù)據(jù)集上,,作者提出的R-SMILES的方法在同類別的無模板(template-free)和半模板(semi-template)方法中的多個top-K正確率都達到了最先進的效果,其中無模板的方法甚至取得了與基于模板(template-based)的方法相媲美的效果,。在數(shù)據(jù)量更大的USPTO-MIT和USPTO-FULL數(shù)據(jù)集上,,作者的方法不僅在同類方法中取得了最先進的效果,且也大大優(yōu)于基于模板的方法,。在這里作者指出,,在較大的數(shù)據(jù)集上,基于模板的方法的準確率會隨著模板數(shù)量增多而下降,,同時也無法覆蓋測試集上的模板,最終導致了較低的準確率,。 注意力可視化 作者進一步展示了在分別使用canonical SMILES和R-SMILES情況下訓練出來的模型進行逆合成預測時的注意力可視化的對比,。作者隨機從測試集中挑選了四個分子的canonical SMILES作為輸入,并將Transformer的交叉注意力進行可視化,,結果如圖2所示,。在圖2a中,作者指出對于使用canonical SMILES訓練的模型,,當輸入和目標輸出是高度相似的情況,,模型可能可以捕捉到兩者之間的對齊信息并做出正確的預測,但對于每一個輸出的字符而言,,都需要過分地關注于SMILE語法相關的字符,,如')’,,且這一現(xiàn)象存在于所有基于canonical SMILES所獲得的注意力圖中。而基于R-SMILES所獲得的注意力圖則不存在該現(xiàn)象,,同時也做出了正確的預測,。在圖2c中,盡管輸入和目標輸出是高度相似的,,但基于canonical SMILES訓練的模型則給出了一張無序的注意力圖并做出了錯誤的預測,。作者認為這表示了其捕捉對齊能力的不足。而對于圖2e, g中的輸入和輸出并不相似的反應,,基于canonical SMILES訓練的模型再次給出了無序的注意力圖并且預測失敗,。而基于R-SMILES的訓練的模型,對于這三個反應則成功地給出了有序的注意力圖并預測出了想要的R-SMILES,。作者認為這些結果都說明了R-SMILES使得模型能夠專注于反應的化學知識,,最終達到提高模型的預測準確性的目的。 圖2. 由canonical SMILES(左)和R-SMILES(右)所獲得的注意力可視化,。 圖3. 在復雜反應上的top-10逆向反應預測正確率,。(a) 根據(jù)新增原子數(shù)的正確率;(b)在反應有無手性時的正確率,。 對復雜反應的正確率提升 新增原子數(shù)量:在圖3a中,,作者指出,無論新增原子是多少,,在使用R-SMILES的情況下總能取得更好的效果,,而且這一提升會隨著新增原子數(shù)量的增多而增大,尤其是對于數(shù)據(jù)量較少的情況,。這是因為R-SMILES減少了輸入和輸出之間的差異后,,模型能夠更多地專注于新增的片段。 手性反應:手性是在立體化學中一項重要的分子屬性,。在圖3b中可以看到,,在不使用R-SMILES的情況,手性反應的正確率明顯低于沒有手性的反應的正確率(下降13.3%),,而在使用R-SMILES后這一差距大大縮?。ㄏ陆?.3%)。作者指出R-SMILES在兩方面上幫助了手性反應的預測正確率的提升:(1)這是由于手性反應的編輯距離減小的程度更加顯著,;(2)對于USPTO數(shù)據(jù)集,,進行R-SMILES對齊后的手性標志在反應前后往往是一致的,這大大降低了模型的學習難度,。 多步逆合成反應預測 作者通過迭代使用基于R-SMILES訓練的逆合成預測模型,,成功地復現(xiàn)了多種分子在文獻中報告的逆合成路徑,進一步驗證了方法的有效性,。其中對于抗痛風藥非布索坦,,作者除了復現(xiàn)了文獻中報告的逆合成路徑之外,,還通過模型預測,提出了一條潛在的新的合成路徑,,如圖4a所示,。作者分別從產率和價格上分析了這兩條路徑:(1)作者指出第二條路徑中使用的硼酸酯,相比于第一條路徑的硼酸有更好的熱穩(wěn)定性,,且硼酸頻哪醇的引入可以有效地減少副反應的產生,,即可以有效地提高產率;(2)在Reaxys數(shù)據(jù)庫中可以發(fā)現(xiàn),,第二條路徑的原材料相比于第一條路徑要便宜得多,,因此作者認為他們的方法可能為非布索坦提出了一條更好的合成路徑。 圖4. 由R-SMILES訓練的模型所提出的多步逆合成預測路徑,。 4 總結 本文提出了一種用于反應預測的新的分子表示形式R-SMILES,,這一方法可以大大縮小輸入和輸出之間的編輯距離并保證輸入和輸出之間的一一對應關系?;谶@一方法的Transformer模型能在當前主流的公開數(shù)據(jù)集USPTO上取得最先進的反應預測效果,。作者還進一步展示了這一方法在復雜反應、多步逆合成預測上的效果來驗證方法的有效性,。文章最后作者也指出R-SMILES可以與當前已有的自動化原子映射工具如Indigo,、RXNMapper等相結合,應用到沒有原子映射的其他數(shù)據(jù)集上,。這些結果表明對于反應預測而言,,R-SMILES是一種更為合理的分子字符串表示形式,有望能幫助到相關領域的研究人員,。 參考資料 Root-aligned SMILES: A Tight Representation for Chemical Reaction Prediction. Chem. Sci. 2022. DOI: 10.1039/D2SC02763A |
|