——研究背景—— 多組分反應(yīng)(Multicomponent Reactions,簡(jiǎn)稱MCRs)在有機(jī)化學(xué)中占據(jù)著重要地位,,因?yàn)樗鼈兡軌蛟谝粋€(gè)步驟中將多個(gè)簡(jiǎn)單的起始材料轉(zhuǎn)化為復(fù)雜的分子結(jié)構(gòu),。這不僅大大提高了合成效率,還能顯著減少反應(yīng)步驟和原子損失,,從而提升整體的步驟經(jīng)濟(jì)性和原子經(jīng)濟(jì)性,。然而傳統(tǒng)的MCRs主要是在嘗試中發(fā)現(xiàn)的,數(shù)量有限,且大多數(shù)MCRs是在已有反應(yīng)模式的基礎(chǔ)上進(jìn)行組合和擴(kuò)展,,并不算全新的反應(yīng),。 在這個(gè)人工智能與化學(xué)相互融合的時(shí)代,把目光投向多組分反應(yīng)并不是一種偶然,。逆合成預(yù)測(cè)是有機(jī)合成中一座必須要跨過的山峰,,而此前Bartosz Grzybowski團(tuán)隊(duì)開發(fā)的Synthia軟件在逆合成問題上取得了非常好的表現(xiàn)。解決了逆合成問題之后,,接下來(lái)一個(gè)自然的問題就是為正向反應(yīng)進(jìn)行預(yù)測(cè),,而開源數(shù)據(jù)集里的單步正向反應(yīng)大多數(shù)時(shí)候都很簡(jiǎn)單,剩下的最困難的則是重排反應(yīng),,多組分反應(yīng)等等,。碳正離子重排反應(yīng)在半年前已經(jīng)由該課題組發(fā)表在Nature上,本文介紹的則是他們利用計(jì)算機(jī)輔助計(jì)算化學(xué)反應(yīng)網(wǎng)絡(luò),,從而發(fā)現(xiàn)新型多組分反應(yīng)的工作Systematic, computational discovery of multicomponent and one-pot reactions,,于2024年11月底發(fā)表在Nature communications上 ——方法與結(jié)果—— 任何預(yù)測(cè)都需要依賴于數(shù)據(jù),在此前逆合成的預(yù)測(cè)中,,反應(yīng)模板數(shù)據(jù)提取有人工編碼和自動(dòng)抽取兩種主要的工作模式,,Synthia屬于前者,ASKCOS一類的平臺(tái)則屬于后者,。在正向反應(yīng)的預(yù)測(cè)中,,甚至沒有大規(guī)模的反應(yīng)模板庫(kù)可以依賴,于是作者首先從已有的反應(yīng)數(shù)據(jù)中提取了大約8000種常見的機(jī)理轉(zhuǎn)化步驟,。這些步驟被編碼為SMARTS模板,,涵蓋了各種酸堿催化、取代,、消除,、加成、重排和周環(huán)反應(yīng),,還包括了一些由過渡金屬催化的基元反應(yīng)步驟,。每個(gè)機(jī)理轉(zhuǎn)化規(guī)則都附帶了反應(yīng)條件,如酸堿性,、溶劑類別,、溫度范圍和水耐受性等,以確保后續(xù)步驟的兼容性,。 為了提高M(jìn)CR反應(yīng)發(fā)現(xiàn)的成功率,,作者從ZINC數(shù)據(jù)庫(kù)中篩選出約2400種簡(jiǎn)單的市售分子作為底物集合。這些分子最多包含15個(gè)重原子,,且具有一到兩個(gè)反應(yīng)性基團(tuán)(FG),。對(duì)于給定的一組底物,,作者應(yīng)用機(jī)理規(guī)則庫(kù)生成第一代產(chǎn)品和副產(chǎn)品(G1),然后迭代反應(yīng)生成后續(xù)代數(shù)(G2,、G3等),,迅速擴(kuò)展出龐大的機(jī)理步驟網(wǎng)絡(luò)。接下來(lái),,在反應(yīng)網(wǎng)絡(luò)中,,算法會(huì)追蹤每個(gè)中性分子的反應(yīng)路徑,并根據(jù)條件匹配篩選出適合作為MCR的候選序列,。 需要注意的是,,這種化學(xué)反應(yīng)網(wǎng)絡(luò)看上去不難生成,然而研究其中的沖突和先后次序才是真正決定其質(zhì)量的關(guān)鍵,。在龐大的反應(yīng)物節(jié)點(diǎn)中進(jìn)行搜索是一件效率低下且缺乏化學(xué)意義的事情,,為了得到真正有價(jià)值的反應(yīng)序列,作者額外引入了許多約束,,以下是一些示例,。? 條件匹配:算法會(huì)檢查反應(yīng)序列中所有機(jī)理步驟的反應(yīng)條件(如酸堿性、溶劑類別,、溫度范圍等)相互兼容,,不能將需要氧化條件和還原條件的步驟結(jié)合起來(lái),不能反復(fù)在高溫/低溫或酸性/堿性之間切換,; 動(dòng)力學(xué)限制:通過對(duì)副反應(yīng)步驟的速率進(jìn)行初步分類(非常慢,、慢、快,、非??臁⒉淮_定),,算法會(huì)檢查副反應(yīng)步驟的反應(yīng)速率,,確保主反應(yīng)路徑中的步驟不會(huì)被副反應(yīng)步驟“劫持”。比如胺對(duì)大位阻Michael受體的加成是“非常慢”的反應(yīng),,而互變異構(gòu)成芳環(huán)的過程則被標(biāo)記為“非常快”,,這樣可以確保主反應(yīng)路徑的清潔性和高產(chǎn)率,。 不相容基團(tuán)的排除:通過明確定義不相容基團(tuán)列表,算法能夠在生成反應(yīng)路徑時(shí)自動(dòng)排除那些可能導(dǎo)致副反應(yīng)或反應(yīng)混合物復(fù)雜化的步驟,,從而保持反應(yīng)的高選擇性和效率,。 圖1 a 從環(huán)己烯酮、三甲基硅丙炔,、正丁基鋰和疊氮三氟甲磺酸鹽底物擴(kuò)展至第4代(G4)的一級(jí)網(wǎng)絡(luò)截圖,。網(wǎng)絡(luò)包含所有在不同條件下相互兼容的序列,,節(jié)點(diǎn)大小與每步復(fù)雜性增加ΔC/n成正比,綠色內(nèi)部節(jié)點(diǎn)表示文獻(xiàn)未描述的骨架,;b從a圖中藍(lán)色路徑的分析,,包括各種副產(chǎn)物及其進(jìn)一步反應(yīng),較大的橙色節(jié)點(diǎn)對(duì)應(yīng)實(shí)驗(yàn)驗(yàn)證過程中ESI-MS觀察到的峰,;c藍(lán)色和橙色一鍋反應(yīng)路徑的總體方案及中間體和反應(yīng)條件,,親核位和親電位分別以黃色和綠色標(biāo)記;d根據(jù)通用方案合成的特定衍生物1a,、1b和2a–2g及其分離產(chǎn)率,。 這些都是具有明確化學(xué)意義的反應(yīng)序列限制,也讓我們看到了一個(gè)當(dāng)代反應(yīng)預(yù)測(cè)專家系統(tǒng)的構(gòu)筑過程,。在得到候選的反應(yīng)路徑之后,,算法會(huì)進(jìn)行更深入的動(dòng)力學(xué)分析,從而估算反應(yīng)的產(chǎn)率,。由于絕大多數(shù)機(jī)理步驟的實(shí)驗(yàn)動(dòng)力學(xué)速率常數(shù)尚不可得,,作者開發(fā)了一種基于自由能線性關(guān)系的物理有機(jī)模型,并使用Mayr的親核性指數(shù)來(lái)近似機(jī)理步驟的速率常數(shù),,這種產(chǎn)率估算方法記錄在另一篇同時(shí)發(fā)表的文章Estimation of multicomponent reactions’ yields from networks of mechanistic steps當(dāng)中,。 圖2(原文圖5) a用于合成芳基化間二烯的多組分反應(yīng)(MCR)方案。未分離的中間體用括號(hào)表示,,分離產(chǎn)物用橙色框住,。使用MgBr·Et?O代替Pd催化劑時(shí),從取代的環(huán)己酮(R=烯丙基)和酚類底物得到雙環(huán)內(nèi)酯7a,;b從a圖路徑到芳基化二烯的二級(jí)網(wǎng)絡(luò)視圖,,碘酚副產(chǎn)品在Heck偶聯(lián)中的重用(氧化加成步驟用橙色標(biāo)記)用藍(lán)色弧線標(biāo)出;c有機(jī)催化劑硫醇催化的sp2-疊氮化方案,。未分離的中間體用括號(hào)表示,,分離產(chǎn)物8b用橙色框住,;d從c圖路徑的三級(jí)網(wǎng)絡(luò)視圖,。硫醇作為有機(jī)催化劑的重用用藍(lán)色弧線標(biāo)出;e使用不同的α-溴烯酮從c圖MCR制備的額外烯丙基疊氮化物8c–8f,。 文中給出了大量實(shí)驗(yàn)驗(yàn)證的例子,,由于篇幅所限,我們這里選取一組作為介紹,。上圖中的兩個(gè)反應(yīng)都是在反應(yīng)過程中重新利用了底物的反應(yīng),,在a和b所示的序列中,酚類底物首先用于形成活化酯,,然后與2-烯丙基環(huán)己酮反應(yīng),,生成螺環(huán)β-內(nèi)酯,,加入MgBr?后,擴(kuò)環(huán)重排生成取代的六氫-2(3H)-苯并呋喃酮7a,,產(chǎn)率為31%(預(yù)測(cè)為48%),。此類結(jié)構(gòu)存在于各種天然產(chǎn)物和生物活性化合物中。然而,,當(dāng)使用環(huán)己酮(而非2-烯丙基環(huán)己酮)作為底物,,并增加反應(yīng)網(wǎng)絡(luò)的深度時(shí),碘酚在螺環(huán)化步驟中作為副產(chǎn)物再生,,在產(chǎn)物脫羧后被重用作為Heck反應(yīng)中的底物生成7b,,產(chǎn)率高達(dá)35%。 圖中c–e則展示了另一個(gè)有機(jī)催化反應(yīng),。通過最初的一組底物(α-溴-α,β-不飽和酯,、甲基硫代乙醇酸甲酯和疊氮化鈉),算法建議了一種多組分反應(yīng)路徑,,能夠生成類似于某些GABA受體抑制劑的二氫噻吩羧酸酯骨架8a,。算法還指出,α-疊氮酯的C-H pKa應(yīng)高于α-硫酯的pKa——也就是說(shuō),,前者位置的去質(zhì)子化應(yīng)被優(yōu)先考慮,,并可能導(dǎo)致快速消除(c中的綠色箭頭,d中的藍(lán)色弧線連接)而不是環(huán)化,。此消除反應(yīng)形成一個(gè)反饋環(huán),,重新生成硫醇(d中為粉色),有效地作為有機(jī)催化劑,,維持疊氮在烯基α-位置的取代,。這在實(shí)驗(yàn)中得到了驗(yàn)證,原始反應(yīng)生成8b在溫和條件下的產(chǎn)率為67%(算法預(yù)測(cè)為47%),。 ——討論—— 本文通過開發(fā)一種基于機(jī)理轉(zhuǎn)化規(guī)則和物理有機(jī)模型的計(jì)算機(jī)輔助設(shè)計(jì)方法,,成功實(shí)現(xiàn)了多組分反應(yīng)的自動(dòng)化設(shè)計(jì)與發(fā)現(xiàn)。這一方法不僅系統(tǒng)性地?cái)U(kuò)展了MCR的反應(yīng)空間,,還通過引入額外的規(guī)則限制和優(yōu)化策略,,確保了反應(yīng)序列的高兼容性和高產(chǎn)率。實(shí)驗(yàn)驗(yàn)證部分進(jìn)一步證明了算法的有效性和預(yù)測(cè)準(zhǔn)確性,,多個(gè)代表性MCR序列在實(shí)驗(yàn)中取得了預(yù)期的產(chǎn)率和產(chǎn)物復(fù)雜性,。 此外需要強(qiáng)調(diào)的是,本文(以及此課題組的一系列反應(yīng)預(yù)測(cè)工作)有著濃厚的化學(xué)背景特色,,與其他在已知數(shù)據(jù)集上進(jìn)行預(yù)測(cè)的工作思路十分不同。在化學(xué)+AI這個(gè)語(yǔ)境下,,化學(xué)問題既需要吸納數(shù)據(jù)科學(xué)的研究思路,,又不能完全變成一個(gè)數(shù)據(jù)科學(xué)的問題,,在給定的數(shù)據(jù)集上提升模型與算法固然是一種contribution,而還有許多真正的science是隱藏在給定的數(shù)據(jù)集之下的,。想象一下,,如果自詡為藥物開發(fā)研究人員,面對(duì)躺在醫(yī)院里的患者,,卻只能為他們提升某個(gè)數(shù)據(jù)集上1%的精確率(甚至還伴隨著其他性能的下降),,大概也是會(huì)于心有愧的吧。當(dāng)然,,做這樣更“化學(xué)”的工作所需要付出的心血/labor work/決心/成本都會(huì)更多,,但是為了直面那些需要被解決的科學(xué)問題,在有條件的情況下,,這一切也是值得的,。 參考文獻(xiàn) Roszak, R., Gadina, L., Wo?os, A. et al. Systematic, computational discovery of multicomponent and one-pot reactions. Nat Commun 15, 10285 (2024). |
|