【原】Drug Discov Today｜人工智能增強的藥物設計和開發(fā)：邁向計算型精準醫(yī)學

智藥邦 2021-10-02

展開全文

2021年9月20日，來自法國制藥公司施維雅(Servier)的Philippe Moingeon等人在Drug Discovery Today發(fā)表文章,，對人工智能在藥物設計和開發(fā)方面的四個主要應用進行了闡述,。

以下是全文內容。

亮點

人工智能允許整合大量的多模式數(shù)據(jù)來建立預測模型,。

對復雜的異質性疾病進行建?？梢源_定治療靶點。

人工智能有助于設計,、選擇和重新利用與靶點相互作用的藥物,。

人工智能推動了計算型精準醫(yī)學的出現(xiàn)。

摘要

人工智能（AI）依賴于各種技術的融合,，并與生命科學技術進一步協(xié)同,，通過預測模型支持決策的形式，獲取大量的多種模式數(shù)據(jù)的價值,。人工智能和機器學習（ML）通過提高我們對疾病異質性的理解,，識別失調的分子途徑和治療靶點，設計和優(yōu)化候選藥物，以及評估生物信息相關的臨床療效,，來加強藥物設計和開發(fā),。通過提供前所未有的關于病人特性和候選藥物特性的知識水平，人工智能正在促進計算精準醫(yī)學的出現(xiàn),，允許根據(jù)個體病人在生理學,、疾病特征和環(huán)境風險方面的特殊性，來設計治療或預防措施,。

前言

藥物開發(fā)是一個復雜的過程,，目前平均需要12年的開發(fā)時間，需要26億美元的投入,。并且監(jiān)管要求嚴格,，需要證明藥物的有效性和安全性。在臨床研究中的評估費用昂貴且失敗率高,，估計只有6.2%的發(fā)現(xiàn)階段的藥物最終能夠提供給病人,。在這種情況下，基于人工智能的預測模型正在成為一種革命性的解決方案,，以提高藥物設計和開發(fā)的效率和速度,，特別是通過優(yōu)化治療靶點和候選藥物的選擇。人工智能允許整合大量的多種模式數(shù)據(jù),，包括結構化和非結構化數(shù)據(jù),，來建立問題的概率和動態(tài)模型。

人工智能驅動的預測模型可以通過使用特定的數(shù)據(jù)集來生成,，為整個藥物發(fā)現(xiàn),、開發(fā)和注冊步驟中的一系列決策提供信息（圖1）。這些步驟包括選擇正確的治療靶點,、最佳候選藥物,、適當?shù)膭┝亢徒o藥方案，以及將適當?shù)幕颊呒{入臨床研究,。通過提供一種手段來獲取與診斷,、患者特征、候選藥物性質和治療反應預測有關的數(shù)據(jù)價值,，人工智能實現(xiàn)了一種更加個性化的方法,，被稱為 "精準醫(yī)療"，即提出更適合個別患者特點的治療,。

圖1.藥物發(fā)現(xiàn),、開發(fā)和注冊階段需要做出的關鍵決定以及預測模型，和支持這些模型的數(shù)據(jù)集的例子,。

在此基礎上,，我們在此討論人工智能在支持藥物設計和開發(fā)方面的四個主要應用。(i) 根據(jù)病人的分子分析數(shù)據(jù)生成疾病模型，代表疾病的異質性,；(ii) 識別失調的分子通路和預測候選治療靶點,；(iii) 設計、合成和優(yōu)化與這些靶點相互作用的候選藥物,；以及(iv) 通過使用虛擬病人或真實世界證據(jù)數(shù)據(jù)評估臨床療效,。

捕捉生物醫(yī)學大數(shù)據(jù)的價值

新一代DNA、RNA和外顯子組測序,、多組學分子分析,、高分辨率醫(yī)學成像和電子捕獲技術最近的快速發(fā)展，使我們有可能在一個前所未有的水平上,，描述個人在生理學、病理生理學以及環(huán)境風險暴露方面的特性,。癌癥基因組圖譜（TCGA）,、阿爾茨海默病神經影像計劃（ADNI）、骨關節(jié)炎計劃（OAI）和英國生物銀行（UK Biobank）都是這種日益增長的趨勢的例子,，即整合來自大型患者群體的大數(shù)據(jù)以支持藥物開發(fā),。在不久的將來，這種全面的分子信息將適用于多種疾病的數(shù)以百萬計的患者,，另外還有數(shù)百個結構化生物醫(yī)學數(shù)據(jù)庫中匯編的指數(shù)級數(shù)據(jù)和知識可用,，如歐洲生物信息研究所（EBI）或美國國家生物技術信息中心（NCBI）管理的數(shù)據(jù)庫。

當試圖捕捉這些不斷增加的數(shù)據(jù)的價值時,，主要的挑戰(zhàn)有：如何選擇標準化,、機器可讀的數(shù)據(jù)，并適當?shù)脑L問,；數(shù)據(jù)的復雜性,、異質性和稀疏性。在數(shù)據(jù)生命周期管理中,，整合由多種技術產生的海量和多模式數(shù)據(jù),，并保證一致性和可靠性，仍然是一個重大的困難（圖2）,。獲得準確的,、經過整理的大量數(shù)據(jù)也是提高ML重復性的關鍵。

解決這些問題需要建立適應生命科學特性的計算硬件架構,，這些架構通常被部署到云端,。為此，出現(xiàn)了許多倡議,，如臨床數(shù)據(jù)交換標準聯(lián)盟（CDISC）或FAIR指導原則,，以實現(xiàn)數(shù)據(jù)的可查找性、可訪問性、互操作性,、可重用性和交換,。此外，歐洲通用數(shù)據(jù)保護條例（GDPR）和美國經濟和臨床健康信息技術法案在訪問,、存儲,、共享機密和敏感健康數(shù)據(jù)方面的監(jiān)管要求，要求實施明確和可操作的數(shù)據(jù)治理戰(zhàn)略（圖2）,。

圖2. 生物醫(yī)學數(shù)據(jù)的生命周期管理,。該圖表示從數(shù)據(jù)產生到結果共享的一般生物醫(yī)學數(shù)據(jù)生命周期，強調在數(shù)據(jù)治理方面需要更多的標準化和自動化,。

在這種情況下,，制藥公司或學術實驗室之間的競爭前合作聯(lián)盟，如MELLODDY或Drug Target Commons,，分別構成了創(chuàng)新的聯(lián)合知識倡議,，為開發(fā)ML算法收集、策劃和分享具有適當質量的大量數(shù)據(jù),。MELLODY聯(lián)盟將幾家藥物公司聚集在一起,，分享他們的化學庫，以訓練多任務預測算法,，隨后由每個合作伙伴應用于支持自己的藥物發(fā)現(xiàn)計劃,。同時，多個眾包挑戰(zhàn),，如Kaggle,、Dream和PrecisionFDA，給出了參考數(shù)據(jù)集,，為解決復雜的生物醫(yī)學問題建立了新算法的基準和測試標準,。

人工智能和疾病建模

生物技術和人工智能的融合為創(chuàng)建疾病模型提供了機會,，以幫助在定義明確的患者亞群中確定治療方法,。這類模型是在使用多組學技術對患者與健康對照組進行廣泛的分子分析后產生的，將疾病表示為基于潛在病理生理機制定義的內型(endotypes),。這些數(shù)據(jù)通常是在公私合營的大型患者群隨訪期間產生的,，通過使用無監(jiān)督和有監(jiān)督的學習方法的組合對患者進行分層,。

這種分類的基本原理是，它能更好地支持精準醫(yī)療的方法,，依靠針對明確的患者亞群的療法,，取代以前僅基于臨床表型（phenotypes）的分類。為此,，從數(shù)千名特定疾病患者的血液和/或目標器官中獲得的分子分析數(shù)據(jù),，與疾病進展,、嚴重程度或治療反應方面的詳細臨床信息相結合，可將患者分為反映疾病異質性的同質亞群,。雖然傳統(tǒng)的生物信息學不可能整合這種大規(guī)模和多模式的數(shù)據(jù),，但現(xiàn)在可以通過使用人工智能對疾病進行全面建模。

要做到這一點,，主要的計算挑戰(zhàn)仍然在于是否有能力：(i) 整合來自多組學技術的數(shù)據(jù),，同時減少其維度的多樣性；(ii) 在單細胞水平上破譯疾病機制,；(iii) 對疾病的動態(tài)演變進行建模,；以及(iv) 通過共識和再抽樣方法鞏固研究結果，支持其有效性和重復性,。

在對每個集群進行基因集富集分析后,，可以根據(jù)分子通路的失調進一步確定患者亞群的特征。特定的數(shù)據(jù)庫（如Ingenuity Pathway Analysis和STRING）被用來在既定的功能分子通路中重新組合患者樣本中上調或下調(與健康對照組相比)的基因或蛋白質,。鑒于疾病的定義是參照常態(tài)下的分子術語,，疾病的特征需要在與健康狀態(tài)相關的分子多態(tài)性觀察之外加以確定。

總的來說,，疾病模型可以提供關于疾病的自然史以及在系統(tǒng)和器官特定水平上所涉及的病理生理機制之間的關系的信息。此外,，它還揭示了患者的異質性以及分子特征,，這些特征可用于將患者聚集在同質的群體中，以設想一種精確的醫(yī)學方法,，同時考慮到集群內患者的特殊性,。重要的是，它還為進一步在計算技術中確定有治療意義的靶點提供線索,。

治療靶點的識別,、優(yōu)先排序和驗證

目前研究人員正在開發(fā)計算方法，以確定與疾病相關的基因,，或預測參與疾病因果關系的蛋白質,，從而尋找潛在的可操作的治療靶點。第一步,，是在相互連接的基因或蛋白質的大規(guī)模網(wǎng)絡中,，體現(xiàn)特定疾病中失調的分子途徑。這些網(wǎng)絡是由蛋白質-蛋白質相互作用（PPI）建立的,，或通過推理技術重建的,，如相關或貝葉斯網(wǎng)絡。這種表示方法可以劃定與疾病相關的子網(wǎng)絡模塊,，作為進一步計算分析其內在拓撲結構的基礎,，以確定被預測為 "因果"的節(jié)點（包括,，例如，主調節(jié)器,、樞紐和驅動突變）,。特別是，網(wǎng)絡傳播算法通常用于放大那些很少或沒有疾病相關直接證據(jù)的節(jié)點的信號,。如上所述,，主要的計算挑戰(zhàn)涉及從不同層次獲得的多層網(wǎng)絡的整合，以及大規(guī)模動態(tài)信息的表示,。

除了生物相關性外,，還應考慮其他方面，以確定考量疾病靶點的優(yōu)先次序,，如" Open Targets initiative"倡議的那樣,。(i) 可藥性（即能夠用小型合成藥物或生物藥物或任何其他治療方式來調節(jié)靶點的功能的可能性）；(ii) 干擾該靶點時的潛在安全影響,；(iii) 利用自然語言處理（NLP）技術從專利和文獻中挖掘記錄的創(chuàng)新性,；以及(iv) 藥物開發(fā)的可行性。確認靶點的可藥性大大受益于三維結構建模的進展,，包括最近DeepMind的AlphaFold算法,，就是基于主要氨基酸序列，改進蛋白質結構預測,。

使用網(wǎng)絡計算方法對疾病的因果關系進行推斷而確定的候選靶點,，需要在濕式實驗室實驗產生的經驗證據(jù)基礎上進行驗證。這一驗證（例如,，CRISPR-Cas9基因缺失或siRNA基因沉默）步驟,，包括對來自患者的細胞或組織的靶點表達（相對于健康對照）表型評估，或在動物模型中進行功能檢測,，在使用計算預測模型時可以大大簡化,。因此，與藥物發(fā)現(xiàn)相關的成本和時間都減少了,，同時加強了在進入臨床開發(fā)前選擇候選靶點的理由,。

人工智能增強的藥物設計、選擇和優(yōu)化

基于網(wǎng)絡的接近性分析可以預測藥物與靶點的相互作用,，這可以應用于現(xiàn)有藥物在新適應癥中的再利用,。例如，deepDTnet算法是基于網(wǎng)絡的深度學習方法,，用于識別已知藥物的新分子靶點,。DeepDTnet嵌入了15種化學、基因組,、表型和細胞網(wǎng)絡,，以產生生物學和藥理學上的相關特征,。研究人員在將人工智能應用于虛擬藥物設計或識別具有理想特性的新化合物方面，也有相當大的興趣,。

計算化學已被廣泛用于定量結構-活性關系（QSAR）,，目的是預測可能包括數(shù)百萬分子的化學空間中的活性。QSAR領域在過去十年中受益于深度學習對神經網(wǎng)絡的綜合應用,，有了更高的計算能力和更好的算法來解決過擬合和梯度問題,。ML方法現(xiàn)在被應用于訓練基于配體的虛擬篩選的神經網(wǎng)絡，以識別和優(yōu)化與候選治療目標相互作用的藥物,，預測其吸收,、分布、代謝,、排泄和毒性（ADMET）特征,，或重新利用現(xiàn)有分子。

有趣的是,，深度學習可以通過開發(fā)包含一個以上活動的模型來進行多任務預測,，如生物活性和ADME特性。而多個活動的預測可以并行訓練,，因為它們共享相同的輸入和隱藏層,，每個活動都與一個特定的輸出節(jié)點有關（圖3a）。在Kaggle競賽中,，評估各種ML方法以提高QSAR方法的預測性能,，一個多任務深度網(wǎng)絡贏得了比賽，比基線提高了15%,。除了提高預測的準確性，與經典的ML方法（如Random Forrest或Support Vector Machine）相比,，基于深度學習的多任務預測進一步提高了藥物發(fā)現(xiàn)能力,。

深度學習也允許識別新的分子描述符，而不是僅僅依靠現(xiàn)成的和專家得出的化學特征,。以前的ML方法使用專家編制的分子描述符來訓練算法,，而深度學習則使用這種無需任何人工干預的圖像處理形式，即圖卷積產生特征,。為了更好地預測分子活性,，多任務深度學習也可以應用于涉及分子本身的高通量篩選（HCS）試驗期間產生的圖像分析數(shù)據(jù)。這樣的HCS是一個豐富的信息來源,，它可以與分子描述符結合使用來預測生物活性,，同時避免了對定制試驗的需要。

圖3. 用于分子建模和藥物設計的深度學習網(wǎng)絡的例子,。(a) 多任務預測深度學習算法的示意圖,，左邊是用于訓練的化合物及其相關數(shù)據(jù),。一旦網(wǎng)絡被訓練并找到最佳的超參數(shù)，該算法就會產生它所訓練的所有端點的全矩陣預測作為輸出,。(b) 自動編碼器的示意圖,，左邊是編碼器，中間是潛在空間,，右邊是解碼器,。一旦自動編碼器在數(shù)以百萬計的分子上進行了訓練，潛伏空間就可以被修改（通過隨機或焦點變化）以產生接近輸入的分子,，盡管變化很小,。自動編碼器將一個SMILES作為輸入，并產生一個SMILES作為輸出,。

深度學習也被應用于新分子的生成,，分子是由模型設計的，而不是由化學家設計,。以前人工方法是通過添加化學R基或改變原子來進化現(xiàn)有的分子,，而深度學習可以用來訓練神經網(wǎng)絡，并根據(jù)以前已知的分子生成新的候選分子,。研究人員通過調整通常應用于圖像分析或語言翻譯的方法,，利用包含編碼器和解碼器網(wǎng)絡的變異自動編碼器，建立了第一個深度學習的新分子生成模型（圖3b）,。編碼器的作用是將以字符串（如SMILES）表示的化學結構翻譯成一個潛伏空間向量,。然后解碼器網(wǎng)絡從潛伏空間向量翻譯回SMILES，以獲得精煉的化學結構,。一個隨機的變化可以應用于潛伏空間或與模型預測相結合,，以確定一個與輸入稍有不同的符合模型標準的解碼分子。自動編碼器和衍生工具的多種應用已經被報道,，無論是否與循環(huán)神經網(wǎng)絡（RNN）的使用相結合,。

在計算化學中正在應用更多的新分子設計方法，如強化學習（RL）,，其中網(wǎng)絡被逐步訓練以達到特定的輸出,，獲得最大化累積獎勵。另一種方法是使用生成對抗網(wǎng)絡（GAN）,，將兩個在零和游戲中既競爭又合作的神經網(wǎng)絡聯(lián)系起來,，從很大的數(shù)據(jù)集中進行分子特征提取。當應用于藥物開發(fā)時,，第一個"生成"網(wǎng)絡產生候選分子,，第二個"辨別"網(wǎng)絡來評估。盡管通過使用新分子生成和多任務預測在藥物設計方面取得了許多成功,，但獲得的一些模型仍然產生不易合成的分子,。在這種情況下,，人們開發(fā)了支持逆向合成的計算方法，作為專家衍生的規(guī)則或從化學反應數(shù)據(jù)庫建立的知識系統(tǒng)的替代,，通過使用逆向反應分解新生成的分子來設計其化學合成,。深度學習最近也被應用于支持逆向合成分析，使用一個基于序列的模型,，其中化學結構被描述為RNN的SMILES,，反應物和產物在一個編碼器解碼器中被鏈接成一對。

走向虛擬臨床研究

人工智能可用于支持評估候選藥物療效和安全性的臨床試驗的設計,、實施和監(jiān)測,，以提高成功率。例如,，對疾病和患者異質性的理解有助于選擇試驗中招募的患者,。此外，NLP正被用來挖掘真實世界證據(jù)（RWE）數(shù)據(jù)或健康記錄,，以評估病人在臨床研究中的資格,。在這種方法中，自動文本挖掘被用來識別和選擇精確滿足研究設計中的納入標準（如疾病嚴重程度,，特定目標器官的參與,，以及已有的療法）的病人。人工智能還有助于通過整合大量的生物,、醫(yī)學影像和臨床數(shù)據(jù)來記錄患者的特異性,，為精準醫(yī)療方法中的創(chuàng)新試驗設計提供信息。在試驗監(jiān)測期間,，人工智能有助于以遠程方式捕捉由可穿戴傳感器或設備產生的患者報告的測量和結果,。它還被應用于挖掘此類數(shù)字生物標志物，提供有關癥狀,、疼痛,、認知功能、運動能力或睡眠模式的有用信息,，以支持醫(yī)生的診斷或治療決定。人工智能和ML也被用來分析來自成功和失敗的研究的數(shù)據(jù),，以產生能夠同時預測多種和多模式臨床參數(shù)演變的模型,。這些分析可以提供關于預測病情發(fā)展、嚴重程度,、對治療的反應,、甚至生存的候選生物標志物的假設。

一個讓人們產生相當?shù)拇笈d趣的話題,，是通過虛擬試驗預測候選藥物的療效,。目前,，病人特征的虛擬表現(xiàn)是以 "合成"病人的形式組合起來的。在組合安慰劑對照組以測試危及生命或罕見疾病的候選藥物時,，這些模型作為真實病人的替代品特別有用,。這種虛擬安慰劑組的演變可以從受病情影響的真實病人在接受標準護理時獲得的RWE臨床數(shù)據(jù)中進行建模。

此外,，為了測試實驗性藥物的臨床療效,，基于定量系統(tǒng)藥理學（QSP）的計算模型也在開發(fā)中，并取得了一些令人鼓舞的結果,。有關疾病的QSP模型是根據(jù)血液或組織中與臨床癥狀有關的生物過程的數(shù)據(jù)建立的,。然后將獲得的生物系統(tǒng)建模為常微分數(shù)學方程，以表示各組成部分之間的動態(tài)相互作用,，并進一步納入候選藥物的一些主要特征（如對靶點的親和力,、藥代動力學和生物分布），以評估后者將如何擾亂該系統(tǒng),。QSP不僅用于預測藥物如何緩解與特定器官有關的癥狀,，而且還用于確定潛在的生物標志物，以對病人進行分類或監(jiān)測,，選擇劑量和給藥方案以及臨床終點,，以用于確認性的真實世界試驗?？梢灶A見,，在成功實施以ML為動力的精準醫(yī)療方面還有一個障礙，那就是難以建立因果推斷,，即從數(shù)據(jù)驅動的模型中預測藥物暴露對臨床結果的因果效應,。然而，未來人工智能生成的各種疾病模型,，以基因或蛋白質相互作用組的形式出現(xiàn),，對病理生理學的因果關系進行推斷，可能會大大增加計算分析預測候選藥物療效和安全性的能力,。

人工智能在臨床研究中的廣泛應用仍然面臨著一個挑戰(zhàn),，即主要監(jiān)管機構是否接受這種虛擬安慰劑組、合成病人和數(shù)字終點,，以及基于人工智能的決策算法的驗證,。顯然，不管這個領域的進展如何,，真實世界的臨床研究仍然需要,，但在人工智能的幫助下，可能會更少、更簡單,、設計得更好,。

結束語

考慮到藥物開發(fā)是為選擇正確的靶點、藥物,、劑量方案和病人而做出的一系列重要決定,，似乎很明顯，人工智能可以通過捕捉海量和多模式數(shù)據(jù)的價值來支持這些決定中,。因此,，人工智能和ML無疑將在藥物開發(fā)中產生一場前所未有的革命，使這一復雜而昂貴的過程最終變得更便宜,、更有效,，同時預期將縮短發(fā)現(xiàn)階段，減少藥物開發(fā)過程中的失敗率,。衛(wèi)生行業(yè)目前正在快速整合這些新技術,，這體現(xiàn)在致力于人工智能應用于藥物開發(fā)的公司數(shù)量呈指數(shù)級增長。2020年,，免疫腫瘤學領域的第一個人工智能設計的藥物僅經過12個月的研究就進入了I期臨床評估,，而藥物發(fā)現(xiàn)通常需要5-7年的時間。利用人工智能對現(xiàn)有分子的挖掘,，也在創(chuàng)紀錄的時間內發(fā)現(xiàn)了一種新的抗生素,，命名為halicin。眾多由網(wǎng)絡計算產生的藥物再利用機會也已被發(fā)現(xiàn),，應用于癌癥,、神經系統(tǒng)疾病和COVID-19。值得注意的是,，雖然ML大多被應用于化學分子的設計,，但這些方法也被考慮用于生物藥物的設計和選擇，包括合成寡核苷酸,、單克隆抗體或具有目標藥理特性的肽類,。

藥物設計和開發(fā)包含了一系列現(xiàn)有的人類專業(yè)知識，人類和機器智能之間的協(xié)同對于成功提高藥物設計和開發(fā)至關重要,。智能機器可以提供巨大的計算內存和功率,，從大量的多模態(tài)數(shù)據(jù)中進行非監(jiān)督性分析。而深度學習方法被同化為黑盒子,，相比之下,，人類擅長提取特征，并提供分類任務的基本原理的透明度,，或從預測模型的輸出中提供可解釋性,。在濕式實驗室和真實世界的臨床研究中，需要人類的專業(yè)知識來設計和執(zhí)行驗證實驗,。重要的是,，在實施人工智能時，需要人類的智慧和判斷力來考慮道德影響,。由算法告知的診斷或治療決定的最終責任在于醫(yī)療保健專業(yè)人士,。

通過幫助提供對病人特征的前所未有的了解，人工智能正在為高度個性化的醫(yī)學鋪平道路,，提供未來治療和預防措施的視角,，精確地根據(jù)每個病人的生理和疾病特異性的需求進行定制。人工智能和ML也支持醫(yī)學的發(fā)展,，通過訪問包括疾病,、病人和候選藥物的多維模型，預測性越來越強,，并通過讓病人和健康人參與管理他們的健康而進一步提升,。因此，我們可以預見,，人工智能和ML會帶來向綜合計算型精準醫(yī)療的快速演變,。

參考資料

Philippe Moingeon, Mélaine Kuenemann, Micka?lGuedj, Artificial intelligence-enhanced drug design and development: Toward acomputational precision medicine, Drug Discovery Today, 2021, ISSN 1359-6446, https:///10.1016/j.drudis.2021.09.006.