在清華建校110周年慶祝大會(huì)上,,北京大學(xué)校長郝平首次宣布,,在人工智能教學(xué)和科研上,雙方將聯(lián)手建立通用AI實(shí)驗(yàn)班,。 這意味著,,這兩家互為榜樣,互相調(diào)侃多年的對(duì)門鄰居,,在人工智能上首次選擇了并肩站隊(duì),。 而事實(shí)上,在多年時(shí)間里,,兩所高校內(nèi)部的姚班,、圖靈班已經(jīng)先后培養(yǎng)和孵化出眾多AI界的頂尖人才和創(chuàng)新企業(yè)。 僅以北大為例,,先后走出了百度CEO李彥宏,、前360首席科學(xué)家顏水成、微眾銀行首席人工智能官楊強(qiáng)等一眾頂尖大佬,。 在人工智能領(lǐng)域也是領(lǐng)頭的北大,,2002年成立了智能科學(xué)系,該系也是北大在人工智能領(lǐng)域最主要的機(jī)構(gòu),,主要從事智能感知,、機(jī)器學(xué)習(xí)、數(shù)據(jù)智能分析等方向的基礎(chǔ)和應(yīng)用基礎(chǔ)研究,,側(cè)重于理論,、方法以及重大領(lǐng)域應(yīng)用上。 其曾參加多項(xiàng)國家級(jí)重大科研課題和橫向應(yīng)用研究項(xiàng)目,,如國家重大科技攻關(guān)課題,、國家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃(973)課題、863重大科研課題等30多項(xiàng)科研項(xiàng)目,;先后獲得重要科技獎(jiǎng)勵(lì)20多項(xiàng): 其中指紋自動(dòng)識(shí)別技術(shù)先后獲得國家科技進(jìn)步二等獎(jiǎng)和教育部科技進(jìn)步一等獎(jiǎng),,以該項(xiàng)成果為基礎(chǔ)建立了國內(nèi)最大的指紋技術(shù)產(chǎn)業(yè);人工神經(jīng)網(wǎng)絡(luò)說話人識(shí)別新方法的研究獲得教育部科技進(jìn)步一等獎(jiǎng),;國家空間信息基礎(chǔ)設(shè)施關(guān)鍵技術(shù)研究獲得2000年中國高??茖W(xué)技術(shù)二等獎(jiǎng),入選2000年中國高校十大科技進(jìn)展等,。 此外,,北大又宣布成立了人工智能研究院。研究方向包括人工智能數(shù)理基礎(chǔ)和認(rèn)知科學(xué)基礎(chǔ)、智能感知,、機(jī)器學(xué)習(xí),、類腦計(jì)算、人工智能治理以及智能醫(yī)療,、智能社會(huì)等方面,。 而在最近爆火的AI制藥賽道,也有一家由北大系創(chuàng)立的AI企業(yè),,正在逐漸嶄露頭角,。 2021年5月,英飛智藥宣布完成由麗珠制藥和同創(chuàng)偉業(yè)領(lǐng)投的Pre-A 輪融資,,此外在新藥研發(fā)中充分利用并持續(xù)發(fā)展先進(jìn)的AI藥物發(fā)現(xiàn)技術(shù),,打造了自主知識(shí)產(chǎn)權(quán)的AI+新藥研發(fā)平臺(tái)——智藥大腦TM。智藥大腦是集頂級(jí)專家人才,、一流AI+新藥研發(fā)平臺(tái),、前沿藥物設(shè)計(jì)方法一體的藥物發(fā)現(xiàn)系統(tǒng)。 在這家企業(yè)的背后,,其創(chuàng)始人裴劍鋒博士便是北大前沿交叉學(xué)科研究院定量生物學(xué)中心的研究員,,此外,其聯(lián)合創(chuàng)始人徐優(yōu)俊和張偉林也分別是北大前沿交叉學(xué)科研究院定量生物學(xué)中心的博士和整合生命科學(xué)博士,。 近日,,雷鋒網(wǎng)《醫(yī)健AI掘金志》以“AI制藥·下一個(gè)現(xiàn)象級(jí)賽道”為題,邀請(qǐng)華為云,、西湖歐米,、英飛智藥,、宇道生物,、燧坤智能五家AI制藥新秀,舉辦了一場(chǎng)線上云峰會(huì),。 作為此次活動(dòng)的演講嘉賓,,英飛智藥首席科學(xué)家張偉林,以《人工智能與新藥研發(fā)》為題,,對(duì)英飛智藥的管線布局,,以及AI平臺(tái)做了介紹。 張偉林表示,,最近幾年,,生命科學(xué)的一些原創(chuàng)性研究正在加速積累,包括靶標(biāo)機(jī)制,、新靶標(biāo)結(jié)構(gòu)以及檢測(cè)和表征方法,,都取得了突飛猛進(jìn)的進(jìn)展;而下游產(chǎn)業(yè)端也在愈發(fā)成熟,例如CRO,,就將許多任務(wù)做得非常優(yōu)秀,。 但醫(yī)藥行業(yè)目前還存在一個(gè)關(guān)鍵性問題,就是“新分子發(fā)現(xiàn)與轉(zhuǎn)化效率不足”,,也就是當(dāng)新靶標(biāo)還處于早期階段的時(shí)候,,很少有人真的敢去提前進(jìn)行布局。 這也導(dǎo)致我們?cè)瓌?chuàng)藥和醫(yī)藥產(chǎn)業(yè)整體處于落后地位,。一個(gè)藥物在臨床之前,,因?yàn)榛衔锝Y(jié)構(gòu)已經(jīng)確定,適應(yīng)癥也已經(jīng)確定,,所以藥物發(fā)現(xiàn)過程,,很大程度決定一個(gè)藥物能否上市,能否創(chuàng)造價(jià)值,,可以看做是整個(gè)行業(yè)最重要的命脈之一,。 藥物設(shè)計(jì)最重要就是要找到未被滿足的臨床需求。所謂臨床需求,,更多是要從患者角度來考慮,,做出來的藥物才能更有市場(chǎng),我們目標(biāo)具體定量來說,,就是縮短研發(fā)周期,,提高研發(fā)成功率。 對(duì)于分子對(duì)接來說,,首先需要準(zhǔn)備靶蛋白結(jié)構(gòu),。當(dāng)然生物體也有一個(gè)特質(zhì),就是同樣功能可能會(huì)有同樣折疊方式,,當(dāng)沒有蛋白結(jié)構(gòu)時(shí)候,,也可以通過同源模建把結(jié)構(gòu)模建出來(alphafold 2可以作到比較準(zhǔn)確的從頭預(yù)測(cè))。 接下來是結(jié)合位點(diǎn)確認(rèn),。在有的項(xiàng)目中,,已經(jīng)有復(fù)合物結(jié)構(gòu),也就明確了小分子結(jié)合位置,,可以設(shè)計(jì)一個(gè)更好結(jié)構(gòu),。 而有的時(shí)候,對(duì)于全新蛋白結(jié)構(gòu),,其實(shí)并不知道配體是什么,,這時(shí)就可以運(yùn)行位點(diǎn)探測(cè)程序,例如CavityPlus程序,,在表面進(jìn)行探索,。 接下來才是小分子對(duì)接,對(duì)接之后再對(duì)對(duì)接構(gòu)象進(jìn)行打分評(píng)價(jià),進(jìn)行體外細(xì)胞動(dòng)物實(shí)驗(yàn),。 在這里我對(duì)計(jì)算機(jī)輔助藥物設(shè)計(jì),,也就是傳統(tǒng)CADD和AIDD簡(jiǎn)單進(jìn)行一下比較。 CADD主要特點(diǎn)就是每一個(gè)工具和流程目標(biāo)比較明確,,而且通量整體也比較高,,底層有物理化學(xué)規(guī)則支持。 人工智能輔助計(jì)算(AIDD)就需要定義一個(gè)目標(biāo),,這個(gè)模型或者一套流程究竟要干什么,,這需要好好規(guī)劃,不然就會(huì)出現(xiàn)定義目標(biāo)對(duì)選擇框架太難的情況,,最后導(dǎo)致罷工,。 當(dāng)然AIDD最好特點(diǎn)就是超高通量,我們也曾經(jīng)做過超高通量實(shí)驗(yàn),,以分子對(duì)接數(shù)據(jù)為基礎(chǔ)訓(xùn)練機(jī)器體系模型,,發(fā)現(xiàn)這個(gè)模型速度能提高一百到二百倍,七八億量級(jí)數(shù)據(jù)庫,,大約半天就能完成初步篩選,。 以下是演講全部內(nèi)容,雷鋒網(wǎng)做了不改變?cè)獾恼砗途庉嫞?/strong> 首先感謝雷鋒網(wǎng)給我們提供一個(gè)和各位線上朋友進(jìn)行交流的機(jī)會(huì),。 首先介紹一下我自己,,我本科專業(yè)是北京大學(xué)化學(xué)系,主要做的是物理化學(xué),;幾年之后,,又在北京大學(xué)前沿交叉學(xué)科研究院完成博士學(xué)位,在北京大學(xué)化學(xué)系做博士后,。 2019年,,我和幾位創(chuàng)始人一起參與創(chuàng)立了英飛智藥。 英飛智藥擁有國內(nèi)非常領(lǐng)先的AI+CADD的開發(fā)團(tuán)隊(duì),之前做CADD已經(jīng)有大概20多年技術(shù)積累,。我們的團(tuán)隊(duì)是由AI驅(qū)動(dòng),CADD作為支持輔助,,一直在為新品種努力,,主要是目前針對(duì)未滿足的臨床需求,努力發(fā)展靶標(biāo)發(fā)現(xiàn)以及藥物發(fā)現(xiàn)的新方法,。 我們主要就是開發(fā)自主創(chuàng)新的藥品管線,,爭(zhēng)取獲得一個(gè)原始創(chuàng)新藥物,當(dāng)然我們也會(huì)為很多醫(yī)藥企業(yè)和研發(fā)機(jī)構(gòu)提供先進(jìn)的AI新藥研發(fā)技術(shù)服務(wù)和解決方案。 因?yàn)樽鰟?chuàng)新藥是一個(gè)非常復(fù)雜的過程,,所以在這個(gè)過程中要非常深入和謹(jǐn)慎的思考一些事情,,只有這樣創(chuàng)新藥物才能有可能做出來。 我們公司目前已經(jīng)完成Pre-A輪融資,,內(nèi)部平臺(tái)——智藥大腦也已經(jīng)上線,,它包括了30多個(gè)藥物設(shè)計(jì)的方法模塊,以及實(shí)用藥物設(shè)計(jì)流程,。 同時(shí)公司已經(jīng)開展自研創(chuàng)新候選藥研發(fā)5項(xiàng),,4項(xiàng)已經(jīng)完成設(shè)計(jì)工作,IIP-001A項(xiàng)目獲得與上市藥物可比的體外生物活性,,IIP-003A項(xiàng)目的第一輪化合物體外活性數(shù)據(jù),,接近或超過陽參活性數(shù)據(jù),我們還與多家機(jī)構(gòu)進(jìn)行早期創(chuàng)新藥物研發(fā)合作,。 今天晚上的報(bào)告大致包括以下內(nèi)容: 第一部分,,新藥研發(fā)的相關(guān)背景,; 第二部分,介紹人工智能應(yīng)用于早期藥物研發(fā)的方面,; 第三部分,,對(duì)人工智能如何推進(jìn)新藥研發(fā)做展望; 首先有一個(gè)問題,,我們?cè)谝粋€(gè)什么樣的時(shí)代,? 其實(shí)我們目前處于一個(gè)Deep Learning的時(shí)代,,當(dāng)它第一次出現(xiàn)的時(shí)候,大家還都會(huì)比較迷惑,。 自從上世紀(jì)1950年提出人工智能這個(gè)概念之后,,這個(gè)概念就一直往前發(fā)展,在1980年到2010年這段時(shí)間,,就變成了機(jī)器學(xué)習(xí),,并且在這個(gè)時(shí)期提出的許多比較先進(jìn)的機(jī)器學(xué)習(xí)算法,一直到現(xiàn)在還在使用,。 而Deep Learning進(jìn)入人們的視野是在2010年之后,,因?yàn)殡S著計(jì)算技術(shù)提高,我們有能力做更大規(guī)模計(jì)算,,同時(shí)我們也有更多的數(shù)據(jù),。 在更多數(shù)據(jù)面前很多以前l(fā)earning算法的速度達(dá)到上限,,而Deep Learning因?yàn)榧夹g(shù)本身的優(yōu)勢(shì),還能夠繼續(xù)往上提高速度,,我們目前就處于這個(gè)狀態(tài),。 接下來我們來認(rèn)真地想一想究竟什么是learning? 對(duì)于學(xué)習(xí),,我們可以很簡(jiǎn)單認(rèn)為,,學(xué)習(xí)就是學(xué)會(huì)在接受刺激的時(shí)候該如何正確地產(chǎn)生響應(yīng)。 例如開車過程,我們?cè)陂_車的時(shí)候,,會(huì)收到外界刺激信號(hào),,通過眼睛、耳朵以及身體去感受這些刺激信號(hào),,通過神經(jīng)系統(tǒng)進(jìn)行輸出,,最后用手和腳進(jìn)行響應(yīng)。 再比如自動(dòng)駕駛技術(shù),,實(shí)際上是利用技術(shù),,利用不同感受器、攝像頭,、雷達(dá)以及定位等,,讓車子知道自己在哪兒,以及所處的環(huán)境,,進(jìn)而用機(jī)械來響應(yīng),。 接下來看機(jī)器學(xué)習(xí),目前主流機(jī)器學(xué)習(xí)有三種分類: 第一種有監(jiān)督學(xué)習(xí),,就是對(duì)一個(gè)數(shù)據(jù)進(jìn)行連續(xù)數(shù)據(jù)映射和分類,。 在這種情況下,我們獲得的數(shù)據(jù)一般都是有標(biāo)簽的數(shù)據(jù),,實(shí)際就相當(dāng)于我們考試題有標(biāo)準(zhǔn)答案一樣,,需要建立這樣一個(gè)映射,能夠映射數(shù)據(jù)標(biāo)簽,。 第二種無監(jiān)督學(xué)習(xí),。無監(jiān)督學(xué)習(xí)在機(jī)器學(xué)習(xí)的時(shí)代比較有兩個(gè)比較著名的概念——聚類和降維,。 目前Deep Learning比較火熱就是生成模型,實(shí)際在無監(jiān)督學(xué)習(xí)中,,我們的數(shù)據(jù)是一些無標(biāo)簽數(shù)據(jù),,需要運(yùn)用一些概率統(tǒng)計(jì)算法,然后對(duì)這些數(shù)據(jù)底層固有結(jié)構(gòu)進(jìn)行學(xué)習(xí),,然后基于這樣固有結(jié)構(gòu),,進(jìn)行人為價(jià)值觀判斷,。 第三種強(qiáng)化學(xué)習(xí),。強(qiáng)化學(xué)習(xí)最重要的是與環(huán)境交互而獲得獎(jiǎng)勵(lì),,比如說下棋,通過與人或其他機(jī)器進(jìn)行對(duì)弈,,然后獲得獎(jiǎng)勵(lì),,獎(jiǎng)勵(lì)的標(biāo)準(zhǔn)可以就是這盤棋下贏了。 這里很重要的一點(diǎn)就是與環(huán)境交互數(shù)據(jù),,學(xué)習(xí)如何采取合理行動(dòng)來最大化獎(jiǎng)勵(lì),,所以在學(xué)習(xí)過程中,最重要一個(gè)問題就是要好好設(shè)定學(xué)習(xí)目標(biāo)到底是什么,。 如果一個(gè)目標(biāo)不切實(shí)際,,或者這個(gè)目標(biāo)和真實(shí)需求相差太遠(yuǎn),學(xué)習(xí)模型往往只是徒勞而無功,。 接下來簡(jiǎn)單說一下藥物研發(fā)背景,。 藥物研發(fā)從現(xiàn)有研發(fā)流程來看,,首先是要提出與疾病相關(guān)的靶標(biāo),再針對(duì)這些新靶標(biāo)開展下一步工作,,如果是小分子藥物,,就進(jìn)行先導(dǎo)發(fā)現(xiàn)過程,發(fā)現(xiàn)有潛在活性的小分子化合物,,這個(gè)時(shí)候,,是否能夠與靶標(biāo)結(jié)合往往是最重要一點(diǎn)。 當(dāng)把機(jī)制搞清楚之后,,就可以向下一步候選化合物階段發(fā)展,,一般是優(yōu)化小分子性質(zhì),例如生物活性,、藥代動(dòng)力學(xué)性質(zhì),、毒性安全性。 當(dāng)化合物基本比較安全,,性質(zhì)也非常好之后,,就可以開始往臨床進(jìn)行推;經(jīng)過臨床實(shí)驗(yàn)后,,將化合物最終推向市場(chǎng),。 這樣一套流程,最大特點(diǎn)就是研發(fā)周期長,,費(fèi)用也比較高,,回報(bào)相對(duì)也比較高,。 但在許多情況下,這樣流程還有一些不足,,例如應(yīng)對(duì)突發(fā)傳染性疾病,,在這種情況下,如果沒有預(yù)先準(zhǔn)備,,完全按照這一套來做,,就會(huì)很慢。 我們作為一個(gè)國內(nèi)的公司,,自然要看一看國內(nèi)新藥研發(fā)的一個(gè)現(xiàn)狀,,目前國家生物醫(yī)藥資源實(shí)際上是非常豐富的,市場(chǎng)也是非常廣闊的,。 這幾年,,上游生命科學(xué)的一些原創(chuàng)性研究正在加速積累,包括一些新靶標(biāo),、新靶標(biāo)機(jī)制,、新靶標(biāo)結(jié)構(gòu)以及一些非常優(yōu)秀的檢測(cè)方法表征方法都在很快的積累,下游工業(yè)化工作,,例如CRO也日趨成熟,,能夠?qū)⒔淮娜蝿?wù)做得非常好。 但目前仍有一個(gè)關(guān)鍵問題新分子發(fā)現(xiàn)與轉(zhuǎn)化效率不足,,也就是對(duì)于新靶標(biāo),,還很少有人敢去提前布局,新分子發(fā)現(xiàn)和轉(zhuǎn)化效率仍然還是有所欠缺,。 藥物發(fā)展過程這張圖大家都見過,,實(shí)際是一個(gè)漫長的流程,,算上生物過程,前期就需要3-7年,。 一般得到候選化合物再往下走,,從臨床前實(shí)驗(yàn)到臨床試驗(yàn),都需要漫長的觀察期,,才能最終上市,。 我們的創(chuàng)始人裴劍鋒也曾提到過,一個(gè)藥物在上臨床的之前,,因?yàn)檫@個(gè)化合物結(jié)構(gòu)已經(jīng)確定,,要治的適應(yīng)癥也已經(jīng)確定了,所以藥物發(fā)現(xiàn)的過程其實(shí)就很大程度上決定了一個(gè)藥物能否上市,,所以精準(zhǔn)的藥物設(shè)計(jì)工作是要在非常早期就進(jìn)行規(guī)劃,。 藥物設(shè)計(jì)最重要就是要找到未被滿足的臨床需求,。所謂臨床需求,,更多是要從患者角度來考慮,,做出來的藥物才能更有市場(chǎng),,我們目標(biāo)具體定量來說,就是縮短研發(fā)周期,,提高研發(fā)成功率,。 藥物設(shè)計(jì)有以下的一些主要方向: 第一,要找到創(chuàng)新靶標(biāo)與創(chuàng)新藥物,,實(shí)際上這是一種對(duì)疾病的理解,; 第二,作用機(jī)理要明確,,如果作用機(jī)理不明確,,很有可能藥上了市后,出現(xiàn)意想不到的副作用,; 第三,,就是獲取苗頭化合物和先導(dǎo)化合物; 第四,,優(yōu)化先導(dǎo)化合物,,這是目前大家都能看到的。 我們的智藥大腦,,實(shí)際是需要結(jié)合專家經(jīng)驗(yàn)與先進(jìn)人工智能,、CADD技術(shù)以及各種藥物信息技術(shù),來幫助新靶標(biāo)發(fā)現(xiàn)以及藥物發(fā)現(xiàn),,來最終驅(qū)動(dòng)原始藥物,。 在這個(gè)過程中,要嚴(yán)守物理化學(xué)科學(xué)規(guī)則,,并發(fā)揮想象力才能更快成功,。 下面來介紹一個(gè)常見的例子,,即基于受體結(jié)構(gòu)的藥物設(shè)計(jì)。 這里需要提一下鎖鑰模型概念:鎖鑰模型就是小分子化合物結(jié)合到蛋白表面的一個(gè)口袋,,它們是一種互補(bǔ)的關(guān)系,,可以通過晶體結(jié)構(gòu)來獲得一個(gè)復(fù)合物。 這個(gè)過程中,,我們會(huì)抽象出一系列重要相互作用,,再依據(jù)這些相互作用尋找新分子,。這些重要相互作用表征得更好,那么設(shè)計(jì)效果也就越好,。 對(duì)于分子對(duì)接來說,,首先需要準(zhǔn)備靶蛋白結(jié)構(gòu),。當(dāng)然生物體也有一個(gè)特質(zhì),就是同樣功能可能會(huì)有同樣折疊方式,,當(dāng)沒有蛋白結(jié)構(gòu)時(shí)候,,也可以通過同源模建把結(jié)構(gòu)模建出來(alphafold 2可以作到比較準(zhǔn)確的從頭預(yù)測(cè))。 接下來是結(jié)合位點(diǎn)確認(rèn),。在有的項(xiàng)目中,,已經(jīng)有復(fù)合物結(jié)構(gòu),也就明確了小分子結(jié)合位置,,可以設(shè)計(jì)一個(gè)更好結(jié)構(gòu),。 而有的時(shí)候,對(duì)于全新蛋白結(jié)構(gòu),,其實(shí)并不知道配體是什么,,這時(shí)就可以運(yùn)行位點(diǎn)探測(cè)程序,例如CavityPlus程序,,在表面進(jìn)行探索,。 接下來才是小分子對(duì)接,對(duì)接之后再對(duì)對(duì)接構(gòu)象進(jìn)行打分評(píng)價(jià),,進(jìn)行體外細(xì)胞動(dòng)物實(shí)驗(yàn),。 在這里我對(duì)計(jì)算機(jī)輔助藥物設(shè)計(jì),也就是傳統(tǒng)CADD和AIDD簡(jiǎn)單進(jìn)行一下比較,。 CADD主要特點(diǎn)就是每一個(gè)工具和流程目標(biāo)比較明確,,而且通量整體也比較高,底層有物理化學(xué)規(guī)則支持,。 人工智能輔助計(jì)算(AIDD)就需要定義一個(gè)目標(biāo),,這個(gè)模型或者一套流程究竟要干什么,這需要好好規(guī)劃,,不然就會(huì)出現(xiàn)定義目標(biāo)對(duì)選擇框架太難的情況,,最后導(dǎo)致罷工。 當(dāng)然AIDD最好特點(diǎn)就是超高通量,,我們也曾經(jīng)做過超高通量實(shí)驗(yàn),,以分子對(duì)接數(shù)據(jù)為基礎(chǔ)訓(xùn)練機(jī)器體系模型,發(fā)現(xiàn)這個(gè)模型速度能提高一百到二百倍,七八億量級(jí)數(shù)據(jù)庫,,大約半天就能完成初步篩選,。 AI模型能夠涵蓋很多其他因素,而這些涵蓋的這么多其他因素,,如果直接編程,,代碼量會(huì)非常恐怖,。所以,,現(xiàn)階段CADD和AIDD基本一起使用,才能夠帶來更好效果,。 接下來介紹一個(gè)比較工具,,這是多維度配體的虛擬篩選。 我們把這部分放在先導(dǎo)優(yōu)化步驟,,其實(shí)本身也是有爭(zhēng)議的,,因?yàn)樗鼞?yīng)該是介于發(fā)現(xiàn)與優(yōu)化之間的這么一個(gè)工具,我們就先簡(jiǎn)單把它歸在先導(dǎo)優(yōu)化這里來,。 簡(jiǎn)單說一下基于配體的虛擬技術(shù),。 基于配體的虛擬篩選技術(shù)和我剛才講的基于受體結(jié)構(gòu)不太一樣,這里實(shí)際上有一個(gè)假設(shè):就是相似配體可以結(jié)合在相似口袋當(dāng)中,,也就是有可能鑰匙不是原配鑰匙,,但也能開這把鎖。 基于配體虛擬篩選技術(shù)的一個(gè)核心概念就是:相似分子需要相似性質(zhì),這涉及分子表征問題,,即如何說明兩個(gè)分子很像,。 目前主流技術(shù)上會(huì)做分子描述符、二維分子表征和三維分子表征,,核心就是度量問題,。 分子描述符分為定量和定性兩方面描述一個(gè)分子,。 其中有很多性質(zhì)可以來描述兩個(gè)分子是否相同:例如最基礎(chǔ)可以通過實(shí)驗(yàn)表征,比如光譜數(shù)據(jù)比較像不像,,然后從結(jié)構(gòu)式上就能看出氫鍵供體數(shù)目,,物理化學(xué)性質(zhì)。 對(duì)于二維分子表征,,二維分子指紋是其關(guān)鍵特征,大概有幾種類型: 第一,,按照路徑把它看成一個(gè)圖,,就像一筆畫一樣從一個(gè)點(diǎn)到另一個(gè)點(diǎn),走怎樣路徑,; 第二,,就像剝洋蔥一樣,以一個(gè)點(diǎn)為中心在它周圍畫圈,,再使用哈希方式對(duì)它進(jìn)行指紋化處理,; 第三,用一些方式直接找其中關(guān)鍵結(jié)構(gòu),; 第四,,藥效團(tuán),它實(shí)際上更多的是把分子性質(zhì)作為一個(gè)散列化處理,。 除了二維指紋之外,,目前也有人去設(shè)計(jì)三維分子指紋,,三維分子指紋相比二維來說就會(huì)復(fù)雜一些。因?yàn)榉肿尤S構(gòu)象還比較多變,,所以三維指紋目前用的還不如二維指紋多,。 總結(jié)來說,,AI多維度配體虛擬篩選,其實(shí)還有很多應(yīng)用場(chǎng)景,。 例如細(xì)胞實(shí)驗(yàn),,它可能比分子實(shí)驗(yàn)或生化實(shí)驗(yàn)更早建立體系,可以進(jìn)行高通量篩選獲得活性小分子,,這可能并沒有確定靶標(biāo)或只有假設(shè)靶標(biāo),,對(duì)于比較感興趣的小分子,會(huì)進(jìn)一步在大庫里搜索,。 這個(gè)時(shí)候如果用對(duì)接搜索,,計(jì)算量會(huì)非常大,所以直接用基于配體搜索,,就像我們用搜索引擎一樣把它變成字符串搜索,,就能很快得到相關(guān)度最高分子,。 這是我們和合作者在去年發(fā)表的一篇綜述,,里面對(duì)一些分子指紋和基于配體的虛擬篩選提供一些總結(jié),大家可以參考一下,。 這是在我們平臺(tái)上做的實(shí)現(xiàn),,我簡(jiǎn)單介紹一下流程,。 這是非常常見的場(chǎng)景,例如我們?cè)谧x文獻(xiàn)的時(shí)候,,發(fā)現(xiàn)一個(gè)化合物很不錯(cuò),,這時(shí)就可以通過截圖方式把它用AI方式直接識(shí)別成一個(gè)計(jì)算機(jī)可讀的分子格式,然后直接提交多維相似性搜索,,最后對(duì)搜索結(jié)果用AI模型進(jìn)行全面性質(zhì)評(píng)估,。 這個(gè)過程非常友好,因?yàn)槲覀冊(cè)谧x文獻(xiàn)的時(shí)候突然來了一個(gè)靈感,,但非常不想打斷靈感打開軟件一點(diǎn)點(diǎn)畫出來,,只想趕緊知道究竟有哪些與它相似分子,在這個(gè)平臺(tái)可以得到很快驗(yàn)證,。 我們的多維相似性搜索,提供了一共7個(gè)維度來做這個(gè)事情,。 為什么目前提供7個(gè)維度呢,,因?yàn)槲覀円彩亲隽四P蛅raining和調(diào)整,讓函數(shù)整體表示相對(duì)比較平滑,,不會(huì)出現(xiàn)分子指紋斷層問題,。 說完了基于配體的虛擬篩選,,我們?cè)賮碇v一下基于受體的分子生成。 分子生成是目前人工智能主要的發(fā)力點(diǎn),,不管是有監(jiān)督和無監(jiān)督學(xué)習(xí)還是強(qiáng)化學(xué)習(xí),,都會(huì)在這些上面進(jìn)行發(fā)力。 因?yàn)榉肿由墒腔谝延蟹肿咏Y(jié)構(gòu),、已有活性,,然后學(xué)習(xí)它們的性質(zhì),在這個(gè)空間附近擾動(dòng),,獲得新分子,,這種情況下主要利用配體信息,也就是利用鑰匙信息。 當(dāng)然更多情況下,,我們也可以利用鎖信息,,也就是利用受體信息對(duì)空間進(jìn)行限制。 化合物空間實(shí)際上可能有1064之多,,但真正針對(duì)到某一個(gè)體系肯定不會(huì)有那么多,,受體信息確定后,空間將被大幅縮小,。 左邊程序叫LigBuilder,,是我們以前做基于片段的全新藥物設(shè)計(jì)程序,它能夠在完成全新藥物設(shè)計(jì)以及多目標(biāo)優(yōu)化的同時(shí),,產(chǎn)生類藥性很好,,可合成性高的虛擬庫。 右邊是AI分子逆合成分析,,是我們基于AI模型開發(fā)的逆合成方法,,如果使用AI逆合成方式,結(jié)合全新藥物設(shè)計(jì),,它的計(jì)算效率會(huì)有很好提高,。 這個(gè)流程我簡(jiǎn)單說一下,,這基本上就是我們分子生成的設(shè)計(jì)流程。 一般我們會(huì)根據(jù)項(xiàng)目需求,,假設(shè)我們選擇了進(jìn)行基于結(jié)構(gòu)靶標(biāo)生成,,就會(huì)先進(jìn)行一輪生成,然后再基于活性進(jìn)行優(yōu)化,,優(yōu)化之后還要對(duì)它進(jìn)行綜合評(píng)估,。 就像我們前面說的AI模型對(duì)于ADMET藥物性質(zhì)預(yù)測(cè)以及毒性預(yù)測(cè),已經(jīng)有比較好的效果,。 基于現(xiàn)有數(shù)據(jù)對(duì)其中毒性片段會(huì)發(fā)出一些警示信息,;對(duì)于某些影響性質(zhì)片段也能夠做一定指示。 總體來說,,我們希望能夠在項(xiàng)目早期得到性質(zhì)比較好的分子,,對(duì)后面一系列實(shí)驗(yàn)會(huì)有很大幫助。 我簡(jiǎn)單介紹一下我們平臺(tái)智藥大腦。這個(gè)平臺(tái)目前有很多個(gè)工具組成,,需要CADD,、AI,、藥物化學(xué)家、藥理,,還有生物靶標(biāo)上游很多知識(shí)匯集,。智藥大腦本身是為大家提供了平臺(tái)對(duì)話工具,是真正用AI來驅(qū)動(dòng)研發(fā),。 接下來我來說一下我的看法,。 首先,,AI輔助藥物設(shè)計(jì)這件事情,目前肯定是正在開啟一個(gè)新的時(shí)代,,它肯定能夠讓藥物的研發(fā)更快,,成本更低,效率更高,,尤其是去年AlphaGo2橫空出世,,確實(shí)也給我們很大震撼,真的覺得AI能夠幫到藥物研發(fā),。 其次,,制藥工業(yè)在我們國家確實(shí)是進(jìn)入換擋提速的過程,我們也緊跟國外創(chuàng)新藥先進(jìn)治療方法,,有些時(shí)候甚至是需要提前布局,。 但目前AI還有很多問題,對(duì)于AI輔助藥物設(shè)計(jì)這種方法以及實(shí)用性仍還存在問題,。諸多瓶頸問題依然限制著AI方法和技術(shù)在創(chuàng)新藥物研發(fā)中的應(yīng)用,,目前多數(shù)AI輔助藥物設(shè)計(jì)方法和系統(tǒng)的實(shí)用性仍需努力。 智藥大腦最后完成之后,,還需要大家一起來評(píng)價(jià),不是簡(jiǎn)單的AI模型堆砌,,而是針對(duì)實(shí)際新藥研發(fā)問題應(yīng)用場(chǎng)景,,開發(fā)和整合多個(gè)底層AI藥物研發(fā)工具和工作流程。 它本身就是集成了很多業(yè)界認(rèn)可的一個(gè)藥物設(shè)計(jì)工具,,底層很強(qiáng)調(diào)基于物理原理的科學(xué)解釋和對(duì)生物學(xué)機(jī)制的理解,。 我們也希望智藥大腦能夠已經(jīng)被業(yè)界認(rèn)可的計(jì)算機(jī)輔助藥物設(shè)計(jì)工具,提供基于物理原理的解釋,,為醫(yī)藥企業(yè)和藥物研發(fā)機(jī)構(gòu)研發(fā)自主知識(shí)產(chǎn)權(quán)創(chuàng)新藥物提供完整實(shí)用的解決方案,。 最后是整體總結(jié)和展望,。 藥物研發(fā)本身肯定是非常復(fù)雜極具挑戰(zhàn)的過程,,因?yàn)橹芷诒容^長,所以這個(gè)過程中任何一個(gè)失敗都很難接受,。所以AI的技術(shù)發(fā)展,,為整個(gè)制藥行業(yè)提供了一個(gè)新的機(jī)遇,當(dāng)然挑戰(zhàn)也是有的,。 目前來看,,主要就是在每一個(gè)環(huán)節(jié)和模塊上,都有很高不確定性,,對(duì)這些不確定性,,我們能夠提供更多證據(jù)鏈來盡可能降低不確定性,例如:
Q&A問答環(huán)節(jié)Q1:請(qǐng)教一下,,您覺得目前做業(yè)務(wù)的核心壁壘在哪里,? 張偉林:我們國家最近也在做交叉學(xué)科的布局,以前我們交叉學(xué)科研究院已經(jīng)有過一些實(shí)踐,。 其實(shí)不同領(lǐng)域的人面對(duì)的問題難點(diǎn)是不一樣的,。 比如我以前是做計(jì)算模擬,其實(shí)到現(xiàn)在還是覺得有些IT問題對(duì)我來說是一個(gè)問題,,但這些問題對(duì)于IT專業(yè)人員來說覺得不是問題,。 Q2:AI發(fā)現(xiàn)出來的藥物最大的難點(diǎn)是在分子合成砌塊? 張偉林:我覺得這不一定是最大難點(diǎn),,因?yàn)榭梢越Y(jié)合比較簡(jiǎn)單反應(yīng)來做,,這一點(diǎn)我們和有機(jī)化學(xué)家如果能夠有充分合作,和他們進(jìn)行交流,,有機(jī)合成到底應(yīng)該是怎么做,。 以前都是從前往后設(shè)計(jì),到最后反饋合成出問題就前功盡棄,,對(duì)于寫算法的人來說,,他可能沒有專業(yè)知識(shí),他沒寫這些限制,,所以最后就會(huì)出問題,,所以分子合成砌塊我覺得并不一定是最大的難點(diǎn),但確實(shí)是一個(gè)比較重要的點(diǎn),。 Q3:如何看待AI用于晶型預(yù)測(cè)劑型這兩個(gè)環(huán)節(jié)的價(jià)值,? 張偉林:還是非常有價(jià)值的,,因?yàn)榫皖A(yù)測(cè)和劑型預(yù)測(cè),以前只能通過實(shí)驗(yàn)來做,,但目前這個(gè)領(lǐng)域可以用AI來進(jìn)行處理,。 晶型其實(shí)定義更廣泛一些來說,它其實(shí)是材料范疇,,物理化學(xué)規(guī)則更嚴(yán),,所以說它能夠獲得很好數(shù)據(jù),也能夠很好反饋到上游,。 Q4:用AI篩選的藥物如何平衡活性與毒性,? 張偉林:這件事情我們可以做這樣一個(gè)假定,假定靶標(biāo)本身沒那么大毒性,。 因?yàn)榈袠?biāo)處在復(fù)雜的生物網(wǎng)絡(luò)中,,那么稍微干預(yù)一下靶標(biāo),可能整個(gè)網(wǎng)絡(luò)系統(tǒng)都?jí)牧?,這也就意味這個(gè)靶標(biāo)毒性很高,,那治療窗口就比較窄,這種情況下有可能應(yīng)該換靶標(biāo)或者使用靶標(biāo)組合,。 所以如果靶標(biāo)選的好,,它的治療窗口就會(huì)比較寬,活性和毒性平衡也就會(huì)比較容易,,所以靶標(biāo)一定要慎重考慮好好選擇,。 Q5:AI研發(fā)到達(dá)成熟估計(jì)得多久? 張偉林:這個(gè)問題其實(shí)很難回答,,因?yàn)楸热绯醮鶤lpha fold跟同期一些程序相比優(yōu)勢(shì)還不是特別明顯,,但到下一代集成很多專家、數(shù)據(jù)以及算力之后,,就達(dá)到非常高的水平,。 這其實(shí)是一個(gè)迭代過程,所需要用到的資源可能不是一個(gè)小單位能夠負(fù)擔(dān)得起,,當(dāng)然目前國內(nèi)一些課題組做得都非常好,,也開發(fā)出一些非常先進(jìn)的工具,但我們還需要繼續(xù)向人學(xué)習(xí),。 我舉個(gè)簡(jiǎn)單例子,雖然Alpha fold2對(duì)于一些本身結(jié)構(gòu)比較好的蛋白,,它已經(jīng)能夠做一個(gè)預(yù)測(cè),,但要說真的解決結(jié)構(gòu)問題,還需要做實(shí)驗(yàn),。 所以AI藥物研發(fā)達(dá)到成熟需要多久,,我覺得會(huì)一直在路上,,因?yàn)楝F(xiàn)在一些算法本身到了一定程度以后就不更新,可能就需要等它成熟以后,,五年甚至十年才能知道這件事情,,來告訴我們答案。 Q6:AI研發(fā)的原始數(shù)據(jù)獲取來源都有哪些,? 張偉林:還是很多數(shù)據(jù)來源的,,例如公開數(shù)據(jù)來源、自有數(shù)據(jù)來源等都很重要,,但最重要還是如何理解這些數(shù)據(jù)質(zhì)量控制,,質(zhì)量控制是最重要保證。 如果一個(gè)數(shù)據(jù)量很大,,里面什么數(shù)據(jù)都有,,例如在某一個(gè)靶標(biāo)活性里面,把各種各樣?xùn)|西甚至是沒法比較東西都放在一起就會(huì)很麻煩,。 Q7:AI平臺(tái)physics-based modeling比較其他模型有什么優(yōu)勢(shì)呢,? 張偉林:AI平臺(tái)操作里一個(gè)特點(diǎn)就是有物理原理在里面之后,其實(shí)可以通過其他物理原理來對(duì)它進(jìn)行檢驗(yàn),,也就是可解釋性是非常好,,這是physics-based modeling本身的一個(gè)特質(zhì)。如果別的AI模型,,具有理解這種底層進(jìn)行劃分的話,,同樣可以很好。 Q8:英飛目前有哪些產(chǎn)品和管線呢,? 張偉林:目前我們的產(chǎn)品主要是智藥大腦這個(gè)平臺(tái),,供內(nèi)部使用,也相當(dāng)于是不斷打磨內(nèi)測(cè)過程,;然后還和我們一些合作伙伴進(jìn)行應(yīng)用場(chǎng)景探討,。 Q9:請(qǐng)問英飛有大分子藥物的管線嗎? 張偉林:我們主要部署管線是抗病毒癌癥方向,,當(dāng)然大分子也有很多好處,,大分子本身特異性還蠻好的,如果我們經(jīng)費(fèi)再高一點(diǎn),,計(jì)算資源多一點(diǎn),,大分子藥物我們也會(huì)考慮去做,但目前我們并沒有計(jì)劃在大分子藥物上進(jìn)行布局,。 Q10:我是在校計(jì)算化學(xué)學(xué)生,,最近也在自學(xué)CS,您介紹基于配體分子篩選-多維度相似性搜索,,其中將文獻(xiàn)中結(jié)構(gòu)式識(shí)別成電腦能懂的語言,,是需要通過圖像識(shí)別算法去實(shí)現(xiàn)嗎,? 張偉林:覺得廣義上主要看你想怎么做,就是具體用什么算法來實(shí)現(xiàn)這個(gè)目的,,而且還是要看算法能不能滿足最終目的,。 圖像識(shí)別算法實(shí)際上是可以的,就是文獻(xiàn)結(jié)構(gòu)中識(shí)別為電腦能懂的,,圖像識(shí)別還是個(gè)蠻不錯(cuò)的算法,,因?yàn)榭山忉屝愿谩?/p> Q11:請(qǐng)問像英飛這樣的AI輔助藥物研發(fā)公司的商業(yè)模式是怎樣的? 張偉林:主要商業(yè)模式是這樣,,我剛才提到我們是以創(chuàng)新藥為最終目標(biāo),,所以我們致力于開發(fā)一個(gè)用AI技術(shù)平臺(tái),基于平臺(tái)驅(qū)動(dòng)開發(fā)創(chuàng)新藥物產(chǎn)品管線,。 但新藥研發(fā)的流程很長,,所以也會(huì)和其它單位進(jìn)行合作,大家一起做確實(shí)能夠形成優(yōu)勢(shì)互補(bǔ),。 Q12:請(qǐng)問在治療疾病方面,,大分子藥物與小分子藥物哪種應(yīng)用更廣?哪種更有前景,? 張偉林:治療疾病這件事有時(shí)候診斷更重要,,因?yàn)樵\斷對(duì)了之后,用對(duì)了藥才會(huì)有實(shí)際效果,,如果診斷不對(duì)的話,,實(shí)際很難講存活率和效果。 例如癌癥5年存活率,,例如PD1響應(yīng)率,,這些成功率都還在于對(duì)疾病機(jī)理的理解,也就是一個(gè)疾病還沒有清楚原因的時(shí)候,,很難講選擇什么樣的路徑,。 但大分子本身就是因?yàn)楸旧肀容^大,性質(zhì)比較穩(wěn)定,,所以基礎(chǔ)性質(zhì)比較好,,小分子好處在于生產(chǎn)比較容易,保存比較方便,,所以很難講哪個(gè)更有前景,,應(yīng)該是并重的。 |
|