2016年3月13日深夜,,氣溫相當(dāng)寒冷,,兩名男子頭戴羊毛帽,身穿厚厚的外套,,并肩走過韓國首爾市中心擁擠的街道,。 二人熱烈地交談著,似乎完全忽視了路旁餃子館和燒烤店的誘惑,。他們此行韓國肩負(fù)重任,,多年的努力終于能夠看到結(jié)果。最棒的是,,他們剛剛成功了,。 這次散步是為了慶祝。他們?nèi)〉玫某删蛯⑦M(jìn)一步鞏固他們在計(jì)算機(jī)史上的地位,。 在古老的戰(zhàn)略游戲圍棋領(lǐng)域里,,他們開發(fā)的人工智能軟件已經(jīng)充分掌握了個中奧秘,而且輕松擊敗了全球頂尖選手李世石,。如今,,兩人開始討論下一個目標(biāo),身后跟蹤的紀(jì)錄片攝制組捕捉到了當(dāng)時的談話,。 “告訴你,,我們可以解決蛋白質(zhì)折疊問題?!钡旅姿埂す_比斯對同伴大衛(wèi)·西爾弗說,。“那才是大成就,。我相信現(xiàn)在能夠去做了,。以前我只是想過,現(xiàn)在肯定可以做成,?!?/p> 計(jì)算機(jī)生成與新冠病毒相關(guān)的蛋白質(zhì)ORF8圖像,。圖像由DeepMind開發(fā)的人工智能系統(tǒng)支持繪制,。圖片來源:COURTESY OF DEEPMIND 哈薩比斯是總部位于倫敦的人工智能公司DeepMind的聯(lián)合創(chuàng)始人及首席執(zhí)行官,正是該公司開發(fā)出了AlphaGo(阿爾法狗),。西爾弗則是DeepMind的計(jì)算機(jī)科學(xué)家,,負(fù)責(zé)領(lǐng)導(dǎo)AlphaGo團(tuán)隊(duì),。 四年后,DeepMind實(shí)現(xiàn)了當(dāng)年哈薩比斯在首爾散步時的設(shè)想,。公司開發(fā)出了人工智能系統(tǒng),,能夠根據(jù)基因序列來預(yù)測蛋白質(zhì)的復(fù)雜形狀,精確到單個原子寬度,。靠著這項(xiàng)成就,,DeepMind完成了一項(xiàng)近50年才能完成的科學(xué)探索。 1972年,,化學(xué)家克里斯蒂安·安芬森在諾貝爾獎獲獎演說中提出,,只有DNA才可以完全決定蛋白質(zhì)的最終結(jié)構(gòu)。這是驚人的猜想,。當(dāng)時連一個基因組都未完成測序,。 安芬森的理論開創(chuàng)了計(jì)算生物學(xué)的分支,目標(biāo)是用復(fù)雜的數(shù)學(xué)模擬蛋白質(zhì)結(jié)構(gòu),,而不是實(shí)驗(yàn),。 DeepMind在圍棋方面取得的成就確實(shí)很重要,但在圍棋和計(jì)算機(jī)科學(xué)這兩個相對偏僻的領(lǐng)域之外,,幾乎沒有產(chǎn)生什么具體影響,。 解決蛋白質(zhì)折疊問題則完全不同,對大多數(shù)人來說都有變革意義,。蛋白質(zhì)是生命的基本組成部分,,也是大多數(shù)生物過程背后的運(yùn)行機(jī)制。如果能夠預(yù)測蛋白質(zhì)的結(jié)構(gòu),,將徹底改變?nèi)藗儗膊〉睦斫?,還可以為癌癥和老年癡呆癥等各種疾病開發(fā)全新也更具針對性的藥物。新藥上市時間有望加快,,這項(xiàng)成就可能會節(jié)省藥物研發(fā)時間和數(shù)億美元的開發(fā)成本,,還可能會拯救很多生命。 DeepMind的聯(lián)合創(chuàng)始人及首席執(zhí)行官德米斯·哈薩比斯,。他早年癡迷國際象棋和電子游戲設(shè)計(jì),后來對開發(fā)人工智能系統(tǒng)產(chǎn)生興趣,。圖片來源:Courtesy of DeepMind DeepMind首創(chuàng)的新方法在抗擊SARS-CoV-2(也就是新冠病毒)的斗爭中已經(jīng)取得成果,。 接下來是這家以游戲而知名的公司,如何揭開生物學(xué)最大秘密的故事,。 ////////// 形狀莫測的積木 “蛋白質(zhì)是細(xì)胞的主要機(jī)器,。”加州大學(xué)伯克利分校的生物工程教授伊恩·霍姆斯表示。 蛋白質(zhì)的結(jié)構(gòu)和形狀對其工作方式至關(guān)重要,,構(gòu)成蛋白質(zhì)分子晶格的小“口袋”是發(fā)生各種化學(xué)反應(yīng)的地方,。如果能夠找到某種化學(xué)物質(zhì)與其中一個口袋結(jié)合,這種物質(zhì)就可以作為藥物阻止或加速生物過程,。生物工程師還能夠創(chuàng)造出自然界中從未出現(xiàn)的全新蛋白質(zhì),,而且具有獨(dú)特的療效。 “如果我們可以利用蛋白質(zhì)的力量,,合理地設(shè)計(jì)用途,就能夠制造出神奇的自我組裝機(jī)器,,使其發(fā)揮一些作用,。”霍姆斯說,。 但為了確保蛋白質(zhì)達(dá)到想要的效果,,把握其形狀很重要。 蛋白質(zhì)由氨基酸鏈組成,,常被比作細(xì)繩上的珠子,。至于珠子按照什么順序穿起來,信息都存儲在DNA里,。 但是,,根據(jù)簡單的基因指令很難預(yù)測完整的鏈條會形成多復(fù)雜的物理形狀。氨基酸鏈根據(jù)分子間吸引和排斥的電化學(xué)規(guī)則折疊成某種結(jié)構(gòu),。形狀常常類似繩索和絲帶纏繞而成的抽象雕塑:褶皺的帶狀物加上莫比烏斯帶,,就像卷曲環(huán)狀的螺旋。 20世紀(jì)60年代,,物理學(xué)家和分子生物學(xué)家塞勒斯·列文塔爾發(fā)現(xiàn),,一種蛋白質(zhì)的形狀有太多可能性。如果想通過隨機(jī)嘗試組合找出蛋白質(zhì)的準(zhǔn)確結(jié)構(gòu),,花的時間比已知宇宙的年齡還長,。而且,幾毫秒內(nèi)蛋白質(zhì)就會完成折疊,。該觀察被稱為列文塔爾悖論,。 到目前為止,只有通過所謂X射線晶體衍射才可以接近準(zhǔn)確了解蛋白質(zhì)的結(jié)構(gòu),。顧名思義,,首先需要將含有數(shù)百萬蛋白質(zhì)的溶液轉(zhuǎn)化為晶體,本身就是很復(fù)雜的化學(xué)過程,。然后,,X射線發(fā)射到晶體上,科學(xué)家從獲得的衍射圖逆向工作,從而建立蛋白質(zhì)圖像,。而且,,還不是隨便什么X射線都可以。要想獲得很多蛋白質(zhì)的結(jié)構(gòu),,要由圓形的,,大小堪比體育場的同步加速器發(fā)射X射線。 過程既昂貴又耗時,。 根據(jù)多倫多大學(xué)(University of Toronto)的研究人員估計(jì),,用X射線晶體衍射法測定單個蛋白質(zhì)的結(jié)構(gòu)需要約12個月,花費(fèi)約12萬美元,。已知的蛋白質(zhì)超過2億種,,每年大約能夠發(fā)現(xiàn)3000萬種,但其中只有不到20萬種蛋白質(zhì)通過X射線晶體衍射或其他實(shí)驗(yàn)方法繪制出了結(jié)構(gòu)圖,。 “人類的無知程度正在迅速增長,。”計(jì)算物理學(xué)家約翰·喬普說,,現(xiàn)在他擔(dān)任DeepMind的高級研究員,,負(fù)責(zé)領(lǐng)導(dǎo)蛋白質(zhì)折疊團(tuán)隊(duì)。 過去50年里,,自從克里斯蒂安·安芬森發(fā)表著名演講以來,,科學(xué)家們一直努力使用高性能計(jì)算機(jī)上運(yùn)行的復(fù)雜數(shù)學(xué)模型加速分析蛋白質(zhì)結(jié)構(gòu)。 “基本上就是嘗試在計(jì)算機(jī)里創(chuàng)建蛋白質(zhì)的數(shù)字雙胞胎,,然后嘗試操作,。”馬里蘭大學(xué)的細(xì)胞生物學(xué)和分子遺傳學(xué)教授約翰·穆爾特說,,他也是用數(shù)學(xué)算法通過DNA序列預(yù)測蛋白質(zhì)結(jié)構(gòu)的先驅(qū),。 問題是,預(yù)測出的折疊模式經(jīng)常有誤,,與科學(xué)家通過X射線晶體衍射發(fā)現(xiàn)的結(jié)構(gòu)并不一致,。事實(shí)上大約10年前,很少有模型預(yù)測大蛋白質(zhì)形狀時準(zhǔn)確率可以超過三分之一,。 蛋白質(zhì)折疊模擬要占用龐大的算力,。2000年,研究人員創(chuàng)建了名叫Fold@home的“公民科學(xué)”項(xiàng)目,,人們能夠捐出個人電腦和游戲機(jī)的閑置處理能力運(yùn)行蛋白質(zhì)折疊模擬,。所有設(shè)備通過互聯(lián)網(wǎng)連接在一起,從而打造全世界最強(qiáng)大的虛擬超級計(jì)算機(jī)之一,。大家都希望幫研究人員擺脫列文塔爾悖論,,通過隨機(jī)實(shí)驗(yàn)和試錯準(zhǔn)確判斷蛋白質(zhì)的結(jié)構(gòu)。 目前該項(xiàng)目仍然在進(jìn)行中,已經(jīng)為超過225篇論文提供了數(shù)據(jù),,研究內(nèi)容是與多種疾病相關(guān)的蛋白質(zhì),。 盡管擁有強(qiáng)大的處理能力,F(xiàn)old@home仍然深陷列文塔爾悖論,,因?yàn)樗惴ㄔ噲D搜索所有可能的排列,,從而找到蛋白質(zhì)結(jié)構(gòu)。破解蛋白質(zhì)折疊的關(guān)鍵在于跳過艱苦搜索的過程,,發(fā)現(xiàn)蛋白質(zhì)DNA序列與結(jié)構(gòu)聯(lián)系的神秘模式,,從而讓計(jì)算機(jī)踏上全新捷徑,直接從遺傳學(xué)領(lǐng)域轉(zhuǎn)到準(zhǔn)確繪制形狀,。 嚴(yán)肅的游戲 德米斯·哈薩比斯對蛋白質(zhì)折疊的興趣始于一場游戲,,他對很多事都是這樣。 哈薩比斯曾經(jīng)是國際象棋天才,,13歲時已經(jīng)成為大師,一度在同年齡里排名世界第二,。他對象棋的熱愛后來轉(zhuǎn)向?qū)杉赂信d趣:一是游戲設(shè)計(jì),,二是研究自身意識的內(nèi)在機(jī)制。 他高中時開始為電子游戲公司工作,,在劍橋大學(xué)學(xué)習(xí)計(jì)算機(jī)科學(xué)后,,1998年創(chuàng)立了電腦游戲初創(chuàng)公司Elixir Studios。 盡管曾經(jīng)研發(fā)出兩款獲獎游戲,,最終Elixir還是賣掉知識產(chǎn)權(quán)并關(guān)閉公司,,哈薩比斯從倫敦大學(xué)學(xué)院獲得了認(rèn)知神經(jīng)科學(xué)博士學(xué)位。 彼時他已經(jīng)開始踏上漫漫征途,,后來2010年聯(lián)合創(chuàng)立了DeepMind,。他開始研發(fā)通用人工智能軟件,不僅可以學(xué)習(xí)執(zhí)行很多任務(wù),,有些甚至比人類完成得更好,。 哈薩比斯曾經(jīng)說過,DeepMind的遠(yuǎn)大目標(biāo)是“解決智能問題,,然后解決所有其他問題,。”哈薩比斯也曾經(jīng)暗示,,蛋白質(zhì)折疊可能就是“其他問題”里的第一批,。 2009年,哈薩比斯在麻省理工學(xué)院攻讀博士后時,,聽說了一款名為Foldit的在線游戲,。Foldit是由華盛頓大學(xué)的研究人員設(shè)計(jì),跟Fold@home類似,也是有關(guān)蛋白質(zhì)折疊的“公民科學(xué)”項(xiàng)目,。但Foldit并不是整合閑置的微芯片,,而是利用閑置的大腦。 Foldit是類似益智游戲的游戲,,讓并不掌握生物學(xué)領(lǐng)域知識的人類玩家比賽折疊蛋白質(zhì),,如果能夠得到合理的形狀就可以獲得積分。然后,,研究人員分析得分最高的設(shè)計(jì),,看是否有助于破解蛋白質(zhì)結(jié)構(gòu)問題。 游戲已經(jīng)吸引成千上萬玩家,,并且一些記錄案例中得到的蛋白質(zhì)結(jié)構(gòu)比研究蛋白質(zhì)折疊的計(jì)算機(jī)算法更準(zhǔn)確,。 “從這個角度來看,我覺得游戲很有趣,,想著能不能利用游戲的上癮性和樂趣,,不僅讓人們玩得開心,也做一些對科學(xué)有用的事情,?!惫_比斯說。 Foldit能夠抓住哈薩比斯的想象力還有另一個原因,。其實(shí)游戲是一種強(qiáng)化學(xué)習(xí)行為,,特別適合訓(xùn)練人工智能。軟件可以通過試驗(yàn)和試錯從經(jīng)驗(yàn)中學(xué)習(xí),,從而更好地完成任務(wù),。 在游戲里軟件能夠無休止地試驗(yàn),反復(fù)地玩,,逐步改進(jìn),,在不對現(xiàn)實(shí)世界造成傷害的情況下提升技能水平,直到超過人類,。 游戲也有現(xiàn)成的方法判斷某個特定的動作或某組動作是否有效,,即積分和勝利。種種指標(biāo)可以提供非常明確的標(biāo)準(zhǔn)衡量表現(xiàn),,在現(xiàn)實(shí)世界很多問題里則無法如此處理?,F(xiàn)實(shí)世界遇到問題時,最有效的方法可能比較模糊,,“獲勝”的概念也可能不適用,。 DeepMind的基礎(chǔ)主要是將強(qiáng)化學(xué)習(xí)與被稱為深度學(xué)習(xí)的人工智能相結(jié)合。 深度學(xué)習(xí)是基于神經(jīng)網(wǎng)絡(luò)的人工智能,,所謂神經(jīng)網(wǎng)絡(luò)是大致基于人腦工作原理的軟件,。這種情況下,,軟件沒有實(shí)際的神經(jīng)細(xì)胞網(wǎng)絡(luò),而是一堆虛擬神經(jīng)元分層排列,,初始輸入層接收數(shù)據(jù),,按照權(quán)重分配后傳遞到中間層,中間層依次執(zhí)行相同操作,,最終傳遞到輸出層,,輸出層匯總各項(xiàng)加權(quán)值并算出結(jié)果。網(wǎng)絡(luò)能夠調(diào)整各項(xiàng)權(quán)重,,直到產(chǎn)生理想的結(jié)果,,例如準(zhǔn)確識別貓的照片或在國際象棋對弈中獲勝。之所以被稱為“深度學(xué)習(xí)”,,并不是因?yàn)楫a(chǎn)生的結(jié)果一定深刻,,當(dāng)然也有可能深刻,但主要原因是網(wǎng)絡(luò)由許多層構(gòu)成,,所以可以說具有深度,。 DeepMind最初的成功在于用這種“深度強(qiáng)化學(xué)習(xí)”創(chuàng)建出了一款軟件,這款軟件能夠通過自學(xué),,已超過人類的水平,,玩經(jīng)典的雅達(dá)利電腦游戲,如《乒乓球》(Pong),、《突圍》(Breakout)和《太空入侵者》(Space Invaders)等。 正是這一成就讓DeepMind受到谷歌等科技巨頭的關(guān)注,,據(jù)報(bào)道,,2014年谷歌以4億英鎊(當(dāng)時超過6億美元)收購了DeepMind。之后公司主攻圍棋并開發(fā)了AlphaGo系統(tǒng),,2016年擊敗了李世石,。 DeepMind接著開發(fā)了名叫AlphaZero的更通用系統(tǒng)版本,幾乎能夠?qū)W會所有兩玩家回合制游戲,,在這種游戲中,,玩家都可以獲得充分信息(沒有機(jī)會隱藏信息,例如牌面朝下放置或隱藏位置),。 去年,,公司開發(fā)的系統(tǒng)還在高度復(fù)雜的即時戰(zhàn)略游戲《星際爭霸2》(Starcraft 2)中擊敗了頂尖的人類職業(yè)電競玩家。 2016年3月15日,,谷歌DeepMind挑戰(zhàn)賽最后一場比賽結(jié)束后,,職業(yè)圍棋選手李世石(左)與德米斯·哈薩比斯握手,比賽中李世石與電腦程序AlphaGo對決,。 但哈薩比斯表示,,他一直認(rèn)為公司在游戲方面的探索是完善人工智能系統(tǒng)的方式,,之后能夠?qū)⑵鋺?yīng)用于應(yīng)對現(xiàn)實(shí)世界的挑戰(zhàn),尤其是在科學(xué)領(lǐng)域,。 “比賽只是訓(xùn)練場,,但訓(xùn)練到底為了什么?最終是為了創(chuàng)造新知識,?!彼f。 DeepMind并非具有產(chǎn)品和客戶的傳統(tǒng)業(yè)務(wù),,本質(zhì)上是推動人工智能前沿的研究實(shí)驗(yàn)室,。公司的很多開發(fā)方法都已經(jīng)公開,供所有人使用或借鑒,。不過某些方面的進(jìn)步對姊妹公司谷歌也頗有幫助,。 DeepMind團(tuán)隊(duì)由工程師和科學(xué)家組成,幫助谷歌將尖端的人工智能技術(shù)融入產(chǎn)品,。DeepMind的技術(shù)已經(jīng)滲透各處,,從谷歌地圖到數(shù)字助理,再到協(xié)助管理安卓手機(jī)電池電量的系統(tǒng),。 谷歌為此向DeepMind支付費(fèi)用,,母公司Alphabet繼續(xù)承擔(dān)DeepMind帶來的額外虧損。虧損規(guī)模并不小,,2018年,,公司虧損4.7億英鎊(當(dāng)時約合5.1億美元),這也是通過英國的商業(yè)注冊機(jī)構(gòu)公司登記局可以查到的最新一年公開記錄,。 不過如今員工超過1000人的DeepMind,,還有一整個部門只負(fù)責(zé)人工智能的科學(xué)應(yīng)用。該部門的負(fù)責(zé)人為39歲的印度人普什米·科里,,他加入DeepMind之前曾經(jīng)在微軟從事人工智能研究,。 他表示,DeepMind的目標(biāo)是解決“根節(jié)點(diǎn)”問題,,這是數(shù)據(jù)科學(xué)家的慣用語,,意思是希望解決能夠解鎖很多科學(xué)路徑的基礎(chǔ)問題。蛋白質(zhì)折疊就是根節(jié)點(diǎn)之一,,科里說,。 “蛋白質(zhì)折疊的奧運(yùn)會” 1994年,當(dāng)很多科學(xué)家剛開始使用復(fù)雜的計(jì)算機(jī)算法預(yù)測蛋白質(zhì)折疊方式時,,馬里蘭大學(xué)的生物學(xué)家墨爾特決定開辦競賽,,用公正的方法評估哪種算法最好。 他把比賽稱為蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估(簡稱為CASP),,之后每兩年舉辦一次,。 賽事具體如下:美國國立衛(wèi)生研究院資助的蛋白質(zhì)結(jié)構(gòu)預(yù)測中心主辦CASP,,并說服從事X射線晶體衍射和其他實(shí)證研究的研究人員提供尚未公布的蛋白質(zhì)結(jié)構(gòu),要求在CASP競賽結(jié)束之前不公開相關(guān)結(jié)構(gòu),。然后CASP將蛋白質(zhì)DNA序列發(fā)給參賽者,,參賽者用算法預(yù)測蛋白質(zhì)結(jié)構(gòu)。CASP判斷預(yù)測與X射線晶體學(xué)家和實(shí)驗(yàn)學(xué)家發(fā)現(xiàn)的實(shí)際結(jié)構(gòu)接近程度,,然后根據(jù)算法對各種蛋白質(zhì)預(yù)測的平均得分排名,。 “我稱之為蛋白質(zhì)折疊界的奧運(yùn)會?!惫_比斯說,。2016年AlphaGo擊敗李世石后不久,DeepMind就打算贏得金牌,。 DeepMind組建了小規(guī)模精干的團(tuán)隊(duì),,由六名機(jī)器學(xué)習(xí)研究人員和工程師組成。 “讓‘通才’入手是我們的理念,?!惫_比斯說。公司里并不缺乏人才,?!扒拔锢韺W(xué)家、前生物學(xué)家,,大家都四處閑逛,。”哈薩比斯有點(diǎn)啼笑皆非,?!八麄冇肋h(yuǎn)不知道之前的專業(yè)知識什么時候可以突然發(fā)揮作用?!弊詈髨F(tuán)隊(duì)成員增加到20人左右。 不過,,DeepMind還是認(rèn)為團(tuán)隊(duì)里至少要有一位真正的蛋白質(zhì)折疊專家,,后來選中了約翰·喬普。 35歲的喬普像個大男孩,,瘦得皮包骨,,一頭蓬亂斜梳的棕色頭發(fā),有點(diǎn)像20世紀(jì)90年代末高中車庫樂隊(duì)的低音吉他手,。他在劍橋大學(xué)獲得理論凝聚態(tài)物理碩士學(xué)位,,之后在位于紐約的、由對沖基金億萬富翁大衛(wèi)·肖創(chuàng)立的獨(dú)立研究實(shí)驗(yàn)室D.E.Shaw Research工作,。實(shí)驗(yàn)室專門研究計(jì)算生物學(xué),,包括蛋白質(zhì)模擬,。 后來喬普在芝加哥大學(xué)獲得了計(jì)算生物物理學(xué)博士學(xué)位,導(dǎo)師為卡爾·弗里德和托賓·索斯尼克,,兩位科學(xué)家皆因推動蛋白質(zhì)折疊模型進(jìn)步出名,。 “我曾經(jīng)聽說DeepMind對解決蛋白質(zhì)結(jié)構(gòu)有興趣?!彼f,。于是他申請并順利加入。 哈薩比斯和DeepMind團(tuán)隊(duì)的第一直覺是,,蛋白質(zhì)折疊能夠用與圍棋完全相同的方式解決,,即深度強(qiáng)化學(xué)習(xí)。 事實(shí)證明存在問題,。首先,,蛋白質(zhì)折疊結(jié)構(gòu)的可能性比圍棋的步數(shù)還要多。更重要的是,,DeepMind讓工智能系統(tǒng)AlphaGo與自己對弈就可以掌握圍棋的玩法,。 “所以可比性并不高,因?yàn)榈鞍踪|(zhì)折疊不是雙人游戲,?!惫_比斯說,“有點(diǎn)違背自然,?!?/p> 計(jì)算物理學(xué)家約翰·喬普如今負(fù)責(zé)DeepMind的蛋白質(zhì)折疊團(tuán)隊(duì),。喬普說,,團(tuán)隊(duì)面臨的挑戰(zhàn)不僅是在競爭中領(lǐng)先:“我們想打造對生物學(xué)家很重要的系統(tǒng)?!眻D片來源:Courtesy of DeepMind DeepMind很快發(fā)現(xiàn),,如果使用所謂監(jiān)督式深度學(xué)習(xí)的人工智能培訓(xùn)方法,就能夠更簡便地取得進(jìn)步,。這是大多數(shù)商業(yè)應(yīng)用里使用的人工智能,,神經(jīng)網(wǎng)絡(luò)通過一組既定數(shù)據(jù)輸入和相應(yīng)輸出,可以學(xué)習(xí)如何將給定的輸入與給定輸出相匹配,。 具體到蛋白質(zhì)結(jié)構(gòu),,DeepMind已經(jīng)掌握約170000個蛋白質(zhì)結(jié)構(gòu),能夠作為訓(xùn)練數(shù)據(jù),。蛋白質(zhì)數(shù)據(jù)庫(PDB)是已知三維蛋白質(zhì)形狀及遺傳序列的公共存儲庫,,可以公開查詢相關(guān)結(jié)構(gòu)。 一些生物學(xué)家已經(jīng)使用監(jiān)督式深度學(xué)習(xí)預(yù)測蛋白質(zhì)如何折疊,。但此類人工智能系統(tǒng)表現(xiàn)最佳的正確率也只有50%,,對生物學(xué)家或醫(yī)學(xué)研究人員沒有什么幫助,,尤其是對結(jié)構(gòu)未知的蛋白質(zhì),因?yàn)闊o法確定某次特定預(yù)測是否正確,。 有種技術(shù)很有希望,,其理念是基于蛋白質(zhì)的進(jìn)化史劃分為不同的家族。 各種家族里可能在一個DNA序列中找到相距遙遠(yuǎn)但似乎會同時突變的氨基酸對,。此類所謂“共同進(jìn)化”的現(xiàn)象很有幫助,,因?yàn)楣餐M(jìn)化的蛋白質(zhì)很可能在蛋白質(zhì)折疊結(jié)構(gòu)中有聯(lián)系。 位于芝加哥的豐田技術(shù)研究所的科學(xué)家徐金波(音譯)率先利用深入學(xué)習(xí)共同進(jìn)化數(shù)據(jù)預(yù)測氨基酸聯(lián)系,。這種方法有點(diǎn)像是在連接點(diǎn)游戲里尋找點(diǎn),。科學(xué)家仍然要用其他軟件找出點(diǎn)之間的線,,過程中經(jīng)常出錯,。有時候連點(diǎn)都找不準(zhǔn)。 在2018年的CASP競賽中,,DeepMind應(yīng)用了共同進(jìn)化和預(yù)測聯(lián)系的基本思想,,但增加了兩個重要的轉(zhuǎn)折點(diǎn)。首先,,系統(tǒng)沒有試圖確定兩個氨基酸是否有聯(lián)系,,也就是二進(jìn)制輸出(即兩個氨基酸可能有聯(lián)系,也可能沒有聯(lián)系),,而是決定讓算法預(yù)測蛋白質(zhì)里所有氨基酸對之間的距離,。 在多數(shù)分子生物學(xué)家看來,這種方法似乎違反直覺,,不過值得稱贊的是,,徐金波也獨(dú)立提出了類似方法。畢竟,,聯(lián)系才是最重要的,。對于DeepMind的深度學(xué)習(xí)專家來說,很明顯距離是讓神經(jīng)網(wǎng)絡(luò)發(fā)揮作用更好的指標(biāo),,科里表示,。 “這只是深度學(xué)習(xí)的基礎(chǔ)部分,如果與決策相關(guān)存在不確定性,,最好是讓神經(jīng)網(wǎng)絡(luò)整合不確定性,并決定如何應(yīng)對,?!彼f。與聯(lián)系不一樣,,距離包含了神經(jīng)網(wǎng)絡(luò)可調(diào)整和使用的豐富信息,。 DeepMind另一項(xiàng)讓人意外之處是引入第二個神經(jīng)網(wǎng)絡(luò),,用于預(yù)測氨基酸對之間的角度。有了距離和角度兩個因素,,DeepMind的算法就能夠算出蛋白質(zhì)結(jié)構(gòu)的大致輪廓,。然后,系統(tǒng)使用另一種非人工智能算法改進(jìn)結(jié)構(gòu),。 DeepMind將相關(guān)組件整合到名為AlphaFold的系統(tǒng)中,,橫掃了2018年CASP(又稱為第13屆CASP,因?yàn)槭莾赡暌欢缺荣惻e辦第13次,。)比賽里結(jié)構(gòu)最復(fù)雜的43種蛋白質(zhì)中,,AlphaFold在25種蛋白質(zhì)中得分最高。第二名僅在三種蛋白質(zhì)里得到高分,。 研究結(jié)果震驚了全行業(yè),。如果說之前還有人懷疑深度學(xué)習(xí)究竟是不是解決蛋白質(zhì)折疊問題最有希望的方法,AlphaFold讓所有人再無疑問,。 回到白板 盡管如此,DeepMind還遠(yuǎn)沒有達(dá)到哈薩比斯的目標(biāo),,即完全解決蛋白質(zhì)折疊問題,。AlphaFold準(zhǔn)確率只有一半,第13屆CASP的104個蛋白質(zhì)中,,準(zhǔn)確度可以達(dá)到X射線晶體衍射水平的只有三個,。 “我們不只想在CASP競賽中奪魁,而是想真正解決問題,。我們想打造對生物學(xué)家很重要的系統(tǒng),。”喬普說,。 2018年CASP的結(jié)果公布后不久,,DeepMind就開始加倍努力。喬普負(fù)責(zé)擴(kuò)大的團(tuán)隊(duì),。團(tuán)隊(duì)并未簡單地在AlphaFold基礎(chǔ)上改進(jìn),,而是返回原點(diǎn),集思廣益尋找完全不同的想法,,他們希望新創(chuàng)意能夠幫軟件將精確度提升到更接近X射線晶體衍射級別,。 喬普表示,接下來是整個項(xiàng)目中最可怕也最令人沮喪的時期之一,,因?yàn)槭裁崔k法都沒有,。 “我們花了三個月,結(jié)果都達(dá)不到第13屆CASP的水平,開始真正感覺到恐慌,?!彼f。不過當(dāng)時研究人員的嘗試出現(xiàn)了一些改進(jìn),,在6個月之內(nèi),,系統(tǒng)已經(jīng)比最初的AlphaFold有了明顯改進(jìn)。之后兩年里一直延續(xù)該模式,,喬普說,。 先是三個月一無所獲,接下來三個月快速發(fā)展,,接著又是平臺期,。 哈薩比斯說,DeepMind以前的項(xiàng)目也出現(xiàn)過類似模式,,包括圍棋項(xiàng)目,,還有復(fù)雜的即時戰(zhàn)略游戲《星際爭霸2》項(xiàng)目。 他說,,公司克服問題的管理策略就是交替采取兩種不同的工作方式,。 第一種哈薩比斯稱之為“攻擊模式”,盡可能推動團(tuán)隊(duì),,追求當(dāng)前系統(tǒng)可以達(dá)到的極致表現(xiàn),。 然后,全力以赴努力的效果似乎耗盡時,,他就開始轉(zhuǎn)向所謂的“創(chuàng)新模式”,。期間哈薩比斯不再對團(tuán)隊(duì)施加壓力,容忍甚至期待出現(xiàn)暫時性的后退,,從而為研究人員和工程師提供修補(bǔ)新想法和嘗試新手段的空間,。 他說:“要鼓勵人們提出盡可能多的瘋狂想法,還要頭腦風(fēng)暴,?!痹撃J酵ǔD軌蛲苿有阅艹霈F(xiàn)新飛躍,讓團(tuán)隊(duì)切換回攻擊模式,。 生日大禮 2019年11月21日,,DeepMind蛋白質(zhì)折疊團(tuán)隊(duì)的研究員凱薩倫·圖雅蘇那科年滿30歲。這一天也會因?yàn)榱硪粋€原因值得紀(jì)念,。 圖雅蘇那科擁有牛津大學(xué)計(jì)算生物學(xué)博士學(xué)位,,在團(tuán)隊(duì)里負(fù)責(zé)為蛋白質(zhì)折疊人工智能開發(fā)新測試集,新款人工智能叫AlphaFold 2,,是DeepMind為2020年的CASP競賽新開發(fā)的系統(tǒng),。 那天早上她打開辦公電腦時,,收到系統(tǒng)對一批大約50個蛋白質(zhì)序列預(yù)測的評估,這些序列都是最近才添加到蛋白質(zhì)數(shù)據(jù)庫中的,。她愣了一下,然后大吃一驚,。 AlphaFold 2確實(shí)一直在改進(jìn),,但對該組蛋白質(zhì)的預(yù)測結(jié)果驚人地準(zhǔn)確。系統(tǒng)對好幾個蛋白質(zhì)結(jié)構(gòu)的預(yù)測誤差控制在1.5埃以內(nèi),,埃的距離單位相當(dāng)于十分之一納米,,或大約一個原子的寬度。 DeepMind的科學(xué)家凱薩倫·圖雅蘇那科幫助公司在蛋白質(zhì)折疊研究方面取得了進(jìn)展,。圖片來源:Courtesy of DeepMind 自稱“團(tuán)隊(duì)悲觀主義者”的圖雅蘇那科說,第一反應(yīng)并不是高興而是有點(diǎn)想吐,。 “我當(dāng)時很害怕,。”她說,。結(jié)果實(shí)在太好,,她以為是自己犯了錯,可能準(zhǔn)備測試集時無意中把人工智能在訓(xùn)練數(shù)據(jù)里見過的幾個蛋白質(zhì)加了進(jìn)來,。如此一來AlphaFold 2基本上就可以作弊,,輕易預(yù)測出準(zhǔn)確的結(jié)構(gòu)。 圖雅蘇那科回憶說,,當(dāng)時坐在DeepMind自助餐廳俯瞰倫敦的圣潘克拉斯車站,,一杯接一杯地喝茶努力平復(fù)心情。隨后,,她和其他團(tuán)隊(duì)成員花了一整天,,直到深夜才下班,之后幾天也是如此,,他們坐在工作站旁埋頭梳理AlphaFold 2的訓(xùn)練數(shù)據(jù),,希望找出錯誤所在。 然而一個錯誤也沒有,。 事實(shí)是,,新系統(tǒng)在預(yù)測表現(xiàn)方面實(shí)現(xiàn)了巨大飛躍。AlphaFold 2與之前版本完全不同,。 人工智能不再只是各成分組合,,一個用來預(yù)測氨基酸之間的距離,另一個預(yù)測角度,,然后用第三個軟件聯(lián)系起來?,F(xiàn)在的人工智能用單一的神經(jīng)網(wǎng)絡(luò)直接從DNA序列進(jìn)行推理,。雖然系統(tǒng)仍然接受進(jìn)化信息,從而確定研究的蛋白質(zhì)是否與以前見過的蛋白質(zhì)有共同的祖先,,并仔細(xì)檢查目標(biāo)蛋白質(zhì)的DNA序列與其他已知序列之間的一致性,,但不再需要哪些氨基酸對共同進(jìn)化的明確數(shù)據(jù)。 “我們并未提供更多信息,,反而減少了信息,。”喬普說,。系統(tǒng)可以自由地得出見解,,即祖先何時可能決定蛋白質(zhì)的部分形狀,以及何時可能徹底偏離,。 換句話說,,系統(tǒng)根據(jù)經(jīng)驗(yàn)培養(yǎng)出直覺,就像老練的人類科學(xué)家一樣,。 新系統(tǒng)的核心是“注意力”機(jī)制,,顧名思義,注意力是讓深度學(xué)習(xí)系統(tǒng)專注于某組輸入,,并對相關(guān)輸入加大權(quán)重,。 舉例來說,在識別貓的系統(tǒng)里,,系統(tǒng)可能學(xué)會注意耳朵的形狀,,也會學(xué)習(xí)在鼻子附近尋找胡須。 喬普比較了AlphaFold 2的功能與玩拼圖游戲,,過程中“能夠?qū)⒛承┎糠制礈愒谝黄鸲曳浅4_定,,得到不同的本地解決方案,然后想辦法將相關(guān)問題連接起來,?!?/p> 喬普說,神經(jīng)網(wǎng)絡(luò)的中層已經(jīng)學(xué)會根據(jù)對DNA序列的分析推理幾何和空間排列,,以及氨基酸對如何連接,。 DeepMind曾經(jīng)在128個“張量處理核心”上訓(xùn)練AlphaFold 2,張量處理核心是在16塊專門用于深度學(xué)習(xí)的計(jì)算機(jī)芯片上創(chuàng)建的數(shù)字運(yùn)算大腦,,芯片由谷歌設(shè)計(jì)并在數(shù)據(jù)中心使用,,公司稱連續(xù)運(yùn)行了數(shù)周。(128個專用的人工智能核心大約相當(dāng)于100到200塊強(qiáng)大的圖形處理芯片,,可以在Xbox或PlayStation上呈現(xiàn)極其炫目的動畫效果,。) 公司表示,經(jīng)過訓(xùn)練的系統(tǒng)提取DNA序列后“幾天內(nèi)”就能夠完成整個結(jié)構(gòu)預(yù)測,。 AlphaFold 2與前一代相比有個優(yōu)勢,,就是提供可信程度,,即系統(tǒng)對結(jié)構(gòu)里每種氨基酸的預(yù)測都有信心分?jǐn)?shù)。如果說AlphaFold 2可以切實(shí)幫到生物學(xué)家和醫(yī)學(xué)研究人員,,這項(xiàng)指標(biāo)至關(guān)重要,因?yàn)檠芯空咝枰宄螘r能夠合理依賴模型,,以及何時需要更加謹(jǐn)慎,。 盡管測試結(jié)果驚人,DeepMind仍然不能確定AlphaFold 2的預(yù)測效果,。新冠病毒來襲時,公司才得到重要的線索,。 今年3月,AlphaFold 2可以預(yù)測出六種與SARS-CoV-2(引發(fā)疫情的病毒)相關(guān)但未被研究的蛋白質(zhì)結(jié)構(gòu),,后來科學(xué)家使用所謂低溫電子顯微鏡的經(jīng)驗(yàn)方法證實(shí)了其中一種,。由此能夠充分看出AlphaFold 2對現(xiàn)實(shí)世界的影響力,。 驚人的結(jié)果 CASP比賽在5月到8月之間舉行,。蛋白質(zhì)結(jié)構(gòu)預(yù)測中心發(fā)布多批目標(biāo)蛋白質(zhì),之后參賽方提交結(jié)構(gòu)預(yù)測進(jìn)行評估,。今年比賽排名于11月30日公布。 每次預(yù)測均可以得到“全球距離測試總分”,,簡稱GDT的指標(biāo)評分,,該指標(biāo)實(shí)際上看預(yù)測結(jié)果與通過實(shí)證方法(如X射線晶體衍射或電子顯微鏡)得到的結(jié)構(gòu)接近程度,,單位為埃。 CASP的主席穆爾特表示,,滿分是100分,,如果得分能夠達(dá)到90分或以上,,說明與實(shí)證方法相當(dāng),。根據(jù)CASP組織者判斷的結(jié)構(gòu)難度,,蛋白質(zhì)也會劃分不同的組。 穆爾特看到AlphaFold 2的結(jié)果時簡直不敢相信,。他就像幾個月前的圖雅蘇那科一樣,,剛開始的想法是出錯了,。也許比賽中一些蛋白質(zhì)序列以前發(fā)表過,?又或者DeepMind也許設(shè)法獲得了未發(fā)布數(shù)據(jù)的緩存,? T1042的計(jì)算機(jī)生成圖像,,T1042是感染細(xì)菌病毒里的部分蛋白質(zhì),。2020年CASP競賽中,DeepMind的AlphaFold 2準(zhǔn)確預(yù)測了該蛋白質(zhì)的結(jié)構(gòu),,這是人工智能在生物學(xué)和醫(yī)學(xué)研究應(yīng)用方面的重大突破,。圖片來源:Courtesy of DeepMind T1037的計(jì)算機(jī)生成圖像,,T1037是感染細(xì)菌病毒里的部分蛋白質(zhì),。2020年CASP競賽中,DeepMind的AlphaFold 2成功地預(yù)測了T1037的結(jié)構(gòu),。圖片來源:Courtesy of DeepMind 為了核實(shí),,他請位于德國圖賓的根馬克斯·普朗克發(fā)展生物學(xué)研究所的蛋白質(zhì)進(jìn)化系主任安德烈·盧帕斯幫忙驗(yàn)證,。 盧帕斯讓AlphaFold 2預(yù)測一個自己確信沒有見過的結(jié)構(gòu),因?yàn)楸R帕斯利用X射線結(jié)晶衍射從未成功觀測到該蛋白質(zhì)的關(guān)鍵部分,。近十年來,,盧帕斯一直因?yàn)樵摬糠秩笔Ф鴤X筋,但就是觀測不到準(zhǔn)確的形狀,。 盧帕斯說,,利用AlphaFold的預(yù)測后,他重新查看X射線數(shù)據(jù),?!皼]到半小時就得出了正確結(jié)構(gòu)?!彼f,,“太令人吃驚了!” 2018年DeepMind在CASP中獲得成功以來,,諸多學(xué)術(shù)研究人員紛紛涌向深度學(xué)習(xí)技術(shù),。結(jié)果,該領(lǐng)域其他方面的表現(xiàn)都有所提高,。 在中等難度目標(biāo)方面,,其他競爭對手的平均最佳預(yù)測GDT得分為75,比兩年前提高了10分,。不過還是完全追不上AlphaFold 2,,因?yàn)樵撓到y(tǒng)預(yù)測蛋白質(zhì)結(jié)構(gòu)平均得分高達(dá)92,就算面對最復(fù)雜的蛋白質(zhì)平均得分也有87,。 穆爾特表示AlphaFold 2的預(yù)測“與實(shí)證方法不相上下”,,比如X射線晶體衍射。 得出該結(jié)論后,,11月30日星期一,,CASP發(fā)表了重大聲明:50年前的蛋白質(zhì)折疊問題已經(jīng)解決。 諾貝爾獎獲得者,、英國最負(fù)盛名的科學(xué)機(jī)構(gòu)皇家學(xué)會現(xiàn)任主席文基·拉馬克里希南表示,,AlphaFold 2在蛋白質(zhì)折疊方面“取得了驚人的進(jìn)步”。 有AlphaFold 2相助,,X射線晶體衍射和電子顯微鏡之類既昂貴又耗時的實(shí)證方法可能都會變成過去式,。 蛋白質(zhì)結(jié)構(gòu)專家、曾任歐洲分子生物學(xué)實(shí)驗(yàn)室歐洲生物信息學(xué)研究所主任的珍妮特·桑頓表示,,DeepMind的突破可以幫助科學(xué)家繪制出整個人類“蛋白質(zhì)組”,,即人體內(nèi)所有蛋白質(zhì)。 目前人體蛋白質(zhì)中只有四分之一被用作藥物靶點(diǎn),如果能夠掌握其余蛋白質(zhì)結(jié)構(gòu),,就可以為研發(fā)新療法創(chuàng)造巨大的機(jī)會,。 她還表示,人工智能軟件還能夠推動蛋白質(zhì)工程發(fā)展,,從而推動可持續(xù)發(fā)展,,幫科學(xué)家創(chuàng)造新作物品種,提升每英畝種植土地出產(chǎn)的營養(yǎng)價值,,還可能研究出可以消化塑料的酶,。 不過,當(dāng)前的問題仍然是DeepMind如何應(yīng)用AlphaFold 2,。 哈薩比斯表示,,公司將努力確保軟件“最大程度發(fā)揮積極的社會影響”,他也承認(rèn)公司尚未決定如何實(shí)現(xiàn),,只說明年某個時候?qū)⑿肌?/p> 哈薩比斯還告訴《財(cái)富》雜志,,DeepMind正在考慮如何圍繞系統(tǒng)開發(fā)商業(yè)產(chǎn)品或建立合作伙伴關(guān)系?!跋到y(tǒng)對藥物研發(fā)以及制藥巨頭作用都非常大,。”不過他表示,,商業(yè)產(chǎn)品的具體形式也尚未決定,。 對于DeepMind來說,如果嘗試商業(yè)化就意味著踏上新征程,,而此前出售給Alphabet后公司還從來沒有擔(dān)心過收入,。 公司簡單成立了名叫DeepMind Health的部門,正在與英國國家醫(yī)療服務(wù)體系合作開發(fā)應(yīng)用程序,,該應(yīng)用程序能夠識別出存在患急性腎損傷風(fēng)險(xiǎn)的醫(yī)院患者,。 但新聞報(bào)道稱DeepMind的醫(yī)院合作伙伴違反英國的數(shù)據(jù)保護(hù)法向其提供數(shù)百萬患者的醫(yī)療記錄后,合作陷入了爭論,。 2019年,,DeepMind Health正式并入新的谷歌健康部門,。當(dāng)時DeepMind表示,,剝離健康業(yè)務(wù)可以專注自身的研究基礎(chǔ),而不必分心在谷歌已然很擅長的領(lǐng)域(如數(shù)據(jù)安全和客戶支持)成立商業(yè)部門,。 當(dāng)然了,,即便DeepMind要推出商業(yè)產(chǎn)品,也不會是第一家嘗試商業(yè)化的人工智能研究公司,??偛课挥谂f金山的OpenAI可能是最接近DeepMind的競爭對手,如今越發(fā)商業(yè)化。 去年,,OpenAI發(fā)布的第一個商業(yè)產(chǎn)品,,企業(yè)能夠使用人工智能界面將簡短的手寫提示組成連貫的長文本。該人工智能被稱為GPT,,商業(yè)價值尚未得到證實(shí),,而DeepMind的AlphaFold 2可能對制藥公司或生物技術(shù)初創(chuàng)企業(yè)產(chǎn)生根本性的影響。 在反壟斷監(jiān)管者調(diào)查Alphabet之際,,擁有商業(yè)上可行的產(chǎn)品可能是很好的保險(xiǎn),,以防將來拆分Googleplex時DeepMind失去財(cái)大氣粗的母公司無條件支持。 有一點(diǎn)可以肯定,,DeepMind在蛋白質(zhì)折疊領(lǐng)域的探索并未結(jié)束,。CASP競爭只是圍繞預(yù)測單個蛋白質(zhì)的結(jié)構(gòu)。在生物學(xué)和醫(yī)學(xué)領(lǐng)域,,研究人員真正關(guān)心的通常是蛋白質(zhì)如何相互作用,。一種蛋白質(zhì)是如何與另一種蛋白質(zhì)或與某種特定的小分子結(jié)合?酶如何分解蛋白質(zhì),? 莫爾特說,,預(yù)測相互作用和結(jié)合很可能成為未來CASP競爭的主要關(guān)注點(diǎn)。喬普表示,,下一步DeepMind打算應(yīng)對相關(guān)挑戰(zhàn),。 而在蛋白質(zhì)折疊以外的領(lǐng)域,AlphaFold 2的成功肯定也會發(fā)揮影響,,將鼓勵其他人在重大科學(xué)問題中應(yīng)用深入學(xué)習(xí),。比如發(fā)現(xiàn)新的亞原子粒子,探索暗物質(zhì)的奧秘,,掌握核聚變或創(chuàng)造室溫超導(dǎo)體,。 科里表示,在天體物理學(xué)方面,,DeepMind已經(jīng)發(fā)揮了積極的作用,。Facebook的人工智能研究人員剛剛啟動了深度學(xué)習(xí)項(xiàng)目,希望尋找新的化學(xué)催化劑,。 蛋白質(zhì)折疊是基礎(chǔ)科學(xué)當(dāng)中第一個由人工智能解決的謎團(tuán),,但肯定不會是最后一個。(財(cái)富中文網(wǎng)) 譯者:馮豐 審校:夏林 在財(cái)富Plus,,網(wǎng)友們對這篇文章發(fā)表了許多有深度和思想的觀點(diǎn),。一起來看看吧。也歡迎你加入我們,,談?wù)勀愕南敕ǎ⊕叽a下方二維碼即可下載財(cái)富Plus),。 |
|