生物學(xué)難題:蛋白質(zhì)折疊 在我們身體的每個細胞中,,有數(shù)十億個正在努力工作的微型機器——它們在我們的血液中攜帶和運輸氧氣,讓我們的眼睛能感知光線,,甚至我們的肌肉能夠正常運動也與它們有關(guān),,這些機器就是蛋白質(zhì)。 蛋白質(zhì)支撐著所有生物的每一個生物過程,,每種蛋白質(zhì)都是具有獨特的三維形狀的復(fù)雜大分子,。如果將每種蛋白質(zhì)都解開,你會發(fā)現(xiàn)它們就像一串串由20種不同的氨基酸,,以不同的順序排列組合構(gòu)成的氨基酸鏈,。氨基酸之間的相互作用使蛋白質(zhì)折疊成幾乎有著無限可能的形狀。 蛋白質(zhì)形狀的折疊和盤繞被稱為“蛋白質(zhì)折疊”問題,,它們的結(jié)構(gòu)在很大程度上決定了其功能及運作方式,。能夠準確預(yù)測蛋白質(zhì)的結(jié)構(gòu)可以幫助科學(xué)家了解一些問題,例如突變是如何改變蛋白質(zhì)形狀從而導(dǎo)致疾病的。這些信息能進一步幫助研究人員更好地研制疫苗和藥物,。 一直以來,,科學(xué)家試圖用各種方法來破解蛋白質(zhì)形狀的秘密,比如他們會使用X射線轟擊蛋白質(zhì)晶體,。這些實驗方法大多需要投入大量的人力,、時間和金錢。目前,,科學(xué)家已經(jīng)發(fā)現(xiàn)了超過2億種蛋白質(zhì),,而且這一數(shù)字每年都在增加,但其中只有約20萬個蛋白質(zhì)的三維結(jié)構(gòu)是通過這些細致而昂貴的實驗工作揭示的,。 可以說,,遺傳學(xué)家破譯制造蛋白質(zhì)的DNA指令的速度,已經(jīng)遠遠超過了結(jié)構(gòu)生物學(xué)家解構(gòu)蛋白質(zhì)的能力,。因此,,許多研究人員一直夢想著能擁有一種可以預(yù)測蛋白質(zhì)會如何折疊的計算機程序。 由DeepMind團隊開發(fā)的AlphaFold,,就是一個專門為解決這個難題而發(fā)展出的人工智能系統(tǒng),。 AlphaFold的到來 1994年,對蛋白質(zhì)折疊感興趣的科學(xué)家組織了學(xué)術(shù)論壇CASP(蛋白質(zhì)結(jié)構(gòu)預(yù)測的關(guān)鍵評估),,目的是為了讓相關(guān)領(lǐng)域的研究人員能更好地分享和交流研究進展,。CASP還為研究人員設(shè)立了一項兩年一次的預(yù)測蛋白質(zhì)結(jié)構(gòu)的比賽。 參與比賽的選手需要利用他們的算法,,對一組已通過實驗確定結(jié)構(gòu)的蛋白質(zhì)進行結(jié)構(gòu)預(yù)測,,然后將機器預(yù)測的結(jié)果與實驗測得的結(jié)果進行比較,檢查預(yù)測的準確性,。大多數(shù)人工智能都無法得到接近蛋白質(zhì)的實際形狀的結(jié)果,。 AlphaFold的發(fā)展最早可以追溯到2016年,那時,,DeepMind團隊開始醞釀應(yīng)對這一挑戰(zhàn),。他們結(jié)合了幾種深度學(xué)習(xí)技術(shù),利用由世界各地的科學(xué)家苦心繪制出的10多萬種蛋白質(zhì)的序列和結(jié)構(gòu)對AlphaFold進行訓(xùn)練,。 2018年,,AlphaFold在這項比賽中獲得了第一名。2020年,,AlphaFold的出現(xiàn)驚艷了眾人,。它以高準確率預(yù)測了90%的測試蛋白質(zhì)的結(jié)構(gòu),其中2/3的結(jié)果有著能與實驗方法相媲美的準確率,。 2021年,,AlphaFold預(yù)測了35萬個蛋白質(zhì)結(jié)構(gòu),,這包括了幾乎所有已知的人類蛋白質(zhì)。DeepMind與歐洲分子生物學(xué)實驗室的歐洲生物信息學(xué)研究所合作,,將這些結(jié)構(gòu)提供到一個公共數(shù)據(jù)庫中,。 到了今年7月,當世界各地的人們驚嘆于韋布空間望遠鏡拍攝到的最美宇宙圖片時,,生物學(xué)家則首次瞥見了的一組足以掀起一場生命科學(xué)研究革命的圖像,,這些圖像正是由AlphaFold渲染的2億多蛋白質(zhì)的3D預(yù)測形狀。 可以說,,AlphaFold已經(jīng)將基因庫擴展到了地球上幾乎所有進行過基因組測序的生物,,它覆蓋的是整個蛋白質(zhì)“宇宙”。現(xiàn)在,,我們可以像在搜索引擎中搜索關(guān)鍵詞一樣,,輕松地查找蛋白質(zhì)的3D結(jié)構(gòu)。 預(yù)測帶來突破 雖然這些都只是預(yù)測的結(jié)構(gòu)而非實際結(jié)構(gòu),,但大量數(shù)據(jù)集的發(fā)布受到了許多科學(xué)家的熱烈歡迎。因為他們可以利用這些預(yù)測來開發(fā)潛在的新瘧疾疫苗,,提高對帕金森病的了解,,研究如何保護蜜蜂的健康,深入了解人類進化等,。 自AlphaFold在2021年的發(fā)布以來,,已有超過50萬名科學(xué)家訪問了AlphaFold的數(shù)據(jù)庫。一些研究人員利用這些預(yù)測來輔助他們更接近于完成一個巨大的生物學(xué)謎題:核孔復(fù)合體,。 核孔,。(圖/S. MOSALAGANTI ET AL/SCIENCE 2022) 核孔是允許分子進出細胞核的關(guān)鍵通道。沒有核孔,,細胞就不能正常工作,。相對來說,每個核孔都很大,,由大約1000個約30種左右不同的蛋白質(zhì)組成,。研究人員此前已經(jīng)成功地確認了其中30%的蛋白質(zhì)。 在6月10日發(fā)表于《科學(xué)》雜志上的報告稱,,通過將實驗結(jié)果與用AlphaFold預(yù)測的結(jié)果相結(jié)合來了解每一個蛋白質(zhì)是如何組合在一起的之后,,這個謎題現(xiàn)在幾乎完成了60%。 如今,,AlphaFold可以僅憑氨基酸序列就能準確預(yù)測蛋白質(zhì)的形狀,。換句話說,現(xiàn)在的AlphaFold基本上已經(jīng)解決了如何折疊單個蛋白質(zhì)的問題,。今年,,CASP的組織者要求參賽者進行的挑戰(zhàn)是:預(yù)測RNA分子的結(jié)構(gòu),,建立蛋白質(zhì)之間以及蛋白質(zhì)與其他分子之間相互作用的模型,。對于這類任務(wù),深度學(xué)習(xí)的人工智能方法看起來很有前景,,但還沒有完全實現(xiàn)。 人工智能的不足之處 AlphaFold為研究人員提供了一項無比強大的工具,,使他們能用AlphaFold的蛋白質(zhì)預(yù)測來更好地理解實驗數(shù)據(jù),。但與此同時,也有越來越多的科學(xué)家開始呼吁,,研究人員不能將人工智能的預(yù)測奉為真理,,不應(yīng)該覺得有了人工智能就不需要做實驗來確定結(jié)構(gòu)了,也不應(yīng)該把這些預(yù)測的結(jié)構(gòu)完全視作蛋白質(zhì)的真實形狀,。因為錯誤的預(yù)測仍有可能存在,,而且AlphaFold對不同蛋白質(zhì)的預(yù)測的準確性也不盡相同。 此外,,AlphaFold還需要具有能夠模擬蛋白質(zhì)之間的相互作用的能力,。因為大多數(shù)蛋白質(zhì)都不是孤立運作的,它們會與細胞中的其他蛋白質(zhì)或其他分子一起工作,。但是,,當AlphaFold在預(yù)測蛋白質(zhì)相互作用時,對兩種蛋白質(zhì)的形狀如何變化的準確性遠遠不及它對大量單一蛋白質(zhì)的精確預(yù)測,。 AlphaFold預(yù)測的置信水平對每種蛋白質(zhì)都有所不同,,預(yù)測結(jié)構(gòu)上的深藍色和淺藍色區(qū)域意味著算法相對確定,不太確定的預(yù)測用黃色和橙色表示,。(圖/DeepMind) 不僅如此,,AlphaFold還可能存在“過于死板”的問題,它無法帶來動態(tài)圖景,。靜態(tài)的結(jié)構(gòu)并不能告訴我們蛋白質(zhì)是如何工作的,,即使是結(jié)構(gòu)明確的單個蛋白質(zhì),也不會在形態(tài)上保持不變,。例如酶在引導(dǎo)化學(xué)反應(yīng)時,,就會發(fā)生微小的形狀變化,如果讓AlphaFold預(yù)測一種酶的結(jié)構(gòu),,它所顯示的會是一個固定的圖像,,這個圖像可能與科學(xué)家通過X射線晶體學(xué)確定的非常相似,但它顯示不了任何微小的變化,,這樣一來,,研究人員就無法從中了解這些蛋白質(zhì)在與其他蛋白質(zhì)發(fā)生怎樣的相互作用。 因此,,在現(xiàn)階段來說,,實驗對于理解蛋白質(zhì)是如何折疊的仍然至關(guān)重要,。 一場革命正在醞釀中 不過,科學(xué)家也不必對此過于悲觀,?;蛟S對于那些AlphaFold能夠很好地預(yù)測的蛋白質(zhì)類型上,我們的確不需要投入大量的實驗資源,,這樣能有助于結(jié)構(gòu)生物學(xué)家對時間和金錢的投入進行管理,。 AlphaFold還在努力研究一些具有挑戰(zhàn)的蛋白質(zhì),這都是需要耗費大量資金的領(lǐng)域,。也許如果能為那些具有挑戰(zhàn)性的蛋白質(zhì)生成更多實驗數(shù)據(jù),,就可以用它們重新訓(xùn)練一個人工智能系統(tǒng),從而做出更好的預(yù)測,。 現(xiàn)在,,已經(jīng)有研究人員在對AlphaFold進行逆向工程,制作了一個名為OpenFold的版本,,研究人員可以訓(xùn)練它來解決其他問題,,比如那些艱難但重要的蛋白質(zhì)復(fù)合體。 人類基因組計劃產(chǎn)生的大量DNA使廣泛的生物學(xué)發(fā)現(xiàn)成為可能,,并開辟了新的研究領(lǐng)域,。掌握2億個蛋白質(zhì)的結(jié)構(gòu)信息同樣可能是革命性的。在未來,,我們將會感謝AlphaFold以及和它相似的那些人工智能伙伴,來幫我們解決那些我們甚至不知道可能會遇到的問題,。 參考來源: https://www./article/alphafold-ai-protein-structure-folding-prediction |
|