作者 | Charlie Wood
編譯 | 王玥,、劉冰一
2017 年,西北大學(xué)化學(xué)與生物工程系的助理教授Roger Guimerà和羅維拉-威爾吉利大學(xué)的物理學(xué)教授Marta Sales-Pardo發(fā)現(xiàn)了細(xì)胞分裂的原因,。
該研究推動了生物學(xué)的進(jìn)展,,但他們并沒有從自己的數(shù)據(jù)中發(fā)現(xiàn)關(guān)鍵信息,反而是他們的一個未曾公開的發(fā)明——他們稱之為“機(jī)器科學(xué)家”的虛擬助理將這些信息指了出來,。
Guimerà 回憶道:“我們只是給機(jī)器科學(xué)家輸入了一個算法,,然后就得到了答案。雖然這就是事實,,但沒有審稿人會信,。”
圖注:URV 化學(xué)工程系的研究人員 Marta Sales-Pardo(左) 和 Roger Guimerà(右)
兩人與他們的前同學(xué),、加泰羅尼亞生物工程研究所的Xavier Trepat進(jìn)行合作,想要確認(rèn)哪些因素可能引發(fā)細(xì)胞分裂,。許多生物學(xué)家認(rèn)為細(xì)胞超過一定大小就會分裂,,而Trepat 覺得這其中仍有探索空間。他的團(tuán)隊破譯了成群細(xì)胞爭奪位置時在柔軟表面留下的納米級印記并積累了詳盡的數(shù)據(jù)集,,其中記錄了形狀,、力量和其他十幾種細(xì)胞特征,單單是測試這些細(xì)胞特征對細(xì)胞分裂的影響大概就得花一輩子,。
可是,,如果將數(shù)據(jù)提供給機(jī)器科學(xué)家,在幾分鐘內(nèi)機(jī)器科學(xué)家就能反饋給他們一個簡潔方程,。就預(yù)測一個細(xì)胞何時分裂而言,,該方程比僅使用細(xì)胞大小或任何其他單一特征的方程精確 10 倍,。據(jù)機(jī)器科學(xué)家所說,細(xì)胞分裂與否,,取決于一個細(xì)胞的大小乘以它旁邊的細(xì)胞擠壓它的力度,。
“機(jī)器科學(xué)家能夠發(fā)現(xiàn)一些我們沒有發(fā)現(xiàn)的東西?!盩repat說,。
由于研究人員沒有公開過「機(jī)器科學(xué)家」的信息,因此他們只好進(jìn)行二次分析,。經(jīng)過數(shù)百對變量的測試,,他們得出了和「機(jī)器科學(xué)家」一致的答案,并在2018年將該研究發(fā)表在了Nature Cell Biology上,。
圖注:西班牙 Rovira i Virgili 大學(xué)的 Roger Guimerà 和 Marta Sales-Pardo 主導(dǎo)構(gòu)建了一個強(qiáng)大的符號回歸算法,,并稱之為“貝葉斯機(jī)器科學(xué)家”。
四年后,,這種方法迅速成為一種公認(rèn)的科學(xué)發(fā)現(xiàn)方法,。Sales-Pardo 和 Guimerà 是少數(shù)幾位開發(fā)最新一代工具的研究人員之一,該工具能夠?qū)崿F(xiàn)符號回歸,。
符號回歸算法不同于深度神經(jīng)網(wǎng)絡(luò),。深度神經(jīng)網(wǎng)絡(luò)算法可能會吸收數(shù)千個像素,讓像素滲透數(shù)百萬個節(jié)點組成的迷宮,,并通過不透明的機(jī)制輸出“dog”這個詞,。而符號回歸算法識別復(fù)雜數(shù)據(jù)集,然后輸出一種人類能很好理解的簡短方程式,。這些算法類似于超級版本的 Excel 曲線擬合函數(shù),,但這些算法不只尋找直線或拋物線擬合一組數(shù)據(jù)點,還尋找數(shù)十億個不同的公式,。通過這種方式,,「機(jī)器科學(xué)家」可以讓人類了解細(xì)胞分裂的原因,而神經(jīng)網(wǎng)絡(luò)只能預(yù)測細(xì)胞何時分裂,。
幾十年來,,研究人員一直在與這樣的機(jī)器科學(xué)家打交道,小心翼翼地誘導(dǎo)機(jī)器科學(xué)家從簡單的數(shù)據(jù)集中重新發(fā)現(xiàn)教科書式的自然法則,,并將其排列起來,,從中尋找某種模式。但是近年來,,這些算法已經(jīng)變得足夠成熟,,可以在真實數(shù)據(jù)中探索出從湍流如何影響大氣層到暗物質(zhì)如何聚類等此前未被發(fā)現(xiàn)的關(guān)聯(lián)。
“毫無疑問,整個領(lǐng)域都在向前發(fā)展,?!备鐐惐葋喆髮W(xué)的機(jī)器人專家Hod Lipson說。他在13年前開始了符號回歸的研究,。
圖注:機(jī)器人專家 Hod Lipson
物理學(xué)家偶爾會單憑推理尋找真理,,比如愛因斯坦通過從一束光束的角度想象另一束光束,從而感受空間和時間的柔韌性,。
但是更多時候,,理論是從馬拉松式的數(shù)據(jù)處理中誕生的。
16 世紀(jì)的天文學(xué)家布拉赫去世后,,開普勒接觸到了布拉赫筆記本中的天體觀測,,花了四年時間才確定火星在天空中描繪的是一個橢圓,而不是他之前認(rèn)為的蛋形,。通過粗暴計算,,他又另外發(fā)現(xiàn)了兩個關(guān)系,遵循了“第一定律”,,這些規(guī)律便是牛頓指出萬有引力定律的基礎(chǔ),。
符號回歸的目標(biāo)是加速這種開普勒式的試錯,遍歷將變量與基本數(shù)學(xué)運(yùn)算聯(lián)系起來的無數(shù)方法,,從而找到最能準(zhǔn)確預(yù)測系統(tǒng)行為的方程,。
圖注:天體物理學(xué)家以兩種方式對太陽系的行為進(jìn)行建模。他們首先使用了NASA多年數(shù)據(jù)來訓(xùn)練一個神經(jīng)網(wǎng)絡(luò),。然后使用符號回歸算法將該模型提煉成一個方程式,。在視頻中——顯示真實位置為實體物體,而模型預(yù)測為金屬網(wǎng)輪廓——神經(jīng)網(wǎng)絡(luò)(左)的表現(xiàn)遠(yuǎn)不如比起符號回歸算法(右),。
首個取得重大進(jìn)展的程序叫做BACON,。它由當(dāng)時在卡內(nèi)基梅隆大學(xué)的認(rèn)知科學(xué)家和人工智能研究員 Patrick Langley 在1970年代末開發(fā)。BACON 包含一列軌道周期和一列不同行星的軌道距離,,然后以不同的方式系統(tǒng)地組合這些數(shù)據(jù):周期除以距離,、周期平方乘以距離等。如果 BACON 在各種數(shù)據(jù)的不同組合中找到一個常數(shù),,例如,,如果周期的平方除以距離的立方總是給出相同的數(shù)字,就說明它找到了開普勒第三定律,。一個常數(shù)意味著它已經(jīng)確定了兩個成比例的量,換句話說,,當(dāng) BACON 找到一個方程時,,它就達(dá)到了目的,停止計算,。
盡管重新發(fā)現(xiàn)了開普勒第三定律和其他教科書上的經(jīng)典內(nèi)容,,但在計算能力有限的時代,,BACON仍然是一種奇特的存在。研究人員仍然需要手動分析大多數(shù)據(jù)集,,最終使用類似Excel的軟件,,在給定特定類別的方程時找到簡單數(shù)據(jù)集的最佳擬合。直到2009年,,康奈爾大學(xué)的機(jī)器人專家 Lipson 和 Michael Schmidt 開發(fā)了一種名為 Eureqa 的算法,。這個算法可以找到描述任何數(shù)據(jù)集的正確模型。在 Eureqa 成功開發(fā)以前,,這個概念一直處于沉睡狀態(tài),。
他們的主要目標(biāo)是建立一臺機(jī)器,能夠?qū)⒁涣杏忠涣械淖兞康耐卣箶?shù)據(jù)集歸納為一個涉及少數(shù)實際重要變量的方程,。Lipson說:“這個方程最終可能有四個變量,,但我們事先不知道是哪些。我們得把所有可能的變量都扔進(jìn)去,。天氣也許很重要,,每平方英里牙醫(yī)的數(shù)量或許也很重要?!?/span>
處理眾多變量已經(jīng)是一個難點,。研究人員表示,他們還需要具備一定的靈活性,,嘗試各種可能走向死胡同的方法,、并從中走出來。而當(dāng)算法可以從直線跳到拋物線,,或增加一個正弦波紋時,,它掌握盡可能多數(shù)據(jù)點的能力也可能變得更糟。為了克服這些挑戰(zhàn),,1992年,,計算機(jī)科學(xué)家John Koza提出了 “遺傳算法”,這種算法將隨機(jī)“突變”引入方程,,經(jīng)過多次試驗,,最初無用的功能要么演變得強(qiáng)大,要么消亡,。
Lipson和Schmidt將這一技術(shù)提升到了新的水平,。一方面,他們生成了方程式,。另一方面,,他們隨機(jī)選擇了一些數(shù)據(jù)點來測試方程,“最適合”的點是那些對方程最有挑戰(zhàn)的點?!斑@就像軍備競賽一樣,,我們需要建立兩個不斷發(fā)展的事物,而非一個,?!盠ipson說。
Eureqa算法可以壓縮涉及十多個變量的數(shù)據(jù)集,。它可以成功地反饋出高級方程,,比如描述一個鐘擺懸掛在另一個鐘擺上的運(yùn)動。
圖注:機(jī)器科學(xué)家是如何工作的
與此同時,,其他研究人員正在尋找訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的技巧,。到2011年,深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)區(qū)分貓和狗以及執(zhí)行無數(shù)其他復(fù)雜任務(wù)方面取得了巨大成功,。但是一個訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)由數(shù)百萬個具有數(shù)值價值的“神經(jīng)元”組成,,這些神經(jīng)元不會明示它們已經(jīng)學(xué)會識別哪些特征??蒃ureqaque卻可以用人類的語言傳達(dá)自己的發(fā)現(xiàn),。
當(dāng) Sales-Pardo 第一次使用 Eureqa 時,她感到很驚訝:“我認(rèn)為這是不可能的,,這些人怎么做到的,?” 她和 Guimerà 很快就開始使用 Eureqa 為他們自己的網(wǎng)絡(luò)研究建立模型,雖然結(jié)果不一致,,但他們對 Eureqa 的強(qiáng)大功能印象深刻,。該算法會演化出預(yù)測方程,但它也可能會弄巧成拙,、然后得出一個過于復(fù)雜的方程,。只要研究人員稍微調(diào)整他們的數(shù)據(jù),Eureqa 就會返回一個完全不同的公式,。于是Sales-Pardo 和 Guimerà 便從頭開始設(shè)計新的機(jī)器科學(xué)家,。
在他們看來,遺傳算法的問題在于過于依賴創(chuàng)造者的口味,。開發(fā)人員需要指導(dǎo)算法,,以平衡簡單性和準(zhǔn)確性。一個方程總是可以通過附加項來觸碰到數(shù)據(jù)集中的更多點,。但最好忽略有些離題的點,。研究者可以把簡單性定義為方程的長度,把準(zhǔn)確性定義為曲線與數(shù)據(jù)集中每個點的接近程度,,但這只是眾多選項中的兩個定義,。
Sales-Pardo ,、 Guimerà 與合作者一起,利用物理學(xué)和統(tǒng)計學(xué)方面的專業(yè)知識,,根據(jù)貝葉斯理論的概率框架來重新定義進(jìn)化過程。他們首先下載了維基百科中的所有方程式,。然后對這些方程進(jìn)行統(tǒng)計分析,,看看哪些類型最常見。這種辦法能讓算法少走彎路,,例如讓算法嘗試使用比較常見的加法,,而不是比較少見的雙曲余弦。然后該算法使用隨機(jī)抽樣方法生成方程變體,,該方法已在數(shù)學(xué)上被證明可以探索數(shù)學(xué)領(lǐng)域的每一個角落,。
在每個步驟中,該算法以方程式對數(shù)據(jù)集的壓縮程度對各類方程式進(jìn)行評估,。例如,,隨機(jī)散布的點根本不能被壓縮,我們需要知道每個點的位置,。如果1000個點沿著一條直線落下,,它們可以被壓縮成兩個數(shù)字(直線的斜率和高度)。這對學(xué)者發(fā)現(xiàn),,壓縮程度為比較各個方程提供了一種獨(dú)特且穩(wěn)定的方法,。Guimerà說:“我們可以證明,正確的模型就是壓縮數(shù)據(jù)最多的那個,,這不存在任意性,。”
經(jīng)過多年研究,,他們使用自己的算法找出了觸發(fā)細(xì)胞分裂的因素,,2020年,他們和同事們在《Bayesian machine scientist》中介紹了他們的 “貝葉斯機(jī)器科學(xué)家”,。
從那時起,,研究人員用貝葉斯機(jī)器科學(xué)家來改進(jìn)預(yù)測國家能源消耗的SoTA方程,而另一組則使用該方程來模擬通過網(wǎng)絡(luò)的滲透,。開發(fā)人員認(rèn)為這類算法將在像 Trepat 那樣的生物學(xué)研究中發(fā)揮巨大作用,,因為在這種研究當(dāng)中科學(xué)家們面對的是海量數(shù)據(jù)。
機(jī)器科學(xué)家也幫助物理學(xué)家理解跨越多尺度的系統(tǒng),。物理學(xué)家通常對原子使用一組方程,,對臺球使用一組完全不同的方程,但這種零散的方法不適用于氣候科學(xué)等學(xué)科研究,。
其中一位研究人員是紐約大學(xué)的Laure Zanna ,。她在模擬海洋湍流的工作中經(jīng)常發(fā)現(xiàn)自己夾在兩個極端之間:超級計算機(jī)可以模擬城市大小的渦流,,也可以模擬洲際洋流,但不能同時模擬兩種尺度,。她的工作是幫助計算機(jī)生成包含較小漩渦影響的全局圖片,,而無需直接模擬這些圖。最初,,她轉(zhuǎn)向深度神經(jīng)網(wǎng)絡(luò)來提取高分辨率模擬的整體效果,,并相應(yīng)地更新更粗略的模擬?!吧疃壬窠?jīng)網(wǎng)絡(luò)太棒了,,”她說,“但我是一名氣候物理學(xué)家,?!彼囊馑际撬胪ㄟ^壓力和溫度等原理來了解氣候是如何運(yùn)作的——“但是很難采集到成千上萬的參數(shù),更別說是滿意的參數(shù)了,?!?/span>
然后她發(fā)現(xiàn)了由華盛頓大學(xué)應(yīng)用數(shù)學(xué)家Steven Brunton、Joshua Proctor和 Nathan Kutz設(shè)計的算法,。他們的算法采用了一種被稱為稀疏回歸(Sparse Regression)的方法,,這種方法與符號回歸的精神類似。這種方法沒有在變異方程中挑起大混戰(zhàn),,而是從一個可能有上千個函數(shù)比如 x^2,、 x/(x ? 1) 和 sin(x)的庫開始。該算法在庫中搜索給出最準(zhǔn)確預(yù)測的術(shù)語組合,,刪除最沒用的術(shù)語,,并繼續(xù)直到庫里只剩下少數(shù)幾個術(shù)語。與符號回歸算法相比,,稀疏回歸閃電般的過程可以處理更多的數(shù)據(jù),,其代價是探索的空間更小,因為最終方程必須由庫項構(gòu)建,。
為了了解其工作原理,,Zanna 從頭開始重寫了稀疏回歸算法,然后將修改后的版本應(yīng)用于海洋模型,。當(dāng)她輸入高分辨率影片并要求算法尋找精確的縮小草圖時,,算法返回了一個與渦度以及流體如何拉伸和剪切有關(guān)的簡潔方程。當(dāng)她將這個方程輸入到她的大規(guī)模流體流動模型中時,,她看到了以能量的函數(shù)形式變化的流體,,且看得比以前更真切。
“該算法使用了額外的術(shù)語,,”Zanna 說,,然后生成了一個“美麗”的方程,,“這個方程能夠真正體現(xiàn)洋流的一些十分重要的特性,比如拉伸,、剪切和旋轉(zhuǎn),。”
通過將自身優(yōu)勢與深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢相結(jié)合,,其他團(tuán)隊也為機(jī)器科學(xué)家提供了助推力,。
普林斯頓大學(xué)天體物理學(xué)研究生Miles Cranmer開發(fā)了一種類似于 Eureqa 的開源符號回歸算法,稱為 PySR,。這個算法在數(shù)字“島嶼”上建立了不同的方程組,并讓最適合數(shù)據(jù)的方程周期性地“搬家”,,然后與其他島嶼上的方程競爭,。Cranmer 與 來自 DeepMind 以及紐約大學(xué)的計算機(jī)科學(xué)家,還有 Flatiron 研究所的天體物理學(xué)家合作,,提出了一種混合方案,。他們首先訓(xùn)練神經(jīng)網(wǎng)絡(luò)完成任務(wù),再讓PySR給出一個描述神經(jīng)網(wǎng)絡(luò)的特定部分完成了何種任務(wù)的方程,。
該小組將該程序應(yīng)用于暗物質(zhì)模擬,,并根據(jù)相鄰云的特性生成了一個公式,該公式給出了暗物質(zhì)云中心的密度,。該方程比現(xiàn)有的人工設(shè)計方程更適合數(shù)據(jù),。
2 月,該小組向系統(tǒng)輸入了30年來太陽系行星和衛(wèi)星在天空中的真實位置,。該算法完全跳過了開普勒定律,,直接推斷出牛頓的萬有引力定律以及行星和衛(wèi)星的質(zhì)量。其他小組最近則使用 PySR 發(fā)現(xiàn)了描述粒子碰撞特征的方程,、結(jié)體積的近似值以及暗物質(zhì)云在其中心塑造星系的方式,。
對于機(jī)器科學(xué)家越來越多的情況(另一個值得關(guān)注的例子是麻省理工學(xué)院的物理學(xué)家 Max Tegmark 和 Silviu-Marian Udrescu 創(chuàng)建的“ AI Feynman ”),人類研究人員說,,越多越好,。“我們真的需要這些技術(shù),,”庫茨說,,“全都需要,越多越好,,因為沒有一個技術(shù)是萬能的,。”
論文地址:https://www./doi/10.1126/sciadv.aay2631
Kutz 相信機(jī)器科學(xué)家正在將該領(lǐng)域帶到他所謂的“GoPro 物理學(xué)”的風(fēng)口浪尖,,研究人員只需將相機(jī)對準(zhǔn)目標(biāo),,就能得到一個抓住正在發(fā)生的事情本質(zhì)的方程式,。(目前的算法仍然需要人類提供一長串潛在相關(guān)變量,比如位置和角度,。)
這就是 Lipson 最近一直在做的事情,。在12 月的預(yù)印本中,他與合作學(xué)者描述道,,他們首先訓(xùn)練了一個深度神經(jīng)網(wǎng)絡(luò)來接收視頻的幾幀,,并預(yù)測接下來的幾幀。然后,,該團(tuán)隊減少了神經(jīng)網(wǎng)絡(luò)允許使用的變量數(shù)量,,到其預(yù)測開始失敗為止。
論文鏈接:https:///abs/2112.10755
該算法能夠計算出需要多少變量來模擬像鐘擺那樣的簡單系統(tǒng),,或者像火舌那樣沒有明顯的變量可供跟蹤的復(fù)雜系統(tǒng),。
機(jī)器科學(xué)家不會取代深度神經(jīng)網(wǎng)絡(luò),因為深度神經(jīng)網(wǎng)絡(luò)能夠在混亂或極其復(fù)雜的系統(tǒng)中大放異彩,。
然而,,當(dāng)涉及到圍繞行星運(yùn)行、流體晃動和細(xì)胞分裂時,,機(jī)器科學(xué)家僅利用少量運(yùn)算得出的簡明方程式卻十分準(zhǔn)確,,令人費(fèi)解。諾貝爾獎獲得者 Eugene Wigner 在他 1960 年的論文《自然科學(xué)中數(shù)學(xué)的不合理有效性(The Unreasonable Effectiveness of Mathematics in the Natural Sciences)》中將其稱為“我們既不理解也不配得的美妙禮物” ,。正如 Cranmer 所說,,“你去看看任何物理考試方程式的小抄,上面都是極其簡單的代數(shù)表達(dá)式,,但這些小抄幫助太大了,。”
Cranmer 及其同事推測,,基礎(chǔ)運(yùn)算之所以如此出色,,是因為它們代表了空間中的基本幾何動作,這使得它們成為描述現(xiàn)實的自然語言,。加法將對象向下移動到數(shù)軸,。乘法將平坦區(qū)域變成 3D 體積。出于這個原因,,他們懷疑,,當(dāng)我們在猜測方程式時,往簡單了猜是永遠(yuǎn)有道理的,。
不過,,宇宙雖然有潛在的簡單性,卻并不能保證每次這么猜測都對,。
Guimerà 和 Sales-Pardo 最初構(gòu)建了他們在數(shù)學(xué)上嚴(yán)格的算法,,因為 Eureqa 有時會為相似的輸入找到截然不同的方程,。然而,令他們沮喪的是,,他們發(fā)現(xiàn),,即使是貝葉斯機(jī)器科學(xué)家有時也會為給定的數(shù)據(jù)集返回多個同樣好的模型。
兩人最近表明,,原因在于數(shù)據(jù)本身,。他們利用機(jī)器科學(xué)家探索了各種數(shù)據(jù)集,發(fā)現(xiàn)數(shù)據(jù)集分為兩類:干凈的和有噪聲的,。在干凈的數(shù)據(jù)中,,機(jī)器科學(xué)家總能找到生成數(shù)據(jù)的方程式。但超過一定的噪聲閾值,,就不可能找到了,。換句話說,噪聲數(shù)據(jù)可以很好地(或很差地)匹配任意數(shù)量的方程,。因為研究人員已經(jīng)證明了他們的算法總是能找到最好的方程,他們知道,,如果算法失敗了,,那就沒有任何人類或者機(jī)器能夠成功。
“我們發(fā)現(xiàn)這是一個基本的限制,,”吉梅拉說,。“所以我們需要機(jī)器科學(xué)家,?!?/span>
參考鏈接:
https://www./machine-scientists-distill-the-laws-of-physics-from-raw-data-20220510/
https://www.t/Web/ScientificStaff/roger-guimera-manrique-512
Marta Sales-Pardo (0000-0002-8140-6525)
Hod Lipson
https://www./doi/10.1126/science.1165893
https://laurezanna./