作者:Dwarkesh 編者按:OpenAI 的 Sora 又一次出圈,,掩蓋其它新的 AI 產(chǎn)品的鋒芒,,包括幾乎同期發(fā)布的Google 的 Gemini 1.5 和 Meta 的 V-JEPA。很多 AI 從業(yè)者為此大抱不平,,聲稱 “被Sora奪走風(fēng)頭的 Gemini 被低估了,!” 特別是 Google 這次推出的 Gemini 1.5 Pro 是一種多模態(tài)大模型(涉及文本、視頻,、音頻),,性能水平與谷歌迄今為止最大的模型 1.0 Ultra 類似,并引入了長上下文理解方面的突破性實驗特征,。它能夠穩(wěn)定處理高達 100 萬 Tokens(相當于1小時的視頻和超過 3 萬行代碼),,且極限為1000萬 Tokens(相當于《指環(huán)王》三部曲),創(chuàng)下了最長上下文窗口的紀錄,。 近期,,Gemini 背后的推手 Google DeepMind 的 CEO Demis Hassabis 高調(diào)地接受了著名的科技播客主持人 Dwarkesh Patel 的深度專訪,從 AlphaGo,,AlphaFold, RT-2, 聊到 Gemini,,意猶未盡地爆料很多圈內(nèi)特別是 DeepMind 背后的故事。他坦率地回答了一系列大家關(guān)心的問題,,包括 Scaling-Law 為什么是一種藝術(shù)形式,?Gemini 是怎樣訓(xùn)練的?為什么需要在大型語言模型之上添加搜索,、規(guī)劃和 AlphaZero 類型的訓(xùn)練,?既然大模型有規(guī)模優(yōu)勢,為什么訓(xùn)練 Gemini 模型的規(guī)模不再增加一個量級,?為什么機器人學(xué)習(xí)訓(xùn)練數(shù)據(jù)貧乏是一種機會,?怎樣看待大模型的開源,?怎樣確保壞人無法竊取大模型的權(quán)重?怎樣保證超級智能人工智能的對齊方式正確,,并實現(xiàn)智能爆炸,?什么原因讓他興奮地預(yù)測 AGI (通用人工智能) 離我們只有不到十年了,? 這是我與谷歌 DeepMind CEO Demis Hassabis 的一集節(jié)目,。 我們討論了: - 智能的本質(zhì) - LLMs 上的強化學(xué)習(xí) - scaling和對齊 - 時間線和智能爆炸 - Gemini 訓(xùn)練 - 超級人工智能的治理 - 權(quán)重、開放源代碼和安全性 - 多模態(tài)的進一步進展 - 走進谷歌 DeepMind 智能的本質(zhì) Dwarkesh:好的,。今天,,能夠與DeepMind CEO Demis Hassabis 進行交流,真是一種真正的榮幸,。Demis歡迎來到這個播客節(jié)目,。 Demis:謝謝邀請。 Dwarkesh:首先問題是,,考慮到你的神經(jīng)科學(xué)背景,,你是如何思考智能的?具體來說,,你認為智能是一個更高級的通用推理電路,,還是成千上萬個獨立的子技能和啟發(fā)式的組合? Demis:嗯,,這很有趣,,因為智能是如此廣泛,我們使用它的方式又是如此普遍,。我認為這表明,,大腦處理我們周圍世界的一些高級共同的東西,可能有一些共同的算法主題,。當然,,大腦中還有專門做特定事情的部分,但我認為可能有一些潛在的原則支撐著所有這些,。 Dwarkesh:是的,。然而,在這些LLM 中,,當你在任何特定領(lǐng)域提供大量數(shù)據(jù)時,,它們往往在該領(lǐng)域中獲得了不對稱的改善。我們不應(yīng)該期望在所有不同領(lǐng)域都有一種普遍的改進嗎,? Demis:首先,,我認為當你在特定領(lǐng)域中取得進步時,有時確實會在其他領(lǐng)域獲得令人驚訝的改善,。所以,,例如,,當這些大型模型在編碼方面取得進步時,這實際上可以改善它們的一般推理能力,。因此,,有一些證據(jù)表明有一些轉(zhuǎn)移。但同樣,,這也是人類大腦學(xué)習(xí)的方式,。如果我們體驗和練習(xí)了很多象棋或?qū)懽鳎蛘咂渌魏螙|西,,我們也傾向于專門化并在特定領(lǐng)域變得更好,,盡管我們使用的是一般的學(xué)習(xí)技術(shù)和一般的學(xué)習(xí)系統(tǒng)來在該領(lǐng)域變得出色。 Dwarkesh:是的,。對于你來說,,最令人驚訝的這種轉(zhuǎn)移的例子是什么?比如你是否看到語言和代碼,,或者圖像和文本之間的改進,? Demis:是的,我認為可能是的,。我希望我們將看到更多這種轉(zhuǎn)移,,但我認為像在編碼和數(shù)學(xué)方面變得更好,然后總體上改進你的推理能力,。這就是我們作為人類學(xué)習(xí)者的方式,。但我認為看到這些人工系統(tǒng)中發(fā)生這種情況是很有趣的。 Dwarkesh:你能否看到某種機械方式,,比如在語言和代碼的例子中,,有一個在神經(jīng)網(wǎng)絡(luò)中同時對語言和代碼都有所改善的地方?還是說這個問題太復(fù)雜了,? Demis:是的,,我認為我們的分析技術(shù)還不夠成熟,無法專注于這一點,。我認為這實際上是需要進行更多研究的領(lǐng)域之一,,即對這些系統(tǒng)構(gòu)建的表示進行機械性分析。我有時候喜歡稱之為虛擬大腦分析,。在某種程度上,,這有點像對真實大腦進行 fMRI 或單細胞記錄。對于這些人工智能的類似分析技術(shù)是什么,?在這方面有很多很棒的工作正在進行,。像 Chris Olah 這樣的人,我真的很喜歡他的工作,。還有很多計算神經(jīng)科學(xué)的技術(shù),,我認為可以用來分析我們正在構(gòu)建的這些當前系統(tǒng),。事實上,我試圖鼓勵很多我的計算神經(jīng)科學(xué)朋友開始朝著這個方向思考,,并將他們的專業(yè)知識應(yīng)用于這些大型模型,。 Dwarkesh:是的。在你的神經(jīng)科學(xué)背景下,,其他人工智能研究人員對人類智能的理解中有些什么不明白的,,而你卻有一些見解? Demis:我認為神經(jīng)科學(xué)已經(jīng)做出了很大的貢獻,。如果你回顧一下過去大約 10-20 年,,至少我們已經(jīng)在此領(lǐng)域工作了這么長時間了,而我自己已經(jīng)思考了 30 多年,。我認為在人工智能新浪潮的早期階段,神經(jīng)科學(xué)提供了許多有趣的方向性線索,。例如,,將強化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合起來。我們做過的一些開創(chuàng)性工作,,比如經(jīng)驗回放,,甚至是注意力的概念,這些都變得非常重要,。很多最初的靈感都來自對大腦如何工作的一些了解,,當然,并非具體細節(jié),,一個是工程系統(tǒng),,另一個是自然系統(tǒng)。因此,,這并不是關(guān)于具體算法的一一對應(yīng)映射,,而更多地是一種啟發(fā)性的方向,也許是一些關(guān)于架構(gòu),、算法或表征性思想的想法,。因為你知道,大腦是普通智能可能性的現(xiàn)實證明,。我認為人類努力的歷史就是一旦你知道某事是可能的,,就更容易朝著那個方向努力,因為你知道這只是一個努力的問題,,而不是一個是否的問題,。這使得你能夠更快地取得進步。所以我認為,,至少在某種程度上,,神經(jīng)科學(xué)激發(fā)了我們今天的很多思考,。但是在前進方面,我認為仍然有很多有趣的事情需要解決,,尤其是關(guān)于規(guī)劃,。大腦如何構(gòu)建正確的世界模型?例如,,我研究了大腦如何進行想象,,或者你可以將其視為心理模擬。那么,,我們?nèi)绾蝿?chuàng)建豐富的視覺空間模擬世界,,以便我們更好地進行規(guī)劃? RL 在 LLMs 之上 Dwarkesh:是的,,實際上,,我很好奇你如何認為這將與 LLMs 交互。顯然,,DeepMind 處于前沿,,多年來一直是如此,擁有諸如 AlphaZero 等系統(tǒng),,這些系統(tǒng)可以思考不同的步驟以達到一個目標,。LLMs 是否有可能實現(xiàn)這種樹搜索的方式?你是如何考慮這個問題的,? Demis:在我看來,,我認為這是一個非常有前途的方向。所以我們必須繼續(xù)改進大型模型,,必須繼續(xù)使它們成為對世界更加準確的預(yù)測器,。因此,實際上,,這意味著使它們更可靠的世界模型,。這顯然是 AGI 系統(tǒng)的一個必要組成部分,但我認為可能不是足夠的組成部分,。然后在此基礎(chǔ)上,,我們正在研究諸如 AlphaZero 等規(guī)劃機制,利用該模型制定具體的計劃,,以實現(xiàn)世界上的某些目標,,并且可能將思維鏈或推理線連接在一起,并且可能使用搜索來探索可能性的大空間,。我認為這在我們當前的大型模型中是缺失的,。 Dwarkesh:你如何跨越這種方法通常需要的巨大計算量?所以即使 AlphaGo 系統(tǒng)也是一種相當昂貴的系統(tǒng),因為你必須在樹的每個節(jié)點上運行一個 LLM,。你預(yù)計這將如何變得更加高效,? Demis:一個方面是摩爾定律往往會有所幫助。每年,,當然會增加更多的計算量,,但我們專注于高效的、樣本高效的方法,,并重新利用現(xiàn)有數(shù)據(jù),,比如經(jīng)驗回放,還有只是尋找更有效的方法,。我的意思是,,你的世界模型越好,你的搜索就越有效,。所以,,我總是拿 AlphaGo 舉個例子,我們的系統(tǒng)可以下圍棋,、國際象棋和任何游戲,,它在所有這些游戲中都比世界冠軍級別的人類選手強大,并且使用的搜索比蠻力方法(如 Deep Blue)要少得多,,比如說下國際象棋。傳統(tǒng)的蠻力系統(tǒng),,比如 Deep Blue,,可能會檢查每個決策可能的移動數(shù)百萬次。AlphaGo 大約只檢查了數(shù)萬個可能的位置,,以便決定下一步該移動什么,。但是,人類大師,、世界冠軍可能只會看幾百個移動,,甚至是頂尖的移動,以便做出他們非常好的決定,。所以這表明,,顯然,蠻力系統(tǒng)除了關(guān)于游戲的啟發(fā)式之外,,沒有任何真正的模型,。AlphaGo 具有相當不錯的模型,但是頂尖的人類選手對圍棋或國際象棋有更豐富,、更準確的模型,。因此,這使他們能夠在非常少的搜索中做出世界級的決定,。所以我認為存在一種權(quán)衡,。如果你改進模型,,那么我認為你的搜索可以更有效,因此你可以在搜索中取得更大的進展,。 Dwarkesh:是的,,我有兩個基于此的問題。首先是關(guān)于 AlphaGo,,你有一個非常具體的贏得條件,,就是最終我是否贏得了這場圍棋比賽?你可以在此基礎(chǔ)上進行強化,。當你只是考慮一個 LLM 提出的想法時,,你認為最終會有這種能力來區(qū)分,是否這是一個值得獎勵的好事情,? Demis:當然,,這就是為什么我們首創(chuàng),并且 DeepMind 以使用游戲作為驗證場地而聞名,,部分原因是顯然在這個領(lǐng)域進行研究是高效的,。但另一個原因顯然是,很容易指定一個獎勵函數(shù),,贏得游戲或提高分數(shù)之類的東西通常內(nèi)置在大多數(shù)游戲中,。因此,這是真實世界系統(tǒng)的挑戰(zhàn)之一,,如何定義正確的目標函數(shù),、正確的獎勵函數(shù)和正確的目標,并以一種通用但足夠具體的方式指定它們,,并實際上將系統(tǒng)引向正確的方向,。對于真實世界的問題,這可能要困難得多,。但實際上,,如果你考慮一下,即使在科學(xué)問題中,,通常也有一些你可以指定的目標,。 Demis:是的,好吧,,我認為情況是不同的,,因為我們的大腦并不是為了進行蒙特卡羅樹搜索而構(gòu)建的,對吧,?這不是我們的有機大腦的工作方式,。因此,我認為為了彌補這一點,像愛因斯坦這樣的人就會產(chǎn)生,,他們的大腦利用了他們的直覺,,我們也許會談到直覺是什么,但是他們利用了他們的知識和經(jīng)驗來構(gòu)建極其準確的模型,,就愛因斯坦而言,,包括這些心理模擬。我認為如果你讀一讀愛因斯坦是如何想出這些東西的,,他過去會進行可視化,,并且真正地感受這些物理系統(tǒng)應(yīng)該是什么樣子,不僅僅是數(shù)學(xué),,而是對它們在現(xiàn)實中可能是什么樣子有了一種直觀的感覺,。這使得他能夠想到這些當時非常奇特的想法。因此,,我認為我們正在構(gòu)建的世界模型的復(fù)雜性,,如果你想象一下,你的世界模型可以將你帶到你正在搜索的樹中的某個節(jié)點,,然后你只需在那個葉節(jié)點周圍做一點點搜索,,這會帶你到這些原始的地方。但是顯然,,如果你的模型和你對該模型的判斷非常好,,那么你就可以更準確地選擇應(yīng)該用搜索擴展的葉節(jié)點。因此,,總體來說,,你會進行更少的搜索。我的意思是,,沒有任何人能夠?qū)θ魏沃匾目臻g進行蠻力搜索。 Dwarkesh:是的,。一個重要的開放性問題是,,RL 是否會使這些模型利用自我對弈的合成數(shù)據(jù)來克服數(shù)據(jù)瓶頸。聽起來你對此持樂觀態(tài)度,。 Demis:是的,,我對此非常樂觀。首先,,我認為還有更多的數(shù)據(jù)可以使用,,特別是如果考慮到多模式、視頻等等,。顯然,,社會不斷增加更多的數(shù)據(jù)。但我認為有很多可能性可以創(chuàng)造合成數(shù)據(jù)。我們正在以不同的方式進行研究,,部分是通過模擬,,例如使用非常逼真的游戲環(huán)境來生成逼真的數(shù)據(jù),但也包括自我對弈,。這是系統(tǒng)相互作用或相互交流的地方,,在某種程度上,對我們來說效果非常好,,比如 AlphaGo 和 AlphaZero,,我們讓系統(tǒng)相互對弈,并從彼此的錯誤中學(xué)習(xí)并積累知識,。我認為有一些很好的類比,。這有點復(fù)雜,但要構(gòu)建一個普遍的世界,。 Dwarkesh:數(shù)據(jù),,你如何使這些模型產(chǎn)生的合成數(shù)據(jù)不僅僅是他們已經(jīng)在數(shù)據(jù)集中擁有的東西的更多,而是一些他們以前沒有見過的東西,,你知道我是什么意思嗎,?以實際改善能力。 Demis:是的,。所以,,在這方面,我認為需要整個科學(xué),,我認為我們?nèi)蕴幱谄鸩诫A段,,即數(shù)據(jù)策劃和數(shù)據(jù)分析。因此,,實際上分析你的數(shù)據(jù)分布中存在的漏洞是重要的,,這對于公平性、偏見和其他事項至關(guān)重要,。從系統(tǒng)中去除這些是嘗試確保你的數(shù)據(jù)集代表了你試圖學(xué)習(xí)的分布的重要手段,。而且有許多技巧可以使用,比如加權(quán)或重播數(shù)據(jù)的某些部分,?;蛘吣憧梢韵胂螅绻愦_定了數(shù)據(jù)集中的某些空白,,那么就可以利用你的合成生成能力來填補這些空白,。 Dwarkesh:是的。現(xiàn)在人們正在關(guān)注DeepMind 多年前做過的 RL 方面的東西,。有沒有早期的研究方向或者是以前做過的事情,,但人們只是沒有關(guān)注的,,你認為會成為重要的事情? Demis:對,。 Dwarkesh:就像有一段時間人們沒有注意到擴展?,F(xiàn)在有什么是完全被低估的嗎? Demis:實際上,,我認為過去幾十年來的歷史一直是事物時而流行,,時而不流行。我覺得大約五年前,,當我們首次使用 AlphaGo 進行開拓時,,甚至在那之前,使用 DQN 進行開拓時,,這是第一個在 Atari 上工作的系統(tǒng),,我們的第一個大型系統(tǒng),現(xiàn)在已經(jīng)超過十年了,,它擴展了 Q 學(xué)習(xí)和強化學(xué)習(xí)技術(shù)來處理,。將其與深度學(xué)習(xí)相結(jié)合,創(chuàng)建深度強化學(xué)習(xí),,然后使用它來擴展到完成一些相當復(fù)雜的任務(wù),,比如僅僅通過像素來玩 Atari 游戲。我實際上認為很多這些想法需要再次回來,。正如我們之前討論的那樣,,將其與新的大型模型和大型多模式模型的新進展結(jié)合起來,這顯然也非常令人興奮,。因此,,我認為有很多潛力將一些舊想法與新想法結(jié)合起來,。 Dwarkesh:是否有可能,,AGI 最終會來自某個地方,?僅僅是一個純粹的 RL 方法。從我們討論的方式來看,,聽起來 LLM 將形成正確的先驗知識,,然后在其上進行這種樹搜索。還是完全可能,,完全沒有先驗知識、沒有數(shù)據(jù),,完全從頭開始建立所有知識,? Demis:從理論上講,我認為沒有理由不去全力以赴,。谷歌 DeepMind 這里有一些人,,以及 RL 社區(qū)的一些人在做這方面的工作,,完全不考慮先驗知識、沒有數(shù)據(jù),,只是從頭開始建立所有知識,。我認為這是有價值的,因為當然,,這些想法和算法也應(yīng)該適用于當你擁有一些知識時,。但話雖如此,我認為大概我的打賭是,,達到 AGI 的最快方式,,最有可能的合理方式是利用當前世界上關(guān)于諸如網(wǎng)絡(luò)之類的知識,我們已經(jīng)收集到的知識,,以及我們有這些可擴展的算法,,比如 transformers,能夠攝取所有這些信息,。我不明白為什么你不會從一個模型開始作為一種先驗,,或者作為一個用來建立和預(yù)測的起點。我只是認為不利用這一點是沒有道理的,。因此,,我的打賭是最終的 AGI 系統(tǒng)將把這些大型多模態(tài)模型作為整體解決方案的一部分,但可能僅僅依靠它們本身是不夠的,。你需要在其上進行額外的規(guī)劃搜索,。 Scaling 和對齊 Dwarkesh: 好的,這聽起來像是我即將問的問題的答案,,我的問題是,,作為一個長期從事這個領(lǐng)域的人,見證了不同的趨勢的興起和衰落,,你是否認為強版本的擴展假設(shè)是正確的,,以及它哪些方面是錯誤的?就是你只需要在廣泛的數(shù)據(jù)分布上投入足夠的計算資源,,你就能得到智能,。 Demis:是的???,我認為這現(xiàn)在是一個經(jīng)驗性的問題。所以我認為對于幾乎所有人來說,,包括最早研究擴展假設(shè)的人,,它的發(fā)展到了何種程度是相當令人驚訝的。在某種程度上,,我看著今天的大型模型,,我認為它們幾乎是不合理地有效,。我認為一些屬性令人驚訝,比如,,明顯地,,在我看來,它具有某種形式的概念和抽象等東西,。我認為,,如果我們是在五年前以上談?wù)摚視嬖V你,,也許我們需要一種額外的算法突破才能做到這一點,。也許更像大腦的工作方式。我認為如果我們想要明確的抽象概念,,像是清晰的概念,,那么這仍然是正確的,但似乎這些系統(tǒng)可以隱含地學(xué)習(xí)到這一點,。另一個非常有趣的,,我認為是意料之外的事情是,即使這些系統(tǒng)沒有多模式地體驗世界,,或者至少直到最近,,當我們擁有多模態(tài)模型時。從語言中建立信息和模型的數(shù)量是令人驚訝的,。我想我對為什么會這樣有一些假設(shè),。我認為我們通過 RLHF 反饋系統(tǒng)獲得了一些基礎(chǔ),因為顯然,,人類的評價者根據(jù)定義是有基礎(chǔ)的人,。我們都根植于現(xiàn)實。因此,,我們的反饋也是基于現(xiàn)實的,。因此,也許通過這種方式來獲得一些基礎(chǔ),。也許語言包含更多的基礎(chǔ),,如果你能夠攝取所有的話,那么比我們之前認為的,,或者語言學(xué)家之前認為的,,要多。因此,,這實際上是一些非常有趣的哲學(xué)問題,。人們甚至還沒有真正觸及表面??吹揭呀?jīng)取得的進步,,想象下一步會走向何方是相當有趣的。但就你關(guān)于大型模型的問題而言,,我認為我們必須盡可能地推動擴展,,這也是我們目前正在做的。這是一個經(jīng)驗性的問題,,它是否會達到一個漸近點或者一個磚墻,,不同的人對此有不同的爭論。但實際上,,我認為我們應(yīng)該去測試,。我認為沒有人知道。但與此同時,,我們也應(yīng)該加倍創(chuàng)新和發(fā)明,。這是谷歌研究、DeepMind 和谷歌大腦,,我們在過去的十年里開創(chuàng)了許多東西的基本工作,。這是我們的傳家寶。你可以把我們一半的工作看作是做擴展,,一半的工作是發(fā)明下一個架構(gòu),、下一個算法,這些將是必需的,,知道你有這個規(guī)模越來越大的模型正在到來,。所以我現(xiàn)在的打賭,但這是一個寬松的打賭,,是你兩者都需要,。但我認為你必須盡可能地推動兩者。我們處于一個幸運的位置,,我們可以這樣做,。 Dwarkesh:是的,。我想再問一下關(guān)于基礎(chǔ)的問題。你可以想象兩件事情可能會改變,,這會使基礎(chǔ)更加困難,。一個是隨著這些模型變得更加智能,它們將能夠在我們無法生成足夠的人類標簽的領(lǐng)域中運作,,僅僅因為我們不夠聰明,。對吧。所以如果它做了一百萬行的拉取請求,,我們?nèi)绾胃嬖V它?像這是在我們道德和我們想要的最終目標的約束之內(nèi),而這不是。另一個是,,聽起來你是在說更多的計算資源。到目前為止,,我們一直在進行下一個標記的預(yù)測,,從某種意義上說,它是一種防護,,因為你必須像人類一樣說話和思考?,F(xiàn)在,如果額外的計算資源將以強化學(xué)習(xí)的形式出現(xiàn),,那么就像達到目標一樣,我們真的無法追蹤你是如何做到的,。當這兩者結(jié)合在一起時,,你對基礎(chǔ)消失的擔(dān)憂有多大? Demis:好吧,看,,我認為如果沒有得到適當?shù)幕A(chǔ),系統(tǒng)就無法正確地實現(xiàn)這些目標,。對吧,。我想,,在某種程度上,你必須具有這種基礎(chǔ),,或者至少有一些,,才能使系統(tǒng)實際上在現(xiàn)實世界中實現(xiàn)目標。我實際上認為,,隨著這些系統(tǒng)和 Gemini 等系統(tǒng)變得更加多模態(tài),,我們開始攝取諸如視頻和視聽數(shù)據(jù)以及文本數(shù)據(jù)之類的事物,然后系統(tǒng)開始將這些事物聯(lián)系起來,。我認為這是一種適當?shù)幕A(chǔ)。我認為我們的系統(tǒng)將開始更好地理解現(xiàn)實世界的物理學(xué),。 然后,人們可以想象,積極版本就是處于一個非常逼真的模擬或游戲環(huán)境中,,你開始學(xué)習(xí)你的行為對世界的影響以及如何影響世界本身,。世界保持不變,,但也會影響你下一個學(xué)習(xí)片段的內(nèi)容。因此,,我們一直在研究和開創(chuàng)的這些 RL 代理,,比如 AlphaZero 和 AlphaGo,,它們實際上是積極的學(xué)習(xí)者,。他們決定下一步要做什么,會影響到他們接下來要學(xué)習(xí)的數(shù)據(jù)或經(jīng)驗,。因此,有這種非常有趣的反饋循環(huán),。當然,,如果我們想在諸如機器人技術(shù)等方面表現(xiàn)出色,我們就必須理解如何在現(xiàn)實世界中行動,。 Dwarkesh:是的,。所以在某種程度上,有一種基礎(chǔ),,即能力是否能夠繼續(xù)發(fā)展,,或者它們是否與現(xiàn)實足夠接觸,以便能夠做我們想要的事情,。還有另一種意義上的基礎(chǔ),,我們很幸運,因為它們是在人類思維上進行訓(xùn)練的,,它們可能會像人類一樣思考,。當更多的計算資源用于訓(xùn)練時,以獲取正確的結(jié)果,,而不受你是否按照人類的方式進行下一個標記的保護,,這種情況在多大程度上保持不變?也許更廣泛的問題我會向你提出,,這也是我問過 Shane 的,,是什么導(dǎo)致了一個比人類更聰明的系統(tǒng)的對齊?也許會想出一些異域概念,,并且你真的無法監(jiān)控百萬行的拉取請求,因為你真的無法理解整個過程,,你也無法給出標簽,。 Demis:看,這是 Shane 和我以及這里的許多其他人自 DeepMind 成立之前就一直放在心上的事情,,因為我們計劃得太成功了,。在 2010 年,沒人考慮過 AI,,更不用說 AGI 了,。但我們已經(jīng)知道,如果我們能夠取得這些系統(tǒng)和這些想法的進展,,那么所創(chuàng)造的技術(shù)將是令人難以置信的變革性的,。因此,我們早在 20 年前就在思考,,那么,,這將會有什么后果,無論是積極的還是消極的,。當然,,積極的方向是驚人的科學(xué),,比如 AlphaFold,在健康,、科學(xué),、數(shù)學(xué)和科學(xué)發(fā)現(xiàn)方面都取得了令人難以置信的突破。但我們還必須確保這些系統(tǒng)是可理解和可控制的,。 我認為有幾種,,這將是一個單獨的討論,但有許多人有很多想法,,從更嚴格的評估系統(tǒng),。我認為我們對于諸如系統(tǒng)是否能夠欺騙你之類的行為還沒有足夠好的評估和基準。它能夠竊取自己的代碼,,這種不良行為,。然后有一些想法,實際上使用 AI,,也許是狹義的 AI,,不是一般性的學(xué)習(xí)系統(tǒng),而是專門用于某一領(lǐng)域的系統(tǒng),,幫助我們作為人類科學(xué)家分析和總結(jié)更一般系統(tǒng)正在做的事情,。狹義 AI 工具。我認為在創(chuàng)建硬化沙箱或圍繞模擬的網(wǎng)絡(luò)安全安排的模擬方面有很多前景,,既可以將AI 保持在內(nèi)部,,又可以將黑客排除在外,這樣你就可以在沙箱領(lǐng)域內(nèi)更自由地進行實驗,。我認為很多這樣的想法,,還有很多其他的想法,包括我們之前談到的分析方面的東西,,我們可以分析和理解這個系統(tǒng)正在構(gòu)建的概念,,它的表示是什么樣的,所以它們對我們來說可能并不那么陌生,,我們實際上可以追蹤到它正在構(gòu)建的知識,。 時間線和智能爆炸 Dwarkesh:是的。稍微退后一步,。我想知道你的時間表是什么,。Shane 說他的,我認為模態(tài)結(jié)果是 2028 年,。我想這可能是他的中位數(shù),。你的時間表是什么? Demis:是的,,我沒有具體的預(yù)定數(shù)字,,因為我認為有太多未知和不確定因素,,而且人類的聰明才智和努力時常會帶來意想不到的驚喜。這可能會實質(zhì)性地改變時間表,。但我可以說,,當我們 2010 年創(chuàng)辦 DeepMind 時,我們把它看作是一個 20 年的項目,。實際上,,我認為我們正在按計劃進行,這在 20 年的項目中是令人驚訝的,,因為通常它們總是在 20 年后才能實現(xiàn),。這是一個關(guān)于無論是量子 AI 還是其他任何東西,總有 20 年的笑話,。但我認為我們正在按計劃進行,。因此,如果在未來十年內(nèi)擁有類似 AGI 的系統(tǒng),,我也不會感到意外,。 Dwarkesh:你是否相信這樣一個模型,一旦你擁有一個 AGI,,你就有了一個基本上可以進一步加速 AI 研究的系統(tǒng),?也許不是在一夜之間,但在幾個月和幾年的時間里,,你會比以前有更快的進展,? Demis:我認為這有可能。我認為這在一定程度上取決于我們作為一個社會決定將最初的初期 AGI 系統(tǒng),,甚至原始 AGI 系統(tǒng)用于什么,。所以即使當前的大型語言模型似乎在編碼方面表現(xiàn)不錯,我們也有 AlphaCode 等系統(tǒng),。我們還有定理證明系統(tǒng)。所以可以想象將這些想法結(jié)合在一起并將它們變得更好,。然后我可以想象這些系統(tǒng)在設(shè)計和幫助我們構(gòu)建未來版本時會相當不錯,。但我們也必須考慮到這樣做的安全性問題。 Dwarkesh:我很好奇你是怎么想的,。我不是說這一年會發(fā)生這種情況,,但最終你會開發(fā)一個模型,其中在開發(fā)過程中,,你認為有一些機會,,一旦這個模型完全開發(fā)出來,它將能夠進行智能爆炸式的動態(tài),。在那個時候,,該模型必須滿足什么樣的條件,,以至于你會放心地繼續(xù)系統(tǒng)的開發(fā)。 Demis:好吧,,看,,我認為在我們今天對這些系統(tǒng)的了解遠遠不夠之前,我需要更多地理解這些系統(tǒng),,甚至才能向你解釋我們需要在那里打勾,。所以我認為我們在未來幾年的時間里,以及在這些系統(tǒng)開始出現(xiàn)之前,,我們必須想出正確的評估和指標,,也許最好是正式的證明。對于這些類型的系統(tǒng)來說,,這將是困難的,,但至少在這些系統(tǒng)可以做的事情周圍有一些經(jīng)驗上的界限。這就是為什么我認為欺騙之類的事情是根源性的特征,,你不希望有的,,因為如果你確信你的系統(tǒng)暴露了它實際上是怎么想的,那么這就打開了使用系統(tǒng)本身向你解釋自己的一些方面的可能性,。我對此的想法實際上是,,如果我要和 Gary Kasparov 下一盤國際象棋,他是有史以來最了不起的國際象棋選手之一,,我不會能夠提出一個他可以的棋步,,但他可以向我解釋為什么他提出了那一步,并且我事后能夠理解,,對吧,?這是我們可以想象的我們可以利用這些系統(tǒng)的一種能力,讓它們向我們解釋甚至也許是為什么他們在想著某些事情的證明,,至少在數(shù)學(xué)問題上,。 Dwarkesh:明白了。你有沒有想過相反的答案會是什么,?所以什么情況下才是真的,?明天早上你會說,“哦,,天哪,,我沒有預(yù)料到這個?!泵魈煸缟夏憧吹搅艘恍┚唧w的觀察結(jié)果,,我們必須停止 Gemini2 的訓(xùn)練。具體會是什么…… Demis:是的,,我可以想象,。這就是像沙盒模擬這樣的東西的作用,。我們在一個安全的、安全的環(huán)境中進行實驗,,然后發(fā)生了一些非常意外的事情,,一個新的意外的能力或者我們明確告訴系統(tǒng)我們不想要的東西,但它卻說謊了,。這些都是我們希望用當今的系統(tǒng)仔細挖掘的事情,,在我看來,今天這些系統(tǒng)并不危險,,但在幾年后可能會有潛力,,然后你最好暫停,并真正弄清楚在繼續(xù)之前它為什么會做這些事情,。 Gemini 訓(xùn)練 Dwarkesh:是的,。回到Gemini,,我很好奇在開發(fā)過程中的瓶頸是什么,。如果擴展效果很好,為什么不立即使其規(guī)模增加一個數(shù)量級,。 Demis:首先,,存在實際限制。你實際上可以在一個數(shù)據(jù)中心容納多少計算資源,?實際上,,你在與非常有趣的分布式計算挑戰(zhàn)相對抗。幸運的是,,我們有一些世界上最優(yōu)秀的人才來應(yīng)對這些挑戰(zhàn),,跨數(shù)據(jù)中心的訓(xùn)練,所有這些問題,。非常有趣的挑戰(zhàn),,硬件挑戰(zhàn),我們不斷地設(shè)計和建造我們的TPU等硬件,。所以這是所有的,。然后,擴展定律不是通過魔法就可以發(fā)生的,。你仍然需要擴大超參數(shù),,并且每一次新的規(guī)模都會有各種創(chuàng)新,。不僅僅是在每一個新的規(guī)模上重復(fù)相同的配方,。你必須調(diào)整配方,這在某種程度上是一種藝術(shù)形式,。你必須幾乎獲得新的數(shù)據(jù)點,。如果你試圖將你的預(yù)測擴展到幾個數(shù)量級,。有時候它們不再成立了,因為新的能力有新能力的躍遷,,有些事情保持不變,,而有些事情不是這樣。所以通常你確實需要那些中間數(shù)據(jù)點來糾正一些超參數(shù)優(yōu)化和其他事情,,以便擴展定律繼續(xù)成立,。所以有各種各樣的實際限制,因此一個數(shù)量級是你希望在每個時代之間進行的最大限度,。 Dwarkesh:哦,,這太有意思了。在GPT 四的技術(shù)報告中,,他們說他們能夠預(yù)測訓(xùn)練損失,,比 GPT 四少計算數(shù)萬倍。他們可以看到曲線,。但你提出的觀點是損失所暗示的實際能力可能并不如此,。 Demis:下游能力有時并不是由此而來的,你經(jīng)??梢灶A(yù)測核心指標,,比如訓(xùn)練損失之類的指標,但它實際上并不會轉(zhuǎn)化為你關(guān)心的MMLU或其他一些實際能力,。它們并不總是線性的,,因此存在非線性效應(yīng)。 Dwarkesh:在 Gemini 的開發(fā)過程中,,最讓你驚訝的是什么,? Demis:嗯,我不會說有一個很大的驚喜,,但嘗試在那樣的規(guī)模上訓(xùn)練東西是非常有趣的,,從組織上來說,了解如何照顧這樣的系統(tǒng),,并跟蹤它,。我認為更好地理解你正在優(yōu)化的指標與你想要的最終能力之間的關(guān)系是非常有趣的,但仍然不是完全理解的映射,,但我們越來越擅長這樣做,。 Dwarkesh:是的,有一種看法,,即其他實驗室可能比 DeepMind 在 Gemini 項目上更加高效利用計算資源,。我不知道你對這種看法有何看法。 Demis:我不認為是這樣。事實上,,Gemini one 使用的計算資源大致與傳聞中的 GPT 四相當,,或許略多一些。我不知道確切的使用量是多少,,但我認為大致在同一個數(shù)量級上,。我們非常高效地利用我們的計算資源,我們將計算資源用于許多方面,。其中一個不僅是擴展,,還有之前提到的更多創(chuàng)新和理念。一個新的創(chuàng)新,、一個新的發(fā)明,,只有在它也能夠擴展的時候才有用。所以,,在某種程度上,,你也需要相當多的計算資源來進行新的發(fā)明,因為你必須在至少一定規(guī)模上測試許多事物,,并確保它們在那個規(guī)模上能夠運行,。此外,一些新的想法可能在玩具規(guī)模下無法工作,,但在更大規(guī)模下可以工作,。事實上,這些更有價值,。所以如果你考慮一下這個探索過程,,你需要相當多的計算資源來做到這一點。好消息是,,我們在谷歌很幸運,,我認為今年,我們的計算資源絕對是所有研究實驗室中最多的,。我們希望在擴展和我們系統(tǒng)的能力以及新的發(fā)明方面能夠非常有效地使用它,。 Dwarkesh:是的。如果你回到2010年當你剛開始 DeepMind 的時候,,對于人工智能的進展看起來是什么樣子的,,你會感到最驚訝的是什么?那時你是否預(yù)料到,,在某種大程度上,,會投入數(shù)十億美元到這些模型中,還是你對它會是什么樣子有不同的看法,? Demis:我們認為,,實際上,,我知道你曾經(jīng)采訪過我的同事 Shane,他總是認為,,從計算曲線的角度來看,然后可能大致與大腦的規(guī)模進行比較,,以及有多少神經(jīng)元和突觸,,非常粗略地說,但我們現(xiàn)在實際上處于這種情況,,大腦中突觸數(shù)量和我們所擁有的計算資源的數(shù)量大致相同,。但我認為更重要的是,我們始終認為我們的賭注是放在普遍性和學(xué)習(xí)上的,。所以這些總是我們將使用的任何技術(shù)的核心,。這就是為什么我們?nèi)菧y量強化學(xué)習(xí)、搜索和深度學(xué)習(xí)這三種類型的算法,,這些算法將會擴展并且會非常普遍,,并且不需要大量手工制作的人類先驗,我們認為這是構(gòu)建人工智能的失敗模式,,實際上是在 MIT 等地方構(gòu)建人工智能的努力中,,那里有非常基于邏輯的系統(tǒng),,專家系統(tǒng),,大量的手工編碼,手工制作的人類信息進入其中,,結(jié)果是錯誤的或者太過刻板,。所以我們想擺脫這一點。我認為我們早早地發(fā)現(xiàn)了這一趨勢,,顯然我們將游戲作為我們的試驗場,,我們在那方面做得非常好。我認為所有這些都非常成功,。我認為也許激發(fā)了其他人去思考一些事情,,就像 AlphaGo 是激發(fā)許多其他人去思考的一個重要時刻一樣。實際上,,這些系統(tǒng)已經(jīng)準備好擴展了,。然后,當然,,隨著我們在谷歌研究和 Brain 的同事發(fā)明了變壓器,,那種允許我們攝取大量信息的深度學(xué)習(xí),當然真正加速了我們今天所處的位置,。所以我認為這一切都是同一血統(tǒng)的一部分,。我們無法預(yù)測每一個轉(zhuǎn)折和變化,,但我認為我們所走的總體方向是正確的。 Dwarkesh:是的,。事實上,,這很有趣,因為如果你閱讀你們的舊論文或 Shane 的舊論文,,比如 2009 年的 Shane 的論文,,他說,我們測試人工智能的方法是,,你能壓縮維基百科嗎,?而這確實就是損失函數(shù)領(lǐng)域,或者,,就像你在 2016 年的一篇論文中所說的,,在變壓器之前,你說你正在比較神經(jīng)科學(xué)和人工智能,,他說注意力是必需的,。 Demis:確實。所以我們早就預(yù)見到了這些東西,,事實上,,我們有一些早期的注意力論文,但它們不像變壓器那樣優(yōu)雅,,最終變壓器成為了更好,、更普遍的架構(gòu)。 超級人工智能的治理 Dwarkesh:是的,。當你將所有這些向前推進并思考超人類智能時,,你認為那個景觀是怎樣的?它仍然由一家私營公司控制嗎,?那么具體的治理應(yīng)該是什么樣子的,? Demis:是的,看,,我認為這項技術(shù)非常重要,。我認為它遠遠超出了任何一家公司,甚至整個行業(yè)的規(guī)模,。我認為這必須是一個大型合作,,參與者包括來自公民社會、學(xué)術(shù)界,、政府等多個利益相關(guān)者,。好消息是,我認為最近聊天機器人系統(tǒng)的普及已經(jīng)喚醒了社會的其他部分,,人們開始意識到這一點,,以及與這些系統(tǒng)互動的情況會是怎樣的,。這很好。因此,,這為非常好的對話打開了許多門,。我想舉一個例子,就是幾個月前在英國舉辦的安全峰會,,我認為那是一個巨大的成功,。開始進行這種國際對話,我認為整個社會都需要參與其中,,決定我們想要部署這些模型用于什么?我們想要如何使用它們,,我們不想使用它們做什么,?我認為我們必須努力在這方面達成一些國際共識,然后還要確保這些系統(tǒng)的好處造福于每個人,,造福于整個社會,。這就是為什么我如此努力推動諸如為科學(xué)而使用人工智能這樣的事情,我希望通過像我們的子公司同構(gòu)這樣的事情,,我們將開始利用人工智能治愈疾病,,并加速藥物發(fā)現(xiàn),這些都是驚人的事情,,氣候變化等等,。我認為我們面臨的是人類和人類的挑戰(zhàn)。實際上,,是巨大的挑戰(zhàn),,但我對我們能夠解決這些挑戰(zhàn)持樂觀態(tài)度,因為我們有這個非常強大的工具即將到來,,那就是人工智能,,我們可以應(yīng)用它,我認為可以幫助我們解決許多這些問題,。你知道的,,理想情況下,我們會在這個問題上達成共識,,并在聯(lián)合國層面進行大討論,。 Dwarkesh:如果你知道,有一個有趣的事情是,,如果你和這些系統(tǒng)交談,,它們非常強大和聰明,但有趣的是它們還沒有自動化大部分經(jīng)濟,。而如果五年前我向你展示了Gemini,,你可能會說,,哇,這完全會影響很多事情,。那么你如何解釋這一點,?為什么它還沒有產(chǎn)生更廣泛的影響? Demis:是的,,我認為這只是表明我們還處于這個新時代的開端,。我認為對于這些系統(tǒng)來說,有一些有趣的用例,,你可以使用這些聊天機器人系統(tǒng)為你總結(jié)信息,,也許進行一些簡單的寫作,也許是更多類似于模板的寫作,,但這只是我們每天所做的工作的一小部分,。因此,我認為對于更一般的用例,,我們?nèi)匀恍枰碌哪芰?,比如?guī)劃和搜索,但也可能需要個性化和記憶,,情節(jié)性記憶,。不僅僅是長期的上下文窗口,而是實際上記住我們100次對話前談?wù)摰膬?nèi)容,。我認為一旦這些開始出現(xiàn),,我真的很期待像推薦系統(tǒng)這樣的東西,幫助我找到更好,、更豐富的材料,,無論是書籍、電影,、音樂等等,。我會每天使用那種類型的系統(tǒng)。所以我認為我們只是觸及到了這些人工智能助手實際上能為我們在日常生活中以及工作背景中做些什么的表面,。我認為它們還不夠可靠,,不能用于科學(xué)研究。但我認為有一天,,一旦我們解決了事實性,、基礎(chǔ)和其他問題,我認為它們可能最終會成為世界上最好的研究助手,。對于你作為科學(xué)家或,。 Dwarkesh:臨床醫(yī)生,我想問一下關(guān)于記憶的事情,。順便說一句,,你在2007年發(fā)表了一篇引人入勝的論文,,其中談到了記憶和想象之間的聯(lián)系,以及它們在某種意義上是非常相似的,。人們經(jīng)常聲稱這些模型只是在記憶,。你如何看待人們提出的這種說法?僅僅記憶就足夠了嗎,?因為在某種深層次上,,那就是壓縮?或者你在這里有什么直覺,? Demis:是的,,我是說,在極限條件下,,也許可以嘗試記住一切,,但它不會推廣到你的分布之外。我認為這些系統(tǒng)顯然是...我認為對于這些早期系統(tǒng)的早期批評是它們只是在重復(fù)和記憶,,但我認為顯然新時代,,Gemini GPT-4類型的時代,,它們絕對是在推廣到新的構(gòu)造,。但實際上,在我的論文和那篇論文中,,特別是那篇開啟神經(jīng)科學(xué)想象力領(lǐng)域的論文,,它表明,首先,,記憶,,至少是人類記憶,是一個重構(gòu)過程,。它不是一個錄像帶,。我們從似乎熟悉的組件中重新組合它。這讓我想到想象力可能也是同樣的東西,。只不過在這種情況下,,你使用相同的語義組件,但現(xiàn)在你正在以你的大腦認為是新穎的方式將它們組合起來,。為了特定目的,,比如規(guī)劃。我確實認為這種想法在我們當前的系統(tǒng)中可能仍然缺失,,這種從你的世界模型中汲取不同部分來模擬新事物,,然后幫助你規(guī)劃的想法,這就是我所說的想象力,。 安全,、開源和權(quán)重保障 Dwarkesh:是的,,當然。現(xiàn)在,,你們擁有世界上最好的模型,。對于 Gemini 模型,你們是否計劃推出一些類似其他兩個主要 AI 實驗室的框架,?一旦我們看到這些具體的能力,,除非我們有這些具體的保障措施,否則我們不會繼續(xù)開發(fā)或不會發(fā)布產(chǎn)品,。 Demis:是的,,我們已經(jīng)有很多內(nèi)部的檢查和平衡,但實際上我們將開始發(fā)布,,關(guān)注我們即將推出的一系列博客文章和技術(shù)論文,。我們將在接下來的幾個月內(nèi)發(fā)布,類似于負責(zé)任的scaling定律等內(nèi)容,。我們在內(nèi)部有這些內(nèi)容的隱含安排,,在各種安全委員會等方面,例如Shane 主席等,。但我認為現(xiàn)在是我們更加公開討論這些問題的時候了,。因此,在今年的過程中我們將進行這樣的討論,。 Dwarkesh:聽到這個消息很好,。我還想知道的另一件事是,不僅是部署模型的風(fēng)險會被人們用來做壞事,,而且還有流氓行為者,、外國特工等,能夠竊取權(quán)重,,然后微調(diào)它們以做出瘋狂的事情,。你如何考慮保護權(quán)重,確保這種事情不會發(fā)生,,確保一群非常關(guān)鍵的人能夠獲得權(quán)重等等,? Demis:是的,這很有趣,。首先,,有兩個部分。一個是安全性,,一個是開源,,也許我們可以討論一下。但安全性我認為非常關(guān)鍵,就像一般的網(wǎng)絡(luò)安全類型的事情,。我認為我們在 Google DeepMind 很幸運,。我們在谷歌的防火墻和云保護之后,我認為在企業(yè)界是世界最佳的,。因此,,我們已經(jīng)有了這種保護。然后在這之后,,我們在我們的代碼庫中有特定的 DeepMind 保護措施,。所以這是一種雙重的保護。所以我對此感覺相當不錯,,但是在這方面你永遠不能自滿,。但我認為在網(wǎng)絡(luò)防御方面,我們已經(jīng)是世界最好的了,,但我們必須繼續(xù)改進,。而且,像硬化沙箱這樣的東西也可能是一種做法,。甚至也許還有專門的安全數(shù)據(jù)中心或硬件解決方案,,我們也在考慮這個問題。我認為在未來三,、四,、五年內(nèi),我們可能也會需要空氣隔離和其他一些安全社區(qū)已知的東西,。所以我認為這很關(guān)鍵,。我認為所有前沿實驗室都應(yīng)該這樣做,,因為否則,,國家和其他事物,流氓國家和其他危險的行為者,,顯然會有很大的動機來竊取像權(quán)重這樣的東西,。然后,當然,,開源是另一個有趣的問題,,我們非常支持開源和開放科學(xué)。我是說,,幾乎每一個,。我們已經(jīng)發(fā)布了數(shù)千篇論文,像 AlphaFold 和變形金剛,,當然還有 AlphaGo,。我們把所有這些都分享到了世界上,發(fā)布和開源,,最近我們的天氣預(yù)測系統(tǒng) Graphcast 也是如此,。但是當涉及到核心技術(shù),、基礎(chǔ)技術(shù)以及非常通用的技術(shù)時。我想要問的問題是對于開源的支持者來說,,如何阻止壞人,、個人或流氓國家采用同樣的開源系統(tǒng),將其重新定位,,因為它們是通用的,,可以用于有害的目的?對此我們必須回答,。我不知道答案是什么,,但我還沒有聽到一個令人信服、清晰的答案,,從只是開源化一切的支持者那里,。所以我認為在這方面必須要有一些平衡。但顯然,,這是一個復(fù)雜的問題,,關(guān)于什么是平衡。 Dwarkesh:是的,,我覺得科技沒有得到應(yīng)有的贊揚,,因為它資助了數(shù)千億美元的研發(fā),顯然你們 DeepMind 有像 AlphaFold 這樣的系統(tǒng),。但是當我們談?wù)摫Wo權(quán)重時,,正如我們所說的,也許現(xiàn)在這不會導(dǎo)致世界末日或其他什么事情,,但隨著這些系統(tǒng)變得越來越好,,一個外國特工或其他什么人獲取了它們的擔(dān)憂,目前可能有幾十到幾百名研究人員可以訪問這些權(quán)重,。如果需要訪問它們,,如何進入情況室,讓權(quán)重處于情況室的狀態(tài),?這是一個非常艱苦的過程,。沒有人能真正將它們帶走。 Demis:是的,,我的意思是,,人們必須在允許合作、推進速度的同時權(quán)衡這一點,。實際上,,另一個有趣的事情是,當然,你希望來自學(xué)術(shù)界或英國 AI 安全研究所等獨立杰出的研究人員能夠?qū)@些系統(tǒng)進行紅隊測試,。因此,,人們必須在一定程度上暴露它們,盡管這不一定是權(quán)重,。然后我們有很多流程來確保只有當你需要它們時,,才能讓那些需要訪問的人訪問。目前,,我認為我們?nèi)蕴幱谶@類系統(tǒng)面臨風(fēng)險的早期階段,。隨著這些系統(tǒng)變得更強大、更通用,、更有能力,,我認為人們必須關(guān)注訪問的問題。 Dwarkesh:一些其他實驗室已經(jīng)在相對于安全性的不同方面專門研究,,比如 Anthropic,,他們專注于可解釋性。你有沒有一些想法,,你們可能在哪些方面具有優(yōu)勢,,這樣一來,現(xiàn)在你們擁有了前沿模型,,你們將擴展安全性,,你們將能夠提供最好的前沿安全性研究? Demis:我認為我們幫助開創(chuàng)了RLHF 等等,,這些也顯然可以用于性能,,但也用于安全性。我認為很多自我對弈的想法和這些東西也可以用于自動測試很多新系統(tǒng)的邊界條件,。問題的一部分在于,,對于這些非常通用的系統(tǒng),它們的行為涵蓋了如此廣泛的領(lǐng)域,。所以,,我認為我們將需要一些自動化的測試,,而且再次,,通過模擬和游戲等,非常真實的環(huán)境,、虛擬環(huán)境,,我認為我們在那方面有著悠久的歷史,并且利用這些系統(tǒng)構(gòu)建 AI 算法,。因此,,我認為我們可以利用所有這些歷史。而且在谷歌內(nèi)部,我們非常幸運,。我們擁有一些世界上最好的網(wǎng)絡(luò)安全專家,、硬件設(shè)計師。因此,,我認為我們可以為安全性和安全性帶來這一點,。 多模態(tài)進一步的進展 Dwarkesh:很好。讓我們談?wù)凣emini?,F(xiàn)在你們擁有了世界上最好的模型,。我很好奇。迄今為止,,與這些系統(tǒng)交互的默認方式一直是通過聊天?,F(xiàn)在我們擁有了多模式和所有這些新的功能,你預(yù)計這將如何改變,,或者你認為情況仍將是這樣,? Demis:是的,我認為我們剛剛開始真正理解完全多模式模型系統(tǒng),,與它進行交互可能會有多么令人興奮,。這將與我們今天與聊天機器人所熟悉的情況大不相同。我認為未來一年,、18個月內(nèi)的下一個版本,,也許我們將在環(huán)境周圍有一些上下文理解,通過攝像頭或其他設(shè)備,,比如手機,。我可以想象這是下一個步驟。然后我認為我們會開始變得更加靈活,,理解,。讓我們從視頻中進行采樣,讓我們使用語音,,甚至最終可能會使用觸摸等,。如果你考慮到機器人技術(shù)和其他方面,傳感器,,其他類型的傳感器,。所以,我認為世界即將變得非常令人興奮,。我認為在接下來的幾年里,,隨著我們開始習(xí)慣于真正的多模式意味著什么,尤其是在機器人領(lǐng)域,。 Dwarkesh:當我在播客上時,,伊利亞說 OpenAI 放棄機器人技術(shù)的原因是因為他們在這個領(lǐng)域沒有足夠的數(shù)據(jù),,至少在他們追求的時間內(nèi)是這樣。我的意思是,,你們發(fā)布了不同的東西,,比如機器人變壓器和其他東西。你認為這仍然是機器人技術(shù)進步的瓶頸,,還是我們將在原子世界和世界的進步中看到進步,? Demis:嗯,我們對 Gatto和 RT 這樣的事物的進展非常興奮,,這是兩個機器人變壓器,。所以,我們一直很喜歡機器人技術(shù),,我們在這方面有著驚人的研究,,而且我們現(xiàn)在仍在進行研究,因為我們喜歡它是一個數(shù)據(jù)稀缺的領(lǐng)域,,因為這推動了我們朝著非常有趣的研究方向,,我們認為這些方向無論如何都會很有用,比如在模擬中的采樣效率和數(shù)據(jù)效率,,以及從模擬中的遷移學(xué)習(xí),,將其轉(zhuǎn)移到現(xiàn)實中,所有這些非常 sim-to-real,,所有這些非常有趣的通用挑戰(zhàn),,我們希望解決。所以控制問題,。所以我們一直在這方面努力,。實際上,我認為伊利亞是對的,,由于數(shù)據(jù)問題,,這更具挑戰(zhàn)性。但我認為我們開始看到這些大型模型開始在機器人領(lǐng)域具有可轉(zhuǎn)移性的跡象,,學(xué)習(xí)在通用領(lǐng)域,,語言領(lǐng)域和其他領(lǐng)域的東西,然后將 Gatto 這樣的令牌視為任何類型的令牌,。令牌可以是一個動作,,可以是一個單詞,可以是圖像的一部分,,一個像素,,或者其他任何東西。我認為這才是真正的多模式,。起初,,訓(xùn)練這樣的系統(tǒng)比訓(xùn)練一個簡單的文本語言系統(tǒng)更困難。但實際上,,回到我們早期關(guān)于遷移學(xué)習(xí)的討論,,你會發(fā)現(xiàn)真正的多模式系統(tǒng),其他模式會有所好處,。所以你對語言的理解會更好,,因為你現(xiàn)在對視頻有了一點了解。所以,,我認為啟動起來更難,,但實際上,最終,,我們將擁有一個更通用,、更有能力的系統(tǒng)。 Dwarkesh:Godot發(fā)生了什么,?你們當時可以讓它玩游戲,,也可以做視頻,還可以做其他的,。 Demis:是的,,我們?nèi)栽谘芯磕欠N類型的系統(tǒng),但你可以想象我們只是在嘗試,。我們正在試圖將那些想法融入我們未來幾代的 Gemini 中,,以便能夠做所有這些事情。以及機器人變壓器之類的東西,。你可以把它們看作是對那些的跟進,。 Dwarkesh:我們是否會看到向特定領(lǐng)域的不對稱進展,即你所談?wù)摰淖晕覍念惖臇|西將會特別強大,?數(shù)學(xué)和代碼,,顯然,最近你們發(fā)表了關(guān)于這方面的論文,。你們可以利用這些東西做一些非??岬男率挛铩K麄冎粫蔀槌壢祟惖木幋a員,,但在其他方面,,它們可能仍然不如人類,或者你對此有什么看法,? Demis:在某種程度上,。是的。所以,,我認為我們在數(shù)學(xué),、定理證明和編碼方面取得了很大的進步,,但是如果我們一般來看創(chuàng)造力和科學(xué)努力。我認為我們已經(jīng)到了這一階段,,我們的系統(tǒng)可以幫助最優(yōu)秀的人類科學(xué)家更快地取得突破,,幾乎可以對搜索空間進行分類,或者像 AlphaFold 那樣找到一個解決方案來解決蛋白質(zhì)結(jié)構(gòu)的問題,。但它們還沒有達到可以自己提出假設(shè)或提出正確問題的水平,。任何頂級科學(xué)家都會告訴你,這是科學(xué)中最困難的部分,,實際上是提出正確的問題,,將空間減少到什么是關(guān)鍵問題?我們應(yīng)該解決關(guān)鍵的問題,,然后以正確的方式制定問題來解決它,。這不是我們的系統(tǒng)真正了解如何做的事情,但如果可以用明確的,、客觀的函數(shù)來指定問題,,它們就適合搜索大的組合空間。所以,,對于我們今天處理的許多問題來說,,這是非常有用的,但并不是最高級別的創(chuàng)造性問題,。 Dwarkesh:DeepMind 在不同領(lǐng)域加速科學(xué)方面發(fā)布了各種有趣的東西,。在如果你認為 AGI 將在未來 10 到 20 年內(nèi)實現(xiàn)的情況下,為什么不等待 AGI 為你做這些事情呢,?為什么要構(gòu)建這些領(lǐng)域特定的解決方案,? Demis:嗯,我們不知道 AGI還要多久,。即使在我們開始 DeepMind 的時候,,我們也總是說我們不必等待 AGI 才能為世界帶來令人難以置信的好處。尤其是我個人對 AI 在科學(xué)和健康領(lǐng)域的熱情,。你可以看到,,比如 AlphaFold 和我們在不同領(lǐng)域的各種自然論文以及材料科學(xué)工作等等。我認為有很多令人興奮的方向,,而且還有產(chǎn)品方面的影響,。我認為這非常令人興奮,這是我們作為谷歌的一部分獨特的機會,,他們擁有數(shù)十億用戶的產(chǎn)品,,我們可以立即將我們的進步推向這些產(chǎn)品,然后數(shù)十億人可以改善他們的日常生活,,豐富他們的日常生活和提升他們的日常生活,。因此,,我認為這是在所有這些方面都產(chǎn)生影響的一個奇妙的機會。 我認為從 AGI 的角度來看,,另一個原因是它可以檢驗?zāi)愕南敕?,對吧,?所以你不想陷入一個研究掩體,,你只是在理論上推進一些事情,但實際上,,你的內(nèi)部指標開始偏離人們關(guān)心的真實世界事物,,對吧?或者真實世界的影響,,所以你會從這些真實世界的應(yīng)用中直接得到很多反饋,,然后告訴你你的系統(tǒng)是否真的在擴展,或者我們是否需要更加數(shù)據(jù)有效或樣本有效,?因為大多數(shù)真實世界的挑戰(zhàn)都需要這樣做,。對吧。所以這讓你保持誠實,,推動你保持推進研究方向的正確道路,。所以我認為這是很棒的。當然,,世界在這個過程中受益,。社會在這個過程中受益,也許在 AGI 到來之前的許多年里都會受益,。 進入谷歌 DeepMind 內(nèi)部 |
|