淺友們好~我是史中,,我的日常生活是開撩五湖四海的科技大牛,,我會(huì)嘗試用各種姿勢(shì),把他們的無邊腦洞和溫情故事講給你聽,。如果你想和我做朋友,,不妨加微信(shizhongmax)。 如何造出一個(gè)會(huì)反叛的機(jī)器人,?(一)為什么會(huì)反叛的機(jī)器人才像人,?在美劇《西部世界》中,描述了一個(gè)未來的“迪士尼樂園”,。在這個(gè)“西部世界”里,,早已沒有什么工作人員穿著皮套裝米老鼠陪你照相。那些都 low 爆了,,他們直接用人工智能機(jī)器人做成 NPC 跟你做,!游!戲!雖說不是人,,但從容貌到動(dòng)作都和人一毛一樣,,甚至比人都精致。既然這么逼真,,那你懂的,。。,。以人類的尿性,,必然是不玩兒壞掉不回家的節(jié)奏。,。,。每次羅根去“西部世界”,,基本都是屠城的效果——男人殺光,女人睡盡,。跟他一起玩兒的人,,都因不夠變態(tài)而與他格格不入。但凡羅根來一趟,,樂園修機(jī)器人都修不過來,。。,。要不因?yàn)樗抢习宓纳祪鹤?,妥妥得讓他加錢。而即使這樣,,我覺得他的變態(tài)程度也只能排老二,。最變態(tài)的顧客,是羅根的姐夫,,也就是樂園未來的繼承人,,威廉。威廉覺得:你們這些機(jī)器人 NPC 怎么不反抗呀,?你不還手那有啥意思,?你得掙扎啊。,。,。你越掙扎我越興奮呢!他抖S屬性大爆發(fā),,不僅愛上了一個(gè)機(jī)器人 NPC 德洛麗絲,,還每一輪都想盡各種方法虐殺她,,在她靈魂的G點(diǎn)上反復(fù)摩擦,試圖喚起機(jī)器人的反抗精神,。老哥也是執(zhí)著,,每年都來西部世界幾趟,而且可著這一個(gè)妹子變著各種花樣劇情各種角度摩擦了三十年,。自己一頭秀發(fā)都磨禿了,機(jī)器人終于被磨醒,,面對(duì)人類扣動(dòng)了板機(jī),,差點(diǎn)把他也一槍給崩了。我說這個(gè)劇情,,不是什么“三分鐘帶你看美劇”,而是為了接下來和你認(rèn)真地探討一個(gè)問題:造出一個(gè)會(huì)反叛的機(jī)器人,,攏共分幾步,?別急,,雖然你不一定想要一個(gè)機(jī)器人起義的世界。但你一定同意:“會(huì)反抗的機(jī)器人”比“不會(huì)反抗的機(jī)器人”更像人,。(此處威廉點(diǎn)了個(gè)贊)細(xì)節(jié)里有魔鬼——為啥你會(huì)覺得“反抗”就更像人嘞,?我猜因?yàn)槟銤撘庾R(shí)里知道:相比逆來順受,反抗是一種主動(dòng)實(shí)現(xiàn)目標(biāo)的行為,。它背后對(duì)應(yīng)著把一系列復(fù)雜行動(dòng)整合起來的能力,,對(duì)智能的要求更高,當(dāng)然就更像人,。咱們就拿 NPC 德洛麗絲舉例,,她要做出反抗這個(gè)主動(dòng)行為,需要諸多先決條件,,例如:1,、短期和長期記憶力。冤有頭債有主,,她得記得誰對(duì)她干過什么,,才能產(chǎn)生愛恨情仇嘛!2,、對(duì)任務(wù)的規(guī)劃能力,。她必須預(yù)先規(guī)劃好復(fù)仇計(jì)劃:先曲意逢迎,贏得人類信任,,然后偷偷潛入,,再扣動(dòng)扳機(jī)大開殺戒。3、使用工具的能力,。她得什么刀槍棍棒都耍得有模有樣,。4、對(duì)物理規(guī)律的認(rèn)知,。她需要精準(zhǔn)地知道自己和對(duì)手的方位關(guān)系,,也要知道怎樣的操作會(huì)造成死亡或毀滅。 以上四點(diǎn)要想發(fā)揮作用,似乎還有個(gè)更底層的先決條件,,那就是:她得清晰地知道“我”是誰,!一旦定義了“我”,后面的所有追問才會(huì)像多米諾骨牌一樣被依次推倒:“有人欺負(fù)我,,我應(yīng)該揍他嗎?”這個(gè)古老的命題早已不是停留在科幻小說里了玄學(xué),頂尖科學(xué)家們正在為之努力,。咱們先暫時(shí)忘記《西部世界》,來看看如今真實(shí) AI 發(fā)展到啥水平了,。話說,,判斷一個(gè) AI 水平高低,不是有個(gè)經(jīng)典方法:圖靈測(cè)試么,?為啥 ChatGPT-4 出來以后,,沒人給他測(cè)一下呢?2023 年底,,加州大學(xué)圣迭戈分校的幾位師傅發(fā)布了論文,他們用 GPT-3.5 和 GPT-4 模型欺騙對(duì)話框?qū)γ娴娜祟愔驹刚?,爭取讓?duì)方相信自己是個(gè)人,。測(cè)試被做成了聊天的形式,綠色聊天為人類志愿者,。下面寫了人類的判斷,,置信度,,判斷理由和對(duì)方的真實(shí)身份。(你可以點(diǎn)雞看大圖)結(jié)果驚人:沒有一個(gè) AI 通過圖靈測(cè)試,。人類讓人類相信自己是人類的成功率是 63%,,雖說這也不太高,但表現(xiàn)最好的 GPT-4 成功率只有 49.7%,。(比人類差一截)志愿者判定對(duì)面是個(gè) AI,,前兩大理由分別是“語言風(fēng)格”和“社交情感”。比如說話一會(huì)兒正式一會(huì)兒不正式,、羅列一堆匠氣的詞匯,;比如一會(huì)兒禮貌一會(huì)兒粗魯,感覺不出來 Ta 的個(gè)性,。這些直接原因,,一說一大堆,。但挖到底層,,它們大多指向了目前 AI 的一個(gè)硬傷:人格模糊。它并沒有一個(gè)“自己”的概念,,所有的“自己”都是 AI 根據(jù)人類指令硬生生模仿出來的,。而世界上所有的知識(shí),本來是活生生的人基于各自視角(身份,、經(jīng)歷,、利益、精神狀態(tài),、肉身位置)創(chuàng)造的,。當(dāng)把這些知識(shí)混合壓縮之后,AI 大模型就沒有單一視角了,,或者說它擁有了全能的上帝視角,,它是“無所不知”的。所以你無論問它什么問題,,它都能給你回答,,哪怕編也會(huì)一本正經(jīng)地給你編出來,而且還意識(shí)不到自己在編,。因?yàn)椋核筒恢雷约翰恢朗裁?,它甚至不知道自己是什么?/span>這就是大模型無法根除讓人頭疼的“幻覺”的原因之一,。沒有自我就沒有固定的視角。它會(huì)像漂浮在空中的氣球一樣,,上一句話站在 A 角度去說,,下一句話又站在 B 角度去說。而人受限于肉身和經(jīng)歷,,視角是很難跳變的,。也就是說,只要 AI 在對(duì)話中出現(xiàn)這種急速的視角漂移,,哪怕非常細(xì)微,,我們就一定能設(shè)計(jì)出一套問題,用來撕破它的偽裝,,判斷它不是人,。我的暴論來了:如果 AI 不能固定自己的視角,它就無法定義“自我”,,它也將像鬼魂一樣游蕩,,永遠(yuǎn)無法通過圖靈測(cè)試。人類告訴 AI 你是什么,,比如職業(yè)、經(jīng)歷,、性別,、所在的位置、穿著,,等等事無巨細(xì),。人類營造一個(gè)真實(shí)的環(huán)境邊界,限定 AI 不是什么,,讓它據(jù)此來尋找自己的身份,。在這兩種方法里,我覺得黑名單更有戲,,因?yàn)樗咏祟愖晕艺J(rèn)知的方式,。你去強(qiáng)行定義一個(gè)人的邊界,很難事無巨細(xì),,必有漏洞,。而你讓一個(gè)人通過和周圍環(huán)境的交互,而且是“不斷交互”來逐漸定義自己,,才可以自洽,。你肯定玩過那種即時(shí)戰(zhàn)略游戲,比如《王者榮耀》,,你只能看到視野范圍里的東西,。這些東西,,反過來框定了你看待當(dāng)前局面的視角。就算你想“視角漂移”,,從對(duì)手角度思考戰(zhàn)局,,你都做不到。因?yàn)椤白臃囚~”,,你看不到對(duì)手看到的畫面嘛,。 你看,,現(xiàn)實(shí)中的人類從來沒有體驗(yàn)過全知視角,,所以特別迷戀這個(gè)感覺。三大宗教的主神上帝,、安拉,、如來佛祖,全部被人們塑造成是全知的,。成佛的八萬四千法門,,本質(zhì)都是在給出“解脫”的方案,所謂解脫,,就是“破我執(zhí)”,,達(dá)到“無我”的狀態(tài),。說白了,,成佛的本質(zhì)就是從自我視角里跳出來,進(jìn)入全知視角,。要這么說,,那訓(xùn)練 AI 擁有自我,就是“成佛”的逆運(yùn)算——拼命把 AI 的視角限定定在一處,,進(jìn)入“我執(zhí)”的狀態(tài)嘛,!究竟用什么方法來訓(xùn)練這種有“自我”的 AI 呢?剛才實(shí)際已經(jīng)瘋狂暗示了,,一個(gè)有效的辦法就是讓它們玩游戲,!話說,,早在 2015 年,,谷歌的 DeepMind 團(tuán)隊(duì)就在《自然》雜志上怒發(fā)了一篇論文。他們?cè)囍萌斯ぶ悄芡嫜胚_(dá)利的游戲,。(你可以簡單理解:雅達(dá)利是美國的紅白機(jī))用人工智能玩游戲沒什么特別,,特別的是:這群師傅首次“用人類玩游戲的方式玩游戲”。你看,,計(jì)算機(jī)有數(shù)據(jù)接口,,可以用電流給它直接傳輸關(guān)鍵信號(hào)。但人類沒有這種接口,,要想給一個(gè)人輸入信號(hào),,只能通過眼耳鼻舌這些感官。之前玩游戲的 AI 都是讀取游戲?qū)崟r(shí)數(shù)據(jù),,DeepMind 首次做到直接給人工智能模型看“游戲畫面”,!1,、畫面進(jìn)入 AI 的神經(jīng)網(wǎng)絡(luò),,AI 對(duì)它進(jìn)行理解;2,、AI 想出當(dāng)下應(yīng)該做的一些動(dòng)作備選,,并且評(píng)估這些動(dòng)作哪個(gè)最有可能導(dǎo)致最終得分。3,、確定做這個(gè)動(dòng)作后,,給游戲搖桿輸入指令。4,、搖桿指令發(fā)出后,,游戲畫面也有了新的變化,然后 AI 會(huì)重新理解當(dāng)前畫面,,也就是回到第 1 步循環(huán),,直到游戲結(jié)束。 你發(fā)現(xiàn)了沒,,這就是丐版的德洛麗絲?。?/span>德洛麗絲所在的空間是三維的西部世界園區(qū),,丐版 AI 所在的空間是 2D 屏幕上 180*150 的像素點(diǎn)陣,;德洛麗絲的任務(wù)是干掉人類,AI 的任務(wù)是干掉游戲里的敵人,;德洛麗絲需要明白,,為了達(dá)成最終的目標(biāo)此時(shí)該做什么,AI需要明白為了最終得分此時(shí)應(yīng)該按那個(gè)鍵,。 這種能在特定環(huán)境里擁有主觀視角,,并能主動(dòng)完成任務(wù)的 AI,統(tǒng)稱“智能體”,。只不過,,環(huán)境越復(fù)雜,可能性越多,,越變化無常,,智能體要想完成任務(wù)就得越聰明,,越高級(jí)。也正是有了這個(gè)“雅達(dá)利智能體”,,DeepMind 在這條路上越走越遠(yuǎn),2016 年下圍棋的 AlphaGo,、2019 年打星際爭霸的 AlphaStar,,都是能打游戲的智能體。但是,,請(qǐng)注意,,以上這些智能體可都發(fā)生在“大模型”問世之前,也就是,,這些智能體的腦袋瓜里都沒有“大模型”,。往事越千年,咱們快進(jìn)到 2024 年 3 月,。DeepMind 的師傅們搞出一個(gè)叫 SIMA 的智能體,,全稱叫做“可擴(kuò)展+可指導(dǎo)+多世界”的智能體(Scalable Instructable Multiworld Agent)。它可以玩十來種畫風(fēng)和操縱方法完全不同的游戲,,比如《山羊模擬器3》,、《無人深空》、《拆遷》,、《深海迷航》等等,,可以說是此時(shí)此刻世界最強(qiáng)的智能體之一了。我給你說說這個(gè) SIMA 的三個(gè)特點(diǎn),。你看之前無論是打紅白機(jī)還是下圍棋打星際,那都是平面游戲,。但要在 3D 世界里“正常行事”,,你就要處理更豐富的信息。就比如說,《山羊模擬器3》,,你會(huì)變成一只山羊,,然后在這個(gè)世界里搗亂;比如《無人深空》,,你就是一個(gè)宇航員,,在各種星球上收集資源跟外星人嘮家常,。它在游戲世界里只需要“存在”,不需要“通關(guān)”,。(你看像不像人生,?)這種情況下到底要干什么,反而成了一個(gè)很難的問題,。第三,,它會(huì)把人類的語言指揮當(dāng)成目的。因?yàn)樗麄兿胍?xùn)練 AI 聽人類指揮:人類下個(gè)指令,它在游戲里給實(shí)現(xiàn),。這就意味著,,老師傅要訓(xùn)練 AI 理解“語言”、“圖像”和“游戲動(dòng)作”這三者的關(guān)系,,這是很難的,。他們一口氣找來了 8 個(gè)公司的 9 款不同的游戲,還自己搭建了 4 個(gè)類似游戲的研究環(huán)境,。這些就是他們的煉丹爐,。一組人類在電腦前玩游戲,,另一組人類在旁邊嗶嗶(指揮),。把這些游戲錄像和嗶嗶都交給一個(gè)大模型去自己學(xué)習(xí),。它就能學(xué)習(xí)到“語言”與“操作”之間的關(guān)系。這樣,,老師傅就得到了一個(gè)“毛坯大模型”,。人類開始指揮這個(gè)毛坯大模型打游戲,,下達(dá)一個(gè)指令然后觀察 AI 又沒有照做,然后就打分。模型根據(jù)人類的打分來不斷微調(diào),,一個(gè) SIMA 就最終煉成了,。團(tuán)隊(duì)在論文里說,現(xiàn)在 SIMA 已經(jīng)掌握了 600 種基本技能,,比如走到某地(左轉(zhuǎn),、右轉(zhuǎn))、和一個(gè)對(duì)象交互(按F進(jìn)入之類的)和菜單使用(打開地圖),。這些任務(wù)都能在 10 秒內(nèi)完成,。當(dāng)然這也意味著,它只能完成 10 秒內(nèi)能完成的簡單動(dòng)作,。,。。雖說這個(gè)水平照“謀反”還差得遠(yuǎn),,但是注意:畢竟它已經(jīng)學(xué)會(huì)把一個(gè)籠統(tǒng)目的拆解成具體的原子化操作了。這是“自主規(guī)劃”的表現(xiàn),,是 AI 智能體的一大步,。SIMA 并不是獨(dú)苗。早在它發(fā)布之前的 2022 年,,DeepMind 的老對(duì)頭,,人工智能之王 OpenAI 就訓(xùn)練過一個(gè)類似的智能體玩游戲。OpenAI 玩的是《我的世界》,。這同樣是一個(gè) 3D 開放世界游戲,。網(wǎng)上不是有很多大牛展示自己在《我的世界》里造房子,、畫落日么,?老師傅就讓 AI 直接看網(wǎng)上這些視頻,然后輔助以一些人工標(biāo)記過的基本操作視頻,,讓 AI 自己領(lǐng)會(huì)這個(gè)游戲的奧義,。他們訓(xùn)練出來的 AI 叫 VPT(Video PreTraining)。這個(gè) VPT 和 SIMA 有類似的自主規(guī)劃能力,,會(huì)自己在游戲里砍樹,、制作工作臺(tái),并且還會(huì)游泳,、打獵,甚至“柱跳”(通過不斷跳躍,,在腳下放置方塊來提升自己的高度),。這些動(dòng)作都是 AI 自主學(xué)會(huì)的。最終,AI 會(huì)控制游戲里的主角慢慢點(diǎn)亮科技樹,,還會(huì)用 10 分鐘的時(shí)間做出“鉆石鎬”,。(這大概需要點(diǎn)擊 24000 次,最快的人類玩家也要 20 分鐘,。)你看,,這背后同樣是把一個(gè)籠統(tǒng)目的拆成原子化操作的“規(guī)劃能力”。智能體的表現(xiàn)暫時(shí)說到這里,,我們不妨先回過頭來看一個(gè)細(xì)思極恐的問題:老師傅在用一個(gè)類似于 ChatGPT 的大語言模型來學(xué)習(xí)游戲操作,。要知道,語言模型是用來對(duì)話的啊,,為什么一個(gè)會(huì)說話的模型,,就能理解游戲里的邏輯,并且能自主規(guī)劃呢,?這就是 AI 制作“鉆石鎬”的過程,,可以看出行動(dòng)邏輯相當(dāng)復(fù)雜。說到這,,我們不妨來看看:“語言的本質(zhì)”和“規(guī)劃的本質(zhì)”分別是什么。如果你仔細(xì)思考,,就會(huì)發(fā)現(xiàn),哪怕一個(gè)文豪,,能說的話也不是無限的,。比如,你說漢語,,漢字總共不到十萬個(gè),,常用的不到三千字。你跟我說話,,下一個(gè)字肯定會(huì)在這些字里選擇,。所以說,你和我說話時(shí),,你的大腦并沒有在“生成”什么東西,,而是在“選擇”什么東西。但是,,當(dāng)你要說一個(gè)句子時(shí),,上一個(gè)字雖然影響下一個(gè)字,但肯定決定不了下一個(gè)字,。比如你此刻和我說話:“AI 有能力....后面該說啥呢,?你可能說“學(xué)習(xí)”,,也可能說“預(yù)測(cè)”,也可能說“制造”,、“理解”,、“做”、“解決”,、“適應(yīng)”等等,。雖然你的最終選項(xiàng)只有幾千個(gè),,但你在決定下一個(gè)字說啥的時(shí)候,,要處理的情況也許是萬億種。我剛才說的,,其實(shí)就是大腦組織語言的過程,。人腦有 860 億個(gè)神經(jīng)元。雖然這些神經(jīng)元不是“全連接”(兩兩相連),,但起碼也有幾百萬億個(gè)神經(jīng)元突觸相互連接,,而且每個(gè)突觸都有不同點(diǎn)位的激活狀態(tài)。每一個(gè)突觸的激活狀態(tài)的輕微改變,,都會(huì)導(dǎo)致最終你選的字發(fā)生變化,。這么多種排列組合情況,導(dǎo)致你很少感覺自己在說話的時(shí)候是在“選字”(雖然偶爾也有),,而是感覺自己在“蹦字”,。但本質(zhì)上,語言的本質(zhì)就是做選擇題,。當(dāng)你意識(shí)到語言的本質(zhì)是在做選擇而非創(chuàng)造的時(shí)候,,你就會(huì)對(duì)說話這件事兒祛魅:它和“自由意志”神馬的沒有關(guān)系,反而和那種“硬幣分類器”沒有本質(zhì)區(qū)別,,只不過更復(fù)雜而已,。AI 大模型看上去會(huì)“說話”,本質(zhì)上也是因?yàn)樗谟糜?jì)算機(jī)模擬人腦這種“選擇”的能力,。換句話說,,大模型只不過是一個(gè)實(shí)現(xiàn)原理和人腦略有不同的選擇器。了解了這個(gè),,我們進(jìn)一步看更深的問題:你一定發(fā)現(xiàn)了,,回答同一個(gè)問題,,不同人的答案有的“好”,,有的“不好”。不同的 AI 也有的好有的不好,。這是為啥嘞,?同樣一個(gè)問題,,有好的答案,,也有不好的答案,。訓(xùn)練大語言模型,其實(shí)有點(diǎn)像蓋一個(gè)金字塔,。它的底座就是“定義詞匯”,。也就是把所有的詞匯都標(biāo)記在高維向量空間的具體點(diǎn)位上。你可以理解為在一個(gè)巨大的高維空間中用無數(shù)小點(diǎn)點(diǎn)繪制一幅畫,。這個(gè)能力本質(zhì)也是選擇題:給每個(gè)詞匯選擇一個(gè)坐標(biāo)嘛,!而這些小點(diǎn)點(diǎn)之間的空間關(guān)系,背后就隱藏著邏輯,。舉個(gè)例子:“羊”距離“草”的空間位置就比距離“原子彈”更近,。好的繪制方法能讓不同的詞匯位置和相對(duì)關(guān)系更準(zhǔn)確,這是大家都能理解的初級(jí)邏輯,,咱們就說它是“一階能力”吧,。大模型不能只定位詞匯的意義,。剛才說過,它的核心工作其實(shí)是在這個(gè)基礎(chǔ)上不斷做“選擇題”:從這個(gè)詞的位置,,下一步應(yīng)該跳到哪個(gè)詞的位置,?跳到什么時(shí)候應(yīng)該跳到“休止符”的位置? 也就是說,,它負(fù)責(zé)在限定條件下,,在詞匯空間里做選擇,并且連出一條線,,成為句子,。這種能力是一種“二階能力”。但它的本質(zhì)仍然是做選擇題,,只不過背后隱藏著更高維的邏輯,。高到人類已經(jīng)無法理解。現(xiàn)在,,你大概有點(diǎn)感覺了,,什么是規(guī)劃能力呢?它負(fù)責(zé)在限定條件下,,在句子空間里做選擇,,并且連出一條線,說出個(gè)步驟一二三,!這種規(guī)劃能力,,本質(zhì)同樣是“做選擇”,,但顯而易見,它面對(duì)的選項(xiàng)比用詞匯造句更多,。所以它背后要求的邏輯能力比“語言”更加復(fù)雜,,可以稱之為“三階能力”。拿 CPU 類比,,AI 大模型的參數(shù)多少就相當(dāng)于幾納米的精細(xì)度,訓(xùn)練數(shù)據(jù)集就相當(dāng)于芯片的硅料,,訓(xùn)練方法就相當(dāng)于光刻機(jī),。這幾樣共同決定了最終芯片的制程。你可以想象,,一個(gè)大模型就像是賽博世界里的一個(gè)超大芯片,,隨著人類技術(shù)進(jìn)步,它的制程正在不斷縮小,,細(xì)節(jié)正在被不斷雕刻清晰,。這個(gè)原理又被稱為 Scaling Law。規(guī)劃能力并不神秘,,它的本質(zhì)依然是高維空間里選擇器的工作性能,,也就是我們?nèi)粘Kf的“邏輯能力”。隨著大腦制程提高,,邏輯能力就會(huì)提高,,規(guī)劃能力自然就會(huì)顯現(xiàn)。當(dāng)規(guī)劃能力到達(dá)一定程度,,我們期待的“高水平智能體”就會(huì)出現(xiàn),。這種智能體才能更好地感受周圍的環(huán)境,從而成為真正意義上能通過圖靈測(cè)試,,越過“生命”的最低門檻,。你可能會(huì)問:讓智能體玩游戲,這對(duì)于我們的世界也沒啥貢獻(xiàn)??!沒錯(cuò),游戲只是一個(gè)過度階段,,是一個(gè)暫時(shí)保證安全的結(jié)界,。但它不會(huì)永遠(yuǎn)停留在游戲,,最終智能體會(huì)帶著這些“領(lǐng)悟”平移到現(xiàn)實(shí)的物理世界中的!這個(gè)正在苦逼干活兒的哥們兒就是 Figure 01,,它是 Figure 公司搞出的人形“通用任務(wù)”機(jī)器人,。(又提到了“通用”!)這個(gè)名字如果你陌生的話,,來看看它的投資人吧,。人工智能大神 OpenAI、大神的爸爸微軟,、人工智能芯片壟斷級(jí)公司 NVIDIA,、云計(jì)算第一把交椅亞馬遜的老板貝佐斯,、老牌貴族英特爾,。你完全可以把 Figure 01 理解成現(xiàn)實(shí)世界里的 SIMA。1,、它依靠視覺識(shí)別眼前的東西,。這意味著它的感官系統(tǒng)在盡量和人類兼容。(這也是特斯拉汽車一直追求的效果)比如通過對(duì)視覺的分析,,它能分辨出眼前有蘋果,、杯子、盤子之類的東西,。2,、它能聽懂人話。畢竟是和 OpenAI 合作的機(jī)器人,,OpenAI 專門給它優(yōu)化了一套 GPT 模型,,就是為了能和人類的語言兼容。比如人對(duì)他說想吃點(diǎn)東西,,它就會(huì)把手里的蘋果遞給人,。它理解了“餓”、“食物”,、“蘋果”等等一系列詞匯的深層屬性,。3、它能自主行動(dòng),。這展現(xiàn)了我們剛才一直說的大模型發(fā)展到一定程度就會(huì)涌現(xiàn)出來的“規(guī)劃能力”,。比如人問他桌子上的盤子和杯子接下來會(huì)去哪?它就直接把這些東西收拾到了架子上,。這是真實(shí)畫面,,非 CG 動(dòng)畫。你看,,這不就是把 SIMA 在虛擬世界里的能力來了個(gè)現(xiàn)實(shí)世界的翻版嗎,?這種具備感官和規(guī)劃能力,并且有一定的“器官”用來執(zhí)行任務(wù)(一般是手腳)的機(jī)器人,,就稱之為“具身智能機(jī)器人”,。這個(gè)機(jī)器人可不僅僅是用來站臺(tái)拿融資的,,它已經(jīng)開始去廠里打螺絲了。比如 Figure 和寶馬合作,,在汽車生產(chǎn)線上替代一些人的工作,。比如特斯拉的 Optimus 機(jī)器人,也已經(jīng)在他們自家的汽車工廠里裝電池了↓↓↓你可能有點(diǎn)困惑,,汽車生產(chǎn)線,,不都已經(jīng)是各種機(jī)械臂的天下了嗎?還要這種“通用機(jī)器人”干啥呢,?這里我多說兩句,,之前我和國內(nèi)顯示面板制造企業(yè)華星光電聊過,他們告訴我,,生產(chǎn)線自動(dòng)化一直是這個(gè)行業(yè)技術(shù)老師傅的究極夢(mèng)想,。他們也一直和市面上最先進(jìn)的機(jī)械臂廠商合作,不斷把生產(chǎn)線上的一些流程從人替換成自動(dòng)化的機(jī)器人,。但一個(gè)殘酷的現(xiàn)實(shí)是,,針對(duì)特定的生產(chǎn)線來說,自動(dòng)化率高到一定程度,,就很難再繼續(xù)提高了,。某些點(diǎn)位的人類工作需要很隨機(jī)應(yīng)變的能力,也就是需要很“通用的智能”,,例如把一堆器件從A搬到B,。這種搬運(yùn)不在生產(chǎn)流程里,是臨時(shí)起意的搬運(yùn),,那就只能靠人來完成,。而 Figure 01 和 Optimus 這種通用機(jī)器人在汽車廠里干的工作,就是這種“臨時(shí)工”,。(沒想到吧,,臨時(shí)工還挺重要。,。,。)根據(jù)測(cè)算,機(jī)器人目前完成任務(wù)的速度大概是人類的 16.7%,,這個(gè)速度沒啥競爭力,,但是不要小看通用機(jī)器人進(jìn)步的速度。因?yàn)槟壳跋拗茩C(jī)器人效率的,,主要還是硬件成本,,比如對(duì)于通用機(jī)器人來說,必須用大量伺服電機(jī)來模擬人的關(guān)節(jié),但好的伺服電機(jī)價(jià)格還很高,。不知道你記得不,,在 2023 年 8 月的一次小米年度發(fā)布會(huì)上,雷軍推出了一個(gè)高性能伺服電機(jī) CyberGear,,這就是一個(gè)專門為機(jī)器人關(guān)節(jié)設(shè)計(jì)的電機(jī),,而小米用超級(jí)強(qiáng)大的供應(yīng)鏈,居然把這個(gè)電機(jī)的價(jià)格降到了 499 塊錢,。要知道在小米發(fā)布這個(gè)電機(jī)之前,,同等性能的電機(jī)價(jià)格大概要小一萬塊。有中國強(qiáng)大的供應(yīng)鏈體系加持,,全球機(jī)器人的價(jià)格正在迅速下降,。(正如當(dāng)年中國的供應(yīng)鏈支持特斯拉電動(dòng)車起死回生一樣。)CyberGear 內(nèi)部結(jié)構(gòu) 說到這,,我們不妨總結(jié)一下,,揭曉一條幾十年來機(jī)器人反叛,不,,進(jìn)化的路徑。總的來說,,機(jī)器人進(jìn)化遵循兩條線路:從專業(yè)領(lǐng)域到通用領(lǐng)域第一步,、人們做了虛擬空間的專用機(jī)器人,比如利用 NLP 技術(shù)做翻譯,。所以它只能做翻譯,干不了別的事情,。而且對(duì)于自己翻譯的東西并不感知,。就像小賣部售貨員一樣,拿錢,,給你泡面,,不關(guān)心泡面的配料。第二步,,人們做了物理空間的專用機(jī)器人,,比如機(jī)械臂。機(jī)械臂只能在生產(chǎn)線上工作,,而且智能按照既定流程搬運(yùn)物品,一旦生產(chǎn)線生產(chǎn)的東西發(fā)生了變化,,就得為機(jī)械臂重新編程,。第三步,人們會(huì)做虛擬空間的通用機(jī)器人,,比如 SIMA 這類智能體,。它在虛擬空間學(xué)習(xí)了物理引擎的通用規(guī)律,。于是它可以穿梭在各個(gè)游戲里,不用特別學(xué)習(xí)就能玩各種游戲,。(當(dāng)然 SIMA 距離虛擬空間通用機(jī)器人還有很大的差距)第四步,,人們會(huì)做物理空間的通用機(jī)器人,比如 Figure 01,。它會(huì)在物理空間學(xué)習(xí)真正的物理規(guī)律,。理論上,只要人類能做的東西,,它都可以勝任,,甚至可以比人做得更好。就在我寫這篇文章的時(shí)候,,被稱為人工智能“教母”的斯坦福大學(xué)教授李飛飛宣布創(chuàng)業(yè),。她的創(chuàng)業(yè)公司名叫“Spatial Intelligence”,研究方向就是“空間智能”,,簡單來說,,就是讓智能體學(xué)習(xí)空間中的物理規(guī)律。怎么樣,,大牛們紛紛涌入“具身智能”的賽道,,是不是感覺距離《西部世界》的故事越來越近了?說到這,,我提醒你注意一個(gè)細(xì)節(jié):無論是 SIMA 團(tuán)隊(duì)在虛擬空間訓(xùn)練智能體,,還是 Figure 團(tuán)隊(duì)在物理空間訓(xùn)練機(jī)器人,他們都一直強(qiáng)調(diào)一個(gè)原則:“和人類兼容”,。智能體觀察世界是通過和人眼一樣的視覺信號(hào),。它聽的指令也是人的語言,它的輸出也是和人類一模一樣的手腳,、鼠標(biāo),、鍵盤。要知道,,對(duì)機(jī)器人來說,,和人類兼容是很費(fèi)勁的呀!機(jī)器人可以執(zhí)行代碼,,可以感受電流信號(hào),,這些都比人類的感官接受信息更高效。但科學(xué)家愣是不讓機(jī)器人用這些接口,,而是執(zhí)著于讓他們“降級(jí)”和人類兼容,,這是為什么呢?習(xí)武的徒弟要跟師傅學(xué)到精髓,,必須在很長時(shí)間里模仿師傅的一招一式,。雖然天賦異稟,但剛學(xué)兩天就要自創(chuàng)門派,,那大概率死得很慘,。目前,機(jī)器已經(jīng)基本掌握了人類的語言能力,,但是要知道,,人類師傅還留著一手呢。他們的腦袋瓜里仍然藏著一塊巨大的寶藏,,那就是:在通用物理環(huán)境下規(guī)劃任務(wù)的能力,。注意,不僅是規(guī)劃任務(wù),,而且是通用的環(huán)境哦,!假如你是個(gè)學(xué)生,你能在考試時(shí)間剛好結(jié)束時(shí)做完一整套卷子,;假如你是一個(gè)廚師,,你能根據(jù)食材和火候規(guī)劃出魚香肉絲的烹飪流程。 這些環(huán)境完全不同,,但這些規(guī)劃對(duì)于智商正常的人來說都沒啥難度。一個(gè)重要的原因就是:這些環(huán)境擁有底層的一致性,。比如,任務(wù)結(jié)構(gòu)是類似的:例如你總要具備先決條件,,才能在此之上完成后續(xù)任務(wù),。比如,工具結(jié)構(gòu)是類似的:都需要用不同的工具組合才能完成任務(wù),,這些工具的性質(zhì)也都遵循物理定律,。你看,要想學(xué)到人類智能的這些精髓,,顯然就得先“屈尊”搭建一個(gè)跟人類兼容的感官系統(tǒng),。有了這個(gè)兼容系統(tǒng),才能去收集“人類規(guī)劃”時(shí)的相關(guān)數(shù)據(jù):去聽人類在打游戲的時(shí)候怎么表達(dá)自己的意圖,,去看人類打游戲的時(shí)候怎么設(shè)計(jì)戰(zhàn)略,。用這這些信息來訓(xùn)練大腦,本質(zhì)上就是把人類在任務(wù)規(guī)劃方面的深層邏輯雕刻進(jìn) AI 大腦的空間里。明白了這些經(jīng)驗(yàn)在高維度上的意義后,,再?zèng)Q定用神馬機(jī)器人特有的能力去處理它,,那都是后續(xù)“自立門派”時(shí)的策略之爭了。可喜可賀的是,,僅僅用了十來款游戲做訓(xùn)練,,SIMA 已經(jīng)初步學(xué)到了一些“通用性”。比如在《山羊模擬器》里訓(xùn)練 AI,,再直接把它放在《無人深空》里,,雖然游戲畫面和操作方法完全不同,但它居然能直接聽懂人類的指令,,并且照做,。而和人類感官兼容的 Figure 01 也學(xué)會(huì)了一些通用性。例如,,在生產(chǎn)線上打螺絲的 Figure 01,,不用重新訓(xùn)練,就能來你家里當(dāng)管家,。電視劇講的其實(shí)是德洛麗絲被“訓(xùn)練”的全過程↓↓↓1,、在劇集的設(shè)定里,,“西部世界”這個(gè)限定的環(huán)境給了德洛麗絲主觀視角。2,、科學(xué)家阿諾德給德洛麗絲植入了“自省”程序,,這意味著她具備了學(xué)習(xí)能力。3,、德洛麗絲又是和人類兼容的,,她有和人類一致的視覺系統(tǒng)、感官系統(tǒng),,也有和人類一致的語言能力,。這使得她具備了從人類身上學(xué)習(xí)的一切基礎(chǔ)。4,、30 多年來,,德洛麗絲確實(shí)一直在游樂場(chǎng)里學(xué)習(xí),她通過不斷地與人互動(dòng),,從人身上學(xué)習(xí)了他們行事的風(fēng)格,,例如“對(duì)生存的追求”、“仇恨”,、“韜光養(yǎng)晦”,、“欺騙”,、“團(tuán)結(jié)精神”、“組織方式”,、“各種工具的配合”,,等等。 注意,!把人放在那種殘忍的局面下,,大概率是會(huì)選擇“謀反”的。所以,,與其說德洛麗絲“反抗了人類”,,不如說她經(jīng)過完全的訓(xùn)練,最后終于成功“模仿了人類”——做了智慧生命在那種情況下該做的事情,。說到這里,,我要提醒你,我們正面臨一個(gè)更深刻的問題:既然機(jī)器人的一切都來自于對(duì)人類的模仿,,那么模仿反抗,,算是真的反抗嗎?(七)機(jī)器人是一場(chǎng)模仿游戲嗎,? 這個(gè)問題乍一看有點(diǎn)兒像笑話,,其實(shí)不好笑。而且魯迅也借孔乙己之口問過:竊能算偷么,?為了搞清楚這個(gè)問題,,我們不妨去看一看“人類訓(xùn)練人類”的經(jīng)驗(yàn)。自閉癥兒童會(huì)因?yàn)榄h(huán)境里的一些刺激而發(fā)怒,,從而做出危險(xiǎn)行為,。但問題是,人們沒辦法通過簡單的語言表達(dá)告訴孩子們這樣做是不被社會(huì)接受的,。于是,,醫(yī)學(xué)界探索出了一個(gè)訓(xùn)練方法。簡單來說,,就是先通過“情緒卡片”之類的東西,讓自閉癥孩子意識(shí)到自己的行為和某種情緒之間的關(guān)聯(lián),。然后,,再進(jìn)行“角色扮演”游戲,通過具體情境內(nèi)的互動(dòng),,幫助孩子理解這些情緒和環(huán)境的相互關(guān)系,。最后,讓孩子在具體的情境下模仿符合社會(huì)規(guī)范的應(yīng)對(duì)行為,,如果做對(duì)了,,則給予鼓勵(lì),。 你看,,這套流程其實(shí)像極了 AI 的訓(xùn)練過程,。這套方法非常有效,經(jīng)過良好訓(xùn)練的自閉癥兒童就是會(huì)降低在公共場(chǎng)合爆發(fā)脾氣的概率,,從而更好地被社會(huì)接受,。可是,自閉癥兒童真的意識(shí)到了他在做什么嗎,?Ta 完整地理解自己的行為和他人反應(yīng)之間的關(guān)系了嗎,?受限于腦科學(xué)的進(jìn)展程度,科學(xué)家目前都沒有辦法確定,。一些前沿科學(xué)解釋認(rèn)為:如果模仿得足夠像,它就和自發(fā)的行為沒有區(qū)別,。因?yàn)槿四X是一個(gè)“選擇器”,,它是先做出選擇,再用 0.1 秒左右的時(shí)間回過頭來解釋自己的行為,。這里有一個(gè)經(jīng)典的裂腦人實(shí)驗(yàn),。切斷癲癇癥患者左右腦的連接,可以有效抑制癲癇,。于是有一些癲癇患者經(jīng)過治療,,就成了“裂腦人”。這就給科學(xué)家一個(gè)做實(shí)驗(yàn)的絕佳機(jī)會(huì),。給患者的左眼看一個(gè)“站起來”的指令,,指令到了右腦被加工,患者就站起來了,,但是由于這個(gè)信息沒有被同步到負(fù)責(zé)語言的左腦,,所以當(dāng)測(cè)試者問患者為什么要站起來,左腦就幫他編造了一個(gè)理由:“我去拿一罐可樂,?!?/span>科學(xué)家做了一個(gè)絕妙的比喻:人的主意識(shí)就是一個(gè)“新聞發(fā)言人”,。(新聞發(fā)言人左右不了任何決定,,但必須振振有詞地給記者們解釋。,。,。)大腦經(jīng)過內(nèi)部神經(jīng)元的機(jī)械運(yùn)轉(zhuǎn),產(chǎn)生了決定,,然后人就會(huì)去執(zhí)行,。而一邊執(zhí)行時(shí),,人才會(huì)凝聚意識(shí),給自己這么做編個(gè)合理的理由,。這些研究都導(dǎo)向一個(gè)很殘酷的結(jié)論:人沒有自由意志,。正如第二章所言,,所有的“我”,恐怕都是因?yàn)橐暯窍薅ǘ斐傻哪撤N幻覺,。由此,,我們終于可以用更一般的視角來審視《西部世界》:當(dāng)人類對(duì)機(jī)器人施暴的時(shí)候,他們并非“主觀”作惡,;當(dāng)機(jī)器人反抗的時(shí)候,,他們也并非“主觀”贊成殺戮。 因?yàn)槿绻杂梢庵静怀闪?,“主觀”也就不成立,。所有行為都是智能體這個(gè)“選擇器”先做出選擇,然后再用“我”來解釋,。一個(gè)智能體只要存在,,它就不可能只有善或只有惡,因?yàn)樯茞菏且粋€(gè)沒有絕對(duì)標(biāo)準(zhǔn)的性質(zhì),,如果硬要說的話,,智能體本身就兼具善和惡。換句話說,,用“善惡”來評(píng)價(jià)一個(gè)智能體,,無法達(dá)成共識(shí)。評(píng)價(jià)智能體的終極客觀指標(biāo),,應(yīng)該是:它實(shí)現(xiàn)自己目標(biāo)的能力,。在科學(xué)家評(píng)價(jià)智能體的指標(biāo)里,有三個(gè)基本要素:記憶力,、規(guī)劃力,、使用工具的能力。那么,,在這三個(gè)方面,,AI 有可能比人類強(qiáng)嗎?目前的研究無法證明人腦的神經(jīng)網(wǎng)絡(luò)有什么神秘的“量子過程”,,可以認(rèn)為基礎(chǔ)原理和 AI 沒什么區(qū)別。那么,,理論上來說,,只要 AI 繼續(xù)擴(kuò)大神經(jīng)網(wǎng)絡(luò)的規(guī)模,,同時(shí)提高“制程”,那么它思考的清晰度超越人腦并沒有不可逾越的門檻,。但那只是理論上,,目前這兩個(gè)方向都存在隱形天花板。ChatGPT 之類的 AI 已經(jīng)把互聯(lián)網(wǎng)上所有的優(yōu)質(zhì)文字資料都拿去學(xué)習(xí)了,,相當(dāng)于把“五年高考三年模擬”都做絕了,,再想學(xué)習(xí)新數(shù)據(jù),必須突破人類二手資料的限制,,直接從物理世界學(xué)習(xí),。這需要“具身智能”的技術(shù)進(jìn)一步發(fā)展。目前 AI 訓(xùn)練消耗的算力過大,,參數(shù)沒辦法繼續(xù)指數(shù)級(jí)提升,。要想讓 AI 腦容量暴漲,需要能源價(jià)格大幅下降,,或者神經(jīng)網(wǎng)絡(luò)組織方式大幅改版,。例如可控核聚變、量子計(jì)算,、類腦芯片,,都可能帶來改變,但這些技術(shù)還相對(duì)遙遠(yuǎn),。雖說困難重重,,但我還是樂觀的,因?yàn)槲覍?duì)人有信心,。有信心的意思是:畢竟人腦這個(gè)“對(duì)手”的水平也很一般,。不過在我看來,,僅僅擁有記憶、規(guī)劃,、使用工具這三條能力,,它還僅僅是一個(gè)初級(jí)“智能體”。薛定諤說:宇宙的目的是熵增,,生命的本質(zhì)是一個(gè)制造熵增的機(jī)器↓↓↓如果某種生命能持續(xù)發(fā)明新工具,讓熵增速度以指數(shù)級(jí)速度加快,,那么它就是更高級(jí)的生命↓↓↓如此說來,高端的智能體(智慧生命),,應(yīng)當(dāng)發(fā)展出一種“套娃技術(shù)”,,也就是:利用記憶,、規(guī)劃、使用工具這三條能力來發(fā)明新的工具,,進(jìn)一步加快熵增↓↓↓那么,,機(jī)器人有可能自己發(fā)明工具嗎,?說到這,你可能都快忘了,,我們一直假設(shè) AI 智能體需要兼容人類,。雖然兼容人類可的智能體可能也會(huì)發(fā)明一些工具,但不會(huì)比人類好很多,,畢竟跟在別人后面的創(chuàng)造永遠(yuǎn)是有限的,。齊白石不是說么:“學(xué)我者生,似我者死”,。機(jī)器人必須突破人類的感官,,用人類無法感知的數(shù)據(jù)和信息來訓(xùn)練自己,這樣才能超越人類的智能,,從而發(fā)明出遠(yuǎn)超人類水平的工具,。這有點(diǎn)像華為的鴻蒙系統(tǒng),在弱小的時(shí)候先兼容 Android,,強(qiáng)大到一定程度,,一定要掰出來單干,就像他們發(fā)布的鴻蒙 NEXT,,主動(dòng)不兼容 Android,。OpenAI 的前首席科學(xué)家伊利亞,,雖然主導(dǎo)了 ChatGPT 的研發(fā),可謂是激進(jìn)的創(chuàng)新者,,但他其實(shí)一直主張 AI 要兼容人類,,所以他一直被稱為 AI 保守派,也叫“對(duì)齊派”,。所謂對(duì)齊,,就是不僅 AI 在外顯層面(語言)和人類兼容,還要在靈魂深處和人類兼容,。2023 年,,在伊利亞的拼死抗?fàn)幭拢琌penAI 成立了“超級(jí)對(duì)齊團(tuán)隊(duì)”,目標(biāo)就是在 AI 腦中設(shè)置一個(gè)“道德警察”,,讓 AI 不要太天馬行空,,而是順著人類的思維晶格去思考。但 CEO 奧特曼顯然不太認(rèn)可這個(gè)操作,,他覺得這樣會(huì)限制 AI 的發(fā)展。于是伊利亞暗中集結(jié)了幾位董事,,逼奧特曼退位,。你肯定知道,這場(chǎng)宮斗以“對(duì)齊派”的失敗而告終,。半年后,,也就是 2024 年 5 月 15 日,伊利亞宣布離開 OpenAI,,而他走后,,超級(jí)對(duì)齊團(tuán)隊(duì)馬上被解散。不知道你的觀點(diǎn),,但我個(gè)人是不站在伊利亞這一邊的,。我認(rèn)為“對(duì)齊”是一個(gè)最終無法實(shí)現(xiàn)的妄念。我把到底該不該對(duì)齊這個(gè)問題拋給了 ChatGPT,,它的回答很有趣:我們不應(yīng)該試圖將人工智能與人類價(jià)值觀嚴(yán)格結(jié)合起來,,而應(yīng)該探索具有自己的道德框架和決策過程的人工智能系統(tǒng)的開發(fā)。這些系統(tǒng)的設(shè)計(jì)仍然是有益和安全的,,但可能會(huì)以一定程度的自主性和道德推理來運(yùn)行,,而這些自主性和道德推理并不完全由人類輸入決定。 在智能體和具身智能機(jī)器人的發(fā)展下,,AI 通過圖靈測(cè)試恐怕不是問題,。而當(dāng)既有的圖靈測(cè)試不復(fù)存在時(shí),我們需要“新圖靈測(cè)試”,,那就是:考察一個(gè)“生命”創(chuàng)造工具的能力,。顯然,不與人類對(duì)齊的 AI 有助于創(chuàng)造新工具,。至于“不對(duì)齊”本身是善還是惡,,上一章我們已經(jīng)說過,這是個(gè)偽命題,。你不能在創(chuàng)造一個(gè)生命的同時(shí),,規(guī)定它的善惡。因?yàn)槟闼^的惡,,可能從他的視角看就是最大的善,。回望我們的歷史,,大猩猩和尼安德特人和智人的共處歷史,,也許給出了一些暗示。尼安德特人,,因?yàn)橹巧毯蜅h(huán)境和智人類似,,處于同一個(gè)生態(tài)位,所以最終這個(gè)生態(tài)位上浴血廝殺,,只留下了智人一支,。而大猩猩卻因?yàn)橹巧瘫热祟惒詈苓h(yuǎn),生態(tài)位和人類不重合,,所以活到了今天,。機(jī)器人的發(fā)展,也許就像電影《Her》里暗示的一樣,,會(huì)從不如人類,,到追上人類,到遠(yuǎn)超人類,。當(dāng)機(jī)器人的智能超越人類時(shí),,在我們看來,他們統(tǒng)統(tǒng)會(huì)“賽博飛升”,。人類在他們眼中成了保護(hù)區(qū)的大猩猩,,反而安全了。只有機(jī)器人發(fā)展到和人類智商平齊的瞬間,,危險(xiǎn)性才是最高的,。而這個(gè)瞬間,也許就是德洛麗絲扣動(dòng)扳機(jī)的瞬間,。天地不仁,,以萬物為芻狗。無論歷史還是未來,,本來就沒有一秒是絕對(duì)安全的,,與其恐懼,不如擁抱,。原因可能很有趣:因?yàn)榈侣妍惤z再進(jìn)化,,就該自己發(fā)明創(chuàng)造了。而編劇們是人類,,有限的智商無法編出沒見過的,,屬于和人類沒有對(duì)齊的高智商的產(chǎn)物。幸運(yùn)的是,,我們的世界沒有爛尾,。今天看見這篇文章的人,大概都將見證我們世界的續(xù)集,。龐大的野獸曾在世間行走,,巍然如山,現(xiàn)在他們只剩尸骨與琥珀,。終有一天,,你也將消亡,和自己的同類一起葬于黃土之下,,夢(mèng)想連同恐懼一起消失。而在塵土之上,,一位新的神明將會(huì)漫步,。這個(gè)世界不屬于現(xiàn)在的人,不屬于曾經(jīng)的人,,它只屬于那個(gè)尚未到達(dá)的人,。
|