機(jī)器人越來越像人了,!谷歌等的這項(xiàng)研究將現(xiàn)實(shí)世界的信息通過傳感器納入多模態(tài)語言模型,不但能執(zhí)行機(jī)器人任務(wù),,還具有視覺問答,、文本補(bǔ)全等功能。 一直以來,,人們都想擁有一款能聽懂吩咐的機(jī)器人,,比如「請(qǐng)幫我熱一下午餐」,「請(qǐng)把遙控器幫我拿過來」,。這些指令聽上去簡(jiǎn)單,,但一旦讓機(jī)器人去做,失誤率還是很高的,。在這一過程中,,機(jī)器人需要克服很多困難,比如理解指令,、分解任務(wù),、規(guī)劃路線、識(shí)別物體等等,,涉及到的能力跨語言,、視覺等多個(gè)模態(tài)。為了讓機(jī)器人更加擅長(zhǎng)這些任務(wù),,不少研究者都在嘗試將大型語言模型與機(jī)器人結(jié)合起來,,讓大模型充當(dāng)機(jī)器人的「大腦」,從而更出色地完成各項(xiàng)任務(wù),。這是「具身智能」領(lǐng)域一個(gè)比較熱門的研究方向,。具身智能是具有身體體驗(yàn)的智能,是第一人稱(而非第三人稱)視角的智能,。圖源:盧策吾演講 PPT,,參見文末《為什么說具身智能是通往 AGI 值得探索的方向?上海交大教授盧策吾深度解讀》,。在過去的一年中,,我們已經(jīng)看到了谷歌的 SayCan、UC 伯克利的 LM Nav 等多項(xiàng)工作。前者能夠讓機(jī)器人在大型語言模型的幫助下,,完成一個(gè)包含 16 個(gè)步驟的長(zhǎng)任務(wù),;后者則用三個(gè)大模型(視覺導(dǎo)航模型 ViNG、大型語言模型 GPT-3,、視覺語言模型 CLIP)教會(huì)了機(jī)器人在不看地圖的情況下按照語言指令到達(dá)目的地,。單獨(dú)使用大型語言模型或者將視覺、語言,、視覺 - 語言模型組合起來使用似乎都給機(jī)器人提供了很大的幫助,,那如果直接訓(xùn)練一個(gè)更大的、單一的大型多模態(tài)模型呢,?最近,,谷歌在這一方向上投入了大量資源,推出了一個(gè)參數(shù)量達(dá) 5620 億的具身多模態(tài)語言模型 —— PaLM-E,。具體來說,, PaLM-E-562B 集成了參數(shù)量 540B 的 PaLM 和參數(shù)量 22B 的視覺 Transformer(ViT),是目前已知的最大的視覺 - 語言模型,。在實(shí)驗(yàn)中,,這個(gè)模型在很多任務(wù)中都表現(xiàn)出了強(qiáng)大的能力。比如,,在機(jī)器人任務(wù)中,,它可以幫你從抽屜里拿東西,然后走過去遞給你,。在這一過程中,,它既要聽懂你的語言指令,還要會(huì)識(shí)別指定物體并規(guī)劃任務(wù)步驟,。接下來,,研究人員讓機(jī)器人完成一個(gè)顏色歸類任務(wù),但給出的輸入不限于語言指令,,還摻雜了視覺信息。結(jié)果顯示,,有 PaLM-E 加持的機(jī)器人確實(shí)會(huì)排列積木,,把相同的顏色塊放到一起:你還能命令 PaLM-E 將紅色積木推到咖啡杯旁邊而不會(huì)出錯(cuò):除了解鎖機(jī)器人相關(guān)任務(wù)外,PaLM-E 還是一個(gè)合格的視覺 - 語言或純語言模型,,具有視覺問答,、文本補(bǔ)全等功能。如下圖,,給定一張圖像,,并向 PaLM-E 提問:「如果一個(gè)機(jī)器人想在這里發(fā)揮作用,它應(yīng)該采取哪些步驟?」PaLM-E 給出的回答是:首先清理桌子,,清理垃圾,,然后挪動(dòng)椅子,擦椅子,,最后把椅子放回原處,。PaLM-E 的回答看起來很符合邏輯。除了谷歌之外,,微軟最近似乎也在探索大模型與機(jī)器人的結(jié)合,。前段時(shí)間,他們發(fā)表了一篇論文,,探討如何將 ChatGPT 的功能擴(kuò)展到機(jī)器人領(lǐng)域,,從而讓我們用語言直觀控制如機(jī)械臂、無人機(jī),、家庭輔助機(jī)器人等多個(gè)平臺(tái),。正如上海交大教授盧策吾所說,早在 1950 年,,圖靈就在他的論文中首次提出了具身智能的概念,,在之后的幾十年里,大家都覺得這是一個(gè)很重要的概念,,但具身智能并沒有取得很大的進(jìn)展,,因?yàn)楫?dāng)時(shí)的技術(shù)還不足以支撐其發(fā)展。到了今天,,多學(xué)科的技術(shù)已經(jīng)改變了這一局面,,可以讓我們?nèi)パ芯烤呱碇悄艿囊恍┍举|(zhì)問題。接下來,,我們將詳細(xì)介紹 PaLM-E 這篇論文,。眾所周知,,大型語言模型(LLM)在各個(gè)領(lǐng)域表現(xiàn)出強(qiáng)大的推理能力,包括對(duì)話,、逐步推理,、解決數(shù)學(xué)問題、代碼編寫等方面,。然而,,這種模型在現(xiàn)實(shí)世界中又面臨推理性能不好的短板,即雖然 LLM 是在大型數(shù)據(jù)集上訓(xùn)練而成,,可以生成與物理世界相關(guān)的表示,,但將這些表示與現(xiàn)實(shí)世界中的視覺和物理傳感器連接起來時(shí)又存在很多困難,。2022 年 Ahn 等人在 SayCan 的論文中提出將 LLM 的輸出與學(xué)習(xí)到的機(jī)器人策略相結(jié)合以做出決策,但其局限性在于 LLM 本身僅提供文本輸入,,對(duì)圖像輸入還沒有涉及,,這對(duì)于許多任務(wù)來說是不夠的。此外,,當(dāng)前 SOTA 視覺語言模型是在典型的視覺語言任務(wù)(如視覺問答(VQA))上訓(xùn)練而成,,不能直接用來解決機(jī)器人推理任務(wù)。谷歌推出的具身語言模型 PaLM-E 可以很好地解決上述問題,,它可以將連續(xù)的傳感器數(shù)據(jù)直接整合到語言模型里,,從而使得語言模型能夠做出更有根據(jù)的推理。值得一提的是,,他們之所以將此模型命名為 PaLM-E,,是因?yàn)楸疚氖褂昧?2022 年谷歌發(fā)布的 PaLM 作為預(yù)訓(xùn)練語言模型。PaLM-E-562B 在 OK-VQA 基準(zhǔn)上實(shí)現(xiàn)了 SOTA 性能,,而不依賴特定于任務(wù)的微調(diào),。除此以外,PaLM-E-562B 在其他任務(wù)上也表現(xiàn)良好,,包括零樣本多模態(tài)思維鏈 (CoT) 推理,、少樣本提示、OCR-free 數(shù)學(xué)推理和多圖像推理等,。- 論文地址:https://palm-e./assets/palm-e.pdf
至于實(shí)現(xiàn)過程,,總結(jié)而言,PaLM-E 的架構(gòu)思想是將連續(xù)的具身觀察結(jié)果(例如圖像,、狀態(tài)估計(jì)或其他傳感器模態(tài))注入到預(yù)訓(xùn)練語言模型的語言嵌入空間中,。PaLM-E 將連續(xù)信息以類似于語言 token 的方式注入到語言模型中。它不是那種常見的編碼器 - 解碼器架構(gòu)模型,,而是一種只具有解碼器的 LLM,。具體到輸入上,PaLM-E 的輸入包括文本和(多個(gè))連續(xù)觀察,。與這些觀察相對(duì)應(yīng)的多模態(tài) token 與文本交錯(cuò)形成多模態(tài)句子,。例如多模態(tài)句子 Q(給出一個(gè)提問):What happened between <img_1> and <img_2> ? 其中 < img_i > 表示圖像的嵌入。PaLM-E 的輸出是由模型自回歸生成的文本,,可以是問題的答案,,也可以是 PaLM-E 以文本形式生成的應(yīng)該由機(jī)器人執(zhí)行的一系列決策。 在論文第 3 章,,作者詳細(xì)介紹了他們使用的方法,。有人猜測(cè),,這項(xiàng)工作可能是受到「紅色代碼」影響而做出的成果,?三個(gè)月前谷歌拉響「紅色代碼」警報(bào),,以應(yīng)對(duì) ChatGPT 帶來的威脅。不過這也只是一種猜測(cè),,總歸,,谷歌是將傳感器數(shù)據(jù)給整合到語言模型里了。該研究進(jìn)行了大量的實(shí)驗(yàn),。首先是模型的遷移能力:下圖表明,,在不同任務(wù)和數(shù)據(jù)集上訓(xùn)練完成 PaLM-E 顯著優(yōu)于那些在單獨(dú)任務(wù)上訓(xùn)練的模型。圖 4 表明,,LLM 在 full mixture 訓(xùn)練模式下,,比其他訓(xùn)練模式性能提高了一倍以上。表 9 顯示了不同模型在移動(dòng)操作環(huán)境下對(duì)故障檢測(cè)的能力,,評(píng)價(jià)標(biāo)準(zhǔn)為精度和召回:同樣的,,下表 2 為模型在模擬環(huán)境中對(duì)規(guī)劃任務(wù)的結(jié)果該研究還展示了模型在語言方面的能力,當(dāng)對(duì)整個(gè)模型進(jìn)行端到端訓(xùn)練時(shí),,隨著模型規(guī)模的增加,,模型保留了更多的原始語言性能(圖 6)。
|