OpenAI機(jī)器人活了！說話做事太像人,，2分半視頻震撼世界

九彩飛翔 2024-03-17 發(fā)布于重慶

展開全文

OpenAI機(jī)器人來了,，說話竟然會(huì)“結(jié)巴”，AI負(fù)責(zé)人深度拆解背后技術(shù),。

作者 | 云鵬

編輯 | 李水青

OpenAI大模型加持,，F(xiàn)igure機(jī)器人再次顛覆了我們的想象！

▲測試員說自己餓了,，問Figure 01有什么能吃的,，F(xiàn)igure 01準(zhǔn)確地理解蘋果是可食用的并精準(zhǔn)遞送了過去

智東西3月14日消息，昨晚機(jī)器人明星創(chuàng)企Figure發(fā)布了一段2分35秒的視頻,。視頻中,，F(xiàn)igure 01可以輕松完成很多高難度動(dòng)作：

描述自己眼前看到了什么；

判斷自己眼前看到的這些東西相互之間有什么關(guān)聯(lián),；

給饑餓的測試員找到桌子上唯一能吃的蘋果并精準(zhǔn)遞送過去,；

進(jìn)行“回憶”，并對自己做過的事情給出評價(jià),；

用簡單易懂的話語口頭解釋自己做事的緣由,，比如為什么覺得自己做的好？

這背后,，Figure 01用上了OpenAI的大模型能力。

整個(gè)過程中,，Figure 01的動(dòng)作非常流暢自然,，對人類語言的理解以及背后含義也能充分Get到，同時(shí)很多語言,、動(dòng)作上的細(xì)節(jié)跟人類非常相似,，它甚至還會(huì)“結(jié)巴”,！簡直令人驚掉下巴。

▲測試員提問說,，你覺得你剛才做的怎么樣,，F(xiàn)igure 01對自己之前的行為進(jìn)行了評價(jià)并說明原因

Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch對該演示進(jìn)行了深入技術(shù)拆解。Corey Lynch特別強(qiáng)調(diào)說,，這一切都是機(jī)器人自己學(xué)習(xí)并完成的,，沒有任何人為操控，而且是標(biāo)準(zhǔn)的“1倍速”,。

▲Corey Lynch發(fā)文進(jìn)行技術(shù)拆解

Figure創(chuàng)始人發(fā)文稱,，OpenAI提供了視覺推理和語言理解能力，而Figure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速,、靈敏的機(jī)器人動(dòng)作,。

▲Figure創(chuàng)始人Brett Adcock發(fā)文

今年2月24日，F(xiàn)igure剛剛宣布獲得了6.75億美元（折合約48.58億人民幣）高額融資,，估值達(dá)到26億美元（折合約187.12億人民幣）,，一舉躍升獨(dú)角獸。其投資方包括微軟,、OpenAI,、英偉達(dá),、英特爾,，陣容十分亮眼。

▲Figure宣布融資信息

當(dāng)天,，F(xiàn)igure還提前官宣了與OpenAI,、微軟達(dá)成合作，稱其將與OpenAI合作開發(fā)下一代人形機(jī)器人AI模型,，利用微軟云進(jìn)行AI基礎(chǔ)設(shè)施構(gòu)建,、訓(xùn)練等。Figure透露,，他們將通過與OpenAI的合作繼續(xù)突破AI學(xué)習(xí)的邊界,。OpenAI當(dāng)時(shí)也轉(zhuǎn)發(fā)了Figure的推文稱，OpenAI正在與Figure合作,，將其多模態(tài)模型擴(kuò)展到機(jī)器人的感知,、推理和交互中。

今天的視頻,，顯然是Figure與OpenAI合作的階段性成果展示,。毫無疑問，機(jī)器人與大模型的結(jié)合,，又向前邁了一步,。

當(dāng)然,，F(xiàn)igure還不忘在評論區(qū)放上了自己的招聘鏈接,，呼吁更多有志之士加入自己。

▲Figure發(fā)布招聘信息

推薦智東西年度會(huì)議,。4月18-19日,，2024中國生成式AI大會(huì)將在北京舉行。同期設(shè)有具身智能技術(shù)研討會(huì),，優(yōu)必選和科大訊飛的人形機(jī)器人專家領(lǐng)銜,。免費(fèi)報(bào)名或購票通道開放中，期待你的參會(huì)~

01.

短短2分半視頻細(xì)節(jié)多到炸裂,，

Figure的機(jī)器人太逼真了,！

視頻中,，F(xiàn)igure 01機(jī)器人可以理解人的提問并對眼前物體進(jìn)行識別和理解。

比如測試員問Figure 01眼前有什么,，F(xiàn)igure 01可以準(zhǔn)確說出桌子上有一個(gè)蘋果放在盤子中央,、有一個(gè)裝有杯子和盤子的晾碗架，還有測試員正站在桌子旁,，一個(gè)手放在了桌子上,。

緊接著測試員問它我能吃點(diǎn)什么，F(xiàn)igure 01在思考過后會(huì)快速準(zhǔn)確地抓取盤子中的蘋果交給測試員,。

Figure 01在拿蘋果的過程中還不忘“倒個(gè)手”,，將蘋果從右手遞到左手，再通過左手遞給測試員,，其動(dòng)作非常流暢,，也非常符合人類做事的習(xí)慣：從距離更近的一邊把物體送過去。

測試員隨后讓Figure 01一邊整理桌子上的垃圾,，一邊回答剛才為什么要這么做,。

Figure 01馬上開始將垃圾撿入籃子里，并在撿的過程中說,，因?yàn)樘O果是桌子上唯一能吃的東西,，所以我把蘋果給了你。

Figure 01在整理垃圾的過程中,，機(jī)器人手臂和手掌的動(dòng)作非常靈活自然,，拿放垃圾的動(dòng)作較為流暢，并且在整理完成后,，還不忘貼心地把籃子往前推了一小下,。

這“一小下”,，卻讓我們感到十足的真實(shí)感,。它似乎不僅知道如何完成任務(wù)，還知道任務(wù)完成后的目的是什么：完成后交給測試員,。但實(shí)際上,，測試員起初并沒有在語言中提到整理后“遞給他”這件事。

接下來,，測試員問Figure 01,，基于你現(xiàn)在看到的場景，你覺得你面前的這些餐具一會(huì)兒會(huì)到哪去,？

Figure 01在思考后回答說,，桌上的餐具，包括盤子和杯子,，很可能會(huì)進(jìn)到晾碗架里,。這里我們能看到,，F(xiàn)igure 01是可以理解面前的杯子、盤子與晾碗架之間的關(guān)系的,。

測試員緊接著說,，那你能把它們放進(jìn)去嗎？Figure 01在回答可以后,，就把面前的一個(gè)杯子和一個(gè)盤子放到了晾碗架里,。

▲把杯子放到晾碗架里

▲把盤子放到晾碗架里

在放入的過程中，F(xiàn)igure 01知道杯子要倒扣著放進(jìn)晾碗架,，這個(gè)要求測試員完全沒有說,，同時(shí)Figure 01在放入盤子的時(shí)候知道要將盤子卡在晾碗架的槽子里，這一點(diǎn)測試員同樣沒有提到,。

可以看到,，F(xiàn)igure 01不僅可以理解測試員的要求并執(zhí)行，同時(shí)它對于執(zhí)行過程中操作的物體以及周邊環(huán)境是有理解的,，它可以自己理解杯子和盤子要如何放進(jìn)晾碗架里,。

測試員隨后問它，你覺得你做的怎么樣,？

Figure 01思考后回答說它覺得自己做的很好,，它說，蘋果有了新主人,、垃圾不見了,、桌上的東西也歸位了。

測試員回復(fù)它說,，我同意,，謝謝你Figure 01。Figure 01回答說,，不客氣,，如果還有什么需要幫忙的，跟我說就好,。

值得一提的是,，F(xiàn)igure 01的回復(fù)話語一開始竟然“結(jié)巴”了一下：“I……I think……?！边@簡直過于真實(shí)了,，好像它真的在思考自己該如何回答并有一些“猶豫”，說話的語氣與真人十分類似,。

同時(shí),，F(xiàn)igure 01能夠理解測試員話語中“你做的”中到底包含哪些事，包括它自己之前做的遞送蘋果、整理垃圾,、收拾杯盤,。這一點(diǎn)無疑是更難得的。

隨后在視頻說明中,，F(xiàn)igure提到Figure 01的一些特性,，包括充分學(xué)習(xí)、動(dòng)作迅速,、可執(zhí)行靈巧操作,。

02.

AI技術(shù)負(fù)責(zé)人深度拆解實(shí)現(xiàn)原理：

多個(gè)大模型參與，

流暢雙手動(dòng)作如何實(shí)現(xiàn),？

Figure的創(chuàng)始人在X平臺發(fā)文稱,，這是在端到端的神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn)的人機(jī)對話，OpenAI提供的是視覺推理和語言理解能力,，F(xiàn)igure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速,、底層級（low-level）、靈敏的機(jī)器人動(dòng)作,。

視頻中的測試員實(shí)際上是Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch,，他也是前谷歌DeepMind科學(xué)家。

他提到,，F(xiàn)igure的機(jī)器人目前可以描述自己的視覺經(jīng)歷,、計(jì)劃未來的行動(dòng)、進(jìn)行記憶回溯,、口頭解釋自己的行為原因,。

隨后，Corey Lynch對視頻內(nèi)容進(jìn)行了進(jìn)一步技術(shù)拆解,。以下是他技術(shù)拆解的全文：

Figure 01所有的行為都是學(xué)習(xí)得來的（而非遙控操作的）,，并以正常的速度（1倍速）運(yùn)行。

我們將機(jī)器人攝像頭的圖像和機(jī)載麥克風(fēng)捕獲的語音轉(zhuǎn)錄文本輸入到一個(gè)由OpenAI訓(xùn)練的大型多模態(tài)模型中,，該模型會(huì)理解圖像和文本,。

該模型會(huì)處理整個(gè)對話的歷史記錄，包括過去的圖像,，以產(chǎn)生語言響應(yīng),，這些響應(yīng)通過文本到語音模型被人類聽到,。同一個(gè)模型負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪個(gè)學(xué)習(xí)到的閉環(huán)行為以完成給定的命令,，將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU并執(zhí)行策略。

將Figure 01連接到一個(gè)大型預(yù)訓(xùn)練的多模態(tài)模型,，賦予了它一些有趣的新能力?，F(xiàn)在，F(xiàn)igure 01+ OpenAI可以：

1、描述它的周圍環(huán)境,。

2,、在做決策時(shí)使用常識推理。例如,，“桌子上的那個(gè)盤子和杯子可能接下來會(huì)放到晾碗架上”,。

3、將模糊的,、高級別的請求,，如“我餓了”，轉(zhuǎn)化為一些符合上下文的行為,，如“把蘋果遞給這個(gè)人”,。

4、用簡單的英語描述為什么它執(zhí)行了特定的動(dòng)作,。例如,，“這是我能從桌子上提供給你的唯一可食用的物品”。

一個(gè)理解對話歷史的大型預(yù)訓(xùn)練模型賦予了Figure 01強(qiáng)大的短期記憶,。

考慮一下這個(gè)問題,，“你能把它們放在那里嗎？”“它們”指的是什么,，而“那里”又在哪里,？正確回答需要反思記憶的能力。

有了一個(gè)預(yù)訓(xùn)練模型分析對話的圖像和文本歷史,，F(xiàn)igure 01很快就形成并執(zhí)行了一個(gè)計(jì)劃：

1）把杯子放在晾碗架上,。

2）把盤子放在晾碗架上。

最后,，讓我們談?wù)剬W(xué)習(xí)得來的低層級的（learned low-level）雙手操作,。

所有的行為都由神經(jīng)網(wǎng)絡(luò)視覺運(yùn)動(dòng)變換策略驅(qū)動(dòng)，將像素直接映射到動(dòng)作,。這些網(wǎng)絡(luò)以10Hz的頻率接收機(jī)載圖像,，并以200Hz的頻率生成24自由度的動(dòng)作（手腕姿態(tài)和手指關(guān)節(jié)角度）。這些動(dòng)作作為高速率的'設(shè)定點(diǎn)',，供更高速率的全身控制器跟蹤,。這是一個(gè)有用的關(guān)注點(diǎn)分離：

1、互聯(lián)網(wǎng)預(yù)訓(xùn)練模型通過對圖像和文本進(jìn)行常識推理,，提出高級計(jì)劃,。

2、學(xué)習(xí)到的視覺運(yùn)動(dòng)策略執(zhí)行計(jì)劃,，執(zhí)行難以手動(dòng)指定的快速反應(yīng)行為,，比如在任何位置操作可變形的袋子。

3、同時(shí),，全身控制器確保安全穩(wěn)定的動(dòng)態(tài),。例如，保持平衡,。

最后,，Corey Lynch發(fā)表了自己的一些感受：

即使在幾年前，我也會(huì)認(rèn)為和一個(gè)能規(guī)劃和執(zhí)行自己的全學(xué)習(xí)行為的類人機(jī)器人（a humanoid robot while it plans and carries out its own fully learned behaviors）進(jìn)行完整的對話是我們可能需要等待幾十年才能看到的事情,。顯然,，很多事情已經(jīng)改變了。

在我看來,，F(xiàn)igure現(xiàn)在是全世界將具身智能（embodied AI）規(guī)?；瘮U(kuò)展最好的地方。

03.

結(jié)語：AI大模型與機(jī)器人融合,，

加速具身智能技術(shù)迭代

在Figure發(fā)布的最新視頻中,，我們可以看到Figure的人形機(jī)器人與OpenAI大模型能力結(jié)合，完成了此前許多難以完成的“高難度動(dòng)作”,，機(jī)器人與人類的人機(jī)交互效果,，再次向前迭代。

未來隨著AI大模型與機(jī)器人更加深度的結(jié)合,，機(jī)器人真正走向更廣泛的商用,、走向千家萬戶的進(jìn)度也將提速，具身智能必將成為未來AI產(chǎn)業(yè)中的一條關(guān)鍵賽道,。

（本文系網(wǎng)易新聞·網(wǎng)易號特色內(nèi)容激勵(lì)計(jì)劃簽約賬號【智東西】原創(chuàng)內(nèi)容,，未經(jīng)賬號授權(quán)，禁止隨意轉(zhuǎn)載,。）

2024年中國生成式AI大會(huì)預(yù)告

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息，謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：九彩飛翔 > 《科學(xué)與未知》

舉報(bào)/認(rèn)領(lǐng)