久久国产成人av_抖音国产毛片_a片网站免费观看_A片无码播放手机在线观看,色五月在线观看,亚洲精品m在线观看,女人自慰的免费网址,悠悠在线观看精品视频,一级日本片免费的,亚洲精品久,国产精品成人久久久久久久

分享

OpenAI機(jī)器人活了!說話做事太像人,,2分半視頻震撼世界

 九彩飛翔 2024-03-17 發(fā)布于重慶

圖片

圖片

OpenAI機(jī)器人來了,,說話竟然會(huì)“結(jié)巴”,AI負(fù)責(zé)人深度拆解背后技術(shù),。
作者 |  云鵬
編輯 |  李水青
OpenAI大模型加持,,F(xiàn)igure機(jī)器人再次顛覆了我們的想象!

圖片

▲測試員說自己餓了,,問Figure 01有什么能吃的,,F(xiàn)igure 01準(zhǔn)確地理解蘋果是可食用的并精準(zhǔn)遞送了過去

智東西3月14日消息,昨晚機(jī)器人明星創(chuàng)企Figure發(fā)布了一段2分35秒的視頻,。視頻中,,F(xiàn)igure 01可以輕松完成很多高難度動(dòng)作:
描述自己眼前看到了什么;
判斷自己眼前看到的這些東西相互之間有什么關(guān)聯(lián),;
給饑餓的測試員找到桌子上唯一能吃的蘋果并精準(zhǔn)遞送過去,;
進(jìn)行“回憶”,并對自己做過的事情給出評價(jià),;
用簡單易懂的話語口頭解釋自己做事的緣由,,比如為什么覺得自己做的好?
這背后,,Figure 01用上了OpenAI的大模型能力。
整個(gè)過程中,,Figure 01的動(dòng)作非常流暢自然,,對人類語言的理解以及背后含義也能充分Get到,同時(shí)很多語言,、動(dòng)作上的細(xì)節(jié)跟人類非常相似,,它甚至還會(huì)“結(jié)巴”,!簡直令人驚掉下巴。

圖片

▲測試員提問說,,你覺得你剛才做的怎么樣,,F(xiàn)igure 01對自己之前的行為進(jìn)行了評價(jià)并說明原因

Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch對該演示進(jìn)行了深入技術(shù)拆解。Corey Lynch特別強(qiáng)調(diào)說,,這一切都是機(jī)器人自己學(xué)習(xí)并完成的,,沒有任何人為操控,而且是標(biāo)準(zhǔn)的“1倍速”,。

圖片

▲Corey Lynch發(fā)文進(jìn)行技術(shù)拆解

Figure創(chuàng)始人發(fā)文稱,,OpenAI提供了視覺推理和語言理解能力,而Figure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速,、靈敏的機(jī)器人動(dòng)作,。

圖片

▲Figure創(chuàng)始人Brett Adcock發(fā)文

今年2月24日,F(xiàn)igure剛剛宣布獲得了6.75億美元(折合約48.58億人民幣)高額融資,,估值達(dá)到26億美元(折合約187.12億人民幣),,一舉躍升獨(dú)角獸。其投資方包括微軟,、OpenAI,、英偉達(dá),、英特爾,,陣容十分亮眼。

圖片

▲Figure宣布融資信息

當(dāng)天,,F(xiàn)igure還提前官宣了與OpenAI,、微軟達(dá)成合作,稱其將與OpenAI合作開發(fā)下一代人形機(jī)器人AI模型,,利用微軟云進(jìn)行AI基礎(chǔ)設(shè)施構(gòu)建,、訓(xùn)練等。Figure透露,,他們將通過與OpenAI的合作繼續(xù)突破AI學(xué)習(xí)的邊界,。OpenAI當(dāng)時(shí)也轉(zhuǎn)發(fā)了Figure的推文稱,OpenAI正在與Figure合作,,將其多模態(tài)模型擴(kuò)展到機(jī)器人的感知,、推理和交互中。
今天的視頻,,顯然是Figure與OpenAI合作的階段性成果展示,。毫無疑問,機(jī)器人與大模型的結(jié)合,,又向前邁了一步,。
當(dāng)然,,F(xiàn)igure還不忘在評論區(qū)放上了自己的招聘鏈接,,呼吁更多有志之士加入自己。

圖片

▲Figure發(fā)布招聘信息

推薦智東西年度會(huì)議,。4月18-19日,,2024中國生成式AI大會(huì)將在北京舉行。同期設(shè)有具身智能技術(shù)研討會(huì),,優(yōu)必選和科大訊飛的人形機(jī)器人專家領(lǐng)銜,。免費(fèi)報(bào)名或購票通道開放中,期待你的參會(huì)~

01.
短短2分半視頻細(xì)節(jié)多到炸裂,,
Figure的機(jī)器人太逼真了,!
視頻中,,F(xiàn)igure 01機(jī)器人可以理解人的提問并對眼前物體進(jìn)行識別和理解。
比如測試員問Figure 01眼前有什么,,F(xiàn)igure 01可以準(zhǔn)確說出桌子上有一個(gè)蘋果放在盤子中央,、有一個(gè)裝有杯子和盤子的晾碗架,還有測試員正站在桌子旁,,一個(gè)手放在了桌子上,。

圖片

緊接著測試員問它我能吃點(diǎn)什么,F(xiàn)igure 01在思考過后會(huì)快速準(zhǔn)確地抓取盤子中的蘋果交給測試員,。
Figure 01在拿蘋果的過程中還不忘“倒個(gè)手”,,將蘋果從右手遞到左手,再通過左手遞給測試員,,其動(dòng)作非常流暢,,也非常符合人類做事的習(xí)慣:從距離更近的一邊把物體送過去。

圖片

測試員隨后讓Figure 01一邊整理桌子上的垃圾,,一邊回答剛才為什么要這么做,。
Figure 01馬上開始將垃圾撿入籃子里,并在撿的過程中說,,因?yàn)樘O果是桌子上唯一能吃的東西,,所以我把蘋果給了你。

圖片

Figure 01在整理垃圾的過程中,,機(jī)器人手臂和手掌的動(dòng)作非常靈活自然,,拿放垃圾的動(dòng)作較為流暢,并且在整理完成后,,還不忘貼心地把籃子往前推了一小下,。

圖片

這“一小下”,,卻讓我們感到十足的真實(shí)感,。它似乎不僅知道如何完成任務(wù),還知道任務(wù)完成后的目的是什么:完成后交給測試員,。但實(shí)際上,,測試員起初并沒有在語言中提到整理后“遞給他”這件事。
接下來,,測試員問Figure 01,,基于你現(xiàn)在看到的場景,你覺得你面前的這些餐具一會(huì)兒會(huì)到哪去,?
Figure 01在思考后回答說,,桌上的餐具,包括盤子和杯子,,很可能會(huì)進(jìn)到晾碗架里,。這里我們能看到,,F(xiàn)igure 01是可以理解面前的杯子、盤子與晾碗架之間的關(guān)系的,。

圖片

測試員緊接著說,,那你能把它們放進(jìn)去嗎?Figure 01在回答可以后,,就把面前的一個(gè)杯子和一個(gè)盤子放到了晾碗架里,。

圖片

▲把杯子放到晾碗架里

圖片

▲把盤子放到晾碗架里

在放入的過程中,F(xiàn)igure 01知道杯子要倒扣著放進(jìn)晾碗架,,這個(gè)要求測試員完全沒有說,,同時(shí)Figure 01在放入盤子的時(shí)候知道要將盤子卡在晾碗架的槽子里,這一點(diǎn)測試員同樣沒有提到,。

圖片

可以看到,,F(xiàn)igure 01不僅可以理解測試員的要求并執(zhí)行,同時(shí)它對于執(zhí)行過程中操作的物體以及周邊環(huán)境是有理解的,,它可以自己理解杯子和盤子要如何放進(jìn)晾碗架里,。
測試員隨后問它,你覺得你做的怎么樣,?
Figure 01思考后回答說它覺得自己做的很好,,它說,蘋果有了新主人,、垃圾不見了,、桌上的東西也歸位了。

圖片

測試員回復(fù)它說,,我同意,,謝謝你Figure 01。Figure 01回答說,,不客氣,,如果還有什么需要幫忙的,跟我說就好,。
值得一提的是,,F(xiàn)igure 01的回復(fù)話語一開始竟然“結(jié)巴”了一下:“I……I think……?!边@簡直過于真實(shí)了,,好像它真的在思考自己該如何回答并有一些“猶豫”,說話的語氣與真人十分類似,。
同時(shí),,F(xiàn)igure 01能夠理解測試員話語中“你做的”中到底包含哪些事,包括它自己之前做的遞送蘋果、整理垃圾,、收拾杯盤,。這一點(diǎn)無疑是更難得的。
隨后在視頻說明中,,F(xiàn)igure提到Figure 01的一些特性,,包括充分學(xué)習(xí)、動(dòng)作迅速,、可執(zhí)行靈巧操作,。

02.
AI技術(shù)負(fù)責(zé)人深度拆解實(shí)現(xiàn)原理:
多個(gè)大模型參與,
流暢雙手動(dòng)作如何實(shí)現(xiàn),?
Figure的創(chuàng)始人在X平臺發(fā)文稱,,這是在端到端的神經(jīng)網(wǎng)絡(luò)上實(shí)現(xiàn)的人機(jī)對話,OpenAI提供的是視覺推理和語言理解能力,,F(xiàn)igure的神經(jīng)網(wǎng)絡(luò)則負(fù)責(zé)實(shí)現(xiàn)快速,、底層級(low-level)、靈敏的機(jī)器人動(dòng)作,。
視頻中的測試員實(shí)際上是Figure的AI技術(shù)負(fù)責(zé)人Corey Lynch,,他也是前谷歌DeepMind科學(xué)家。
他提到,,F(xiàn)igure的機(jī)器人目前可以描述自己的視覺經(jīng)歷,、計(jì)劃未來的行動(dòng)、進(jìn)行記憶回溯,、口頭解釋自己的行為原因,。
隨后,Corey Lynch對視頻內(nèi)容進(jìn)行了進(jìn)一步技術(shù)拆解,。以下是他技術(shù)拆解的全文:
Figure 01所有的行為都是學(xué)習(xí)得來的(而非遙控操作的),,并以正常的速度(1倍速)運(yùn)行。
我們將機(jī)器人攝像頭的圖像和機(jī)載麥克風(fēng)捕獲的語音轉(zhuǎn)錄文本輸入到一個(gè)由OpenAI訓(xùn)練的大型多模態(tài)模型中,,該模型會(huì)理解圖像和文本,。
該模型會(huì)處理整個(gè)對話的歷史記錄,包括過去的圖像,,以產(chǎn)生語言響應(yīng),,這些響應(yīng)通過文本到語音模型被人類聽到,。同一個(gè)模型負(fù)責(zé)決定在機(jī)器人上運(yùn)行哪個(gè)學(xué)習(xí)到的閉環(huán)行為以完成給定的命令,,將特定的神經(jīng)網(wǎng)絡(luò)權(quán)重加載到GPU并執(zhí)行策略。

圖片

將Figure 01連接到一個(gè)大型預(yù)訓(xùn)練的多模態(tài)模型,,賦予了它一些有趣的新能力?,F(xiàn)在,F(xiàn)igure 01+ OpenAI可以:
1、描述它的周圍環(huán)境,。
2,、在做決策時(shí)使用常識推理。例如,,“桌子上的那個(gè)盤子和杯子可能接下來會(huì)放到晾碗架上”,。
3、將模糊的,、高級別的請求,,如“我餓了”,轉(zhuǎn)化為一些符合上下文的行為,,如“把蘋果遞給這個(gè)人”,。
4、用簡單的英語描述為什么它執(zhí)行了特定的動(dòng)作,。例如,,“這是我能從桌子上提供給你的唯一可食用的物品”。
一個(gè)理解對話歷史的大型預(yù)訓(xùn)練模型賦予了Figure 01強(qiáng)大的短期記憶,。
考慮一下這個(gè)問題,,“你能把它們放在那里嗎?”“它們”指的是什么,,而“那里”又在哪里,?正確回答需要反思記憶的能力。
有了一個(gè)預(yù)訓(xùn)練模型分析對話的圖像和文本歷史,,F(xiàn)igure 01很快就形成并執(zhí)行了一個(gè)計(jì)劃:
1)把杯子放在晾碗架上,。
2)把盤子放在晾碗架上。
最后,,讓我們談?wù)剬W(xué)習(xí)得來的低層級的(learned low-level)雙手操作,。
所有的行為都由神經(jīng)網(wǎng)絡(luò)視覺運(yùn)動(dòng)變換策略驅(qū)動(dòng),將像素直接映射到動(dòng)作,。這些網(wǎng)絡(luò)以10Hz的頻率接收機(jī)載圖像,,并以200Hz的頻率生成24自由度的動(dòng)作(手腕姿態(tài)和手指關(guān)節(jié)角度)。這些動(dòng)作作為高速率的'設(shè)定點(diǎn)',,供更高速率的全身控制器跟蹤,。這是一個(gè)有用的關(guān)注點(diǎn)分離:
1、互聯(lián)網(wǎng)預(yù)訓(xùn)練模型通過對圖像和文本進(jìn)行常識推理,,提出高級計(jì)劃,。
2、學(xué)習(xí)到的視覺運(yùn)動(dòng)策略執(zhí)行計(jì)劃,,執(zhí)行難以手動(dòng)指定的快速反應(yīng)行為,,比如在任何位置操作可變形的袋子。
3、同時(shí),,全身控制器確保安全穩(wěn)定的動(dòng)態(tài),。例如,保持平衡,。
最后,,Corey Lynch發(fā)表了自己的一些感受:
即使在幾年前,我也會(huì)認(rèn)為和一個(gè)能規(guī)劃和執(zhí)行自己的全學(xué)習(xí)行為的類人機(jī)器人(a humanoid robot while it plans and carries out its own fully learned behaviors)進(jìn)行完整的對話是我們可能需要等待幾十年才能看到的事情,。顯然,,很多事情已經(jīng)改變了。
在我看來,,F(xiàn)igure現(xiàn)在是全世界將具身智能(embodied AI)規(guī)?;瘮U(kuò)展最好的地方。

圖片


03.
結(jié)語:AI大模型與機(jī)器人融合,,
加速具身智能技術(shù)迭代
在Figure發(fā)布的最新視頻中,,我們可以看到Figure的人形機(jī)器人與OpenAI大模型能力結(jié)合,完成了此前許多難以完成的“高難度動(dòng)作”,,機(jī)器人與人類的人機(jī)交互效果,,再次向前迭代。
未來隨著AI大模型與機(jī)器人更加深度的結(jié)合,,機(jī)器人真正走向更廣泛的商用,、走向千家萬戶的進(jìn)度也將提速,具身智能必將成為未來AI產(chǎn)業(yè)中的一條關(guān)鍵賽道,。

(本文系網(wǎng)易新聞·網(wǎng)易號特色內(nèi)容激勵(lì)計(jì)劃簽約賬號【智東西】原創(chuàng)內(nèi)容,,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載,。)

2024年中國生成式AI大會(huì)預(yù)告


    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn),。請注意甄別內(nèi)容中的聯(lián)系方式,、誘導(dǎo)購買等信息,謹(jǐn)防詐騙,。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多