我們從計(jì)算機(jī)繪圖中得到了大量靈感,基于物理的對(duì)自然動(dòng)作的模擬數(shù)十年來(lái)已經(jīng)成為廣泛研究的主題,。對(duì)動(dòng)作質(zhì)量的關(guān)注通常受電影,、視覺(jué)效果和游戲應(yīng)用的推動(dòng)。這些年來(lái),,關(guān)于基于物理的人物動(dòng)畫(huà)的大量工作開(kāi)發(fā)出控制器,,可生成適用于大量任務(wù)和人物的魯棒性、自然動(dòng)作,。這些方法通常利用人類洞察納入特定任務(wù)的控制結(jié)構(gòu),,從而為智能體可執(zhí)行的運(yùn)動(dòng)提供強(qiáng)大的歸納偏置(這些智能體包括有限狀態(tài)機(jī)、簡(jiǎn)化模型和逆動(dòng)力學(xué)),。但是由于這些設(shè)計(jì)決策,,控制器通常特定于某種智能體或任務(wù),為行走開(kāi)發(fā)的控制器可能無(wú)法擴(kuò)展至更加動(dòng)態(tài)的技巧(缺乏人類洞察),。 在本研究中,,我們將從兩個(gè)領(lǐng)域中獲取靈感,以利用深度學(xué)習(xí)模型的泛化性能,,同時(shí)生成更自然的動(dòng)作,,可匹敵計(jì)算機(jī)繪圖中全身運(yùn)動(dòng)模擬的當(dāng)前最優(yōu)水平。我們展示了一種概念層面上很簡(jiǎn)單的強(qiáng)化學(xué)習(xí)框架,,使模擬智能體從參考運(yùn)動(dòng)片段中學(xué)習(xí)高動(dòng)態(tài),、高難度動(dòng)作,參考運(yùn)動(dòng)片段的格式是人類的動(dòng)作捕捉數(shù)據(jù),。給出一個(gè)簡(jiǎn)單的技巧展示,,如回旋踢或后空翻,我們的智能體能夠?qū)W習(xí)一個(gè)魯棒的策略來(lái)模仿該技巧,。這些策略生成的動(dòng)作與動(dòng)作捕捉數(shù)據(jù)幾乎難以區(qū)分,。 動(dòng)作模仿 在大部分強(qiáng)化學(xué)習(xí)基準(zhǔn)中,模擬智能體使用簡(jiǎn)單模型來(lái)呈現(xiàn),,模型僅提供粗糙的現(xiàn)實(shí)世界動(dòng)態(tài)近似,。因此智能體傾向于利用模擬的特性開(kāi)發(fā)出現(xiàn)實(shí)中不可行的不自然行為。通過(guò)結(jié)合更真實(shí)的生物工程學(xué)模型可以使動(dòng)作更加自然,。但是構(gòu)建高保真模型難度非常大,,而且得到的動(dòng)作有可能還是不自然。 另一種方法是數(shù)據(jù)驅(qū)動(dòng),,人類運(yùn)動(dòng)的參考片段提供自然運(yùn)動(dòng)的樣本,。然后訓(xùn)練智能體通過(guò)模仿參考運(yùn)動(dòng)來(lái)生成更自然的動(dòng)作,。模仿運(yùn)動(dòng)數(shù)據(jù)的模擬在計(jì)算機(jī)動(dòng)畫(huà)中有很長(zhǎng)的歷史,近期也出現(xiàn)了一些使用深度強(qiáng)化學(xué)習(xí)的案例,,如《DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep Reinforcement Learning》,。盡管結(jié)果看起來(lái)更加自然,但是離生動(dòng)再現(xiàn)大量運(yùn)動(dòng)還有很遠(yuǎn)的距離,。 本研究中,,我們的策略將通過(guò)一個(gè)運(yùn)動(dòng)模擬任務(wù)來(lái)訓(xùn)練,智能體的目標(biāo)是再現(xiàn)給出的參考運(yùn)動(dòng),。每個(gè)參考運(yùn)動(dòng)都以目標(biāo)姿勢(shì)序列的形式呈現(xiàn): ,,其中 q_t hat 是時(shí)間步 t 的目標(biāo)姿勢(shì)。獎(jiǎng)勵(lì)函數(shù)旨在最小化目標(biāo)姿勢(shì) q_t hat 和模擬智能體姿勢(shì) q_t 之間的最小平方誤差,。 盡管運(yùn)動(dòng)模仿應(yīng)用了更復(fù)雜的方法,,但是我們發(fā)現(xiàn)僅僅最小化追蹤誤差(和一些額外洞察)就可以達(dá)到非常好的效果。這些策略是使用 PPO 優(yōu)化目標(biāo)來(lái)訓(xùn)練得到的,。 有了這個(gè)框架,,我們能夠開(kāi)發(fā)出適合大量高難度技巧(包括移動(dòng)、雜技動(dòng)作,、武術(shù)和跳舞)的策略,。 仿真機(jī)器人學(xué)習(xí)模仿不同技巧。藍(lán)色智能體是模擬智能體,,綠色智能體在重演對(duì)應(yīng)的動(dòng)作捕捉片段,。從上到下分別為側(cè)空翻、側(cè)手翻,、蹬足上和單手跨欄,。 下一步,我們把現(xiàn)有方法與之前模仿動(dòng)作捕捉片段的結(jié)果(比如生成對(duì)抗模仿學(xué)習(xí)(GAIL))進(jìn)行了對(duì)比,。我們的方法要比 GAIL 簡(jiǎn)單很多,,而且能夠更好地復(fù)現(xiàn)參考動(dòng)作。由此得到的策略避免了深度強(qiáng)化學(xué)習(xí)方法很多常見(jiàn)的 artifacts,,使得智能體的運(yùn)動(dòng)可以像人一樣流暢,。 我們的方法(左)與 Merel et al. [2017] 方法的對(duì)比,后者使用 GAIL 模仿動(dòng)作捕捉數(shù)據(jù),。相比之前使用深度強(qiáng)化學(xué)習(xí)的研究,,我們的智能體動(dòng)作顯然更加自然。 洞見(jiàn) 參考狀態(tài)初始化(RSI) 假設(shè)智能體正在嘗試模仿后空翻,,那么它如何知道在半空中做一個(gè)完整旋轉(zhuǎn)會(huì)得到高獎(jiǎng)勵(lì)呢,?由于大多數(shù)強(qiáng)化學(xué)習(xí)算法是回溯性的,它們只能觀察到訪問(wèn)過(guò)的狀態(tài)獎(jiǎng)勵(lì)。在后空翻實(shí)例中,,智能體必須先觀察成功的后空翻軌跡,,才能了解哪些狀態(tài)能夠得到高獎(jiǎng)勵(lì)。但由于后空翻對(duì)于起跳和著地的初始條件很敏感,,智能體不大可能通過(guò)隨機(jī)探索偶然性地執(zhí)行成功的后空翻軌跡,。為了給智能體一個(gè)提示,在每個(gè) episode 開(kāi)始時(shí),,我們把智能體初始化至從參考動(dòng)作隨機(jī)采樣的狀態(tài)。因此,,智能體有時(shí)候會(huì)從地面開(kāi)始,,有時(shí)候會(huì)從后空翻的中間狀態(tài)開(kāi)始。這樣即使智能體尚未熟悉如何達(dá)到這些狀態(tài),,它們也能學(xué)習(xí)到哪些狀態(tài)能獲得高獎(jiǎng)勵(lì),。 RSI 通過(guò)將智能體初始化至從參考動(dòng)作隨機(jī)采樣的狀態(tài),為它提供豐富的初始狀態(tài)分布,。 以下是使用 RSI 訓(xùn)練和未用 RSI 訓(xùn)練的后空翻策略對(duì)比,,在后者的訓(xùn)練中智能體總是被初始化到固定的初始狀態(tài),即后空翻動(dòng)作的起始點(diǎn)),。沒(méi)有用 RSI 訓(xùn)練時(shí),,智能體沒(méi)有學(xué)習(xí)到「空翻」,只學(xué)到了「后」,。 未用 RSI 或 ET 訓(xùn)練得到的策略對(duì)比,。RSI 和 ET 對(duì)于學(xué)習(xí)更多動(dòng)態(tài)的動(dòng)作至關(guān)重要。左:RSI+ET,;中:無(wú) RSI,;右:無(wú) ET。 提前終止(ET) 提前終止對(duì)于強(qiáng)化學(xué)習(xí)從業(yè)者來(lái)說(shuō)至關(guān)重要,,它通常用來(lái)提高仿真效率,。如果智能體在某個(gè)狀態(tài)被困住了,不再可能成功學(xué)習(xí)到動(dòng)作,,那么該 episode 將提前終止,,以避免繼續(xù)模擬。這里我們證明提前終止實(shí)際上對(duì)結(jié)果有顯著影響,。還以后空翻為例,。在訓(xùn)練的早期階段,其策略是很糟糕的,,智能體大部分時(shí)間都在失敗,。智能體一旦摔倒,就很難再恢復(fù)到原來(lái)的狀態(tài),因此智能體大部分時(shí)間內(nèi)都在地上掙扎,。這和其它方法論如監(jiān)督學(xué)習(xí)中遇到了類別不均衡問(wèn)題相似,。一旦智能體到達(dá)了這樣的狀態(tài)(例如摔倒),就終止這個(gè) episode,,以緩解該問(wèn)題,。ET 結(jié)合 RSI 有助于確保數(shù)據(jù)集的主要部分是由接近參考軌跡的樣本構(gòu)成的。沒(méi)有 ET,,智能體永遠(yuǎn)無(wú)法學(xué)會(huì)「空翻」,,而只是摔倒然后在地上嘗試表演這個(gè)動(dòng)作。 更多結(jié)果 通過(guò)提供不同的參考動(dòng)作,,類人體總共已學(xué)會(huì)超過(guò) 24 種技能,。 訓(xùn)練類人體模仿豐富的技能。 除了模仿動(dòng)作捕捉片段,,我們還可以訓(xùn)練類人體執(zhí)行其他任務(wù),,比如踢一個(gè)隨機(jī)放置的目標(biāo),或者把球扔向目標(biāo),。 訓(xùn)練向隨機(jī)目標(biāo)扔球的策略,。 我們也可以訓(xùn)練一個(gè)仿造的 Atlas 機(jī)器人模仿人類的動(dòng)作捕捉片段,盡管 Atlas 的形態(tài)和質(zhì)量分布非常不同,,它依然可以重現(xiàn)預(yù)期的動(dòng)作,。該策略不僅可以模仿參考動(dòng)作,還可以從相當(dāng)顯著的干擾中恢復(fù)過(guò)來(lái),。 訓(xùn)練 Atlas 來(lái)完成回旋踢,,即使存在外部擾動(dòng),訓(xùn)練出的策略也極為穩(wěn)健,。 但是如果我們沒(méi)有動(dòng)作捕捉片段,,該怎么辦?假設(shè)我們想要模擬霸王龍,。因各種原因,,捕捉霸王龍的動(dòng)作不現(xiàn)實(shí)。所以,,作為替代,,我們可以用手繪的藝術(shù)動(dòng)畫(huà)來(lái)做關(guān)鍵幀,然后訓(xùn)練策略來(lái)模擬這些動(dòng)作,。 模擬訓(xùn)練霸王龍,,來(lái)模仿藝術(shù)創(chuàng)造的關(guān)鍵幀。 而且不只是霸王龍,,讓我們訓(xùn)練一頭獅子: 模擬獅子,,參考動(dòng)作由 Ziva Dynamics 提供,。 用 418D 狀態(tài)空間和 94D 動(dòng)作空間模擬一條龍。 這里想說(shuō)的是,,一個(gè)簡(jiǎn)單的方法表現(xiàn)都很驚人,。只是最小化循跡誤差(tracking error),我們就能訓(xùn)練掌握不同特征和技能的策略,。我們希望該研究有助于啟發(fā)為虛擬和現(xiàn)實(shí)機(jī)器人開(kāi)發(fā)更多動(dòng)態(tài)動(dòng)作技能,。探索從更多源(例如視頻)中模擬動(dòng)作也是令人激動(dòng)的研究方向,例如動(dòng)物和雜亂環(huán)境中比較難的動(dòng)作捕捉,。 論文:DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills 論文鏈接:https://xbpeng./projects/DeepMimic/index.html 摘要:角色動(dòng)畫(huà)(character animation)的一個(gè)長(zhǎng)期目標(biāo)是把行為的數(shù)據(jù)驅(qū)動(dòng)性與可在物理模擬中執(zhí)行相似行為的系統(tǒng)結(jié)合起來(lái),,從而逼真地回應(yīng)擾動(dòng)和環(huán)境改變。我們的研究表明,,強(qiáng)化學(xué)習(xí)方法可用于學(xué)習(xí)模仿大量樣本動(dòng)作片段的魯棒控制策略,,同時(shí)也可以學(xué)習(xí)復(fù)雜的恢復(fù),以適應(yīng)形態(tài)的改變,,完成用戶特定的目標(biāo)。我們的方法處理關(guān)鍵幀動(dòng)作,、高度動(dòng)態(tài)動(dòng)作(比如動(dòng)作捕捉的翻轉(zhuǎn)和旋轉(zhuǎn))以及重定向動(dòng)作,。 通過(guò)結(jié)合動(dòng)作-模仿(motion-imitation)目標(biāo)與任務(wù)目標(biāo),我們?cè)诮换ナ皆O(shè)定中訓(xùn)練能夠智能反應(yīng)的智能體,,例如向目標(biāo)方向行走或朝用戶指定的目標(biāo)扔球等,。這種方法具有使用動(dòng)作片段的便利性與動(dòng)作質(zhì)量,以高效定義所需的風(fēng)格和外觀,,還結(jié)合了 RL 方法和基于物理的動(dòng)畫(huà)所提供的靈活性和泛化性,。我們進(jìn)一步探索了大量將多個(gè)片段集成到學(xué)習(xí)過(guò)程的方法,以構(gòu)建出能執(zhí)行多個(gè)不同技能的智能體,。我們還展示了使用多個(gè)對(duì)象(人,、Atlas 機(jī)器人、雙足恐龍和龍)和多種技能的學(xué)習(xí)結(jié)果,,包括移動(dòng),、武術(shù)和雜技等。 |
|
來(lái)自: 長(zhǎng)沙7喜 > 《智能技術(shù)》