自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

「灌籃高手」模擬人形機(jī)器人，一比一照搬人類籃球招式，看一遍就能學(xué)會，無需特定任務(wù)的獎勵

2024-01-02 12:53:11

值得一提的是，研究人員在這當(dāng)中設(shè)計了一個與任務(wù)無關(guān)的HOI模仿獎勵，無需針對不同任務(wù)自定義獎勵函數(shù)，包括體現(xiàn)運動匹配度的身體和物體獎勵、反映接觸正確性的接觸圖獎勵，避免了使用錯誤身體部位接觸物體等局部最優(yōu)解。

投籃、運球、手指轉(zhuǎn)球…這個物理模擬人形機(jī)器人會打球：

圖片

會的招數(shù)還不少：

圖片

一通秀技下來，原來都是跟人學(xué)的，每個動作細(xì)節(jié)都精確復(fù)制：

圖片

這就是最近一項名為PhysHOI的新研究，能夠讓物理模擬的人形機(jī)器人通過觀看人與物體交互（HOI）的演示，學(xué)習(xí)并模仿這些動作和技巧。

重點是，PhysHOI無需為每個特定任務(wù)設(shè)定具體的獎勵機(jī)制，機(jī)器人可以自主學(xué)習(xí)和適應(yīng)。

而且機(jī)器人的身上總共有51x3個獨立控制點，所以模仿起來能做到高度逼真。

圖片

一起來看具體是如何實現(xiàn)的。

模擬人形機(jī)器人變身「灌籃高手」

這項工作由來自北京大學(xué)、IDEA研究院、清華大學(xué)、卡內(nèi)基梅隆大學(xué)的研究人員共同提出。

圖片

經(jīng)研究人員介紹，此前大多數(shù)類似工作，存在模仿動作孤立、需特定任務(wù)的獎勵、未涉及靈巧的全身運動等局限。

圖片

而他們提出的PhysHOI，應(yīng)用動作捕捉技術(shù)提取HOI數(shù)據(jù)，然后使用模仿學(xué)習(xí)來學(xué)習(xí)人體運動和物體控制，解決了這些問題。

其中，HOI數(shù)據(jù)重要組成部分之一是涵蓋了人體運動、物體運動、相對運動的運動學(xué)數(shù)據(jù)（Kinematic Data），記錄了位置、速度、角度等信息。

另外，動態(tài)數(shù)據(jù)（Dynamic Data）反映了運動過程中的實時變動和更新，也很重要。

圖片

為了彌補(bǔ)HOI數(shù)據(jù)中動態(tài)信息的不足，研究人員引入了接觸圖（contact graph，CG）。

圖片

CG的節(jié)點由機(jī)器人的肢體部件和物體組成；每條邊則是一個二進(jìn)制接觸標(biāo)簽，只表達(dá)“接觸”或“不接觸”兩種狀態(tài)。

此外，還可以將多個肢體部件放到一個節(jié)點中，形成一個聚合CG（Aggregated CG）。

具體來說，PhysHOI方法是：

首先通過運動捕捉獲取參考HOI狀態(tài)序列，包含人體運動、物體運動、交互圖和接觸圖。

圖片

然后用第一幀的信息初始化物理模擬環(huán)境，構(gòu)建包含當(dāng)前模擬狀態(tài)和下一個參考狀態(tài)的系統(tǒng)狀態(tài)。

接下來輸入策略網(wǎng)絡(luò)生成的動作控制人形機(jī)器人，物理模擬器根據(jù)動作更新場景中人體和物體的狀態(tài)，計算包含運動匹配、接觸圖等多個方面的獎勵。

利用獎勵、狀態(tài)和動作樣本優(yōu)化策略網(wǎng)絡(luò)，采用更新后的策略網(wǎng)絡(luò)開始新一輪的模擬過程，如此循環(huán)直至網(wǎng)絡(luò)收斂，最終獲得能夠重現(xiàn)參考HOI技能的控制策略。

值得一提的是，研究人員在這當(dāng)中設(shè)計了一個與任務(wù)無關(guān)的HOI模仿獎勵，無需針對不同任務(wù)自定義獎勵函數(shù)，包括體現(xiàn)運動匹配度的身體和物體獎勵、反映接觸正確性的接觸圖獎勵，避免了使用錯誤身體部位接觸物體等局部最優(yōu)解。

接觸圖獎勵是關(guān)鍵

研究人員在兩個HOI數(shù)據(jù)集上測試了PhysHOI。

其中引入了BallPlay數(shù)據(jù)集，包含多種全身籃球技能。

圖片

他們在GRAB數(shù)據(jù)集的S8子集中選擇了5個抓取案例，以及BallPlay數(shù)據(jù)集的8個籃球技能。

以此前的DeepMimic、AMP等方法作為基線，為公平比較，研究人員將其做了修改，以適應(yīng)HOI模仿任務(wù)。

圖片

結(jié)果顯示，以往只使用運動學(xué)獎勵的方法無法準(zhǔn)確復(fù)現(xiàn)交互，球會掉落或抓握失敗。

而在接觸圖的指導(dǎo)下，PhysHOI成功進(jìn)行了HOI模仿。

PhysHOI在兩個數(shù)據(jù)集上都獲得最高的成功率，分別為95.4%和82.4%，同時也取得最低的運動誤差，顯著優(yōu)于其它方法。

圖片

消融研究表明，接觸圖獎勵能有效避免只使用運動信息的方法陷入局部最優(yōu)，指導(dǎo)機(jī)器人實現(xiàn)正確接觸。

圖片

如果沒有接觸圖獎勵，人形機(jī)器人可能無法控制球，或者錯誤地使用身體其它部位控制球：

圖片

論文鏈接：https://arxiv.org/abs/2312.04393

責(zé)任編輯：武曉燕來源：量子位

機(jī)器人的HOI 函數(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營