上交&上海AI lab發(fā)布HUGWBC,實現(xiàn)人形機器人多模態(tài)步態(tài)精細(xì)調(diào)控與實時操控 精華
論文鏈接:https://arxiv.org/pdf/2502.03206
項目鏈接:https://hugwbc.github.io/
亮點直擊
- 一個擴展的通用指令空間,結(jié)合高級訓(xùn)練技術(shù),以實現(xiàn)細(xì)粒度的人形機器人步態(tài)控制。
- 在單一策略下(除單腳跳步態(tài)外),可精準(zhǔn)跟蹤四種不同步態(tài)下的八種不同指令。
- 一個基礎(chǔ)的人形機器人控制器,支持外部上半身干預(yù),并能夠執(zhí)行更廣泛的運動-操作一體化(loco-manipulation)任務(wù)。
總結(jié)速覽
解決的問題
當(dāng)前的人形機器人行走系統(tǒng)單一、被動,缺乏可擴展性,難以實現(xiàn)如人類般的多樣化運動(如奔跑、跳躍、單腳跳等),也無法對步態(tài)參數(shù)(步頻、步幅、腳擺高度等)進行細(xì)粒度調(diào)整。此外,現(xiàn)有方法在執(zhí)行運動任務(wù)時,缺乏對上半身控制的實時干預(yù)能力,限制了機器人在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。
提出的方案
提出 HUGWBC(Humanoid’s Unified and General Whole-Body Control),一個統(tǒng)一的全身控制策略,支持機器人生成細(xì)粒度可控的多種步態(tài),包括行走、奔跑、跳躍、單腳跳等,并可調(diào)整步態(tài)參數(shù)(步頻、腳擺高度)和姿態(tài)參數(shù)(身體高度、腰部旋轉(zhuǎn)、身體俯仰)。此外,HUGWBC 允許上半身接受外部控制(如遙操作),實現(xiàn)運動-操作一體化(loco-manipulation)。
應(yīng)用的技術(shù)
- 通用指令空間設(shè)計:在任務(wù)和行為層面定義統(tǒng)一的控制指令,使步態(tài)調(diào)整靈活且易擴展。
- 對稱性損失(Symmetrical Loss):在學(xué)習(xí)過程中引入對稱性約束,提升步態(tài)穩(wěn)定性和可控性。
- 干預(yù)訓(xùn)練(Intervention Training):在訓(xùn)練中模擬外部干預(yù),增強機器人在實時控制下的魯棒性和適應(yīng)性。
- 強化學(xué)習(xí)訓(xùn)練:在仿真環(huán)境中通過強化學(xué)習(xí)優(yōu)化單一策略,使機器人能夠直接適應(yīng)現(xiàn)實環(huán)境,減少現(xiàn)實訓(xùn)練成本。
達到的效果
- 機器人可在單一控制策略下執(zhí)行多種步態(tài)(行走、奔跑、跳躍、單腳跳等)。
- 支持步態(tài)參數(shù)和姿態(tài)參數(shù)的實時調(diào)整,實現(xiàn)細(xì)粒度控制。
- 允許上半身遙操作,在運動過程中保持高精度操作能力。
- 經(jīng)過實驗驗證,HUGWBC 在跟蹤精度、穩(wěn)定性、魯棒性方面均表現(xiàn)優(yōu)異,并深入分析了不同指令組合對步態(tài)的影響,為優(yōu)化機器人運動控制提供了新思路。
HUGWBC
人形機器人運動的一般指令空間
HUGWBC 通過訓(xùn)練單一策略來適配站立、行走和跳躍步態(tài),而單腳跳躍步態(tài)則采用了獨立的策略。
詳細(xì)觀察
如果沒有外部上半身控制信號,機器人上半身關(guān)節(jié)將默認(rèn)由我們開發(fā)的全身控制器控制,使手臂自然擺動。
策略學(xué)習(xí)的獎勵設(shè)計
具身全身控制器是通過非對稱的行為者-評論家訓(xùn)練范式通過強化學(xué)習(xí) (RL) 獲得的。為了學(xué)習(xí)具有一般性和多樣性行為的政策,我們設(shè)計了一組獎勵函數(shù),主要由任務(wù)獎勵、行為獎勵和規(guī)范化獎勵三部分組成。獎勵的細(xì)節(jié)在表1中總結(jié)。
任務(wù)獎勵意味著跟蹤任何任務(wù)命令 k,在這項工作中,它是目標(biāo)速度 v,包括線性和角速度。正規(guī)化獎勵考慮到物理硬件的性能,并對運動的平穩(wěn)性和安全性施加限制。這些在以前的工作中經(jīng)常使用 [39]。
在這項工作中,由于我們想建立一個通用的全身控制器,以支持細(xì)粒度的運動行為的人形機器人,引入了一套行為獎勵,以鼓勵機器人跟蹤任何行為命令 b,如下所示。對于大多數(shù)行為指令,包括身高 h、身高 p 和腰圍旋轉(zhuǎn) w,簡單地用均方差 (MSE) 來制定獎勵:
一個理想的足部軌跡通常需要滿足三個關(guān)鍵標(biāo)準(zhǔn):
- 在支撐階段,足部速度和加速度為零;
- 在擺動階段末尾,足部速度和加速度為零;
- 在兩個階段之間的過渡過程中,足部的速度和加速度要連續(xù)。
鏡像功能與對稱損失
自然且對稱的運動行為是人類通過學(xué)習(xí)逐漸掌握的,因為它在最小化能量消耗方面具有固有的優(yōu)雅和效率。類人機器人具有高度仿生的機制,也具有對稱的結(jié)構(gòu)特征。然而,缺乏先驗知識,使得政策難以探索對稱形態(tài)信息,尤其是在生成多樣化行為的策略中。這使得初期探索變得更加困難,政策容易陷入局部最優(yōu)解,導(dǎo)致不自然的運動。為了利用這種形態(tài)對稱性并受到[49]的啟發(fā),提出了鏡像函數(shù)F(.) ,以鼓勵政策生成對稱且自然的運動。在這樣的對稱結(jié)構(gòu)下,理想情況下,政策輸出應(yīng)滿足:
整體訓(xùn)練目標(biāo)。HUGWBC 采用非對稱演員-評論家框架 ,以 PPO 作為 RL 算法來訓(xùn)練全身控制策略。因此,總體訓(xùn)練目標(biāo)可以寫作:
外部上肢干預(yù)訓(xùn)練
到目前為止,已經(jīng)學(xué)習(xí)了一個全身控制器,它共同控制上下肢。然而,本工作的目標(biāo)不是專門為 locomotion 任務(wù)設(shè)計的控制器,而是構(gòu)建一個統(tǒng)一且通用的人形控制器,作為 loco-manipulation 任務(wù)的基礎(chǔ)支持。換句話說,控制器還應(yīng)支持靈活且精確的上肢(手臂和手)控制。與一些以前的工作通過上肢命令(例如,手臂關(guān)節(jié)位置)擴展命令空間不同,考慮將上肢控制解耦為外部控制干預(yù),通過遠程操作信號或重新定向的運動關(guān)節(jié),同時不影響下肢步態(tài),因為下肢具有很高的控制精度。解決方案是在訓(xùn)練過程中采樣替代動作來替換全身策略產(chǎn)生的上肢動作,使得策略對任何干預(yù)都具有魯棒性。
切換全身控制與干預(yù)
干預(yù)采樣
人形機器人上肢的干預(yù)動作從均勻噪聲中采樣,引入與身體發(fā)生碰撞的潛在可能,模擬外部干預(yù)中的錯誤操作。
噪聲干預(yù)插值
課程學(xué)習(xí)
實驗
本節(jié)在仿真和現(xiàn)實世界的機器人上進行全面實驗,以回答以下問題:
- Q1(仿真):HUGWBC策略在不同命令下的跟蹤表現(xiàn)如何?
- Q2(仿真):如何合理地結(jié)合一般命令空間中的各種命令?
- Q3(仿真):大規(guī)模噪聲干預(yù)訓(xùn)練如何幫助策略的魯棒性?
- Q4(現(xiàn)實):HUGWBC在現(xiàn)實世界中的表現(xiàn)如何?
機器人與仿真器
本文的主要實驗是在Unitree H1機器人上進行的,該機器人共有19個自由度(DOF),包括兩個3自由度的肩關(guān)節(jié)、兩個肘關(guān)節(jié)、一個腰關(guān)節(jié)、兩個3自由度的髖關(guān)節(jié)、兩個膝關(guān)節(jié)和兩個踝關(guān)節(jié)。仿真訓(xùn)練基于NVIDIA IsaacGym仿真器。
命令分析原理與度量
本文的一大貢獻是擴展并普及了人形機器人通用的命令空間。重點關(guān)注命令分析(涉及Q1和Q2)。這包括單一命令跟蹤誤差的分析,以及在不同步態(tài)下不同命令的組合分析。為了進行分析,我們評估了平均的單集命令跟蹤誤差(記作Ecmd),該誤差衡量實際機器人狀態(tài)與命令空間之間的偏差,使用一階范數(shù)。所有命令都在預(yù)定義的命令范圍內(nèi)均勻采樣,如下表II所示。
單一命令跟蹤
首先分析每個命令單獨的跟蹤效果,同時保持其他命令的默認(rèn)值。結(jié)果見下表III??梢悦黠@看到,行走和站立的跟蹤誤差顯著低于跳躍和跳躍的誤差,且跳躍的誤差最大。對于跳躍步態(tài),機器人可能在跟蹤特定命令時發(fā)生跌倒,比如高速跟蹤、身體俯仰和腰部偏航控制。這可以歸因于跳躍需要較高的穩(wěn)定性。此外,復(fù)雜的姿勢和運動進一步加劇了不穩(wěn)定的風(fēng)險。因此,策略優(yōu)先學(xué)習(xí)保持平衡,在一定程度上犧牲了命令跟蹤的準(zhǔn)確性。
得出結(jié)論,每種步態(tài)的跟蹤準(zhǔn)確度與該步態(tài)在仿真中的訓(xùn)練難度相一致。例如,行走和站立模式可以在訓(xùn)練初期學(xué)習(xí),而跳躍和跳躍步態(tài)則較晚出現(xiàn),需要較長時間的訓(xùn)練,才能讓機器人熟練掌握。類似地,低速度下的機器人跟蹤準(zhǔn)確性顯著高于高速度下的跟蹤準(zhǔn)確性,因為1)低速下的運動技能較易掌握;2)機器人在高速下的動態(tài)穩(wěn)定性下降,導(dǎo)致與跟蹤準(zhǔn)確性的權(quán)衡。我們還發(fā)現(xiàn),縱向速度命令的跟蹤準(zhǔn)確度超過了橫向速度命令,這是由于選定的Unitree H1機器人硬件配置的限制。此外,腳擺高度的跟蹤準(zhǔn)確性最低。與姿態(tài)控制相關(guān)的跟蹤獎勵優(yōu)于與足底位置控制相關(guān)的跟蹤表現(xiàn),因為調(diào)整姿勢帶來了更大的穩(wěn)定性挑戰(zhàn)。為此,策略采用更加保守的動作,以減輕可能威脅平衡的姿勢變化。
命令組合分析
行走行走是最基本的步態(tài),它保留了機器人硬件的最佳表現(xiàn)。
跳躍
跳躍中的命令正交性與行走類似,但整體正交范圍較小,原因在于跳躍步態(tài)的挑戰(zhàn)性增加,尤其是在高速運動模式下。在每個步態(tài)周期中,機器人必須顯著向前跳躍以保持速度。為了連續(xù)執(zhí)行這一復(fù)雜的跳躍動作,機器人必須在每個周期的開始采取最佳姿勢。兩條腿施加大量扭矩將身體向前推進。著陸后,機器人必須快速調(diào)整姿勢以保持穩(wěn)定,并重復(fù)這一過程。因此,在運動過程中,機器人只能在相對狹窄的范圍內(nèi)執(zhí)行其他命令。
跳躍步態(tài)
跳躍
跳躍步態(tài)引入了更多的不穩(wěn)定性,機器人的控制系統(tǒng)必須更加關(guān)注保持平衡,這使得同時處理復(fù)雜的多維命令變得困難。
站立
在站立步態(tài)中,我們測試了與姿勢相關(guān)的命令跟蹤誤差。結(jié)果表明,這些跟蹤誤差與行走過程中零速度的跟蹤誤差類似。
得出結(jié)論,步態(tài)頻率f在過高或過低時會顯著影響運動命令的跟蹤準(zhǔn)確性;姿勢命令尤其在接近范圍極限時,可以顯著影響其他命令的跟蹤誤差。對于不同步態(tài),命令之間的正交性范圍在行走步態(tài)中最大,而在跳躍步態(tài)中最小。
干預(yù)訓(xùn)練策略的消融研究
為了驗證干預(yù)訓(xùn)練策略在外部上半身干預(yù)下對策略魯棒性的有效性,我們比較了使用不同策略訓(xùn)練的策略,包括噪聲課程(HUGWBC)、過濾后的AMASS數(shù)據(jù)和無干預(yù)的策略。測試了在兩種不同干預(yù)任務(wù)下的跟蹤誤差,即均勻噪聲、AAMAS數(shù)據(jù)集,以及無干預(yù)設(shè)置。行走步態(tài)下的結(jié)果顯示在表IV中,其他步態(tài)的結(jié)果見附錄C-B。顯然,HUGWBC的噪聲課程策略在幾乎所有測試案例下都表現(xiàn)最佳,除了在無干預(yù)情況下與姿勢相關(guān)的跟蹤。在具體分析中,HUGWBC在各種干預(yù)下的跟蹤準(zhǔn)確性下降較少,表明我們的噪聲課程干預(yù)策略使控制策略能夠應(yīng)對大范圍的手臂運動,非常適用于和支持運動操作任務(wù)。相比之下,使用AMASS數(shù)據(jù)訓(xùn)練的策略在均勻噪聲干預(yù)下,因訓(xùn)練數(shù)據(jù)中運動的局限性,跟蹤準(zhǔn)確性顯著下降。而沒有任何干預(yù)的策略僅在沒有外部上半身控制時表現(xiàn)良好。
值得注意的是,當(dāng)涉及干預(yù)訓(xùn)練時,與腳部和運動相關(guān)的跟蹤誤差也比沒有干預(yù)訓(xùn)練的策略更好,而HUGWBC提供了最準(zhǔn)確的跟蹤。這表明干預(yù)訓(xùn)練也有助于提高策略的魯棒性。在我們的真實機器人實驗中,我們進一步觀察到,當(dāng)機器人與地面接觸時,它表現(xiàn)出更大的接觸力,這表明當(dāng)涉及干預(yù)時,運動規(guī)則化和跟蹤準(zhǔn)確性之間可能存在一定的權(quán)衡。
站立步態(tài)下的穩(wěn)定性
在站立狀態(tài)下調(diào)整姿勢引入了額外的穩(wěn)定性要求,因為機器人保持平衡的步態(tài)可能會增加完成需要靜止站立的操作任務(wù)的難度。為了研究噪聲課程對操作任務(wù)的必要性,我們進一步測量了在站立步態(tài)下的平均腳部位移(以米為單位),該值計算了機器人在一次循環(huán)(20秒)中雙腳的總運動量,同時跟蹤姿勢行為命令。表V中的結(jié)果顯示,HUGWBC展現(xiàn)了最小的腳部位移。相比之下,使用AMASS數(shù)據(jù)訓(xùn)練的策略則需要頻繁的小步調(diào)整姿勢并維持穩(wěn)定,以應(yīng)對噪聲干預(yù)。沒有干預(yù)訓(xùn)練的策略在涉及干預(yù)時,機器人容易傾斜,導(dǎo)致整個任務(wù)失敗。
外部干擾的魯棒性
最后,測試了干預(yù)訓(xùn)練和噪聲課程對外部干擾魯棒性的貢獻。特別是,我們評估了機器人在八個方向上的最大容忍外部干擾力,并與未經(jīng)過干預(yù)訓(xùn)練的策略進行了比較。圖6中的結(jié)果表明,HUGWBC在大多數(shù)方向上的推擠和加載場景中,都表現(xiàn)出了更強的外部干擾容忍力。這背后的原因是干預(yù)使得機器人暴露于來自上半身的各種干擾,從而通過動態(tài)調(diào)整腿部力量來增強整體穩(wěn)定性。
真實世界實驗
結(jié)論與局限性
本文提出了一種統(tǒng)一且通用的人形全身控制器HUGWBC。通過擴展命令空間和干預(yù)訓(xùn)練,HUGWBC能夠?qū)崿F(xiàn)精細(xì)的步態(tài)控制,同時支持外部上半身控制,這使其成為廣泛的運動操作任務(wù)的基礎(chǔ)控制器。未來的工作可以采用HUGWBC來控制各種人形機器人,或?qū)UGWBC訓(xùn)練出的策略作為統(tǒng)一的低級控制器,構(gòu)建一個高級規(guī)劃器來實現(xiàn)復(fù)雜任務(wù)。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
