3500元,人形機器人1:1復(fù)刻人類動作 | 上海AI Lab開源新成果
《環(huán)太平洋》名場面之“用真人操縱機甲”,如今照進現(xiàn)實了。
話不多說,請看VCR:
原來,這是上海AI Lab最新推出的人形機器人“駕駛艙”——HOMIE(Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit) 。
一副機械臂外骨骼、一雙動作感應(yīng)手套,以及一塊三軸腳踏板,人們就能對雙足人形機器人全身進行精準(zhǔn)遙操作了。
這也意味著,無需昂貴動作捕捉設(shè)備,人形機器人也能1:1復(fù)刻人類動作。
根據(jù)研究團隊的說法,HOMIE主打一個“快準(zhǔn)省”:
- 快:與傳統(tǒng)最快VR手柄采集方案相比,速度還要快200%,任務(wù)完成時間縮短50%;
- 準(zhǔn):解決了傳統(tǒng)人形機器人遙操作面臨的全身協(xié)調(diào)控制難(需同時控制移動與操作)和高精度指令獲取難(依賴昂貴動捕設(shè)備或視覺算法)兩大難題,支持其完成搬運、協(xié)作、開門等復(fù)雜移動操作任務(wù);
- ?。赫子布H約3500元人民幣,而且HOMIE還開源了。
該系統(tǒng)由強化學(xué)習(xí)驅(qū)動的運動控制框架和低成本同構(gòu)外骨骼硬件組成,首次實現(xiàn)了單一操作者對雙足人形機器人全身的精準(zhǔn)遙操作。
由強化學(xué)習(xí)驅(qū)動的運動控制框架
這第一步,我們先來拆個箱,詳細(xì)康康上面提到的“三件套”。
三大核心組件
一直以來,傳統(tǒng)人形機器人遙操作面臨兩大難題:
- 全身協(xié)調(diào)控制難:需同時控制移動與操作
- 高精度指令獲取難:依賴昂貴動捕設(shè)備或視覺算法
而HOMIE的突破在于將“人機同構(gòu)”理念發(fā)揮到極致,其駕駛艙包含三大核心組件:
1、同構(gòu)機械臂外骨骼:7自由度機械臂與機器人關(guān)節(jié)一一對應(yīng),操作者只需像控制自己手臂一樣運動,即可精準(zhǔn)映射機器人動作,誤差小于0.09度,頻率高達260Hz。
2、動作感應(yīng)手套:15自由度傳感器捕捉手指細(xì)微動作,霍爾效應(yīng)磁感技術(shù)實現(xiàn)低成本高精度(200人民幣/只),可適配多種靈巧手型號。
3、三軸腳踏板:通過踏板控制機器人移動速度、轉(zhuǎn)向與下蹲高度,支持“踩油門式”直覺操作。
挨個來看的話。
同構(gòu)外骨骼機械臂是基于Unitree G1與Fourier GR-1機器人形態(tài)定制,7自由度關(guān)節(jié)與機器人完全對應(yīng)。
它采用Dynamixel伺服電機(精度0.09°),通過URDF模型對齊坐標(biāo)系,確保操作者動作與機器人運動1:1映射。
通常情況下,它被固定于操作者背部與手掌,覆蓋機器人絕大部分工作空間且不限制人體活動。
至于200元/只的動作感應(yīng)手套,它每根手指配備3組霍爾傳感器,捕捉指尖彎曲、指節(jié)偏轉(zhuǎn)等15自由度動作。
同時,磁鐵隨關(guān)節(jié)旋轉(zhuǎn)改變磁場強度,通過微控制器實時轉(zhuǎn)換為關(guān)節(jié)角度,支持即插即用適配多種靈巧手。
而腳下踩的三軸腳踏板,可以看到線性速度、轉(zhuǎn)向角速度、下蹲高度分別由三個踏板控制,壓力信號經(jīng)高精度電位器轉(zhuǎn)換。
對了,模式切換按鈕支持前進/后退、左轉(zhuǎn)/右轉(zhuǎn)快速切換,操作邏輯類似汽車油門。
以上設(shè)計能夠讓操作者如同“穿戴”機器人,徹底擺脫傳統(tǒng)VR手柄的延遲與誤差。
實驗結(jié)果顯示,HOMIE的指令采集速度比最快VR方案快200%,任務(wù)完成時間縮短50%。尤其當(dāng)操作者伸手抓取物體時,機器人幾乎同步響應(yīng)。
而且,背后團隊特意提醒:
由于外骨骼基于同構(gòu)概念設(shè)計,僅手臂部分需要根據(jù)不同機器人的手臂設(shè)計進行微調(diào);不過因為現(xiàn)行人形機器人手臂設(shè)計基本是7自由度的范式,因此這個調(diào)整并不會很大。
手套和踏板部分對所有市面上的人形機器人都是通用的。
其次,我們來重點談?wù)凥OMIE背后所采用的強化學(xué)習(xí)。
在強化學(xué)習(xí)框架中引入三大創(chuàng)新技術(shù)
現(xiàn)有的強化學(xué)習(xí)方法無法讓人形機器人穩(wěn)定、快速地下蹲到指定位置,同時現(xiàn)有方法均依賴于大量數(shù)據(jù)和運動先驗來實驗機器人運動對上身姿勢的適配。
前者很大程度限制了機器人的可操作空間,后者則提高了機器人訓(xùn)練的成本。
為了最大程度拓展機器人的操作空間,并保證任何機器人都能快速學(xué)會在任何上身姿勢下保持平衡,HOMIE在其強化學(xué)習(xí)框架中引入三大創(chuàng)新技術(shù):
1、上半身姿勢課程學(xué)習(xí)
傳統(tǒng)方法直接隨機采樣上身關(guān)節(jié)角度,訓(xùn)練初期機器人頻繁失衡,導(dǎo)致訓(xùn)練緩慢甚至無法訓(xùn)練。而HOMIE引入了設(shè)計漸進式課程學(xué)習(xí)的方法,使得訓(xùn)練過程中機器人上肢動作的采樣難度更平滑地提升:
- 初始階段限制上身動作幅度(動作比率ra=0),此時大概率上身姿勢保持默認(rèn)姿勢,更容易訓(xùn)得穩(wěn)定步態(tài);
- 當(dāng)速度跟蹤獎勵達標(biāo)后,逐步擴大ra至1,最終采樣分布變?yōu)榧冸S機分布??(0,1);
- 采用特殊概率分布平滑過渡,避免動作突變引發(fā)的失衡。
2、高度跟蹤獎勵函數(shù)
為拓展機器人操作空間(如從地面撿物或高處放置),HOMIE在通用的追蹤高度的獎勵函數(shù)基礎(chǔ)上引入了一個新的輔助函數(shù):
該函數(shù)通過膝關(guān)節(jié)角度與目標(biāo)高度的動態(tài)耦合,引導(dǎo)機器人自主調(diào)整蹲姿。
訓(xùn)練中,每次對命令的采樣均保證有1/3環(huán)境專門學(xué)習(xí)下蹲,2/3環(huán)境學(xué)習(xí)站立行走,同一個環(huán)境在兩種模式下不斷切換,最終可以同時學(xué)會穩(wěn)定的行走和下蹲。
3、對稱性增強技術(shù)
為了充分利用人形機器人的左右對稱性,避免人形機器人左右不對稱動作易導(dǎo)致失衡,HOMIE在數(shù)據(jù)采集與訓(xùn)練中引入鏡像翻轉(zhuǎn):
- 將觀測狀態(tài)(關(guān)節(jié)角度、速度等)沿x-z平面鏡像,生成對稱樣本。
- 在策略網(wǎng)絡(luò)優(yōu)化時,額外計算對稱動作與價值的均方誤差損失,強制網(wǎng)絡(luò)學(xué)習(xí)對稱行為。
已通過從仿真到現(xiàn)實的全面驗證
研究人員針對HOMIE強化學(xué)習(xí)框架中提出的三個新的方法分別進行了蒸餾實驗,將得到的結(jié)果在幾個關(guān)鍵指標(biāo)上進行測試,最終發(fā)現(xiàn):
1)上半身姿勢課程學(xué)習(xí)可以充分幫助機器人更快的學(xué)會在各種連續(xù)變化的上身姿勢下保持平衡并穩(wěn)定行走,并且HOMIE的課程學(xué)習(xí)方式確實比直接利用隨機概率進行課程學(xué)習(xí)更加優(yōu)越;
2)高度跟蹤獎勵函數(shù)的提出相比于只用高度追蹤獎勵函數(shù),能夠讓機器人更好、更快的學(xué)會穩(wěn)定的下蹲,而簡單粗暴的調(diào)大高度追蹤獎勵的獎勵函數(shù)比例反而會讓機器人的學(xué)習(xí)更加困難;
3)對稱性增強技術(shù)的使用不止讓訓(xùn)得的策略更加具有對稱性,更是直接大幅提高了機器人訓(xùn)練的速度,從而提高了數(shù)據(jù)效率。
上述結(jié)論都表明,HOMIE的訓(xùn)練框架很好的幫助機器人更好的學(xué)習(xí)完成移動操作任務(wù),可以使人們獲得更好的移動操作底層控制策略。
而且,HOMIE不止能應(yīng)用于Unitree G1,研究人員還使用同樣的框架訓(xùn)練了傅利葉GR-1機器人。
結(jié)果證明,即使G1和GR-1在結(jié)構(gòu)和尺寸上差別很大,HOMIE的強化學(xué)習(xí)框架依然能夠讓GR-1快速學(xué)到穩(wěn)定的行走和下蹲。
與此同時,研究人員對HOMIE的硬件系統(tǒng)進行了系統(tǒng)性的測試,并發(fā)現(xiàn)得益于舵機和霍爾傳感器的使用,這套低成本的硬件系統(tǒng)具有極高的響應(yīng)頻率和姿勢獲取精度。
同時由于同構(gòu)的設(shè)計,系統(tǒng)不需要額外進行姿勢估計和求解,在無需GPU和SoC的前提下依然可以達到遠(yuǎn)超別的方法的姿勢獲取頻率。
此外,研究團隊利用HOMIE在不同環(huán)境下完成了豐富的移動操作任務(wù)。
包括從低貨架拿貨物到高貨架、兩人分別用HOMIE一起完成物體在兩臺機器人之間的傳遞、貨物搬運、推人前進、開微波爐、撿水平、捧花等復(fù)雜的動作,這些任務(wù)充分體現(xiàn)了HOMIE遙操人形機器人完成任務(wù)的多樣性。
任務(wù)本身對機器人全身協(xié)調(diào)能力的高要求也證明了利用HOMIE框架訓(xùn)練得到的策略的穩(wěn)定性。
為了展示使用HOMIE的硬件系統(tǒng)進行桌面遙操任務(wù)的優(yōu)越性,研究人員還在4項桌面任務(wù)中,用HOMIE和VR方案(OpenTelevision)分別完成四個不同的桌面任務(wù)。
最終發(fā)現(xiàn),HOMIE在完成速度上具有顯著優(yōu)勢,尤其在需要精確徑向移動的任務(wù)中完成速度超過VR方案的2倍。
同時,研究人員還初步嘗試了用HOMIE采集數(shù)據(jù)訓(xùn)練模仿學(xué)習(xí)算法的可能性。
通過在下蹲撿蘋果和站立撿蘋果兩個任務(wù)上分別采集50條數(shù)據(jù),并利用Seer模型進行訓(xùn)練,從而部署到真實機器人上,最終取得了超過70%的成功率。
概括而言,HOMIE的價值不僅在于技術(shù)突破,更在于其開源與低成本特性(整套硬件僅約3500人民幣)。
目前主流的基于VR的方法是OpenTelevision,是基于Apple的VisionPro進行操作,目前一臺最基本的256G的Vision Pro國內(nèi)售價約3萬人民幣,因此其成本只有VisionPro的約12%。
它讓人形機器人擺脫動捕依賴,像智能手機一樣通過“直覺化駕駛艙”走入倉庫等復(fù)雜場景。
正如團隊所言:
或許不久的將來,每個機器人都會擁有自己的“神經(jīng)連接駕駛艙”,而HOMIE正是這條征途上的第一塊里程碑。
鑒于已經(jīng)開源,動手能力強的小伙伴已經(jīng)躍躍欲試啰~
論文鏈接:https://arxiv.org/abs/2502.13013
項目主頁:https://homietele.github.io/
代碼申請:https://forms.gle/NSLiABo3bPWN89wZ8