CVPR 2025 | 機器人雙臂操控新突破!KStar Diffuser如何解決自碰撞與運動約束世紀難題?
、
文章鏈接:https://arxiv.org/pdf/2503.10743
亮點直擊
- 與現(xiàn)有方法僅在笛卡爾空間中優(yōu)化末端執(zhí)行器姿態(tài)不同,提出了一種新穎的時空機器人圖,顯式地建模機器人物理配置,以指導生成動作的去噪過程。
- 引入了一種運動學正則化器,通過引入關(guān)節(jié)空間監(jiān)督來增強NBP(Next-Best Pose)學習目標。該正則化器利用前向運動學提供符合運動學約束的參考姿態(tài),有效引導擴散過程以符合運動學約束。
- 大量實驗表明,本文提出的KStar Diffuser在仿真和實際場景中均表現(xiàn)優(yōu)異,成功率超過基線方法10%以上。
總結(jié)速覽
解決的問題
- 物理結(jié)構(gòu)約束:現(xiàn)有方法在預測末端執(zhí)行器姿態(tài)時,往往忽略了機器人的物理結(jié)構(gòu),導致自碰撞或干涉。
- 運動學約束:現(xiàn)有方法在預測末端執(zhí)行器姿態(tài)時,未充分考慮運動學限制,導致預測的姿態(tài)可能超出機器人關(guān)節(jié)的實際限制。
提出的方案
提出了Kinematics enhanced Spatial-TemporAl gRaph Diffuser (KStar Diffuser) 框架,具體包括:
- 動態(tài)時空圖:根據(jù)物理雙機械臂關(guān)節(jié)運動構(gòu)建動態(tài)時空圖,作為機器人結(jié)構(gòu)條件用于去噪動作預測。
- 可微分運動學模塊:引入可微分運動學,為優(yōu)化KStar Diffuser提供參考,使策略預測更可靠且符合運動學約束的末端執(zhí)行器姿態(tài)。
應用的技術(shù)
- 圖卷積網(wǎng)絡(luò) (GCN):用于編碼動態(tài)時空圖,提供顯式的物理約束。
- 可微分運動學:通過可微分前向運動學將預測的關(guān)節(jié)位置映射到參考末端執(zhí)行器姿態(tài),確保生成的動作符合運動學約束。
達到的效果
- 物理結(jié)構(gòu)信息利用:有效利用物理結(jié)構(gòu)信息,生成符合機器人結(jié)構(gòu)的動作。
- 運動學感知動作生成:在仿真和實際應用中生成符合運動學約束的動作,提高了動作的可靠性和可行性。
方法
任務(wù)定義
KStar Diffuser
概述
主流方法 [17, 23, 65] 訓練策略以預測動作,但很少考慮決定其運動的機械機器人結(jié)構(gòu)。因此,我們提出了一種時空圖來建模靜態(tài)物理結(jié)構(gòu)和動態(tài)歷史運動信息。此外,為了減少末端執(zhí)行器姿態(tài)的運動學不可行預測,引入了一個可微分運動學模塊,為策略網(wǎng)絡(luò)提供運動學感知的參考。本文提出的運動學增強時空圖擴散器(KStar Diffuser)的概述如下圖所示。
骨干網(wǎng)絡(luò)
學習目標為:
時空機器人圖
物理架構(gòu)影響整個機器人的運動,決定其是否能完成任務(wù)。同時,歷史空間信息對未來運動也很重要。因此,我們提出了一種時空圖方法,用于建模每一步的機器人架構(gòu)和連續(xù)時間步的機器人運動,以表示靜態(tài)空間信息和動態(tài)運動特征。
運動學正則化器
為了有效控制末端執(zhí)行器,生成的姿態(tài)軌跡必須通過逆運動學(IK)求解器進行處理,該求解器計算關(guān)節(jié)配置以實現(xiàn)指定的姿態(tài)。然而,由于預測軌跡的生成未考慮機器人運動學約束,它常常超出 IK 求解器的可行范圍,導致執(zhí)行過程中失敗率較高。為了解決這一限制,在末端執(zhí)行器姿態(tài)學習目標中引入了運動學正則化器。該正則化器將預測姿態(tài)與機器人運動學約束對齊,確保生成的軌跡保持在 IK 求解器的可解空間內(nèi),從而提高軌跡執(zhí)行的可靠性。
將可微正向運動學(DFK)引入擴散過程,使得姿態(tài)損失的梯度能夠通過運動學函數(shù)反向傳播,確保每個去噪步驟都符合關(guān)節(jié)約束,從而優(yōu)化末端執(zhí)行器的控制精度和魯棒性。
訓練與推理
訓練
使用條件動作生成模式來訓練 KStar Diffuser,其被建模為條件去噪擴散。損失函數(shù)定義為均方誤差(MSE),如下所示:
實驗
數(shù)據(jù)集與評估設(shè)置
數(shù)據(jù)集
雙機械臂操作任務(wù)對兩個機械臂之間的協(xié)調(diào)性、同步性和對稱性提出了更高的要求,因此比單臂任務(wù)更具挑戰(zhàn)性。為了評估 KStar Diffuser 在這些方面的能力,使用 RLBench2 基準測試 進行了全面的實驗。RLBench2 是 RLBench 的擴展版本,專為雙機械臂操作設(shè)計,包含與真實場景高度相似的任務(wù)。
評估設(shè)置
為了評估策略性能,采用成功率作為主要指標。盡管策略在執(zhí)行過程中會生成多個連續(xù)動作,但我們主要關(guān)注最終目標的實現(xiàn),而非中間步驟。每個任務(wù)都有其目標狀態(tài)定義的成功標準。為了全面評估策略的能力,我們在訓練過程中使用不同數(shù)量的演示(20 和 100)進行實驗。下圖 3 展示了我們的實驗設(shè)置,包括仿真環(huán)境和 Cobot Agilex ALOHA 機器人。仿真任務(wù)和真實世界實驗設(shè)置的詳細描述見附錄 B。
基線方法
系統(tǒng)地評估了 KStar Diffuser 與以下兩類最先進方法的對比:
基于 Transformer 的方法:
- 動作分塊 Transformer (ACT):采用條件變分自編碼器(CVAE)架構(gòu),包含用于關(guān)節(jié)角度序列預測的編碼器-解碼器框架。
- 機器人視角 Transformer 領(lǐng)導者跟隨 (RVT-LF):以 RVT 為骨干,結(jié)合多視角 Transformer 進行跨視角信息聚合和圖像重渲染,并通過領(lǐng)導者跟隨機制進行動作預測。
- 感知-動作領(lǐng)導者跟隨 (PerAct-LF):基于 PerAct 的領(lǐng)導者跟隨范式,利用感知 Transformer 編碼指令和體素觀察,以生成最優(yōu)體素動作。
- PerAct2:通過為雙機械臂動作實現(xiàn)統(tǒng)一特征空間并結(jié)合自注意力機制進行同步雙機械臂動作預測,增強了 PerAct。
基于擴散的方法:
- 基于關(guān)節(jié)的擴散策略 (DP-J):在模仿學習框架中采用擴散模型進行機器人操作,專注于關(guān)節(jié)角度預測。
- 基于末端執(zhí)行器的擴散策略 (DP-EE):重新實現(xiàn)了 Diffusion Policy,以預測末端執(zhí)行器姿態(tài)而非關(guān)節(jié)角度,提供了一種替代控制范式。
- 3D 擴散策略 (DP3):通過結(jié)合點云進行關(guān)節(jié)角度預測,增強了 3D 感知能力。
與 SOTA 方法的對比結(jié)果
RLBench2 上的實驗結(jié)果
如下表 1 所示,KStar Diffuser 顯著優(yōu)于其他最先進的基線方法,在 20 和 100 個訓練演示的情況下,整體性能均提高了 20% 以上。
- 類似于學習單臂策略,學習雙機械臂策略的過程可以快速適應并實現(xiàn)較高的成功率,前提是任務(wù)軌跡分布相對一致。例如,在“推箱子”任務(wù)中,目標是讓兩個機械臂沿固定軌跡將箱子推向指定目標,KStar Diffuser 和其他基線模型表現(xiàn)良好。然而,隨著任務(wù)復雜性的增加,成功率會下降。例如,在“舉球”任務(wù)中,兩個機械臂必須同時舉起一個大球才能完成任務(wù)。任何運動的不同步都可能導致不穩(wěn)定,使球滑落并最終導致任務(wù)失敗。KStar Diffuser 通過顯式建模兩個機械臂之間的空間和運動關(guān)系,在此類雙機械臂任務(wù)中實現(xiàn)了穩(wěn)健的性能,比其他方法高出 6% 以上。
- 與單臂系統(tǒng)不同,雙機械臂系統(tǒng)具有協(xié)作操作的能力。直接從單臂操作適應到雙機械臂操作的方法在任務(wù)中表現(xiàn)出較高的失敗率,例如“拿筆記本電腦”任務(wù),因為它們?nèi)狈C械臂之間空間和運動關(guān)系的考慮。具體來說,如圖 4 所示,該任務(wù)涉及從柜子表面拿起一個平放的筆記本電腦。由于筆記本電腦完全貼合桌面,機械臂無法直接抓取。相反,有效的策略是控制一個機械臂將筆記本電腦從柜子向外推一小段距離,使另一個機械臂能夠拿起它。KStar Diffuser 的成功率比其他方法高出約 9%,展示了其捕捉雙機械臂協(xié)作操作所需協(xié)調(diào)運動模式的能力。
真實世界實驗結(jié)果
為了全面評估策略的有效性,我們基于仿真基準在真實世界中構(gòu)建了 2 個任務(wù)。真實世界任務(wù)的表現(xiàn)如下表 2 所示。
與仿真結(jié)果類似,未考慮雙機械臂場景的策略(如 ACT、DP 和 DP3)在所有雙機械臂任務(wù)中表現(xiàn)有限,平均成功率約為 20%。盡管 PerAct2 通過將雙機械臂動作映射到共享學習空間來設(shè)計雙機械臂任務(wù),但它未能捕捉雙機械臂系統(tǒng)的空間結(jié)構(gòu),導致執(zhí)行過程中機械臂協(xié)調(diào)無效。此外,我們還發(fā)現(xiàn) PerAct2 在其預測的末端執(zhí)行器姿態(tài)上存在顯著的逆運動學問題,包括關(guān)節(jié)配置沖突和不可達位置,如下圖 4 所示。這可能是由于 PerAct2 在捕捉雙機械臂系統(tǒng)中復雜空間約束和運動學關(guān)系方面的能力有限。相比之下,KStar Diffuser 實現(xiàn)了卓越的雙機械臂協(xié)調(diào)能力,比其他方法高出 10% 以上,因為它成功捕捉了雙機械臂之間的運動模式并預測了可行的末端執(zhí)行器姿態(tài)。
消融實驗
模型組件的影響
為了系統(tǒng)評估 KStar Diffuser 中每個組件的貢獻,在仿真和真實環(huán)境中對“傳遞物品”任務(wù)進行了消融實驗。我們設(shè)計了一個逐步消融的過程:首先移除可微正向運動學(DFK)模塊,同時保留時空圖(ST Graph),然后完全禁用時空圖和運動學正則化器(KR)。下表 3 中的實驗結(jié)果展示了每個組件的關(guān)鍵作用。移除 KR 導致成功率顯著下降,在真實場景中尤為明顯。這種性能下降可歸因于仿真環(huán)境和真實環(huán)境之間的根本差異。仿真環(huán)境保持一致的、無噪聲的輸入,而真實場景引入了各種擾動(如傳感器噪聲和光反射),在沒有 KR 正則化作用的情況下,策略更容易違反運動學約束。進一步移除 ST Graph 和 KR 會導致所有實驗設(shè)置中的性能大幅下降。這一觀察結(jié)果說明了兩個關(guān)鍵點:首先,ST Graph 有效地捕捉了關(guān)節(jié)之間的時空依賴性,這對于協(xié)調(diào)機械臂之間的相對位置和交互至關(guān)重要;其次,圖結(jié)構(gòu)對機器人物理架構(gòu)的顯式編碼通過保持空間和時間一致性,增強了策略對意外擾動的魯棒性。我們對動作分塊大小、歷史長度和權(quán)衡系數(shù)進行了廣泛的消融研究。
定性分析
在前面圖 4 中進一步展示了定性分析。分別比較了 KStar Diffuser 與 DP3 和 PerAct2 在仿真和真實環(huán)境中執(zhí)行雙機械臂操作任務(wù)的表現(xiàn)。
在仿真任務(wù)中,由于筆記本電腦平放在柜子上,直接抬起是不可行的。一個機械臂開始向前推,創(chuàng)造空間,而另一個機械臂同時抓取并抬起筆記本電腦。KStar Diffuser 有效地建模了這種雙機械臂協(xié)調(diào),生成了精確的同步動作軌跡。相反,從單臂策略適應到雙機械臂配置的 DP3 未能實現(xiàn)有效協(xié)調(diào)。具體來說,在執(zhí)行推動動作后,右臂沒有停止,阻礙了左臂的抬起過程。
在真實世界任務(wù)中,KStar Diffuser 生成了左右機械臂之間可執(zhí)行的物品傳遞軌跡,整個任務(wù)過程中沒有發(fā)生碰撞,體現(xiàn)了其強大的環(huán)境適應性和碰撞避免能力。相反,PerAct2 在傳遞過程中發(fā)生了碰撞(用紅色標記),表明其對動態(tài)真實世界變量的處理能力較弱,且缺乏對機器人運動的運動學感知。
結(jié)論
本文提出了一種新穎的運動學增強時空圖擴散模型(KStar Diffuser),它將機器人結(jié)構(gòu)和運動學顯式地結(jié)合到雙機械臂運動生成過程中。該模型包括一個時空機器人圖,顯式建模機器人物理配置以指導生成動作的去噪過程,以及一個運動學正則化器,通過引入關(guān)節(jié)空間監(jiān)督來增強 NBP 學習目標。大量實驗表明,KStar Diffuser 在仿真和真實世界任務(wù)中均大幅優(yōu)于基線方法。
局限性與未來方向
雖然通過 GNN 建模和運動學約束探索了機器人結(jié)構(gòu)的影響,但末端執(zhí)行器姿態(tài)預測和逆運動學的核心控制邏輯仍然存在。未來,我們計劃利用神經(jīng)網(wǎng)絡(luò)直接建模關(guān)節(jié)運動,將機器人運動空間與人類世界的笛卡爾空間對齊。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
