朱玉可團(tuán)隊(duì)新作:看一眼就能模仿,大模型讓機(jī)器人輕松學(xué)會(huì)撒鹽
在人形機(jī)器人領(lǐng)域,有一個(gè)非常值錢的問題:既然人形機(jī)器人的樣子與人類類似,那么它們能使用網(wǎng)絡(luò)視頻等數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練嗎?
如果可以,那考慮到網(wǎng)絡(luò)視頻的龐大規(guī)模,機(jī)器人就再也不用擔(dān)心沒有學(xué)習(xí)資源了。
近日,德克薩斯大學(xué)奧斯汀分校和 NVIDIA Research 的朱玉可團(tuán)隊(duì)公布了他們的一篇 CoRL 2024 oral 論文,其中提出了一種名為 OKAMI 的方法,可基于單個(gè) RGB-D 視頻生成操作規(guī)劃并推斷執(zhí)行策略。
- 論文地址:OKAMI: Teaching Humanoid Robots Manipulation Skills through Single Video Imitation
- 論文鏈接:https://arxiv.org/pdf/2410.11792
- 項(xiàng)目地址:https://ut-austin-rpl.github.io/OKAMI/
先來看看演示視頻:
可以看到,機(jī)器人在看過人類演示者向袋子中裝東西后,也學(xué)會(huì)了以同樣的動(dòng)作向袋子中裝東西。不僅如此,OKAMI 還能讓人形機(jī)器人看一眼演示視頻就輕松學(xué)會(huì)撒鹽、將玩具放進(jìn)籃子和合上筆記本電腦等任務(wù)。
和 AI 領(lǐng)域內(nèi)的許多技術(shù)一樣,OKAMI 也是一個(gè)縮寫詞,全稱是 Object-aware Kinematic retArgeting for huManoid Imitation,即用于人形機(jī)器人模仿的物體感知型動(dòng)力學(xué)重定向。
顧名思義,這是一種物體感知型重定向方法,可以讓具有兩個(gè)靈巧機(jī)器手的雙手型人形機(jī)器人基于單個(gè) RGB-D 視頻演示模仿其中的操作行為。
OKAMI 方法詳解
OKAMI 采用了一種兩階段過程,可將人類運(yùn)動(dòng)重新定向成人形機(jī)器人的運(yùn)動(dòng),從而可在不同初始條件下完成任務(wù)。
在第一個(gè)階段,OKAMI 會(huì)處理視頻并生成一個(gè)參考操作規(guī)劃。
在第二個(gè)階段,OKAMI 會(huì)使用該規(guī)劃來合成人形機(jī)器人的運(yùn)動(dòng),這個(gè)過程會(huì)用到運(yùn)動(dòng)重定向,其作用是適應(yīng)目標(biāo)環(huán)境中的物體位置。
圖 2 展示了其整個(gè)工作流程。
問題描述
首先,該團(tuán)隊(duì)將人形機(jī)器人操作任務(wù)描述成了一個(gè)離散時(shí)間馬爾可夫決策過程,并將其定義成了一個(gè)元組 M = (S, A, P, R, γ, μ)。其中 S 是狀態(tài)空間、A 是動(dòng)作空間、P (?|s, a) 是轉(zhuǎn)移概率、R (s) 是獎(jiǎng)勵(lì)函數(shù)、γ ∈ [0, 1) 是折扣因子、μ 是初始狀態(tài)分布。
在這里,S 就是原始 RGB-D 觀察的空間,其中包含機(jī)器人和物體的狀態(tài);A 則是人形機(jī)器人的運(yùn)動(dòng)指令的空間;R 是一個(gè)稀疏的獎(jiǎng)勵(lì)函數(shù) —— 當(dāng)任務(wù)完成時(shí),返回 1。對于一個(gè)任務(wù),其目標(biāo)是找到一個(gè)策略 π,使其可以在測試時(shí)間最大化大量不同的初始配置下的預(yù)期任務(wù)成功率。
他們考慮了「基于觀察的開放世界模仿」設(shè)置。在該設(shè)置中,這個(gè)機(jī)器人系統(tǒng)會(huì)獲得一段錄制的 RGB-D 人類視頻 V,然后其需要返回一個(gè)人形機(jī)器人操作策略 π,使機(jī)器人可以完成視頻演示的任務(wù)。
參考規(guī)劃生成
為了實(shí)現(xiàn)物體感知型重新定向,OKAMI 首先會(huì)為人形機(jī)器人生成一個(gè)參考規(guī)劃。規(guī)劃生成需要了解有哪些與任務(wù)相關(guān)的物體以及人類如何操作它們。
識(shí)別和定位與任務(wù)相關(guān)的物體
為了模仿視頻 V 中的操作任務(wù),OKAMI 必須識(shí)別要交互的物體。之前的方法需要具有簡單背景的無監(jiān)督方法或需要額外的人工標(biāo)注,而 OKAMI 則不一樣,其使用了現(xiàn)成可用的視覺 - 語言模型(VLM)GPT-4V 來識(shí)別 V 中與任務(wù)相關(guān)的物體;這自然是用到了該模型中內(nèi)化的常識(shí)性知識(shí)
具體來說,OKAMI 會(huì)通過采樣 RGB 幀并使用 GPT-4V 來獲取與任務(wù)相關(guān)的物體的名稱。使用這些名稱,OKAMI 再使用 Grounded-SAM 來分割第一幀中的物體并使用視頻目標(biāo)分割模型 Cutie 來跟蹤這些物體的位置。
重建人類運(yùn)動(dòng)
為了將人類運(yùn)動(dòng)重新定向成機(jī)器人運(yùn)動(dòng),OKAMI 會(huì)重建來自 V 的人類運(yùn)動(dòng)以獲取運(yùn)動(dòng)軌跡。為此,他們采用了改進(jìn)版的 SLAHMR,這是一種用于重建人類運(yùn)動(dòng)序列的迭代式優(yōu)化算法。雖然 SLAHMR 假設(shè)雙手平放,而新的擴(kuò)展優(yōu)化了 SMPL-H 模型的手部姿勢,這些姿勢使用來自 HaMeR 的估計(jì)手部姿勢進(jìn)行初始化。此修改使得單目視頻中的身體和手部姿勢可以進(jìn)行聯(lián)合優(yōu)化。其輸出是一個(gè)獲取了全身和手部姿勢的 SMPL-H 模型序列,讓 OKAMI 可以將人類動(dòng)作重新定向到人形機(jī)器人。
此外,SMPL-H 模型還能表示不同人類外觀的人類姿勢,從而可以輕松地將人類演示者的運(yùn)動(dòng)映射到人形機(jī)器人。
基于視頻生成規(guī)劃
有了任務(wù)相關(guān)的物體和重建出來的人類運(yùn)動(dòng),OKAMI 就可以基于 V 生成用于完成每個(gè)子目標(biāo)的參考規(guī)劃了。
OKAMI 識(shí)別子目標(biāo)的方式是基于以下流程執(zhí)行時(shí)間分割:
- 首先使用 CoTracker 跟蹤關(guān)鍵點(diǎn),并檢測關(guān)鍵點(diǎn)的速度變化以確定關(guān)鍵幀,這些關(guān)鍵幀對應(yīng)于子目標(biāo)狀態(tài)。
- 對于每個(gè)子目標(biāo),都確定一個(gè)目標(biāo)物體(會(huì)因?yàn)椴僮鞫\(yùn)動(dòng))和一個(gè)參考物體(通過接觸或非接觸關(guān)系作為目標(biāo)物體運(yùn)動(dòng)的空間參考)。目標(biāo)物體是根據(jù)每個(gè)物體的平均關(guān)鍵點(diǎn)速度確定的,而參考物體則通過 GPT-4V 預(yù)測的幾何啟發(fā)式或語義關(guān)系來識(shí)別。
- 確定子目標(biāo)和相關(guān)物體后,生成一個(gè)參考規(guī)劃 l_0, l_1, . . . , l_N,其中每一步 l_i 都對應(yīng)于一個(gè)關(guān)鍵幀,并且包含目標(biāo)物體 o_target、參考問題 o_reference 和 SMPL-H 軌跡段
的點(diǎn)云。
物體感知型重定向
有了來自演示視頻的參考規(guī)劃后,OKAMI 便可以讓人形機(jī)器人模仿 V 中的任務(wù)。機(jī)器人會(huì)遵循規(guī)劃中的每個(gè)步驟 l_i。然后經(jīng)過重新定向的軌跡會(huì)被轉(zhuǎn)換成關(guān)節(jié)指令。這個(gè)過程一直重復(fù)直到任務(wù)完成,之后基于任務(wù)特定的條件來評估是否成功。
在測試時(shí)間定位物體
為了在測試時(shí)間環(huán)境中執(zhí)行規(guī)劃,OKAMI 必須定位機(jī)器人觀察中的相關(guān)物體,提取 3D 點(diǎn)云來跟蹤物體位置。通過關(guān)注與任務(wù)相關(guān)的物體,OKAMI 策略可以泛化用于各不相同的視覺背景,包括不同的背景或任務(wù)相關(guān)物體新實(shí)例。
將人類運(yùn)動(dòng)重新定位到人形機(jī)器人
物體感知的關(guān)鍵是使運(yùn)動(dòng)適應(yīng)新的物體位置。在定位物體后,OKAMI 會(huì)采用一種分解式重新定位過程,即分別合成手臂和手部運(yùn)動(dòng)。
OKAMI 首先根據(jù)物體位置調(diào)整手臂運(yùn)動(dòng),以便將手指置于以物體為中心的坐標(biāo)系內(nèi)。然后,OKAMI 只需在關(guān)節(jié)配置中重新定位手指,以模仿演示者用手與物體交互的方式。
具體來說,首先將人體運(yùn)動(dòng)映射到人形機(jī)器人的任務(wù)空間,縮放和調(diào)整軌跡以考慮尺寸和比例的差異。然后,OKAMI 扭曲變形(warp)重新定位的軌跡,以便機(jī)器人的手臂到達(dá)新的物體位置。該團(tuán)隊(duì)考慮了兩種軌跡變形情況 —— 當(dāng)目標(biāo)和參考物體之間的關(guān)系狀態(tài)不變時(shí)以及當(dāng)關(guān)系狀態(tài)發(fā)生變化時(shí),相應(yīng)地調(diào)整變形。
在第一種情況下,僅基于目標(biāo)物體位置執(zhí)行軌跡變形。在第二種情況下,基于參考物體位置執(zhí)行變形。
變形之后,使用逆動(dòng)力學(xué)計(jì)算機(jī)器臂的關(guān)節(jié)配置序列,同時(shí)平衡逆運(yùn)動(dòng)學(xué)計(jì)算中的位置和旋轉(zhuǎn)目標(biāo)的權(quán)重以保持自然姿勢。同時(shí),將人類手部姿勢重新定位到機(jī)器人的手指關(guān)節(jié),使機(jī)器人能夠執(zhí)行精細(xì)的操作。
最后,可得到一套全身關(guān)節(jié)配置軌跡。由于機(jī)器臂運(yùn)動(dòng)重新定向是仿射式的,因此這個(gè)過程可以自然地適應(yīng)不同演示者的情況。通過調(diào)整手臂軌跡以適應(yīng)物體位置并獨(dú)立重新定位手部姿勢,OKAMI 可實(shí)現(xiàn)跨各種空間布局的泛化。
實(shí)驗(yàn)及結(jié)果
研究者在實(shí)驗(yàn)部分主要回答了以下四個(gè)研究問題:
- OKAMI 能否有效地讓人形機(jī)器人基于單個(gè)人類演示視頻來模仿各種操作任務(wù)?
- 在 OKAMI 中,將演示者的身體動(dòng)作重新定位到人形機(jī)器人身上是否重要,以及為什么沒有選擇僅根據(jù)物體位置進(jìn)行重新定位?
- OKAMI 能否在多樣化人體統(tǒng)計(jì)學(xué)特征的人類演示視頻中始終保持自身性能?
- OKAMI 生成的展示(rollout)是否可以用來訓(xùn)練閉環(huán)視覺運(yùn)動(dòng)策略?
任務(wù)設(shè)計(jì)。研究者在實(shí)驗(yàn)中執(zhí)行了六項(xiàng)任務(wù),分別如下:
- 將毛絨玩具放入籃子里(Plush-toy-in-basket)
- 將少許鹽撒入碗中(Sprinkle-salt)
- 關(guān)上抽屜(Close-the-drawer)
- 合上筆記本電腦的蓋子(Close-the-laptop)
- 將一袋零食放在盤子上(Place-snacks-on-plate)
- 將薯片袋放入購物袋中(Bagging)
硬件設(shè)置。研究者使用 Fourier GR1 機(jī)器人作為自己的硬件平臺(tái),配備了兩個(gè) 6 自由度(DoF)的 Inspire 靈巧手以及一個(gè)用來錄制視頻和進(jìn)行測試時(shí)觀察的 D435i Intel RealSense 攝像頭。此外還實(shí)現(xiàn)了一個(gè)以 400Hz 運(yùn)行的關(guān)節(jié)位置控制器。為了避免出現(xiàn)抖動(dòng),研究者以 40Hz 來計(jì)算關(guān)節(jié)位置命令,并將命令插入 400Hz 軌跡。
評估方案。研究者針對每項(xiàng)任務(wù)運(yùn)行了 12 次試驗(yàn)。過程中,物體的位置在機(jī)器人攝像頭視野和人形手臂可觸及范圍的交點(diǎn)內(nèi)進(jìn)行隨機(jī)初始化。
基線。研究者將 OKAMI 與基線 ORION 進(jìn)行了比較。
定性結(jié)果
為了回答問題 1),研究者評估了 OKAMI 在所有任務(wù)中的策略,覆蓋日常取放、傾倒和操縱鉸接物體等多樣性行為。結(jié)果如下圖 4(a)所示,實(shí)驗(yàn)中隨機(jī)初始化了物體位置,這樣做讓機(jī)器人需要適應(yīng)物體的位置。從結(jié)果來看,OKAMI 可以有效地泛化到不同的視覺和空間條件。
為了回答問題 2),研究者在兩項(xiàng)代表性任務(wù)上將 OKAMI 與 ORION 進(jìn)行比較,分別是將 Place-snacks-on-plate 和 Close-the-laptop。二者的不同之處在于 ORION 不以人類身體姿態(tài)為條件。結(jié)果顯示,OKAMI 在兩項(xiàng)任務(wù)上分別實(shí)現(xiàn)了 75.0% 和 83.3% 的成功率,而 ORION 分別只有 0.0% 和 41.2%,拉開了很大的差距。
為了回答問題 3),研究者進(jìn)行了一項(xiàng)受控實(shí)驗(yàn),記錄了不同演示者的視頻,并測試 OKAMI 策略是否對所有視頻輸入都能保持良好的性能。同樣地,他們選擇的任務(wù)是 Place-snacks-on-plate 和 Close-the-laptop,結(jié)果如圖 4(b)所示。
總體而言,OKAMI 能夠在處理不同演示者的視頻時(shí)保持相當(dāng)不錯(cuò)的性能,不過處理這類多樣性的視覺 pipeline 仍有改進(jìn)的空間。
利用 OKAMI Rollout 數(shù)據(jù)學(xué)習(xí)視覺運(yùn)動(dòng)策略
為了解決問題 4),研究者在 OKAMI rollout 上訓(xùn)練了神經(jīng)視覺運(yùn)動(dòng)策略。他們首先在隨機(jī)初始化的物體 rollout 上運(yùn)行 OKAMI,并在收集一個(gè)包含成功軌跡的數(shù)據(jù)集同時(shí)丟棄失敗的軌跡。此外他們通過行為克隆算法在該數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò)策略,并為 Sprinkle-salt 和 Bagging 兩項(xiàng)任務(wù)訓(xùn)練視覺運(yùn)動(dòng)策略。
下圖 5 展示了這些策略的成功率,表明 OKAMI rollout 可以成為有效的訓(xùn)練數(shù)據(jù)源。并且,隨著收集到的 rollout 增多,學(xué)習(xí)到的策略會(huì)隨之改進(jìn)。這些結(jié)果有望擴(kuò)展數(shù)據(jù)收集范圍,從而無需費(fèi)力遠(yuǎn)程操作也能學(xué)習(xí)人形機(jī)器人操作技能。
局限性和未來工作
OKAMI 雖強(qiáng),但也并不完美,下面展示了兩個(gè)失敗實(shí)例:
OKAMI 目前專注于人形機(jī)器人的上半身運(yùn)動(dòng)重定向,尤其是用于桌面工作空間的操控任務(wù)。因此未來有希望擴(kuò)展到下半身重定向,以便在視頻模仿期間實(shí)現(xiàn)運(yùn)動(dòng)行為。更進(jìn)一步,實(shí)現(xiàn)全身運(yùn)動(dòng)操控則需要一個(gè)全身運(yùn)動(dòng)控制器,而不是 OKAMI 中使用的關(guān)節(jié)控制器。
此外,研究者在 OKAMI 中依賴 RGB-D 視頻,這限制了他們使用以 RGB 記錄的野外互聯(lián)網(wǎng)視頻。因此擴(kuò)展 OKAMI 使用網(wǎng)絡(luò)視頻將是未來另一個(gè)有潛力的研究方向。最后,當(dāng)前重定向的實(shí)現(xiàn)在面對物體的形狀變化較大時(shí)表現(xiàn)出了較弱的穩(wěn)健性。
未來的改進(jìn)將是整合更強(qiáng)大的基礎(chǔ)模型,使機(jī)器人能夠總體了解如何與一類物體進(jìn)行交互,即使這類物體的形狀變化很大。