10萬+,超大規(guī)模人手交互視頻數(shù)據(jù)集!面向可泛化機器人操作
隨著具身智能的不斷發(fā)展,機器人操作也逐漸融入到人們的日常生活中,可輔助完成物體抓取、倒水、表面清潔和整理等任務(wù)。
通過模仿學(xué)習(xí),如今的機器人能夠模仿視頻演示中的動作,完成對應(yīng)的任務(wù)。但要求操作環(huán)境與視頻演示中的環(huán)境幾乎完全相同,這限制了其在新場景中的泛化能力,比如:當(dāng)被操作物體的位置或被操作物體本身發(fā)生變化時,機器人便無法準(zhǔn)確地完成任務(wù)。
為解決機器人操作泛化能力不足的問題,近期研究將模仿學(xué)習(xí)與視頻生成等生成模型結(jié)合,通過生成機器人-物體交互的演示視頻來提升泛化能力。
但是,由于機器人數(shù)據(jù)難以采集,無法收集到大量的高質(zhì)量數(shù)據(jù),這類方法所提供的泛化能力仍然有限。
鑒于人手操作視頻數(shù)據(jù)量龐大且采集難度低,一種更具擴展性的方案是生成「人手-物體」交互的演示視頻,以實現(xiàn)更優(yōu)的泛化效果。
此外,當(dāng)前先進的策略模型已能夠有效彌合人手與機器人操作之間的差異,通過模仿人手交互動作控制機器人執(zhí)行任務(wù),并展現(xiàn)出良好的應(yīng)用潛力,進一步驗證了該方案的可行性。
不過,由于缺乏高質(zhì)量的人手-物體交互視頻及其詳細任務(wù)指令,當(dāng)前通用視頻生成模型在生成特定任務(wù)和環(huán)境下的交互視頻時,仍然面臨挑戰(zhàn)。
為攻克現(xiàn)有挑戰(zhàn),香港中文大學(xué)(深圳)的研究團隊推出了首個面向任務(wù)的大規(guī)模人手-物交互數(shù)據(jù)集TASTE-Rob,涵蓋了100,856個匹配精準(zhǔn)語言指令的第一視角交互視頻。
論文地址:https://arxiv.org/abs/2503.11423
項目主頁:https://taste-rob.github.io/
GitHub地址:https://github.com/GAP-LAB-CUHK-SZ/TASTE-Rob
區(qū)別于Ego4D,TASTE-Rob通過固定機位,獨立拍攝單次的完整交互過程,確保了環(huán)境穩(wěn)定、指令與視頻精準(zhǔn)對應(yīng)等特性,為模仿學(xué)習(xí)等領(lǐng)域提供了高質(zhì)量數(shù)據(jù)。
研究團隊提出三階段視頻生成流程:先基于指令和環(huán)境圖像生成初步演示視頻,再借助運動擴散模型優(yōu)化手部姿態(tài)序列以解決抓取姿態(tài)不穩(wěn)定的問題,最后再根據(jù)優(yōu)化后的姿態(tài)重新生成視頻,顯著提升了手物交互真實感。
實驗證實,該數(shù)據(jù)集與三階段流程的結(jié)合,在視頻生成質(zhì)量和機器人操作準(zhǔn)確度上均大幅超越現(xiàn)有生成模型。
數(shù)據(jù)集屬性
TASTE-Rob包含了100,856組視頻及其對應(yīng)的詳細語言任務(wù)指令。為滿足人手-物交互視頻生成需求,TASTE-Rob旨在實現(xiàn)以下目標(biāo):1)所有視頻采用固定機位拍攝,每個視頻僅記錄一段與任務(wù)指令高度匹配的動作;2)覆蓋多樣化的環(huán)境和任務(wù)類型;3)包含各類人手-物交互場景下的豐富手部姿態(tài)。
圖1展示了數(shù)據(jù)集覆蓋的環(huán)境包括廚房、臥室、餐桌、辦公桌等場景;以及數(shù)據(jù)采集過程中,采集者需與各類常用物品進行交互,執(zhí)行拿取、放置、推挪、傾倒等操作。
圖1:TASTE-Rob場景及動作類型統(tǒng)計
圖2展示了數(shù)據(jù)集中手部抓握姿態(tài)的分布,主要關(guān)注拇指、食指和中指的指間夾角與彎曲度。由于被抓取物體和執(zhí)行動作類型的多樣性,數(shù)據(jù)集覆蓋了豐富的抓握姿態(tài)。
圖2:TASTE-Rob手部抓握姿態(tài)統(tǒng)計
TASTE-Rob與現(xiàn)有HOI數(shù)據(jù)集的對比
表1展示了TASTE-Rob數(shù)據(jù)集與現(xiàn)有的第一視角人手-物交互(HOI)視頻數(shù)據(jù)集的對比情況,主要的區(qū)別體現(xiàn)在以下幾點:
表1:TASTE-Rob與現(xiàn)有HOI數(shù)據(jù)集的對比
1. 相機視角及動作-指令匹配程度:考慮到模仿學(xué)習(xí)中的視頻演示一般從固定的攝像機視角進行錄制,并且僅包含一個與任務(wù)指令相匹配的單一動作,因此TASTE-Rob中用了同樣的設(shè)置條件;
2. 語言指令的詳細程度:為了進一步提升對語言指令的理解程度,TASTE-Rob在指令中融入了豐富多樣的物體限定詞,從而生成有效且準(zhǔn)確的演示視頻;
3. 數(shù)據(jù)量及數(shù)據(jù)質(zhì)量:TASTE-Rob擁有最多的視頻片段數(shù)量和1080p的視頻分辨率。
三階段視頻生成流程
當(dāng)給定一張環(huán)境圖像和一個任務(wù)指令描述,所生成的人手-物交互視頻需滿足:
1. 準(zhǔn)確的任務(wù)理解:能正確理解要操作的物體以及操作方式;
2. 可行的手物交互:在整個操作過程中保持一致的手部抓握姿勢。
如圖3的第一階段所示,在TASTE-Rob數(shù)據(jù)集上微調(diào)的視頻生成模型所生成的視頻雖然能準(zhǔn)確理解任務(wù),但在保持一致抓握姿勢方面表現(xiàn)一般。
為了滿足這兩個要求,該研究團隊在第二階段從生成視頻中提取手部姿態(tài)序列,并使用訓(xùn)練得到的運動擴散模型對其進行優(yōu)化,并在第三階段基于優(yōu)化后的手部姿態(tài)序列,生成同時滿足上述兩個要求的高真實度人手-物交互視頻。
圖3:三階段視頻生成流程
TASTE-Rob的意義
TASTE-Rob數(shù)據(jù)集能帶來什么?
研究團隊探索了TASTE-Rob對視頻生成質(zhì)量的幫助:對比了在TASTE-Rob數(shù)據(jù)集上微調(diào)(Coarse-TASTE-Rob)與在Ego4D數(shù)據(jù)集上微調(diào)(Ego4D-Gen)的視頻生成性能,兩者間唯一的區(qū)別在于所使用的訓(xùn)練數(shù)據(jù)集不同。
如表2和圖4所示,TASTE-Rob數(shù)據(jù)集帶來了更優(yōu)的生成質(zhì)量。
表2:在Ego4D/TASTE-Rob上微調(diào)視頻生成模型的數(shù)值結(jié)果
圖4:在Ego4D/TASTE-Rob上微調(diào)視頻生成模型的可視化結(jié)果
三階段視頻生成流程能帶來什么?
研究團隊從三個評估維度上探索了三階段視頻生成流程對視頻生成質(zhì)量的幫助:如表3的視頻生成指標(biāo)和圖5所示,視頻生成的宏觀表現(xiàn)上,該流程能夠生成更高質(zhì)量的手物交互視頻。
視頻生成的細節(jié)表現(xiàn)上,表3中的抓握姿態(tài)一致性指標(biāo)和圖5的結(jié)果進一步驗證了,該流程有效解決了抓握姿態(tài)不穩(wěn)定的問題,成功幫助機器人實現(xiàn)更準(zhǔn)確的操作。
此外,在機器人的模仿學(xué)習(xí)效果上,如圖6和表3中的成功率指標(biāo)所示,該流程有助于策略模型更準(zhǔn)確地完成任務(wù),顯著提升了任務(wù)成功率。
表3:使用/不使用三階段視頻生成流程的數(shù)值結(jié)果
圖5:使用/不使用三階段視頻生成流程在真實場景測試集的可視化結(jié)果
圖6:使用/不使用三階段視頻生成流程在機器人仿真平臺測試集的可視化結(jié)果
總的來說,TASTE-Rob將會為整個具身智能社區(qū)帶來很多諸多可能性與挑戰(zhàn),更多數(shù)據(jù)集與實驗細節(jié)請參閱原論文。