字節(jié)提出 Vi-PRoM 視覺預(yù)訓(xùn)練方案,機(jī)器人操作成功率更高,操作效果更好了
近年來(lái),利用大規(guī)模真實(shí)世界數(shù)據(jù)進(jìn)行的視覺預(yù)訓(xùn)練取得了顯著進(jìn)展,在基于像素觀察的機(jī)器人學(xué)習(xí)中展現(xiàn)出巨大的潛力。但這些工作在預(yù)訓(xùn)練的數(shù)據(jù)、方法和模型方面有所不同。因此哪些類型的數(shù)據(jù)、預(yù)訓(xùn)練方法和模型可以更好地輔助機(jī)器人操控仍然是一個(gè)懸而未決的問題。
基于此,ByteDance Research 團(tuán)隊(duì)的研究者從預(yù)訓(xùn)練數(shù)據(jù)集、模型架構(gòu)和訓(xùn)練方法三個(gè)基本角度全面研究了視覺預(yù)訓(xùn)練策略對(duì)機(jī)器人操作任務(wù)的影響,提供了一些有利于機(jī)器人學(xué)習(xí)的重要實(shí)驗(yàn)結(jié)果。此外,他們提出了一種名為 Vi-PRoM 的機(jī)器人操作視覺預(yù)訓(xùn)練方案,它結(jié)合了自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)。其中前者采用對(duì)比學(xué)習(xí)從大規(guī)模未標(biāo)記的數(shù)據(jù)中獲取潛在模式,而后者旨在學(xué)習(xí)視覺語(yǔ)義和時(shí)序動(dòng)態(tài)變化。在各種仿真環(huán)境和真實(shí)機(jī)器人中進(jìn)行的大量機(jī)器人操作實(shí)驗(yàn)證明了該方案的優(yōu)越性。
- 論文地址:https://arxiv.org/pdf/2308.03620.pdf
- 項(xiàng)目地址:https://explore-pretrain-robot.github.io/
基準(zhǔn)研究
預(yù)訓(xùn)練數(shù)據(jù)
EgoNet 比 ImageNet 更強(qiáng)大。使用對(duì)比學(xué)習(xí)方法在不同的數(shù)據(jù)集(即 ImageNet 和 EgoNet)上預(yù)訓(xùn)練視覺編碼器,并觀察它們?cè)跈C(jī)器人操作任務(wù)中的表現(xiàn)。從下表 1 中可以看到,在 EgoNet 上預(yù)訓(xùn)練的模型在機(jī)器人操作任務(wù)上取得了更好的性能。顯然,機(jī)器人在操作任務(wù)方面更傾向于視頻中包含的交互知識(shí)和時(shí)序關(guān)系。此外,EgoNet 中以自我為中心的自然圖像具有更多關(guān)于世界的全局背景,這意味著可以學(xué)習(xí)更豐富的視覺特征。
模型結(jié)構(gòu)
ResNet-50 表現(xiàn)更好。從下表 2 中可以看出 ResNet-50 和 ResNet-101 在機(jī)器人操作任務(wù)上的表現(xiàn)優(yōu)于 ResNet-34。此外,隨著模型從 ResNet-50 增加到 ResNet-101,性能并沒有提高。
預(yù)訓(xùn)練方法
預(yù)訓(xùn)練方法首選對(duì)比學(xué)習(xí)。如下表 3 所示,MoCo-v3 在 ImageNet 和 EgoNet 數(shù)據(jù)集上均優(yōu)于 MAE,這證明了對(duì)比學(xué)習(xí)與掩模圖像建模相比更有效。此外,通過(guò)對(duì)比學(xué)習(xí)獲得的視覺語(yǔ)義對(duì)于機(jī)器人操作來(lái)說(shuō)比通過(guò)掩模圖像建模學(xué)習(xí)的結(jié)構(gòu)信息更重要。
算法介紹
基于上述探索,該工作提出了針對(duì)機(jī)器人操作的視覺預(yù)訓(xùn)練方案 (Vi-PRoM),該方案在 EgoNet 數(shù)據(jù)集上預(yù)訓(xùn)練 ResNet-50 來(lái)提取機(jī)器人操作的全面視覺表示。具體來(lái)說(shuō),他們首先采用對(duì)比學(xué)習(xí)以自我監(jiān)督的方式從 EgoNet 數(shù)據(jù)集中獲取人與物體的交互模式。然后提出了兩個(gè)額外的學(xué)習(xí)目標(biāo),即視覺語(yǔ)義預(yù)測(cè)和時(shí)序動(dòng)態(tài)預(yù)測(cè),以進(jìn)一步豐富編碼器的表示。下圖顯示了提出的 Vi-PRoM 的基本流程。值得注意的是,該工作不需要手動(dòng)標(biāo)注標(biāo)簽來(lái)學(xué)習(xí)視覺語(yǔ)義和時(shí)序動(dòng)態(tài)。
實(shí)驗(yàn)結(jié)果
該研究工作在兩種仿真環(huán)境 (Franka Kitchen 和 MetaWorld) 上進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明所提出的預(yù)訓(xùn)練方案在機(jī)器人操作上優(yōu)于以前最先進(jìn)的方法。消融實(shí)驗(yàn)結(jié)果如下表所示,可以證明視覺語(yǔ)義學(xué)習(xí)和時(shí)序動(dòng)態(tài)學(xué)習(xí)對(duì)于機(jī)器人操作的重要性。此外,當(dāng)兩個(gè)學(xué)習(xí)目標(biāo)都不存在時(shí),Vi-PRoM 的成功率會(huì)大大下降,證明了視覺語(yǔ)義學(xué)習(xí)和時(shí)序動(dòng)態(tài)學(xué)習(xí)之間協(xié)作的有效性。
該工作還研究了 Vi-PRoM 的可擴(kuò)展性。如下左圖所示,在 Franka Kitchen 和 MetaWorld 模擬環(huán)境中,Vi-PRoM 的成功率隨著演示數(shù)據(jù)規(guī)模的增加而穩(wěn)步提高。在更大規(guī)模的專家演示數(shù)據(jù)集上進(jìn)行訓(xùn)練后,Vi-PRoM 模型顯示了其在機(jī)器人操作任務(wù)上的可擴(kuò)展性。
得益于 Vi-PRoM 強(qiáng)大的視覺表征能力,真實(shí)機(jī)器人可以成功打開抽屜和柜門。
Franka Kitchen 上的實(shí)驗(yàn)結(jié)果可以看出,Vi-PRoM 在五個(gè)任務(wù)上都比 R3M 具有更高的成功率和更高的動(dòng)作完成度。
R3M:
Vi-PRoM:
在 MetaWorld 上,由于 Vi-PRoM 的視覺表示學(xué)習(xí)了良好的語(yǔ)義和動(dòng)態(tài)特征,它可以更好地用于動(dòng)作預(yù)測(cè),因此相比 R3M,Vi-PRoM 需要更少的步驟來(lái)完成操作。
R3M:
Vi-PRoM: