自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

字節(jié)提出 Vi-PRoM 視覺預(yù)訓(xùn)練方案,機(jī)器人操作成功率更高,操作效果更好了

人工智能 新聞
ByteDance Research 團(tuán)隊(duì)的研究者從預(yù)訓(xùn)練數(shù)據(jù)集、模型架構(gòu)和訓(xùn)練方法三個(gè)基本角度全面研究了視覺預(yù)訓(xùn)練策略對(duì)機(jī)器人操作任務(wù)的影響,提供了一些有利于機(jī)器人學(xué)習(xí)的重要實(shí)驗(yàn)結(jié)果。

近年來(lái),利用大規(guī)模真實(shí)世界數(shù)據(jù)進(jìn)行的視覺預(yù)訓(xùn)練取得了顯著進(jìn)展,在基于像素觀察的機(jī)器人學(xué)習(xí)中展現(xiàn)出巨大的潛力。但這些工作在預(yù)訓(xùn)練的數(shù)據(jù)、方法和模型方面有所不同。因此哪些類型的數(shù)據(jù)、預(yù)訓(xùn)練方法和模型可以更好地輔助機(jī)器人操控仍然是一個(gè)懸而未決的問題。

基于此,ByteDance Research 團(tuán)隊(duì)的研究者從預(yù)訓(xùn)練數(shù)據(jù)集、模型架構(gòu)和訓(xùn)練方法三個(gè)基本角度全面研究了視覺預(yù)訓(xùn)練策略對(duì)機(jī)器人操作任務(wù)的影響,提供了一些有利于機(jī)器人學(xué)習(xí)的重要實(shí)驗(yàn)結(jié)果。此外,他們提出了一種名為 Vi-PRoM 的機(jī)器人操作視覺預(yù)訓(xùn)練方案,它結(jié)合了自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)。其中前者采用對(duì)比學(xué)習(xí)從大規(guī)模未標(biāo)記的數(shù)據(jù)中獲取潛在模式,而后者旨在學(xué)習(xí)視覺語(yǔ)義和時(shí)序動(dòng)態(tài)變化。在各種仿真環(huán)境和真實(shí)機(jī)器人中進(jìn)行的大量機(jī)器人操作實(shí)驗(yàn)證明了該方案的優(yōu)越性。

  • 論文地址:https://arxiv.org/pdf/2308.03620.pdf
  • 項(xiàng)目地址:https://explore-pretrain-robot.github.io/

基準(zhǔn)研究

圖片

預(yù)訓(xùn)練數(shù)據(jù)

EgoNet 比 ImageNet 更強(qiáng)大。使用對(duì)比學(xué)習(xí)方法在不同的數(shù)據(jù)集(即 ImageNet 和 EgoNet)上預(yù)訓(xùn)練視覺編碼器,并觀察它們?cè)跈C(jī)器人操作任務(wù)中的表現(xiàn)。從下表 1 中可以看到,在 EgoNet 上預(yù)訓(xùn)練的模型在機(jī)器人操作任務(wù)上取得了更好的性能。顯然,機(jī)器人在操作任務(wù)方面更傾向于視頻中包含的交互知識(shí)和時(shí)序關(guān)系。此外,EgoNet 中以自我為中心的自然圖像具有更多關(guān)于世界的全局背景,這意味著可以學(xué)習(xí)更豐富的視覺特征。

圖片

模型結(jié)構(gòu)

ResNet-50 表現(xiàn)更好。從下表 2 中可以看出 ResNet-50 和 ResNet-101 在機(jī)器人操作任務(wù)上的表現(xiàn)優(yōu)于 ResNet-34。此外,隨著模型從 ResNet-50 增加到 ResNet-101,性能并沒有提高。 

圖片

預(yù)訓(xùn)練方法

預(yù)訓(xùn)練方法首選對(duì)比學(xué)習(xí)。如下表 3 所示,MoCo-v3 在 ImageNet 和 EgoNet 數(shù)據(jù)集上均優(yōu)于 MAE,這證明了對(duì)比學(xué)習(xí)與掩模圖像建模相比更有效。此外,通過(guò)對(duì)比學(xué)習(xí)獲得的視覺語(yǔ)義對(duì)于機(jī)器人操作來(lái)說(shuō)比通過(guò)掩模圖像建模學(xué)習(xí)的結(jié)構(gòu)信息更重要。

算法介紹

基于上述探索,該工作提出了針對(duì)機(jī)器人操作的視覺預(yù)訓(xùn)練方案 (Vi-PRoM),該方案在 EgoNet 數(shù)據(jù)集上預(yù)訓(xùn)練  ResNet-50 來(lái)提取機(jī)器人操作的全面視覺表示。具體來(lái)說(shuō),他們首先采用對(duì)比學(xué)習(xí)以自我監(jiān)督的方式從 EgoNet 數(shù)據(jù)集中獲取人與物體的交互模式。然后提出了兩個(gè)額外的學(xué)習(xí)目標(biāo),即視覺語(yǔ)義預(yù)測(cè)和時(shí)序動(dòng)態(tài)預(yù)測(cè),以進(jìn)一步豐富編碼器的表示。下圖顯示了提出的 Vi-PRoM 的基本流程。值得注意的是,該工作不需要手動(dòng)標(biāo)注標(biāo)簽來(lái)學(xué)習(xí)視覺語(yǔ)義和時(shí)序動(dòng)態(tài)。

圖片

實(shí)驗(yàn)結(jié)果

該研究工作在兩種仿真環(huán)境 (Franka Kitchen 和 MetaWorld) 上進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明所提出的預(yù)訓(xùn)練方案在機(jī)器人操作上優(yōu)于以前最先進(jìn)的方法。消融實(shí)驗(yàn)結(jié)果如下表所示,可以證明視覺語(yǔ)義學(xué)習(xí)和時(shí)序動(dòng)態(tài)學(xué)習(xí)對(duì)于機(jī)器人操作的重要性。此外,當(dāng)兩個(gè)學(xué)習(xí)目標(biāo)都不存在時(shí),Vi-PRoM 的成功率會(huì)大大下降,證明了視覺語(yǔ)義學(xué)習(xí)和時(shí)序動(dòng)態(tài)學(xué)習(xí)之間協(xié)作的有效性。

該工作還研究了 Vi-PRoM 的可擴(kuò)展性。如下左圖所示,在 Franka Kitchen 和 MetaWorld 模擬環(huán)境中,Vi-PRoM 的成功率隨著演示數(shù)據(jù)規(guī)模的增加而穩(wěn)步提高。在更大規(guī)模的專家演示數(shù)據(jù)集上進(jìn)行訓(xùn)練后,Vi-PRoM 模型顯示了其在機(jī)器人操作任務(wù)上的可擴(kuò)展性。

圖片


圖片

得益于 Vi-PRoM 強(qiáng)大的視覺表征能力,真實(shí)機(jī)器人可以成功打開抽屜和柜門。

Franka Kitchen 上的實(shí)驗(yàn)結(jié)果可以看出,Vi-PRoM 在五個(gè)任務(wù)上都比 R3M 具有更高的成功率和更高的動(dòng)作完成度。

R3M:

圖片圖片圖片圖片圖片


Vi-PRoM:

圖片圖片圖片圖片圖片

在 MetaWorld 上,由于 Vi-PRoM 的視覺表示學(xué)習(xí)了良好的語(yǔ)義和動(dòng)態(tài)特征,它可以更好地用于動(dòng)作預(yù)測(cè),因此相比 R3M,Vi-PRoM 需要更少的步驟來(lái)完成操作。

R3M:

圖片

Vi-PRoM:

圖片圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-08-23 12:33:51

機(jī)器人

2021-04-21 15:22:40

機(jī)器人人工智能系統(tǒng)

2024-11-01 10:30:00

機(jī)器人模型

2016-10-28 15:58:29

大數(shù)據(jù)就業(yè)成功率

2024-10-14 14:30:00

2024-04-08 00:01:00

機(jī)器人任務(wù)特斯拉

2022-12-16 15:46:09

機(jī)器人模型

2017-01-12 21:08:23

機(jī)器人開源ROS

2009-06-18 08:00:50

機(jī)器人PR2馬拉松長(zhǎng)跑

2021-02-06 18:00:08

機(jī)器人AI人工智能

2012-10-23 14:27:55

無(wú)奈大裁員濾鏡拍照

2020-09-14 14:32:06

AI機(jī)器人人工智能

2020-03-20 10:30:38

AI 行業(yè) 人工智能

2024-08-06 08:40:32

2010-11-18 10:59:00

求職

2024-01-03 17:39:23

云計(jì)算混合云

2018-09-29 16:16:43

微軟機(jī)器人Windows

2023-04-10 09:13:34

AI

2025-03-11 09:10:00

2021-12-06 09:53:09

自然語(yǔ)言神經(jīng)網(wǎng)絡(luò)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)