自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

字節(jié)提出 Vi-PRoM 視覺預(yù)訓(xùn)練方案，機(jī)器人操作成功率更高，操作效果更好了

作者：機(jī)器之心 2023-09-02 11:22:50

人工智能新聞

ByteDance Research 團(tuán)隊(duì)的研究者從預(yù)訓(xùn)練數(shù)據(jù)集、模型架構(gòu)和訓(xùn)練方法三個(gè)基本角度全面研究了視覺預(yù)訓(xùn)練策略對(duì)機(jī)器人操作任務(wù)的影響，提供了一些有利于機(jī)器人學(xué)習(xí)的重要實(shí)驗(yàn)結(jié)果。

近年來(lái)，利用大規(guī)模真實(shí)世界數(shù)據(jù)進(jìn)行的視覺預(yù)訓(xùn)練取得了顯著進(jìn)展，在基于像素觀察的機(jī)器人學(xué)習(xí)中展現(xiàn)出巨大的潛力。但這些工作在預(yù)訓(xùn)練的數(shù)據(jù)、方法和模型方面有所不同。因此哪些類型的數(shù)據(jù)、預(yù)訓(xùn)練方法和模型可以更好地輔助機(jī)器人操控仍然是一個(gè)懸而未決的問題。

基于此，ByteDance Research 團(tuán)隊(duì)的研究者從預(yù)訓(xùn)練數(shù)據(jù)集、模型架構(gòu)和訓(xùn)練方法三個(gè)基本角度全面研究了視覺預(yù)訓(xùn)練策略對(duì)機(jī)器人操作任務(wù)的影響，提供了一些有利于機(jī)器人學(xué)習(xí)的重要實(shí)驗(yàn)結(jié)果。此外，他們提出了一種名為 Vi-PRoM 的機(jī)器人操作視覺預(yù)訓(xùn)練方案，它結(jié)合了自監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)。其中前者采用對(duì)比學(xué)習(xí)從大規(guī)模未標(biāo)記的數(shù)據(jù)中獲取潛在模式，而后者旨在學(xué)習(xí)視覺語(yǔ)義和時(shí)序動(dòng)態(tài)變化。在各種仿真環(huán)境和真實(shí)機(jī)器人中進(jìn)行的大量機(jī)器人操作實(shí)驗(yàn)證明了該方案的優(yōu)越性。

論文地址：https://arxiv.org/pdf/2308.03620.pdf
項(xiàng)目地址：https://explore-pretrain-robot.github.io/

基準(zhǔn)研究

預(yù)訓(xùn)練數(shù)據(jù)

EgoNet 比 ImageNet 更強(qiáng)大。使用對(duì)比學(xué)習(xí)方法在不同的數(shù)據(jù)集（即 ImageNet 和 EgoNet）上預(yù)訓(xùn)練視覺編碼器，并觀察它們?cè)跈C(jī)器人操作任務(wù)中的表現(xiàn)。從下表 1 中可以看到，在 EgoNet 上預(yù)訓(xùn)練的模型在機(jī)器人操作任務(wù)上取得了更好的性能。顯然，機(jī)器人在操作任務(wù)方面更傾向于視頻中包含的交互知識(shí)和時(shí)序關(guān)系。此外，EgoNet 中以自我為中心的自然圖像具有更多關(guān)于世界的全局背景，這意味著可以學(xué)習(xí)更豐富的視覺特征。

模型結(jié)構(gòu)

ResNet-50 表現(xiàn)更好。從下表 2 中可以看出 ResNet-50 和 ResNet-101 在機(jī)器人操作任務(wù)上的表現(xiàn)優(yōu)于 ResNet-34。此外，隨著模型從 ResNet-50 增加到 ResNet-101，性能并沒有提高。

預(yù)訓(xùn)練方法

預(yù)訓(xùn)練方法首選對(duì)比學(xué)習(xí)。如下表 3 所示，MoCo-v3 在 ImageNet 和 EgoNet 數(shù)據(jù)集上均優(yōu)于 MAE，這證明了對(duì)比學(xué)習(xí)與掩模圖像建模相比更有效。此外，通過(guò)對(duì)比學(xué)習(xí)獲得的視覺語(yǔ)義對(duì)于機(jī)器人操作來(lái)說(shuō)比通過(guò)掩模圖像建模學(xué)習(xí)的結(jié)構(gòu)信息更重要。

算法介紹

基于上述探索，該工作提出了針對(duì)機(jī)器人操作的視覺預(yù)訓(xùn)練方案 (Vi-PRoM)，該方案在 EgoNet 數(shù)據(jù)集上預(yù)訓(xùn)練 ResNet-50 來(lái)提取機(jī)器人操作的全面視覺表示。具體來(lái)說(shuō)，他們首先采用對(duì)比學(xué)習(xí)以自我監(jiān)督的方式從 EgoNet 數(shù)據(jù)集中獲取人與物體的交互模式。然后提出了兩個(gè)額外的學(xué)習(xí)目標(biāo)，即視覺語(yǔ)義預(yù)測(cè)和時(shí)序動(dòng)態(tài)預(yù)測(cè)，以進(jìn)一步豐富編碼器的表示。下圖顯示了提出的 Vi-PRoM 的基本流程。值得注意的是，該工作不需要手動(dòng)標(biāo)注標(biāo)簽來(lái)學(xué)習(xí)視覺語(yǔ)義和時(shí)序動(dòng)態(tài)。

實(shí)驗(yàn)結(jié)果

該研究工作在兩種仿真環(huán)境 (Franka Kitchen 和 MetaWorld) 上進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明所提出的預(yù)訓(xùn)練方案在機(jī)器人操作上優(yōu)于以前最先進(jìn)的方法。消融實(shí)驗(yàn)結(jié)果如下表所示，可以證明視覺語(yǔ)義學(xué)習(xí)和時(shí)序動(dòng)態(tài)學(xué)習(xí)對(duì)于機(jī)器人操作的重要性。此外，當(dāng)兩個(gè)學(xué)習(xí)目標(biāo)都不存在時(shí)，Vi-PRoM 的成功率會(huì)大大下降，證明了視覺語(yǔ)義學(xué)習(xí)和時(shí)序動(dòng)態(tài)學(xué)習(xí)之間協(xié)作的有效性。

該工作還研究了 Vi-PRoM 的可擴(kuò)展性。如下左圖所示，在 Franka Kitchen 和 MetaWorld 模擬環(huán)境中，Vi-PRoM 的成功率隨著演示數(shù)據(jù)規(guī)模的增加而穩(wěn)步提高。在更大規(guī)模的專家演示數(shù)據(jù)集上進(jìn)行訓(xùn)練后，Vi-PRoM 模型顯示了其在機(jī)器人操作任務(wù)上的可擴(kuò)展性。

得益于 Vi-PRoM 強(qiáng)大的視覺表征能力，真實(shí)機(jī)器人可以成功打開抽屜和柜門。

Franka Kitchen 上的實(shí)驗(yàn)結(jié)果可以看出，Vi-PRoM 在五個(gè)任務(wù)上都比 R3M 具有更高的成功率和更高的動(dòng)作完成度。

R3M：

Vi-PRoM：

在 MetaWorld 上，由于 Vi-PRoM 的視覺表示學(xué)習(xí)了良好的語(yǔ)義和動(dòng)態(tài)特征，它可以更好地用于動(dòng)作預(yù)測(cè)，因此相比 R3M，Vi-PRoM 需要更少的步驟來(lái)完成操作。

R3M：

Vi-PRoM：

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sup id="4cw1t"></sup>

<style id="4cw1t"></style>

<style id="4cw1t"></style>

^{<thead id="4cw1t"></thead>}

<sub id="4cw1t"><p id="4cw1t"></p></sub>

<sup id="4cw1t"><rt id="4cw1t"></rt></sup>

<s id="4cw1t"><li id="4cw1t"></li></s>