字節(jié)具身智能新成果:用大規(guī)模視頻數(shù)據(jù)訓(xùn)練GR-1,復(fù)雜任務(wù)輕松應(yīng)對(duì)
最近 GPT 模型在 NLP 領(lǐng)域取得了巨大成功。GPT 模型首先在大規(guī)模的數(shù)據(jù)上預(yù)訓(xùn)練,然后在特定的下游任務(wù)的數(shù)據(jù)上微調(diào)。大規(guī)模的預(yù)訓(xùn)練能夠幫助模型學(xué)習(xí)可泛化的特征,進(jìn)而讓其輕松遷移到下游的任務(wù)上。
但相比自然語言數(shù)據(jù),機(jī)器人數(shù)據(jù)是十分稀缺的。而且機(jī)器人數(shù)據(jù)包括了圖片、語言、機(jī)器人狀態(tài)和機(jī)器人動(dòng)作等多種模態(tài)。為了突破這些困難,過去的工作嘗試用 contrastive learning [1] 和 masked modeling [2] 等方式來做預(yù)訓(xùn)練以幫助機(jī)器人更好的學(xué)習(xí)。
在最新的研究中,ByteDance Research 團(tuán)隊(duì)提出 GR-1,首次證明了通過大規(guī)模的視頻生成式預(yù)訓(xùn)練能夠大幅提升機(jī)器人端到端多任務(wù)操作方面的性能和泛化能力。實(shí)驗(yàn)證明這種預(yù)訓(xùn)練方法可以大幅提升模型表現(xiàn)。在極具挑戰(zhàn)的 CALVIN 機(jī)器人操作仿真數(shù)據(jù)集上,GR-1 在 1) 多任務(wù)學(xué)習(xí) 2) 零樣本場景遷移 3) 少量數(shù)據(jù) 4) 零樣本語言指令遷移上都取得了 SOTA 的結(jié)果。在真機(jī)上,經(jīng)過視頻預(yù)訓(xùn)練的 GR-1 在未見過的場景和物體的表現(xiàn)也大幅領(lǐng)先現(xiàn)有方法。
GR-1 在 CALVIN 中連續(xù)完成多個(gè)任務(wù)
GR-1 在真機(jī)上端到端完成多種任務(wù)
- 論文地址:https://arxiv.org/abs/2312.13139
- 論文網(wǎng)站:https://gr1-manipulation.github.io
方法
GR-1 是一個(gè)端到端的機(jī)器人操作模型,采用了 GPT 風(fēng)格的 transformer 作為模型架構(gòu)。GR-1 首先在大規(guī)模視頻數(shù)據(jù)上進(jìn)行視頻預(yù)測的預(yù)訓(xùn)練。預(yù)訓(xùn)練結(jié)束后,GR-1 在機(jī)器人數(shù)據(jù)上微調(diào)。微調(diào)的訓(xùn)練任務(wù)包含未來幀的預(yù)測和機(jī)器人動(dòng)作的預(yù)測。
GR-1 用來自 Ego4D [3] 數(shù)據(jù)的 8M 圖片來做視頻生成式預(yù)訓(xùn)練。在預(yù)訓(xùn)練階段,GR-1 的輸入包括視頻片段和描述視頻的文字。文字信息用 CLIP [4] 的文字編碼器編碼。視頻中的圖片用 MAE [5] 編碼,然后通過 perciever resampler [6] 來減少 token 的個(gè)數(shù)。輸出端 GR-1 在每一個(gè)時(shí)間戳通過學(xué)習(xí) [OBS] token 來輸出未來幀的圖片。[OBS] 對(duì)應(yīng)的輸出通過一個(gè) transformer 來解碼成圖片。在預(yù)訓(xùn)練階段,GR-1 采用了 mean squared error (MSE) 的損失函數(shù)。
在機(jī)器人數(shù)據(jù)微調(diào)階段,GR-1 的輸入包括任務(wù)語言指令,機(jī)器人狀態(tài)和觀測圖片。其中機(jī)器人狀態(tài)包括 6 維機(jī)器人位姿和夾抓的開閉狀態(tài)。機(jī)器人狀態(tài)通過 MLP 來編碼。輸出包括未來幀的圖片和機(jī)器人動(dòng)作。語言和圖片的編碼方式與預(yù)訓(xùn)練階段相同。輸出端 GR-1 通過學(xué)習(xí) [ACT] token 來預(yù)測下一個(gè)時(shí)間戳機(jī)器人的動(dòng)作。機(jī)械臂動(dòng)作的損失函數(shù)采用 smooth L1 loss;夾抓動(dòng)作的損失函數(shù)采用 binary cross entropy loss。
實(shí)驗(yàn)
作者在 CALVIN 仿真平臺(tái)上做了大量實(shí)驗(yàn)來驗(yàn)證 GR-1 的性能。CALVIN 是一個(gè)極具挑戰(zhàn)性的機(jī)器人多任務(wù)操作仿真平臺(tái)。其中包括 34 個(gè)通過語言指令的操作任務(wù)和 A, B, C, D 四個(gè)不同的環(huán)境。
在 ABCD->D 實(shí)驗(yàn)中,機(jī)器人在來自 A, B, C, D 四個(gè)環(huán)境的數(shù)據(jù)上訓(xùn)練,并在 D 中測試。在 ABC->D 實(shí)驗(yàn)中,機(jī)器人在來自 A, B, C 三個(gè)環(huán)境的數(shù)據(jù)上訓(xùn)練,并在 D 中測試。這個(gè)實(shí)驗(yàn)旨在測試 GR-1 應(yīng)對(duì)零樣本場景遷移的能力。測試中,機(jī)器人需要連續(xù)完成 5 個(gè)任務(wù)。表中展示了不同方法在連續(xù)完成 1,2,3,4,5 個(gè)任務(wù)的成功率和平均完成的任務(wù)數(shù)量。GR-1 在兩個(gè)實(shí)驗(yàn)中都超過了現(xiàn)有方法并在零樣本場景遷移上大幅領(lǐng)先。
該工作還進(jìn)行了小數(shù)據(jù)集的實(shí)驗(yàn)以理解 GR-1 在數(shù)據(jù)比較少的時(shí)候的表現(xiàn)。在 10% data 實(shí)驗(yàn)中,作者把 34 個(gè)任務(wù)中的每個(gè)任務(wù)的訓(xùn)練軌跡控制在 66 條??傑壽E數(shù)約為 ABCD->D 實(shí)驗(yàn)中的 10%。為了測試 GR-1 應(yīng)對(duì)未知語言的能力,作者用 GPT-4 為每個(gè)任務(wù)生成了 50 條新的未見過的語言指令來測試。GR-1 在小數(shù)據(jù)集和未知語言指令的設(shè)置中都超越了現(xiàn)有方法。
GR-1 真機(jī)實(shí)驗(yàn)包括了移動(dòng)物體和開關(guān)抽屜,如下圖所示:
移動(dòng)物體實(shí)驗(yàn)指令包括將物體移動(dòng)到盤子 / 桌面上。訓(xùn)練數(shù)據(jù)中包括移動(dòng)一個(gè)茄子、西蘭花和彩椒(如上圖最左所示)。作者首先在這些訓(xùn)練數(shù)據(jù)中見過的物體上做實(shí)驗(yàn)。在這個(gè)設(shè)置下,作者還測試了加入了干擾物和背景變化的實(shí)驗(yàn)。
作者還在訓(xùn)練數(shù)據(jù)中未見過的物體上做了實(shí)驗(yàn)。未見的物體包括未見過的物體實(shí)例(一組在訓(xùn)練數(shù)據(jù)中未見過的茄子、西蘭花和彩椒)和未見過的物體種類(西紅柿和黃桃)。
以下為開關(guān)抽屜的實(shí)驗(yàn):
如下表所示,GR-1 在真機(jī)實(shí)驗(yàn)中大幅領(lǐng)先對(duì)比的現(xiàn)有方法。
在消融實(shí)驗(yàn)中,作者對(duì)比了去掉未來幀預(yù)測和保留未來幀預(yù)測但去掉預(yù)訓(xùn)練的模型的能力。結(jié)果表明預(yù)測未來幀和預(yù)訓(xùn)練兩者都對(duì) GR-1 學(xué)習(xí)魯棒的機(jī)器人操作起到了關(guān)鍵作用。在預(yù)測動(dòng)作的同時(shí)加入未來幀的預(yù)測能幫助 GR-1 學(xué)習(xí)根據(jù)語言指令來預(yù)測未來場景變化的能力。這種能力正是機(jī)器人操作中需要的:根據(jù)人的語言指令來預(yù)測場景中應(yīng)用的變化能夠指導(dǎo)機(jī)器人動(dòng)作的生成。而大規(guī)模視頻數(shù)據(jù)的預(yù)訓(xùn)練則能幫助 GR-1 學(xué)習(xí)魯棒可泛化的預(yù)測未來的能力。
結(jié)論
GR-1 首次證明了大規(guī)模視頻生成式預(yù)訓(xùn)練能幫助機(jī)器人學(xué)習(xí)復(fù)雜的多任務(wù)操作。GR-1 首先在大規(guī)模視頻數(shù)據(jù)上預(yù)訓(xùn)練然后在機(jī)器人數(shù)據(jù)上進(jìn)行微調(diào)。在仿真環(huán)境和真機(jī)實(shí)驗(yàn)中,GR-1 都取得了 SOTA 的結(jié)果,并在極具挑戰(zhàn)的零樣本遷移上表現(xiàn)出魯棒的性能。