自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先

發(fā)布于 2024-9-27 10:13
瀏覽
0收藏

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2409.12514
項(xiàng)目鏈接:https://tiny-vla.github.io/

具身智能近期發(fā)展迅速,擁有了大模型"大腦"的機(jī)械臂在動(dòng)作上更加高效和精確,但現(xiàn)有的一個(gè)難點(diǎn)是:模型受到算力和數(shù)據(jù)的制約。如何使用更少的訓(xùn)練數(shù)據(jù),以更快的推理速度,實(shí)現(xiàn)媲美OpenVLA的性能?今天給大家分享的TinyVLA,就是來解決這個(gè)難題的,還有多種規(guī)模的模型可供選擇!

總結(jié)速覽

解決的問題:現(xiàn)有的視覺-語言-動(dòng)作(VLA)模型在推理速度慢和需要大量機(jī)器人數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練方面面臨挑戰(zhàn),限制了實(shí)際應(yīng)用。

提出的方案:引入一種新型緊湊型視覺-語言-動(dòng)作模型TinyVLA,提供更快的推理速度和更高的數(shù)據(jù)效率,消除預(yù)訓(xùn)練階段的需求。

應(yīng)用的技術(shù):TinyVLA框架包括兩個(gè)關(guān)鍵組件:1) 使用高效的多模態(tài)模型初始化策略骨干;2) 在微調(diào)過程中集成擴(kuò)散策略解碼器,以實(shí)現(xiàn)精確的機(jī)器人動(dòng)作。

達(dá)到的效果:TinyVLA在仿真和實(shí)際機(jī)器人上進(jìn)行了廣泛評估,顯著優(yōu)于現(xiàn)有的VLA模型OpenVLA,在速度和數(shù)據(jù)效率上表現(xiàn)更佳,同時(shí)在語言指令、未知物體、位置變化等方面展現(xiàn)出強(qiáng)大的泛化能力。

方法

1. 訓(xùn)練輕量級VLM模型。 現(xiàn)有的VLM大多在30億參數(shù)以上,推理速度較慢,訓(xùn)練周期長,因此我們訓(xùn)練了一系列更加緊湊的VLM模型,我們使用pythia作為我們的LLM部分,參照LLaVA的框架我們訓(xùn)練了3個(gè)不同大小的VLM,參數(shù)量從4億到14億。以此作為我們VLA的主干網(wǎng)絡(luò)。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

2. 機(jī)器人數(shù)據(jù)微調(diào)VLA模型。 我們用訓(xùn)練好的VLM權(quán)重來初始化我們的VLA模型,但是VLM只能生成語言,無法直接生成動(dòng)作;OpenVLA和RT-2采用將動(dòng)作離散化的方式,將動(dòng)作預(yù)測任務(wù)轉(zhuǎn)變成next token prediction任務(wù),但這種方式會(huì)使得模型的訓(xùn)練難度大大增加;因此我們采取用policy head 網(wǎng)絡(luò)替換原有的llm head,從而在不破壞動(dòng)作連續(xù)性的同時(shí),使得模型訓(xùn)練更加簡單。我們采取Diffusion policy網(wǎng)絡(luò)來預(yù)測動(dòng)作。為了增加動(dòng)作的一致性以及提升動(dòng)作預(yù)測效率,TinyVLA一次性會(huì)預(yù)測未來16步的動(dòng)作。為了進(jìn)一步減少資源消耗,我們使用LoRA微調(diào)VLM部分,使得需要訓(xùn)練的參數(shù)只占總參數(shù)的5%。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

實(shí)驗(yàn)

仿真實(shí)驗(yàn)結(jié)果

如圖所示,TinyVLA-H在metaworld的50個(gè)任務(wù)上都超越baseline,特別是較難的任務(wù)中,更是大幅領(lǐng)先。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

多任務(wù)真機(jī)實(shí)驗(yàn)結(jié)果

1. 單臂多任務(wù)實(shí)驗(yàn)。 如圖所示,在5個(gè)真實(shí)環(huán)境下的任務(wù)分別測試20次,使用不同的權(quán)重測試3輪并且統(tǒng)計(jì)成功率均值和方差。TinyVLA-H實(shí)現(xiàn)了最好的效果,在翻馬克杯任務(wù)、疊方塊任務(wù)以及關(guān)抽屜任務(wù)上都達(dá)到了96%以上的成功率,平均成功率達(dá)到94%,比OpenVLA提升了25.7%。并且,從TinyVLA-S到TinyVLA-H,隨著模型增加,成功率也在增加,證明TinyVLA符合Scaling Law。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

2. 雙臂任務(wù)實(shí)驗(yàn)。 雙臂環(huán)境和單臂完全不同,因?yàn)閷?yīng)的動(dòng)作維度不同,而OpenVLA是自回歸形式生成動(dòng)作,切換到雙臂環(huán)境導(dǎo)致動(dòng)作長度不一致,使得OpenVLA沒法正常生成動(dòng)作,并且Open-x Embodiedment數(shù)據(jù)集也只包含單臂任務(wù),這進(jìn)一步導(dǎo)致OpenVLA無法正常生成雙臂動(dòng)作。而TinyVLA無需修改模型結(jié)構(gòu),只需要更改動(dòng)作維度,即可直接遷移到雙臂環(huán)境。如圖所示,在3個(gè)真實(shí)環(huán)境下的任務(wù)分別測試10次,使用不同的權(quán)重測試3輪并且統(tǒng)計(jì)成功率均值和方差。TinyVLA-H 仍然大幅領(lǐng)先Baseline。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

泛化實(shí)驗(yàn)結(jié)果

1. 指令泛化。 由于TinyVLA的主干網(wǎng)絡(luò)是一個(gè)在大規(guī)模圖片文本數(shù)據(jù)集上預(yù)訓(xùn)練的VLM模型,盡管沒在相應(yīng)的機(jī)器人指令數(shù)據(jù)集上預(yù)訓(xùn)練,但TinyVLA-H體現(xiàn)出了一些類似于RT-2的指令理解能力。為了更好的區(qū)分難度,劃分了3個(gè)難度等級(越大越難),第1級,理解未在機(jī)器人數(shù)據(jù)中出現(xiàn)的顏色;第2級,區(qū)分不同物體;第3級,辨別新的物體并且實(shí)現(xiàn)已知物體的新用途。對于第1級,TinyVLA能準(zhǔn)確區(qū)分不同顏色的同一物體,且該顏色并沒有在機(jī)器人數(shù)據(jù)集中出現(xiàn)。第2級,TinyVLA能區(qū)分不同物體,這些物體雖然都出現(xiàn)在機(jī)器人數(shù)據(jù)中但并沒有同時(shí)出現(xiàn)過,也沒有在相應(yīng)的區(qū)分任務(wù)中訓(xùn)練過。第3級,指令是全新的,要求TinyVLA抓起一個(gè)沒有在機(jī)器人任務(wù)中見過的小車并放到盒子里,注意盒子只在開蓋子的任務(wù)中出現(xiàn)過。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

2. 視角泛化。 視角泛化是機(jī)器人領(lǐng)域的一大難題,輕微晃動(dòng)視角都可能會(huì)導(dǎo)致任務(wù)完成失敗。TinyVLA在一定范圍內(nèi)展現(xiàn)出了視角泛化能力。如圖所示,我們測試了4個(gè)視角度數(shù),范圍從-30度到+30度,左右視角分別測試。對于關(guān)抽屜任務(wù),TinyVLA展現(xiàn)出較好的能力,但是精度要求更高的疊方塊任務(wù)則較難完成任務(wù)。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

3. 位置泛化。 位置泛化要求模型不僅要能在圖片中識(shí)別出目標(biāo)物體的位置,還要求模型能泛化到不同的動(dòng)作空間。而TinyVLA在這項(xiàng)測試中大部分位置能夠完成任務(wù),少部分極端位置則遜色于OpenVLA。這可能是由于OpenVLA在大規(guī)模的機(jī)器人數(shù)據(jù)集上預(yù)訓(xùn)練,且該數(shù)據(jù)集主要是pick place的任務(wù)類型。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

4. 物體以及外觀泛化。 更換不同的物體或者相同的物體變換顏色,TinyVLA能實(shí)現(xiàn)媲美OpenVLA的性能,而只需要OpenVLA約1/5的參數(shù)量,且推理速度更快。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

5. 背景泛化。 背景變化同樣會(huì)導(dǎo)致任務(wù)失敗,因?yàn)楸尘巴ǔ?huì)導(dǎo)致大面積的干擾,從而影響任務(wù)的完成。我們測試了6種背景下模型是否還能正常完成任務(wù),且我們選擇的疊方塊和抓網(wǎng)球都是位置敏感性任務(wù),更容易收到干擾。測試結(jié)果如圖,TinyVLA與OpenVLA展現(xiàn)出了相近的能力。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

6. 光照泛化。

讓具身智能更快更強(qiáng)!華東師大&上大提出TinyVLA:高效視覺-語言-動(dòng)作模型,遙遙領(lǐng)先-AI.x社區(qū)

結(jié)論

在機(jī)器人領(lǐng)域,VLA模型展現(xiàn)出了強(qiáng)大的泛化能力,包括但不限于物體、干擾物、指令泛化等。但VLA模型同時(shí)也面臨著兩個(gè)嚴(yán)峻的問題,一方面現(xiàn)有的VLA如RT-2、OpenVLA有著70億參數(shù)甚至550億參數(shù),龐大的參數(shù)量到導(dǎo)致模型的推理速度十分緩慢,OpenVLA在H100上推理也只能達(dá)到約6Hz的運(yùn)行頻率。另一方面,現(xiàn)有VLA都是在龐大的機(jī)器人數(shù)據(jù)上預(yù)訓(xùn)練過的,比如OpenVLA在Open-x Embodiedment dataset上預(yù)訓(xùn)練大約970K軌跡,而真實(shí)環(huán)境很難收集到如此大規(guī)模的數(shù)據(jù),因此如何高效地利用少量數(shù)據(jù)也是機(jī)器人領(lǐng)域難點(diǎn)之一。為了緩解這兩個(gè)問題,本文推出了TinyVLA,以實(shí)現(xiàn)更快的推理速度以及不使用大量的預(yù)訓(xùn)練數(shù)據(jù),并且實(shí)現(xiàn)媲美OpenVLA的性能。


TinyVLA將現(xiàn)有的VLM模型和Diffusion policy網(wǎng)絡(luò)相結(jié)合,將VLM的泛化能力遷移到機(jī)器人領(lǐng)域的同時(shí),還能利用Diffusion policy網(wǎng)絡(luò)從而緩解自回歸生成導(dǎo)致的推理速度緩慢。我們根據(jù)LLaVA的框架首先預(yù)訓(xùn)練了一系列不同大小的VLM,然后將VLM的權(quán)重直接遷移到我們的VLA模型,再用下游機(jī)器人數(shù)據(jù)進(jìn)行LoRA微調(diào)。根據(jù)VLM的參數(shù)量變化,我們的TinyVLA也有三種規(guī)模,總參數(shù)量從4億到13億參數(shù)。


在下游任務(wù)上,我們最大的TinyVLA-H推理延遲比OpenVLA快20倍且單臂環(huán)境平均任務(wù)成功率高出25.7%,如下圖所示。同時(shí)我們的TinyVLA還能夠直接遷移到雙臂環(huán)境,無需修改網(wǎng)絡(luò)結(jié)構(gòu)等,只需要修改預(yù)測的動(dòng)作維度即可;但受限于OpenVLA的自回歸結(jié)構(gòu)以及預(yù)訓(xùn)練數(shù)據(jù)均為單臂,導(dǎo)致其很難在雙臂環(huán)境下正常運(yùn)行。此外我們的TinyVLA在多個(gè)泛化指標(biāo)上能達(dá)到與OpenVLA相媲美的性能,比如物體泛化、位置泛化、干擾物、背景泛化;而在視角變化泛化上,TinyVLA更是遙遙領(lǐng)先,在-30度到30度的超大范圍測試中,部分情況仍能準(zhǔn)確完成任務(wù)。


本文轉(zhuǎn)自AI生成未來 ,作者:Junjie Wen等


原文鏈接:??https://mp.weixin.qq.com/s/8OsqXRvfU9ksVzyuV-vavA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦