自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="tkwun"></sub>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

全新模型RoboVLMs解鎖VLA無限可能，真實(shí)機(jī)器人實(shí)驗(yàn)交出滿分答卷

作者：機(jī)器之心 2025-01-02 14:30:00

人工智能新聞

雖然 VLAs 在各種任務(wù)和場景中表現(xiàn)搶眼，但大家在模型設(shè)計(jì)上卻走了很多不同的路，比如用什么架構(gòu)、怎么選數(shù)據(jù)、怎么調(diào)訓(xùn)練策略等等，這導(dǎo)致領(lǐng)域內(nèi)對 “怎么做好一個(gè) VLA” 還沒有統(tǒng)一的答案。

本文作者來自清華大學(xué)、字節(jié)跳動(dòng)、中科院自動(dòng)化所、上海交通大學(xué)和新加坡國立大學(xué)。作者列表：李興航、李沛言、劉明桓、王棟、劉濟(jì)榕、康炳易、馬驍、孔濤、張翰博和劉華平。第一作者李興航是清華大學(xué)計(jì)算機(jī)系博士生。通訊作者是字節(jié)跳動(dòng)機(jī)器人研究員孔濤，新加坡國立大學(xué)博士后張翰博和清華大學(xué)計(jì)算機(jī)系教授劉華平。

近年來，視覺語言基礎(chǔ)模型（Vision Language Models, VLMs）大放異彩，在多模態(tài)理解和推理上展現(xiàn)出了超強(qiáng)能力?，F(xiàn)在，更加酷炫的視覺語言動(dòng)作模型（Vision-Language-Action Models, VLAs）來了！通過為 VLMs 加上動(dòng)作預(yù)測模塊，VLAs 不僅能 “看” 懂和 “說” 清，還能 “動(dòng)” 起來，為機(jī)器人領(lǐng)域開啟了新玩法！

雖然 VLAs 在各種任務(wù)和場景中表現(xiàn)搶眼，但大家在模型設(shè)計(jì)上卻走了很多不同的路，比如用什么架構(gòu)、怎么選數(shù)據(jù)、怎么調(diào)訓(xùn)練策略等等，這導(dǎo)致領(lǐng)域內(nèi)對 “怎么做好一個(gè) VLA” 還沒有統(tǒng)一的答案。為了理清這些問題，我們通過一系列的實(shí)驗(yàn)，提出了一個(gè)全新模型 ——RoboVLMs。

論文標(biāo)題：Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
論文地址：https://arxiv.org/pdf/2412.14058

這個(gè)模型超級簡單，但性能卻相當(dāng)硬核！它不僅在三個(gè)模擬任務(wù)中取得了高分，還在真實(shí)機(jī)器人實(shí)驗(yàn)中交出了滿分答卷。這篇文章就是要帶你一起看看，我們是如何用 RoboVLMs 解鎖 VLA 的無限可能！

四大靈魂拷問：RoboVLMs 是怎么煉成的？

我們圍繞四個(gè)關(guān)鍵問題，對 VLA 的設(shè)計(jì)展開了深度探索，下面就帶你看看答案！

1. 為什么要用 VLA 模型？

簡單說，通過實(shí)驗(yàn)，我們發(fā)現(xiàn)設(shè)計(jì)合理的 VLA 不僅能輕松搞定常見的操作任務(wù)，還能在陌生場景中穩(wěn)穩(wěn)發(fā)揮。

仿真任務(wù)中拿下頂尖成績

在 CALVIN 和 SimplerEnv 環(huán)境里，RoboVLMs 取得了壓倒性的勝利：

任務(wù)成功率：表現(xiàn)穩(wěn)定且超越主流模型。
泛化能力：即使在陌生場景中，表現(xiàn)依然抗打！

圖 1 SimplerEnv 仿真環(huán)境中的評測結(jié)果

圖 2 針對視覺語言預(yù)訓(xùn)練的消融實(shí)驗(yàn)結(jié)果

真實(shí)機(jī)器人實(shí)驗(yàn)也不輸

在真實(shí)環(huán)境中，RoboVLMs 面對更復(fù)雜的挑戰(zhàn)，仍然比其他模型表現(xiàn)更好。比如，在果蔬分類任務(wù)中，它不僅能精準(zhǔn)識別，還能應(yīng)對干擾環(huán)境，穩(wěn)穩(wěn)完成分類操作。無論是已知場景還是新任務(wù)，它都能輕松拿下。

圖 3 真實(shí)環(huán)境下的評測結(jié)果

對于未見過的技能描述、背景、干擾物體和目標(biāo)物體，RoboVLMs 均能很好的完成任務(wù)。

2. 怎么設(shè)計(jì)一個(gè)靠譜的 VLA 架構(gòu)？

這里面講究可不少！比如：

動(dòng)作空間：用連續(xù)動(dòng)作空間比離散的好很多。
歷史信息：加多步歷史信息后，模型的操作更穩(wěn)準(zhǔn)狠。
歷史信息組織模塊：一個(gè)專門的模塊可以讓模型更懂 “上下文”。

經(jīng)過一系列實(shí)驗(yàn)，我們確認(rèn)了這些設(shè)計(jì)選擇是提升模型性能和泛化能力的關(guān)鍵。進(jìn)一步的實(shí)驗(yàn)也表明，最優(yōu)的設(shè)計(jì)來自于基于 KosMos 基座模型的架構(gòu)，并且結(jié)合了專門的歷史信息組織模塊。這樣的設(shè)計(jì)在 CALVIN 中實(shí)現(xiàn)了出色的泛化能力，在 zero-shot 設(shè)置下僅有輕微的性能下降，而其他設(shè)計(jì)形式的模型則出現(xiàn)了顯著掉分。這一結(jié)論直接說明，架構(gòu)設(shè)計(jì)的好壞對模型的泛化能力和效率至關(guān)重要。

3. 選什么基座模型最合適？

我們對比了當(dāng)前主流的 8 種視覺語言模型（VLM），結(jié)果發(fā)現(xiàn) KosMos 和 Paligemma 的表現(xiàn)遙遙領(lǐng)先，輕松碾壓其他模型。無論是任務(wù)完成的精確度還是泛化能力，它們都展現(xiàn)出了壓倒性的優(yōu)勢。究其原因，主要得益于它們經(jīng)過了扎實(shí)且全面的視覺語言預(yù)訓(xùn)練，從而為模型提供了強(qiáng)大的先驗(yàn)知識和理解能力。

這一發(fā)現(xiàn)讓我們更加確信：選對基座模型，就是讓 VLA 模型起飛的關(guān)鍵一步！想要讓模型在多模態(tài)任務(wù)中表現(xiàn)驚艷，一個(gè)經(jīng)過深度預(yù)訓(xùn)練、具備強(qiáng)大視覺語言表征能力的 VLM 基座顯然能提供無與倫比的助力。而一旦打好了這個(gè)基礎(chǔ)，后續(xù)的設(shè)計(jì)和訓(xùn)練才能真正發(fā)揮最大潛力。

4. 跨本體數(shù)據(jù)什么時(shí)候加入最合適？

實(shí)驗(yàn)告訴我們一個(gè)黃金法則：在預(yù)訓(xùn)練階段引入跨本體數(shù)據(jù)（如 Open-X Embodiment 數(shù)據(jù)集）可以顯著提升模型的魯棒性和少樣本場景下的表現(xiàn)。反之，直接將跨本體數(shù)據(jù)和微調(diào)數(shù)據(jù)混合訓(xùn)練，效果就沒那么顯著了。這些結(jié)論為未來 VLA 模型的訓(xùn)練策略指明了方向。

具體實(shí)驗(yàn)中，我們在 WidowX+Bridge 和 Google Robot 兩大環(huán)境下分別進(jìn)行了不同訓(xùn)練策略的測試：

WidowX+Bridge 環(huán)境：

Bridge Finetune：直接在完整的 Bridge 數(shù)據(jù)集上微調(diào)（測試任務(wù)不包括在內(nèi)）。
OXE Pre-Train：先用 OXE 數(shù)據(jù)集預(yù)訓(xùn)練模型。
Post-Train：用經(jīng)過 OXE 預(yù)訓(xùn)練的模型再在 Bridge 數(shù)據(jù)集上微調(diào)。

Google Robot 環(huán)境：

RT-Partial Finetune：僅在特定的 RT 任務(wù)上微調(diào)。
RT Finetune：在完整的 RT 數(shù)據(jù)集上微調(diào)（包括測試任務(wù)）。
OXE Pre-Train：先用 OXE 數(shù)據(jù)集預(yù)訓(xùn)練模型。
Post-Train：在 OXE 預(yù)訓(xùn)練基礎(chǔ)上用 RT 數(shù)據(jù)集進(jìn)一步訓(xùn)練。

實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了：在預(yù)訓(xùn)練階段引入跨本體數(shù)據(jù)不僅能提升泛化能力，還能讓模型在少樣本和高復(fù)雜任務(wù)下表現(xiàn)更佳。

展望未來：VLA 的進(jìn)階之路

雖然 RoboVLMs 已經(jīng)很能打了，但接下來的發(fā)展空間更讓人期待！未來可以探索：

更細(xì)化的設(shè)計(jì)優(yōu)化：比如再打磨 VLM 內(nèi)部結(jié)構(gòu)、信息融合模塊和訓(xùn)練目標(biāo)，讓它更高效。
挑戰(zhàn)復(fù)雜任務(wù)：像 “做早餐” 這種長鏈條任務(wù)，也許是下一個(gè)突破點(diǎn)！
多模態(tài)協(xié)作能力：進(jìn)一步讓機(jī)器人 “看懂”、“聽清”、“動(dòng)得更聰明”。

RoboVLMs 的出現(xiàn)，驗(yàn)證了視覺語言動(dòng)作模型的可能性，也讓機(jī)器人更接近成為我們的全能助手。未來，它們或許不僅能理解語言和視覺，還能真正幫我們完成那些繁瑣又復(fù)雜的任務(wù)。接下來會有更多驚喜等著我們！

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 訓(xùn)練模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營