自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

稚暉君的「好東西」揭曉!首個通用具身基座模型,機(jī)器人告別「看得懂做不來」

人工智能 新聞
機(jī)器人訓(xùn)練,苦數(shù)據(jù)難久矣。一方面是認(rèn)知維度的數(shù)據(jù):互聯(lián)網(wǎng)上海量的文本和圖片數(shù)據(jù),幫助機(jī)器人建立基礎(chǔ)認(rèn)知,理解世界是什么樣的。

上周五,稚暉君在微博上預(yù)告,「下周有好東西發(fā)布」。

圖片


還沒進(jìn)入「下周」多久,智元機(jī)器人的「好東西」揭曉了,還是雙重驚喜:Vision-Language-Latent-Action (ViLLA) 架構(gòu)和通用具身基座大模型 GO-1。

機(jī)器人訓(xùn)練,苦數(shù)據(jù)難久矣。一方面是認(rèn)知維度的數(shù)據(jù):互聯(lián)網(wǎng)上海量的文本和圖片數(shù)據(jù),幫助機(jī)器人建立基礎(chǔ)認(rèn)知,理解世界是什么樣的。

另一方面是動作維度的數(shù)據(jù),主要來源有人類的操作視頻、跨本體示范視頻、在虛擬場景中練習(xí)的仿真數(shù)據(jù),還有機(jī)器人在實際環(huán)境中實操得來的真機(jī)示教數(shù)據(jù)。

圖片

智元機(jī)器人將機(jī)器人的訓(xùn)練數(shù)據(jù)劃分為四個層次

然而現(xiàn)有的 VLA(Vision-Language-Action)架構(gòu),主要依賴真機(jī)和合成數(shù)據(jù)。

我們每天刷的短視頻有很多可供機(jī)器人學(xué)習(xí)的操作,但不能直接用,需要「翻譯」成機(jī)器人能理解的語言。

因此,機(jī)器人很難做到看完人類的視頻教程,腦子學(xué)會了,手學(xué)會了,直接上手做好了。

沒有充分激活人類 / 跨本體操作視頻數(shù)據(jù)這個寶貴的數(shù)據(jù)來源,機(jī)器人迭代的成本更高,進(jìn)化的速度也更慢了。

那么,怎樣的架構(gòu)才能充分利用好這些數(shù)據(jù)呢?

智元提出了全新的 Vision-Language-Latent-Action (ViLLA) 架構(gòu)。

與 VLA 架構(gòu)相比,ViLLA 通過預(yù)測 Latent Action Tokens(隱式動作標(biāo)記),讓機(jī)器人能夠?qū)⑷祟悇幼饕曨l轉(zhuǎn)化為自己可執(zhí)行的動作序列。這樣,機(jī)器人就能同時獲得認(rèn)知和動作兩個維度的訓(xùn)練,既知其然,也知其所以然。

這樣一來,機(jī)器人也能有效利用高質(zhì)量的 AgiBot World 數(shù)據(jù)集以及互聯(lián)網(wǎng)上廣泛的視頻數(shù)據(jù),增強(qiáng)策略的泛化能力。

基于 ViLLA 架構(gòu),智元打造了通用具身基座大模型 ——GO-1。它由 VLM (語言視覺模型) 和 MoE (專家混合模型) 組成。它整合了視覺、語言、動作、觸覺等多模態(tài)輸入,規(guī)劃具體動作,直接輸出機(jī)器人的動作執(zhí)行序列。

舉個例子來說,你告訴機(jī)器人去掛衣服,GO-1 會指導(dǎo)機(jī)器人理解任務(wù)要求,分解動作步驟,適應(yīng)具體環(huán)境,最終執(zhí)行操作。

但在更深的技術(shù)面,這是因為 GO-1 大模型融會貫通了機(jī)器人訓(xùn)練數(shù)據(jù)的四個層次:

在訓(xùn)練階段,學(xué)習(xí)了互聯(lián)網(wǎng)的大規(guī)模純文本和圖文數(shù)據(jù),所以能理解「掛衣服」在此情此景下的含義和要求。

學(xué)習(xí)過人類操作視頻和其他機(jī)器人的各種操作視頻,所以能知道掛衣服通常包括哪些環(huán)節(jié)。

學(xué)習(xí)過仿真的不同衣服、不同衣柜、不同房間,模擬過掛衣服的操作,所以能理解環(huán)節(jié)中對應(yīng)的物體和環(huán)境并打通整個任務(wù)過程。

又因為學(xué)習(xí)過真機(jī)的示教數(shù)據(jù),所以機(jī)器人能精準(zhǔn)完成任務(wù)。

這樣一來,GO-1 大模型可以幫助機(jī)器人完成全面的「基礎(chǔ)教育」和「職業(yè)教育」,讓機(jī)器人具備強(qiáng)大的遷移學(xué)習(xí)能力。面對新場景時,機(jī)器人既有基本常識,又能根據(jù)多種多樣的環(huán)境和物體,快速上手新操作。

圖片

  • 論文鏈接:https://agibot-world.com/blog/agibot_go1.pdf

GO-1:VLA 進(jìn)化到 ViLLA

與 Vision-Language-Action (VLA) 架構(gòu)相比,ViLLA 通過預(yù)測 Latent Action Tokens (隱式動作標(biāo)記),彌合圖像 - 文本輸入與機(jī)器人執(zhí)行動作之間的鴻溝。在真實世界的靈巧操作和長時任務(wù)方面表現(xiàn)卓越,遠(yuǎn)遠(yuǎn)超過了已有的開源 SOTA 模型。

圖片

ViLLA 架構(gòu)是由 VLM (多模態(tài)大模型) + MoE (混合專家) 組成,其中 VLM 借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力,MoE 中的 Latent Planner (隱式規(guī)劃器) 借助大量跨本體和人類操作數(shù)據(jù)獲得通用的動作理解能力,MoE 中的 Action Expert (動作專家) 借助百萬真機(jī)數(shù)據(jù)獲得精細(xì)的動作執(zhí)行能力。

在推理時,VLM、Latent Planner 和 Action Expert 三者協(xié)同工作:

  • VLM 采用 InternVL-2B,接收多視角視覺圖片、力覺信號、語言輸入等多模態(tài)信息,進(jìn)行通用的場景感知和指令理解
  • Latent Planner 是 MoE 中的一組專家,基于 VLM 的中間層輸出預(yù)測 Latent Action Tokens 作為 CoP (Chain of Planning,規(guī)劃鏈),進(jìn)行通用的動作理解和規(guī)劃
  • Action Expert 是 MoE 中的另外一組專家,基于 VLM 的中間層輸出以及 Latent Action Tokens,生成最終的精細(xì)動作序列

Latent Planner 和 Action Expert 是這個 MoE 框架里的 2 個關(guān)鍵構(gòu)成:

Latent Planner(隱式規(guī)劃器)

盡管 AgiBot World 數(shù)據(jù)集已經(jīng)是全球最大的機(jī)器人真機(jī)示教數(shù)據(jù)集,但這樣高質(zhì)量帶動作標(biāo)簽的真機(jī)數(shù)據(jù)量仍然有限,遠(yuǎn)少于互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集。

為此,智元采用 Latent Actions(隱式動作)來建模當(dāng)前幀和歷史幀之間的隱式變化,然后通過 Latent Planner 預(yù)測這些 Latent Actions,從而將異構(gòu)數(shù)據(jù)源中真實世界的動作知識轉(zhuǎn)移到通用操作任務(wù)中。

  • Latent Action Model(LAM,隱式動作模型)主要用于獲取當(dāng)前幀和歷史幀之間 Latent Actions 的 Groundtruth(真值),它由編碼器和解碼器組成。其中
  • 編碼器采用 Spatial-temporal Transformer,并使用 Causal Temporal Masks(時序因果掩碼)。
  • 解碼器采用 Spatial Transformer,以初始幀和離散化的 Latent Action Tokens 作為輸入。
  • Latent Action Tokens 通過 VQ-VAE 的方式進(jìn)行量化處理。
  • Latent Planner 負(fù)責(zé)預(yù)測這些離散的 Latent Action Tokens,它與 VLM 主干網(wǎng)絡(luò)共享相同的 Transformer 結(jié)構(gòu),但使用了兩套獨立的 FFN (前饋神經(jīng)網(wǎng)絡(luò)) 和 Q/K/V/O (查詢、鍵、值、輸出) 投影矩陣。Latent Planner 這組專家會逐層結(jié)合 VLM 輸出的中間信息,通過 Cross Entropy Loss(交叉熵?fù)p失)進(jìn)行監(jiān)督訓(xùn)練。

Action Expert(動作專家)

為了實現(xiàn) High-frequency(高頻率)且 Dexterous(靈活)的操控,智元引入了 Action Expert,其采用 Diffusion Model 作為目標(biāo)函數(shù)來建模低層級動作的連續(xù)分布。

  • Action Expert 結(jié)構(gòu)設(shè)計上與 Latent Planner 類似,也是與 VLM 主干網(wǎng)絡(luò)共享相同的 Transformer 結(jié)構(gòu),但使用兩套獨立的 FFN 和 Q/K/V/O 投影矩陣,它通過 Denoising Process(去噪過程)逐步回歸動作序列。
  • Action Expert 與 VLM、Latent Planner 分層結(jié)合,確保信息流的一致性與協(xié)同優(yōu)化。

GO-1 首個通用具身基座模型

而 GO-1 基于 ViLLA架構(gòu)。具體來說,VLM 作為通用具身基座大模型的主干網(wǎng)絡(luò),繼承開源多模態(tài)大模型 InternVL2.5-2B 的權(quán)重,利用互聯(lián)網(wǎng)大規(guī)模純文本和圖文數(shù)據(jù),讓 GO-1 大模型具備了通用的場景感知和理解能力。

隱動作專家模型作為第一個專家模型,是 GO-1 大模型中隱式的規(guī)劃器,它利用到了大規(guī)模人類操作和跨本體操作視頻,讓模型具備動作的理解能力。

GO-1 大模型的最后是作為動作預(yù)測器的動作專家模型,它利用高質(zhì)量的仿真數(shù)據(jù)、真機(jī)數(shù)據(jù),讓模型具備了動作的精細(xì)執(zhí)行能力。

作為通用具身基座大模型,GO-1 實現(xiàn)了四項突破:

  • 人類視頻學(xué)習(xí):GO-1 大模型可以結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范進(jìn)行學(xué)習(xí),增強(qiáng)模型對人類行為的理解,更好地為人類服務(wù)。
  • 小樣本快速泛化:GO-1 大模型具有強(qiáng)大的泛化能力,能夠在極少數(shù)據(jù)甚至零樣本下泛化到新場景、新任務(wù),降低了具身模型的使用門檻,使得后訓(xùn)練成本非常低。
  • 一腦多形:GO-1 大模型是通用機(jī)器人策略模型,能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體,群體升智。
  • 持續(xù)進(jìn)化:GO-1 大模型搭配智元一整套數(shù)據(jù)回流系統(tǒng),可以從實際執(zhí)行遇到的問題數(shù)據(jù)中持續(xù)進(jìn)化學(xué)習(xí),越用越聰明。

實驗結(jié)果

通過 Vision-Language-Latent-Action (ViLLA) 創(chuàng)新性架構(gòu),研究團(tuán)隊在五種不同復(fù)雜度任務(wù)上測試 GO-1。

相比已有的最優(yōu)模型,GO-1 成功率大幅領(lǐng)先,平均成功率提高了 32%(46%→78%)。其中 GO-1 在倒水(Pour Water)、清理桌面(Table Bussing) 和補(bǔ)充飲料( Restock Beverage) 任務(wù)表現(xiàn)尤為突出。

圖片

此外,他們還對 Latent Planner 進(jìn)行了消融實驗,可以看到增加 Latent Planner 可以提升 12% 的成功率 (66%→78%)。

在破解機(jī)器人訓(xùn)練的數(shù)據(jù)難題上,智元始終秉持開源精神,推動業(yè)界共享。

去年 12 月,智元面向全球開源了 AgiBot World 數(shù)據(jù)集大規(guī)模訓(xùn)練數(shù)據(jù)集,這是首個基于真實場景和全棧硬件的平臺所采集的百萬級機(jī)器人數(shù)據(jù)集。今年 2 月,智元開源了 AgiBot Digital World 仿真數(shù)據(jù)集,還可以提供多元化的專家軌跡生成策略。

如今,隨著 ViLLA 架構(gòu)與 GO-1 大模型的重磅發(fā)布,機(jī)器人不僅擁有了海量真實和仿真數(shù)據(jù),更具備了快速學(xué)習(xí)的遷移能力,讓機(jī)器在拓展了運動能力之外,更加具備了 AI 的能力,作業(yè)能力,是讓機(jī)器具備了真正的價值。

相信機(jī)器人將能更好地適應(yīng)千變?nèi)f化的現(xiàn)實環(huán)境,向著具備通用智能的自主體發(fā)展,在商業(yè)、工業(yè)、家居等多個領(lǐng)域大展身手。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-11 10:12:07

2020-05-06 09:10:08

機(jī)器學(xué)習(xí)無監(jiān)督機(jī)器學(xué)習(xí)有監(jiān)督機(jī)器學(xué)習(xí)

2022-01-20 08:49:24

OTDR光纖

2024-12-30 12:41:52

AI數(shù)據(jù)模型

2024-10-24 15:21:08

2020-07-24 14:54:17

人工智能機(jī)器學(xué)習(xí)技術(shù)

2015-10-10 11:43:19

數(shù)據(jù)漫畫人才

2015-12-15 14:08:31

2020-03-17 19:39:50

區(qū)塊鏈區(qū)塊鏈技術(shù)

2022-08-16 21:01:56

runAsyncreload數(shù)據(jù)

2023-08-18 13:55:54

機(jī)器人AI

2018-01-08 14:24:32

程序員段子工程師

2021-11-18 08:09:40

Python爬蟲Python基礎(chǔ)

2025-01-09 12:39:27

2022-06-06 08:02:21

ahooks架構(gòu)hooks

2025-03-19 10:26:10

2024-12-19 14:44:22

點贊
收藏

51CTO技術(shù)棧公眾號