自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)精通3D任務(wù)的具身通才智能體:感知、推理、規(guī)劃、行動(dòng)統(tǒng)統(tǒng)拿下

人工智能 新聞
今年以來(lái),以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等為代表的多模態(tài)大語(yǔ)言模型(Multi-modal Large Language Model)在自然語(yǔ)言處理、視覺(jué)理解、機(jī)器人等任務(wù)上取得了顯著的成功,但這類模型都是基于二維圖片文本數(shù)據(jù)訓(xùn)練得到,在理解三維世界和與三維世界交互方面能力欠缺。

想要邁向通用人工智能,必須要構(gòu)建一個(gè)能夠理解人類生活的真實(shí)世界,并掌握豐富技能的具身通用智能體。

今年以來(lái),以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等為代表的多模態(tài)大語(yǔ)言模型(Multi-modal Large Language Model)在自然語(yǔ)言處理、視覺(jué)理解、機(jī)器人等任務(wù)上取得了顯著的成功,但這類模型都是基于二維圖片文本數(shù)據(jù)訓(xùn)練得到,在理解三維世界和與三維世界交互方面能力欠缺。

為解決這一問(wèn)題,北京通用人工智能研究院聯(lián)合北京大學(xué)、卡耐基梅隆大學(xué)和清華大學(xué)的研究人員提出了首個(gè)三維世界中的具身多任務(wù)多模態(tài)的通才智能體 LEO


  • 論文鏈接:https://arxiv.org/abs/2311.12871
  • 項(xiàng)目主頁(yè):https://embodied-generalist.github.io/
  • 代碼鏈接:https://github.com/embodied-generalist/embodied-generalist

通才智能體 LEO 以大語(yǔ)言模型為基礎(chǔ),可以完成感知(perception)、定位(grounding)、推理(reasoning)、規(guī)劃(planning)和動(dòng)作執(zhí)行(acting)等任務(wù)。

LEO 的三維視覺(jué)語(yǔ)言理解、具身推理和動(dòng)作執(zhí)行能力在現(xiàn)實(shí)世界中有廣泛的應(yīng)用場(chǎng)景與巨大的應(yīng)用價(jià)值。作為未來(lái)的家庭助理,LEO 可以與人交互,回答與場(chǎng)景相關(guān)的問(wèn)題,例如根據(jù)用戶喜好調(diào)整家居布局、幫助用戶找到特定物品、為用戶的各種問(wèn)題提供建議。LEO 的導(dǎo)航能力可用于購(gòu)物中心、辦公樓中的智能引導(dǎo),其操控能力可用于家居自動(dòng)化任務(wù),如打掃、整理或簡(jiǎn)單廚房任務(wù),以及倉(cāng)庫(kù)和物流中心的物品整理和搬運(yùn)。

研究概述

圖片

圖 1. LEO 能力示意圖

通才智能體 LEO 以 LLM 為基礎(chǔ),在不同任務(wù)之間采用共享的架構(gòu)和權(quán)重,經(jīng)由如下兩個(gè)階段訓(xùn)練得到:

1)三維視覺(jué) - 語(yǔ)言對(duì)齊 

2)視覺(jué) - 語(yǔ)言 - 動(dòng)作指令微調(diào)。

為完成上述兩階段的訓(xùn)練,作者收集并生成了包括物體級(jí)別(object-level)和場(chǎng)景級(jí)別(scene-level)的大規(guī)模數(shù)據(jù)集,并在問(wèn)答(3D QA)、描述(3D captioning)、具身推理(embodied reasoning)、具身導(dǎo)航(embodied navigation)、機(jī)器人操作(robotic manipulation)多個(gè)任務(wù)上展示了 LEO 杰出的能力。

該工作的主要貢獻(xiàn)可以總結(jié)如下:

1)構(gòu)建了第一個(gè)能夠在三維世界中進(jìn)行感知、定位、推理、規(guī)劃和動(dòng)作執(zhí)行的具身智能體 LEO。

2)提出了高效的學(xué)習(xí)策略,將以物體為中心(object-centric)的三維表征與 LLM 連接起來(lái),同時(shí)加入具身動(dòng)作任務(wù),在三維世界中打通視覺(jué) - 語(yǔ)言 - 動(dòng)作(vision-language-action)。

3)提出了生成高質(zhì)量三維視覺(jué)語(yǔ)言數(shù)據(jù)的方法,構(gòu)建了視覺(jué) - 語(yǔ)言 - 動(dòng)作(vision-language-action)指令微調(diào)的大規(guī)模數(shù)據(jù)集。

模型介紹

圖片

圖 2. LEO 的通用任務(wù)序列和自回歸式訓(xùn)練目標(biāo)

LEO 模型的整體設(shè)計(jì)思想圍繞兩個(gè)核心點(diǎn):

1)在統(tǒng)一的框架內(nèi)處理第一視角的二維圖片、三維場(chǎng)景信息和自然語(yǔ)言指令,并同時(shí)支持文本與動(dòng)作的輸出;

2)能夠充分利用預(yù)訓(xùn)練語(yǔ)言模型的先驗(yàn)信息來(lái)促進(jìn)下游任務(wù)?;谏鲜鰞蓚€(gè)原則,作者設(shè)計(jì)了如圖 2 所示的模型框架,將所有的多模態(tài)(2D、3D、text)輸入都對(duì)齊到 LLM 的文本空間。

其中,作者利用 PointNet++ 提取出場(chǎng)景點(diǎn)云中物體級(jí)別的特征,隨后用空間編碼器(Spatial Transformer)對(duì)空間位置關(guān)系進(jìn)行建模,從而得到三維場(chǎng)景級(jí)別(scene-level)的特征。輸入中的二維圖像則經(jīng)過(guò)預(yù)訓(xùn)練模型 OpenCLIP ConvNext 處理得到第一視角的視覺(jué)特征。二維和三維的視覺(jué)特征最后分別經(jīng)過(guò) projector 映射到文本空間中。

具體過(guò)程如圖 3 所示。

圖片圖 3. 圖片和三維場(chǎng)景特征提取示意圖

LLM 方面,作者采用 Vicuna-7B 作為預(yù)訓(xùn)練語(yǔ)言模型來(lái)處理 token 序列,訓(xùn)練中,利用 LoRA 方法來(lái)微調(diào) LLM,訓(xùn)練目標(biāo)如圖 2 中所示。

數(shù)據(jù)集

數(shù)據(jù)集概況

根據(jù)兩階段的訓(xùn)練策略,作者分別收集了相應(yīng)的數(shù)據(jù),其整體概況如圖 4 所示。數(shù)據(jù)集涵蓋了大規(guī)模的三維物體數(shù)據(jù),如 Objaverse,以及三維場(chǎng)景數(shù)據(jù)集,如 ScanNet、3RScan、Matterport3D 等,還包括了機(jī)器人操作相關(guān)的數(shù)據(jù)集 CLIPort,表 1 則給出了兩階段訓(xùn)練中所有數(shù)據(jù)的來(lái)源和數(shù)量統(tǒng)計(jì)。

圖 4. LEO 數(shù)據(jù)集示意圖

圖片

表 1. 數(shù)據(jù)集統(tǒng)計(jì)

LLM 輔助數(shù)據(jù)生成

為了解決當(dāng)前三維場(chǎng)景視覺(jué)語(yǔ)言指令微調(diào)數(shù)據(jù)不足、現(xiàn)有的生成方法得到的數(shù)據(jù)質(zhì)量不高的問(wèn)題,作者提出了基于三維在場(chǎng)景圖(scene graph)的數(shù)據(jù)生成方法,以及精煉過(guò)程(refinement procedures)來(lái)生成高質(zhì)量的數(shù)據(jù)。具體過(guò)程如圖 5 所示。

圖片

圖 5. 基于 LLM 的三維視覺(jué) - 語(yǔ)言指令微調(diào)數(shù)據(jù)生成

為了提高 LLM 生成數(shù)據(jù)的可靠性,作者提出了物體為中心的思維鏈(Object-centric Chain-Of-Thought)方法,提高生成回答和場(chǎng)景的關(guān)聯(lián),減少了輸出中的幻覺(jué)(hallucination),并進(jìn)一步通過(guò)精煉過(guò)程(Refinement Procedures)糾正生成數(shù)據(jù)中的錯(cuò)誤。經(jīng)過(guò)這一流程,最終得到了高質(zhì)量的指令微調(diào)數(shù)據(jù),更多關(guān)于數(shù)據(jù)集生成方法的細(xì)節(jié)和統(tǒng)計(jì)結(jié)果參見(jiàn)論文的附錄部分。

模型能力

三維視覺(jué)語(yǔ)言理解和具身推理

視頻 1. LEO 在 ScanQA, Scan2Cap, SQA 等任務(wù)上的表現(xiàn)

作者在三維場(chǎng)景問(wèn)答數(shù)據(jù)集 ScanQA、三維物體描述數(shù)據(jù)集 Scan2Cap、三維場(chǎng)景具身推理數(shù)據(jù)集 SQA3D 上測(cè)試了模型的能力,這幾類任務(wù)都以三維場(chǎng)景、自然語(yǔ)言指令為輸入,其中 SQA3D 任務(wù)上還包括了提問(wèn)時(shí)所處的位置和朝向,基于這些輸入模型需要給出相應(yīng)的回答,如上面的視頻所示。

作者比較了之前各個(gè)數(shù)據(jù)集上的 SOTA 方法,如 3D-VisTA [4],3D-LLM [5],結(jié)果表 2 所示,實(shí)驗(yàn)結(jié)果表明 LEO 在三維視覺(jué)語(yǔ)言理解的任務(wù)上的多個(gè)指標(biāo)明顯優(yōu)于之前的方法。

圖片

表 2 - 表 4. LEO 在三維視覺(jué)語(yǔ)言理解任務(wù)上的性能表現(xiàn)

三維世界中的具身動(dòng)作執(zhí)行

視頻 2. LEO 在 manipulation 和 object navigation 任務(wù)上的表現(xiàn)

作者測(cè)試了 LEO 在機(jī)器人操作數(shù)據(jù)集 CLIPort 上的表現(xiàn),該任務(wù)要求模型根據(jù)三維、二維感知結(jié)果和自然語(yǔ)言指令輸出機(jī)械臂操作指令,如視頻 2 所示。作者比較了 CLIPort 的基線方法 [6],結(jié)果如表 3 所示,證明了提出方法的優(yōu)越性。另外,作者還測(cè)試了 LEO 在 MP3D(in domain)和 HM3D(out of distribution)這兩個(gè)數(shù)據(jù)集上的表現(xiàn),這一任務(wù)以三維場(chǎng)景、第一視角圖片和自然語(yǔ)言指令作為輸入,模型需要給出下一步的動(dòng)作,如視頻 3 所示。

論文與近期的相關(guān)工作 [7][8] 進(jìn)行了比較,如表 4 所示??梢钥闯鏊岱椒ㄔ趯W(xué)習(xí)最短路徑數(shù)據(jù)下的表現(xiàn)可圈可點(diǎn),在 SPL 指標(biāo)上超越了先前的基準(zhǔn)方法,而由于 LEO 的模型沒(méi)有采用 recurrence 的結(jié)構(gòu),因此在學(xué)習(xí) 70k human demonstrations 的設(shè)定下表現(xiàn)出的能力有限。

圖片

圖 6. LEO 的能力可視化

三維場(chǎng)景中的對(duì)話和規(guī)劃

圖 6 給出了 LEO 在多種任務(wù)中的可視化結(jié)果,可以看出,由于經(jīng)過(guò)了指令微調(diào)訓(xùn)練的過(guò)程,LEO 可以進(jìn)行多輪的場(chǎng)景對(duì)話,如按照用戶需求在場(chǎng)景中尋找物體、按照不同的要求描述房間中的物體、給出建議等。還可以根據(jù)場(chǎng)景信息進(jìn)行任務(wù)規(guī)劃,如將房間整理為一個(gè)學(xué)習(xí)空間、打掃房間、重新裝飾房間等,更多的例子可以在項(xiàng)目主頁(yè)中進(jìn)一步了解。

實(shí)驗(yàn)分析

圖片

圖 7. 消融實(shí)驗(yàn)結(jié)果

為了研究所提出的訓(xùn)練策略有效性,作者進(jìn)行了不同數(shù)據(jù)集和訓(xùn)練階段的多組對(duì)比實(shí)驗(yàn)。其中圖 7-(a) 展示的是采用不同的訓(xùn)練數(shù)據(jù)得到的模型在多個(gè)任務(wù)上的表現(xiàn),圖 7-(b) 展示的是采用不同規(guī)模的 token 訓(xùn)練得到的模型對(duì) test loss 的影響。

從實(shí)驗(yàn)可以得出如下結(jié)論:1)指令微調(diào)訓(xùn)練遵循 scaling law [9] 的規(guī)律。2)所提出的兩階段訓(xùn)練策略是重要的,對(duì)齊階段的缺失會(huì)造成性能的明顯下降。3)簡(jiǎn)單將模型參數(shù)規(guī)模從 7B 擴(kuò)大至 13B 會(huì)造成性能的降低。

結(jié)論

本文提出的智能體 LEO 將當(dāng)前的 LLM 模型能力拓展到了三維世界以及動(dòng)作執(zhí)行任務(wù)上,這一工作為構(gòu)建通用具身智能體邁出了重要的一步。

基于這一工作,作者認(rèn)為未來(lái)可以在如下方面進(jìn)一步進(jìn)行探索:

1)通過(guò)大規(guī)模的場(chǎng)景 - 文本數(shù)據(jù)對(duì)提升三維視覺(jué) - 語(yǔ)言定位能力;

2)填補(bǔ)視覺(jué) - 語(yǔ)言能力和動(dòng)作執(zhí)行能力之間的差距;

3)探索具身通用智能體的對(duì)齊和安全問(wèn)題。

團(tuán)隊(duì)介紹

論文核心團(tuán)隊(duì)來(lái)自北京通用人工智能研究院通用視覺(jué)實(shí)驗(yàn)室,團(tuán)隊(duì)負(fù)責(zé)人黃思遠(yuǎn)博士長(zhǎng)期從事關(guān)于三維場(chǎng)景理解、具身智能體、視覺(jué)機(jī)器人等方向的相關(guān)工作。該團(tuán)隊(duì)擁有包括全職研究員、工程師、以及實(shí)習(xí)生在內(nèi)的三十余人團(tuán)隊(duì),團(tuán)隊(duì)的長(zhǎng)期目標(biāo)是打造未來(lái)的通用具身智能體 / 視覺(jué)機(jī)器人。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-11-14 10:40:00

智能體模型

2024-05-09 09:29:31

3D模型自動(dòng)駕駛

2025-03-07 10:24:43

2024-03-25 08:00:00

3DAI

2024-12-10 09:40:00

AI3D模型

2024-06-04 09:25:51

2022-12-26 13:40:59

機(jī)器學(xué)習(xí)

2024-08-02 10:00:00

2025-04-25 02:30:00

機(jī)械臂大模型多模態(tài)

2025-01-09 12:39:27

2025-03-31 09:10:00

開(kāi)源模型智能體

2024-01-22 13:17:00

AI模型

2025-04-27 08:55:00

2014-08-11 09:39:46

3D

2018-09-28 10:20:59

虛擬現(xiàn)實(shí)感知

2023-12-28 17:17:20

智能模型

2025-03-14 10:26:58

2024-03-15 08:10:00

2023-06-02 10:33:35

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)