自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛「空間智能」之后,上交、智源、北大等提出空間大模型SpatialBot

人工智能 新聞
來自上交、斯坦福、智源、北大、牛津、東大的研究者提出了空間大模型 SpatialBot,并提出了訓(xùn)練數(shù)據(jù) SpatialQA 和測試榜單 SpatialBench, 嘗試讓多模態(tài)大模型在通用場景和具身場景下理解深度、理解空間。

本文第一作者為斯坦福大學研究生蔡聞驍,此前,他以績點第一名的成績在東南大學取得學士學位。他的研究興趣為多模態(tài)大模型、具身智能。此工作為其在上海交通大學訪問和北京智源人工智能研究院實習期間完成,導(dǎo)師為本文通訊作者趙波教授。

此前,李飛飛老師提出了空間智能 (Spatial Intelligence) 這一概念,作為回應(yīng),來自上交、斯坦福、智源、北大、牛津、東大的研究者提出了空間大模型 SpatialBot,并提出了訓(xùn)練數(shù)據(jù) SpatialQA 和測試榜單 SpatialBench, 嘗試讓多模態(tài)大模型在通用場景和具身場景下理解深度、理解空間。

圖片

  • 論文標題: SpatialBot: Precise Depth Understanding with Vision Language Models
  • 論文鏈接: https://arxiv.org/abs/2406.13642
  • 項目主頁: https://github.com/BAAI-DCAI/SpatialBot

在具身智能的 pick and place 任務(wù)中,需要判斷機械爪是否碰到了目標物體。如果碰到,則可以合上爪子抓取。然而,在這個 Berkerly UR5 Demonstration Dataset 場景中,即使是 GPT-4o 或人類,都無法從單張 RGB 圖像中判斷機械爪是否碰到了目標物體,比如借助深度信息,將深度圖直接給 GPT-4o 看的話,也無法判斷,因為它不能理解深度圖。

SpatialBot 通過對 RGB-Depth 的理解,可以準確獲得機械爪和目標物體的深度值,從而產(chǎn)生對空間概念的理解。

圖片

具身場景的 SpatialBot Demo:

1. 以人 (相機) 的視角,抓取右側(cè)的茶杯

2. 抓取最中間的茶杯

作為走向具身智能的必要路徑,如何讓大模型理解空間?

點云比較貴,雙目相機在使用中需要經(jīng)常校準。相比之下,深度相機價格可以接受、使用范圍廣。在通用場景中,即使沒有這樣的硬件設(shè)備,大規(guī)模無監(jiān)督訓(xùn)練過的深度估計模型已經(jīng)可以提供較為準確的深度信息。因此,作者提出,使用 RGBD 作為空間大模型的輸入。

目前的技術(shù)路線存在什么問題?

  1. 現(xiàn)有模型無法直接理解深度圖輸入。比如,圖像編碼器 CLIP/SigLIP 在 RGB 圖像上訓(xùn)練,沒有見過深度圖。
  2. 現(xiàn)有大模型數(shù)據(jù)集,大多僅用 RGB 就可以分析、回答。因此,如果僅僅簡單的將現(xiàn)有數(shù)據(jù)改為 RGBD 輸入,模型不會主動到深度圖中索引知識。需要專門設(shè)計任務(wù)和 QA,引導(dǎo)模型理解深度圖、使用深度信息。

三個層次的 SpatialQA,逐步引導(dǎo)模型理解深度圖、使用深度信息

如何引導(dǎo)模型理解和使用深度信息,理解空間?

作者提出具有三個層次的 SpatialQA 數(shù)據(jù)集。

  1. 在 low level 引導(dǎo)模型理解深度圖,引導(dǎo)從深度圖直接獲取信息;
  2. 在 middle level 讓模型將 depth 與 RGB 對齊;
  3. 在 high level 設(shè)計多個深度相關(guān)任務(wù),標注了 50k 的數(shù)據(jù),讓模型在理解深度圖的基礎(chǔ)上,使用深度信息完成任務(wù)。任務(wù)包括:空間位置關(guān)系,物體大小,物體接觸與否,機器人場景理解等。

示例對話

SpatialBot 包含什么?

1. 借鑒 agent 中的思想,SpatialBot 在需要時,可以通過 API 獲取準確的深度信息。在深度信息獲取、遠近關(guān)系比較的任務(wù)上,可以達到 99%+ 的準確率。

2. 針對空間理解任務(wù),作者公布了 SpatialBench 榜單。通過精心設(shè)計和標注 QA,測試模型深度理解能力。SpatialBot 在榜單上展示了和 GPT-4o 接近的能力。

模型如何理解深度圖?

1. 輸入模型的深度圖:為了兼顧室內(nèi)室外任務(wù),需要統(tǒng)一的深度圖編碼方式。室內(nèi)的抓取、導(dǎo)航任務(wù)可能需要毫米級的精確度,室外的場景不需要這么精準,卻可能需要 100 米以上的深度值范圍。傳統(tǒng)視覺任務(wù)中會用 Ordinal Encoding 來編碼,但是 ordinal 的值無法進行加減運算。為了盡可能保留所有深度信息,SpatialBot 直接使用以毫米為單位的 metric depth,范圍為 1mm~131m,使用 uint24 或三通道的 uint8 來保留這些值。

2. 為了精準的獲取深度信息,借鑒 agents 中的思想,SpatialBot 在認為有必要的時候,會以點的形式調(diào)用 DepthAPI,獲取準確的深度值。若想獲取物體的深度,SpatialBot 會先思考物體的 bounding box 是什么,然后用 bounding box 的中心點調(diào)用 API。

3. SpatialBot 使用物體的中心點、深度平均、最大和最小四個值來描述深度。

SpatialBot 和 DepthAPI 架構(gòu)

SpatialBot 在通用場景和具身場景效果如何?

1. SpatialBot 基于 3B 到 8B 的多個 base LLM。通過在 SpatialQA 中學習空間知識,SpatialBot 在常用 MLLM 數(shù)據(jù)集 (MME、MMBench 等) 上同樣展示了顯著的效果提升。

2. 在 Open X-Embodiment、作者收集的機器人抓取數(shù)據(jù)等具身任務(wù)上,SpatialBot 同樣展示了驚人效果。

圖片

SpatialBot 通用場景對比實驗

數(shù)據(jù)如何標注?

精心設(shè)計了關(guān)于空間理解的問題,比如深度、遠近關(guān)系、上下左右前后位置關(guān)系、大小關(guān)系,并且包含了具身中的重要問題,比如兩個物體是否接觸。

在測試集 SpatialBench 中,首先人工思考問題、選項和答案。為了擴大測試集大小,也使用 GPT 以同樣的流程標注。

訓(xùn)練集 SpatialQA 包含三方面: 

  1. 直接理解深度圖,讓模型看深度圖,分析深度的分布,猜測其中可能包含的物體; 
  2. 空間關(guān)系理解和推理;
  3. 機器人場景理解:描述 Open X-Embodiment 和本文收集的機器人數(shù)據(jù)中的場景、包含的物體、可能的任務(wù),并人工標注物體、機器人的 bounding box。

空間關(guān)系理解

圖片

Open X-Embodiment 機器人場景理解

圖片

深度圖理解。在使用 GPT 標注這部分數(shù)據(jù)時,GPT 會先看到深度圖,描述深度圖、推理其中可能包含的場景和物體,然后看到 RGB 圖,篩選出正確的描述和推理。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-12-13 14:20:00

AI模型訓(xùn)練

2024-09-23 15:20:00

2024-12-23 13:50:00

數(shù)據(jù)訓(xùn)練模型

2024-11-11 08:30:00

2024-09-03 14:30:00

機器人模型

2023-11-07 11:50:14

AI訓(xùn)練

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2024-12-23 12:37:34

2024-05-06 07:10:00

李飛飛智能空間

2024-12-05 09:53:18

智能體AI

2024-05-16 12:44:30

模型訓(xùn)練

2024-05-21 12:23:00

模型訓(xùn)練

2018-10-15 10:32:10

Linux操作系統(tǒng)命令

2025-03-24 08:40:00

2021-07-06 10:37:37

模型人工智能深度學習

2025-02-08 09:30:00

2024-12-19 13:30:00

2024-12-19 15:08:58

2021-04-21 10:18:25

人工智能機器學習技術(shù)

2025-04-15 12:14:10

點贊
收藏

51CTO技術(shù)棧公眾號