自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓視覺語言模型搞空間推理,谷歌又整新活了

人工智能 新聞
視覺語言模型雖然強大,但缺乏空間推理能力,最近 Google 的新論文說它的 SpatialVLM 可以做,看看他們是怎么做的。

視覺語言模型 (VLM) 已經(jīng)在廣泛的任務(wù)上取得了顯著進(jìn)展,包括圖像描述、視覺問答 (VQA)、具身規(guī)劃、動作識別等等。然而大多數(shù)視覺語言模型在空間推理方面仍然存在一些困難,比如需要理解目標(biāo)在三維空間中的位置或空間關(guān)系的任務(wù)。

關(guān)于這一問題,研究者們常常從「人類」身上獲得啟發(fā):通過具身體驗和進(jìn)化發(fā)展,人類擁有固有的空間推理技能,可以毫不費力地確定空間關(guān)系,比如目標(biāo)相對位置或估算距離和大小,而無需復(fù)雜的思維鏈或心理計算。

這種對直接空間推理任務(wù)的熟練,與當(dāng)前視覺語言模型能力的局限形成鮮明對比,并引發(fā)了一個引人注目的研究問題:是否能夠賦予視覺語言模型類似于人類的空間推理能力?

最近,谷歌提出了一種具備空間推理能力的視覺語言模型:SpatialVLM。

圖片


  • 論文標(biāo)題:SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
  • 論文地址:https://arxiv.org/pdf/2401.12168.pdf
  • 項目主頁:https://spatial-vlm.github.io/

值得注意的是,研究者假設(shè)當(dāng)前視覺語言模型在空間推理能力方面的限制并非源于其架構(gòu)的局限,而更可能是由于在大規(guī)模訓(xùn)練時所使用的常見數(shù)據(jù)集的限制。例如,許多視覺語言模型是在以圖像 - 描述對為特征的互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練的,這些數(shù)據(jù)集中包含的空間信息有限。存在限制的原因是獲取富含空間信息的具身數(shù)據(jù)或 3D 感知查詢的高質(zhì)量人工注釋比較困難,自動數(shù)據(jù)生成和增強技術(shù)是解決該問題的一種方法,然而很多之前的數(shù)據(jù)生成研究側(cè)重于生成具有真實語義標(biāo)注的照片逼真圖像,忽略了對象和 3D 關(guān)系的豐富性。

與之相反,本文研究者專注于直接從現(xiàn)實世界數(shù)據(jù)中提取空間信息,以捕捉真實 3D 世界的多樣性和復(fù)雜性。這一創(chuàng)新源自近期視覺模型方面在自動從 2D 圖像中生成 3D 空間注釋方面的進(jìn)展。

SpatialVLM 系統(tǒng)可以實現(xiàn)數(shù)據(jù)生成和對視覺語言模型進(jìn)行訓(xùn)練,以增強它們的空間推理能力。具體而言,研究者結(jié)合面向開放詞匯的目標(biāo)檢測(open-vocabulary detection)、度量深度估計、語義分割和以目標(biāo)為中心的描述模型,實現(xiàn)了在大規(guī)模地密集注釋真實世界數(shù)據(jù)。SpatialVLM 將由視覺模型生成的數(shù)據(jù)轉(zhuǎn)換成一種可用于描述、VQA 和空間推理數(shù)據(jù)的混合體上訓(xùn)練視覺語言模型的格式。

實驗證明,本文訓(xùn)練的視覺語言模型表現(xiàn)出許多令人滿意的能力。首先,它在回答定性空間問題方面的能力得到顯著提升。其次,即使在有噪聲的訓(xùn)練數(shù)據(jù)下,它也能可靠地進(jìn)行定量估計。這種能力不僅使其具備關(guān)于目標(biāo)大小的常識知識,還使其在重新排列任務(wù)的開放詞匯獎勵標(biāo)注方面非常有用。第三,本文的空間視覺語言模型在自然語言界面的基礎(chǔ)上,結(jié)合強大的大型語言模型,能夠進(jìn)行空間推理鏈以解決復(fù)雜的空間推理任務(wù)。

方法概覽

為了使視覺語言模型具備定性和定量的空間推理能力,研究者提出生成一個大規(guī)模的空間 VQA 數(shù)據(jù)集用于訓(xùn)練視覺語言模型。具體而言,就是設(shè)計一個全面的數(shù)據(jù)生成框架,首先利用現(xiàn)成的計算機視覺模型,包括開放詞匯檢測、度量深度估計、語義分割和以目標(biāo)為中心的描述模型,提取以目標(biāo)為中心的背景信息,然后采用基于模板的方法生成質(zhì)量合理的大規(guī)模空間 VQA 數(shù)據(jù)。本文中,研究者使用了生成的數(shù)據(jù)集訓(xùn)練 SpatialVLM,以學(xué)習(xí)直接的空間推理能力,然后將其與 LLMs 嵌入的高層常識推理相結(jié)合,解鎖鏈?zhǔn)剿季S的空間推理。

圖片

2D 圖像的空間基準(zhǔn)

研究者設(shè)計了一個生成包含空間推理問題的 VQA 數(shù)據(jù)的流程,具體流程如圖 2 中所示。

圖片

1、語義過濾:在本文的數(shù)據(jù)合成流程中,第一步是采用基于 CLIP 的開放詞匯分類模型對所有圖像進(jìn)行分類,排除不適合的圖像。

2、2D 圖像提取以目標(biāo)為中心的背景:這一步獲得由像素簇和開放詞匯描述組成的以目標(biāo)為中心的實體。

3、2D 背景信息到 3D 背景信息:經(jīng)過深度估計,將單眼的 2D 像素提升到度量尺度的 3D 點云。本文是第一個將互聯(lián)網(wǎng)規(guī)模的圖像提升至以目標(biāo)為中心的 3D 點云,并用其合成帶有 3D 空間推理監(jiān)督的 VQA 數(shù)據(jù)。

4、消除歧義:有時一張圖像中可能有多個相似類別的目標(biāo),導(dǎo)致它們的描述標(biāo)簽存在歧義。因此,在詢問關(guān)于這些目標(biāo)的問題之前,需要確保參考表達(dá)不含有歧義。

大規(guī)??臻g推理 VQA 數(shù)據(jù)集

研究者通過使用合成數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,將「直觀」的空間推理能力融入 VLM。因此,合成涉及圖像中不超過兩個目標(biāo)(表示為 A 和 B)的空間推理問答對。這里主要考慮以下兩類問題:

1、定性問題:詢問某些空間關(guān)系的判斷。例如「給定兩個對象 A 和 B,哪個更靠左?」

2、定量問題:詢問更精細(xì)的答案,包括數(shù)字和單位。例如「相對于對象 B,對象 A 向左多少?」、「對象 A 距離 B 有多遠(yuǎn)?」

此處,研究者指定了 38 種不同類型的定性和定量空間推理問題,每種問題包含大約 20 個問題模板和 10 個答案模板。

圖 3 展示了本文獲取的合成問答對的示例。研究者創(chuàng)建了一個包括 1000 萬張圖像和 20 億個直接空間推理問答對 (50% 是定性問題,50% 是定量問題) 的龐大數(shù)據(jù)集。

圖片

學(xué)習(xí)空間推理

直接空間推理:視覺語言模型接收圖像 I 和關(guān)于空間任務(wù)的查詢 Q 作為輸入,并輸出一個答案 A,并且以文本的格式呈現(xiàn),無需使用外部工具或與其他大型模型進(jìn)行交互。本文采用與 PaLM-E 相同的架構(gòu)和訓(xùn)練流程,只是將 PaLM 的骨干替換為 PaLM 2-S。然后,使用原始 PaLM-E 數(shù)據(jù)集和作者的數(shù)據(jù)集的混合進(jìn)行模型訓(xùn)練,其中有 5% 的 token 用于空間推理任務(wù)。

鏈?zhǔn)剿季S空間推理:SpatialVLM 提供了自然語言接口,可用于查詢具有基礎(chǔ)概念的問題,當(dāng)與強大的 LLM 結(jié)合使用時,可以執(zhí)行復(fù)雜的空間推理。

與 Socratic Models 和 LLM 協(xié)調(diào)器中的方法類似,本文利用 LLM (text-davinci-003) 來協(xié)調(diào)與 SpatialVLM 進(jìn)行通信,以鏈?zhǔn)剿季S提示的方式解決復(fù)雜問題,如圖 4 所示。

圖片

實驗及結(jié)果

研究者通過實驗證明并回答了如下的問題:

問題 1:本文設(shè)計的空間 VQA 數(shù)據(jù)生成和訓(xùn)練流程,是否提高了 VLM 的一般空間推理能力?以及它的表現(xiàn)如何?

問題 2:充滿噪音數(shù)據(jù)的合成空間 VQA 數(shù)據(jù)和不同的訓(xùn)練策略,對學(xué)習(xí)性能有何影響?

問題 3:裝備了「直接」空間推理能力的 VLM,是否能夠解鎖諸如鏈?zhǔn)剿季S推理和具身規(guī)劃等新能力?

研究者通過使用 PaLM-E 訓(xùn)練集和本文設(shè)計的空間 VQA 數(shù)據(jù)集的混合來訓(xùn)練模型。為了驗證 VLM 在空間推理上的局限是否是數(shù)據(jù)問題,他們選擇了當(dāng)前最先進(jìn)的視覺語言模型作為基線。這些模型的訓(xùn)練過程中語義描述任務(wù)占據(jù)了相當(dāng)?shù)谋戎?,而不是使用本文的空間 VQA 數(shù)據(jù)集進(jìn)行訓(xùn)練。

空間 VQA 表現(xiàn)

定性空間 VQA。對于這一問題,人工注釋的答案和 VLM 輸出均為自由形式的自然語言。因此,為了評估 VLM 的性能,研究者使用人工評定員確定答案是否正確,表 1 中展示了各個 VLM 的成功率。

圖片

定量空間 VQA。如表 2 所示,本文的模型在兩個指標(biāo)上都比基線表現(xiàn)更好且遙遙領(lǐng)先。

圖片

空間 VQA 數(shù)據(jù)對通用 VQA 的影響

第二個問題是,由于與大量的空間 VQA 數(shù)據(jù)共同訓(xùn)練,VLM 在其他任務(wù)上的表現(xiàn)是否會因此而降低。通過將本文模型與在通用 VQA 基準(zhǔn)上沒有使用空間 VQA 數(shù)據(jù)進(jìn)行訓(xùn)練的基本 PaLM 2-E 進(jìn)行了比較,如表 3 所總結(jié)的,本文的模型在 OKVQA 基準(zhǔn)上達(dá)到了與 PaLM 2-E 相當(dāng)?shù)男阅?,其中包括了有限的空間推理問題,并且在 VQA-v2 test-dev 基準(zhǔn)上表現(xiàn)略好,該基準(zhǔn)包含了空間推理問題。

圖片

ViT 編碼器在空間推理中的影響

Frozen ViT (在對比目標(biāo)上進(jìn)行訓(xùn)練) 是否編碼了足夠的信息來進(jìn)行空間推理?為了探索這一點,研究者的實驗從第 110,000 步的訓(xùn)練開始,分成兩個訓(xùn)練運行,一個 Frozen ViT,另一個 Unfrozen ViT。通過對這兩個模型進(jìn)行了 70,000 步的訓(xùn)練,評估結(jié)果如表 4 所示。

圖片

含噪聲的定量空間答案的影響

研究者者使用機器人操作數(shù)據(jù)集訓(xùn)練視覺語言模型,發(fā)現(xiàn)模型能夠在操作領(lǐng)域進(jìn)行精細(xì)的距離估計 (圖 5),進(jìn)一步證明了數(shù)據(jù)的準(zhǔn)確性。

圖片

表 5 比較了不同的高斯噪聲標(biāo)準(zhǔn)差對定量空間 VQA 中整體 VLM 性能的影響。

圖片

空間推理啟發(fā)新應(yīng)用

1、視覺語言模型作為密集獎勵注釋器

視覺語言模型在機器人學(xué)領(lǐng)域有一個重要的應(yīng)用。最近的研究表明,視覺語言模型和大型語言模型可以作為機器人任務(wù)的通用開放詞匯獎勵注釋器和成功檢測器,可用于制定有效的控制策略。然而,VLM 的獎勵標(biāo)注能力通常受到空間意識不足的限制。由于 SpatialVLM 能夠從圖像中定量估計距離或尺寸,因此它獨特地適用作為密集的獎勵注釋器。作者進(jìn)行一項真實的機器人實驗,用自然語言指定了一個任務(wù),并要求 SpatialVLM 為軌跡中的每一幀注釋獎勵。

圖 6 中每個點表示一個目標(biāo)的位置,它們的顏色表示注釋的獎勵。隨著機器人朝著指定目標(biāo)的進(jìn)展,可以看到獎勵是單調(diào)增加的,表明 SpatialVLM 作為密集獎勵注釋器的能力。

圖片

2、鏈?zhǔn)剿季S空間推理

研究者還研究了 SpatialVLM 是否能夠用于執(zhí)行需要多步推理的任務(wù),考慮到它對基本空間問題的增強回答能力。作者在圖 1 和圖 4 中展示了一些例子。當(dāng)大語言模型 (GPT-4) 裝備有 SpatialVLM 作為空間推理子模塊時,可以執(zhí)行復(fù)雜的空間推理任務(wù),比如回答環(huán)境中的 3 個對象是否能夠形成「等腰三角形」。

更多技術(shù)細(xì)節(jié)和實驗結(jié)果請參閱原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-02 11:26:55

2025-03-24 08:40:00

2023-01-05 09:33:37

視覺模型訓(xùn)練

2023-10-11 12:32:53

AI模型

2024-04-11 11:35:03

大語言模型LLMs

2018-08-30 05:04:22

谷歌互聯(lián)網(wǎng)網(wǎng)絡(luò)

2022-03-14 09:50:29

3D技術(shù)建模

2023-07-29 13:14:40

谷歌人工智能

2023-05-26 13:22:49

2022-09-23 09:53:41

機器人機器學(xué)習(xí)

2023-05-15 15:38:59

AI模型

2023-05-10 17:33:56

2025-02-21 10:00:35

谷歌模型

2021-09-22 09:09:38

谷歌AI音樂

2024-11-19 13:17:38

視覺語言模型Pytorch人工智能

2024-05-27 10:09:26

2025-02-27 10:08:19

2023-10-17 12:52:00

模型訓(xùn)練

2024-01-15 16:41:00

模型數(shù)據(jù)

2025-01-27 13:00:00

點贊
收藏

51CTO技術(shù)棧公眾號