大步邁向VLA!港中文GPT4Scene:從視頻中理解3D場景~
寫在前面&筆者的個人理解
具身人工智能是指能夠通過與物理環(huán)境交互來執(zhí)行各種任務的智能系統(tǒng)。它在工業(yè)檢測、智能家居和智能城市中有著廣泛的應用和發(fā)展前景。3D 場景理解涉及多模態(tài)語言模型理解室內環(huán)境整體布局和物體之間空間關系的能力。因此,具身智能的堅實基礎在于能否有效地理解場景內容。
目前,基于3D點云大語言模型是一種流行的理解室內場景的方法,使用點云數(shù)據(jù)作為輸入,并將點云數(shù)據(jù)特征與LLM對齊以執(zhí)行場景理解任務。然而,這種方法有以下幾個方面的局限性。
- 點云提供的詳細信息有限,例如精細的幾何細節(jié)、材料特性和復雜的紋理
- 盡管一些點云大語言模型嘗試使用點云和多幅圖像作為輸入,但它們在對齊文本、圖像和點云模態(tài)方面面臨挑戰(zhàn)
- 點云數(shù)據(jù)與文本/視頻數(shù)據(jù)的數(shù)據(jù)量明顯不平衡,這也帶來了進一步的復雜性
這些限制促使我們探索使用純視覺輸入的室內場景理解。這種方法更符合人類的感知模式,因為人們可以在不依賴點云等顯式 3D 數(shù)據(jù)信息的情況下理解 3D 場景。視覺語言模型 (VLM) 在圖像文本多模態(tài)任務中表現(xiàn)出色。然而,它們在理解沉浸式 3D 室內場景中的應用尚未得到很好的探索和開發(fā)。我們進行了一項初步研究,通過將場景視頻直接輸入到VLM模型中來調查這種潛力。我們的實驗結果表明,這種方法導致VLM無法理解 3D 場景。我們認為其核心問題在于缺乏全局場景信息,以及每幀的局部位置與整體背景的不一致。
針對上述提到的相關問題,我們提出了一個名為GPT4Scene 的框架來幫助 VLM 建立空間關系,其整體結構如下圖所示。
此外,我們也構建了一個由 165K 文本標注組成的處理后的視頻數(shù)據(jù)集來微調開源的VLM模型,相關的實驗結果表明,在所有 3D 理解任務上均實現(xiàn)了SOTA的性能。在使用 GPT4Scene 范式進行訓練后,即使沒有視覺prompt和 BEV 圖像作為顯式對應,VLM在推理過程中也可以不斷改進。相關結果表明所提出的范式有助于 VLM 開發(fā)理解 3D 場景的內在能力。
論文鏈接:https://arxiv.org/abs/2501.01428
網(wǎng)絡模型結構&細節(jié)梳理
在詳細介紹本文提出的算法模型網(wǎng)絡結構細節(jié)之前,下圖展示了GPT4Scene算法模型的整體網(wǎng)絡結構圖,如下圖所示。
GPT4Scene Framework
首先,我們假設捕獲的視頻是在室內場景中移動時拍攝的。整個視頻由幀圖像組成。使用 VLM 處理圖像序列面臨著圖像容量有限、上下文消耗快和推理成本高等挑戰(zhàn)。因此,我們均勻采樣幀圖像。其中,代表采樣的幀。我們把這種采樣后的視頻記作如下的表示形式:
這種預選擇大大減少了 VLM 在訓練和推理過程中的時間和成本,同時又不會丟失重要的室內場景信息。
以自身為中心的視頻僅僅捕獲了局部信息,缺少更廣泛的場景背景。為了解決這個問題,我們將整個場景重建為點云形式,并將全景圖像渲染為鳥瞰圖,為 VLM 提供完整的場景概覽。具體來說,從室內場景視頻和相應的相機外參開始,我們使用3D重建技術來生成3D網(wǎng)格和點云數(shù)據(jù),其過程可以用下式的公式進行表示:
在公式中,表示重建過程,我們假設相機內參是已知的。然后,我們從全局點云生成場景的 BEV 圖像,其過程可以用下式進行表示:
其中,代表自上而下視角相機的外參,代表基于相機外參相應視角的渲染過程,從而生成BEV場景的圖片。值得注意的是,我們繼續(xù)以圖像的形式向 VLM 提供全局 3D 信息。
為了幫助 VLM 聚焦于特定目標,我們引入了 Spatial-Temporal Object Markers,確保 2D 幀和 3D BEV 圖像之間的一致性。為了獲取從輸入視頻重建3D點云,我們應用Mask3D等3D實例分割方法來生成實例Mask。
對于 BEV 圖像,我們首先將 3D Mask投影到xy平面上,然后提取投影形成的邊界框的中心坐標,然后將其顯示在BEV 圖像上。對于以自身為中心的 2D markers,我們首先將投影到視頻幀上,然后使用 2D Mask形成的邊界框的中心作為 2D標記。帶有標記的 2D 幀和 BEV 圖像可以用如下的公式進行表示:
Unlocking VLMs with Zero-shot Prompts
我們在零樣本設置中評估 VLM,最初重點關注強大的閉源 VLM(例如 GPT-4o),以評估 GPT4Scene 框架是否能夠有效地實現(xiàn) 3D 場景理解。這個過程被稱為“unlock”,它使 VLM 能夠通過提示理解 3D 場景,而無需額外的訓練。具體而言,我們輸入和。為了減少開銷,我們將中的圖像拼接起來形成一張大的圖像。我們評估了三項任務:3D 問答、密集字幕和視覺grounding。
在 3D 問答中,目標是回答與場景相關的問題,例如“地板的顏色是什么?”在密集字幕中,任務是描述特定目標,例如“描述 C5 所代表的目標。”在視覺grounding中,目標是從描述中識別目標ID,例如“窗戶旁邊的黑色椅子的 ID 是什么?”雖然問答與目標標簽無關,但密集字幕和視覺grounding需要目標標記。這些任務涉及檢測目標并根據(jù)其邊界框的 IoU 進行過濾。與 Chat-Scene和 Robin3D一致,我們使用 Mask3D 分割結果作為預測邊界框來計算 IoU。
除了傳統(tǒng)任務外,我們還在這種零樣本設置中進行了進一步的實驗。相關的實驗結果如下圖所示。
通過輸入和,VLM 可以理解室內場景的全局特征。此時,GPT-4o 仍然可以接受額外的第一人稱視角幀,使其能夠理解場景中的當前位置以規(guī)劃下一步動作。此外,使用 GPT-4o 作為agent,VLM 可以根據(jù)給定的問題確定任務類型并選擇合適的prompt。因此,GPT4Scene 框架作為下一代具身智能的核心技術展現(xiàn)出巨大的潛力。
Enhancing VLMs with ScanAlign Fine-Tuning
零樣本prompt可以解鎖強大的 VLM 的 3D 理解能力,但如下圖所示,這種方法并不能改善較小的VLM的能力。因此,我們的目標是通過微調來增強開源、較小的 VLM。我們首先基于 ScanNet 構建一個室內場景數(shù)據(jù)集 ScanAlign,其中包含以自我為中心、BEV 圖像和文本標注。
該數(shù)據(jù)集包括三個 3D 視覺相關任務,視覺輸入包括帶有 STO 標記的選定視頻幀和 BEV 圖像,表示從五個ScanNet標注中得出的文本標注,相關信息如下表所示。
我們使用提示隨機改變標注格式以增加標注多樣性。該數(shù)據(jù)集總共包含約 165K 條標注。由于我們的方法不需要額外的模態(tài)對齊步驟,我們可以直接在 ScanAlign 數(shù)據(jù)集上執(zhí)行單階段指令微調,以增強模型的 3D 空間理解能力。在訓練階段,訓練損失是語言模型的交叉熵損失。我們的目標是通過最小化目標答案的負似然對數(shù)來優(yōu)化可學習參數(shù)。我們統(tǒng)一了系統(tǒng)消息和用戶的問題。因此,損失函數(shù)可以表示成如下的公式形式:
使用 ScanAlign 進行微調后,在推理過程中,我們可以輸入,其中代表問題?;蛘撸覀兛梢圆皇褂?3D BEV 圖像,而只使用進行推理。
對于 3D 問答任務,我們甚至可以刪除所有目標標記,僅使用原始視頻幀進行推理,而無需任何額外處理。對于 3D 問答任務,我們甚至可以刪除所有目標標記,使用進行推理,僅使用原始視頻作為輸入。我們的實驗表明,經過 ScanAlign 微調后,小規(guī)模 VLM 的 3D 場景理解能力得到顯著增強。
實驗結果&評價指標
各任務實驗結果匯總
3D問答任務的實驗結果匯總在下表當中。
我們將這些方法分為三類:專注于3D問答任務的經典任務特定模型、基于 3D點云LLM 的模型和基于視覺 LLM 的模型。GPT-4o(GPT4Scene)在零樣本模式下的表現(xiàn)優(yōu)于所有任務特定模型,凸顯了 GPT4Scene 作為prompt的有效性。相比之下,開源 VLM 在零樣本模式下表現(xiàn)不佳,沒有使用 GPT4Scene 進行微調,這與我們的實驗研究結果一致。使用GPT4Scene提出的策略,我們對Qwen2-VL-7B進行了微調,取得了優(yōu)異的問答結果。
值得注意的是,Qwen2-VL-7B(GPT4Scene)的表現(xiàn)優(yōu)于所有其他方法,達到了最先進的性能。此外,與原始Qwen2-VL 7B相比,ScanQA中的BLEU-1提高了56.1%(27.8→43.4),CIDEr提高了68.6%(53.9→90.9)。在SQA3D中,EM-1得分上升41.0%(40.7→57.4)。相對于零樣本模式下的GPT-4o,這些指標分別提高了21.9%、23.7%和34.1%。我們的方法極大地提高了模型對3D室內場景的理解。
此外,為了更加直觀的展示我們提出的算法模型的有效性。我們在圖 4 中展示了在 GPT-4o 上以零樣本設置進行的定性結果。拼接的幀提供了場景的概覽,而單獨的幀則捕捉了細節(jié)和動作。除了目標字幕、空間描述和計數(shù)等標準任務之外,GPT4Scene 還可以處理具體任務,例如指導用戶從附近的書架上取回紙張。在最后一行中,粉紅色突出顯示的片段表示 BEV 圖像作為輸入,增強了導航功能。GPT4Scene 還擅長導航和巡邏任務,通過觀察機器指示器執(zhí)行工業(yè)檢查。
我們還評估了模型在密集字幕和視覺grounding方面的表現(xiàn),這與問答不同,因為它們需要標記來完成這些任務。實驗結果如下表統(tǒng)計所示。
通過相關的實驗結果可以看出,Qwen2-VL-7B 經過 GPT4Scene 微調,顯著提高了 VLM 的 3D 字幕和基礎能力。此外,在高分辨率和更大幀設置 (HD) 下,我們的模型實現(xiàn)了SOTA的性能,超越了所有現(xiàn)有的方法。
消融實驗結果
圖 2 表明BEV 圖像和 STO 標記增強了空間理解。我們使用 3D 問答 (QA) 任務來進一步驗證這一點,因為沒有 STO標記或 BEV 圖像的純視頻輸入就足夠了。同時,標記對于 3D 密集字幕和視覺grounding在評估過程中參考目標至關重要。如下表所示,在訓練和推理過程中刪除 BEV 圖像會降低這兩項任務的性能。進一步刪除 STO 標記會導致 QA 性能進一步下降,凸顯了 BEV 圖像和 STO 標記在幫助 VLM 理解 3D 場景方面的關鍵作用。
同時,我們也以 3D 問答和視覺grounding為基準,對附加因素進行了消融實驗。結果如下表所示。前三行的實驗結果顯示,圖像分辨率顯著影響視覺grounding性能,但對 QA 任務的改進有限。此外,實驗結果的最后三行表明,增加幀數(shù)可以增強室內場景理解,與 QA 中的有限改進相比,對grounding性能的影響更為明顯。
結論
在本文中,我們引入了 GPT4Scene,這是一個增強視覺語言模型 (VLM) 的框架,可直接從純視覺輸入理解 3D 場景。我們的實驗研究表明,全局場景信息以及視頻幀與全局文本中目標之間的對應關系對于提高 VLM 的 3D 理解至關重要。我們建議從輸入視頻重建 3D 點云,以生成用于全局信息的 BEV(鳥瞰圖)圖像。
我們通過在視頻幀和 BEV 圖像中添加時空對象標記來建立全局和本地數(shù)據(jù)對應關系。GPT4Scene 使用零樣本推理與 GPT-4o等閉源 VLM 配合使用,實現(xiàn)了出色的性能。對于較小的 VLM,例如 Qwen2-VL,我們創(chuàng)建了 ScanAlign 數(shù)據(jù)集,其中包括視頻幀、BEV 圖像、STO markers和 165K 文本標注。經過微調后,VLM 在場景理解方面顯示出顯著的改進,在問答任務中達到了最先進的性能。此外,經過微調的 VLM 可以在僅使用原始視頻幀的問答任務上表現(xiàn)良好,表明提出的GPT4Scene可以使 VLM 能夠有效地理解 3D 場景。