CVPR 2025 | Qwen讓AI「看見(jiàn)」三維世界，SeeGround實(shí)現(xiàn)零樣本開(kāi)放詞匯3D視覺(jué)定位

作者：機(jī)器之心 2025-03-24 13:32:43

來(lái)自香港科技大學(xué)（廣州）、新加坡 A*STAR 研究院和新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)提出了 SeeGround：一種全新的零樣本 3DVG 框架。

3D 視覺(jué)定位（3D Visual Grounding, 3DVG）是智能體理解和交互三維世界的重要任務(wù)，旨在讓 AI 根據(jù)自然語(yǔ)言描述在 3D 場(chǎng)景中找到指定物體。

具體而言，給定一個(gè) 3D 場(chǎng)景和一段文本描述，模型需要準(zhǔn)確預(yù)測(cè)目標(biāo)物體的 3D 位置，并以 3D 包圍框的形式輸出。相比于傳統(tǒng)的目標(biāo)檢測(cè)任務(wù)，3DVG 需要同時(shí)理解文本、視覺(jué)和空間信息，挑戰(zhàn)性更高。

之前主流的方法大多基于監(jiān)督學(xué)習(xí)，這類(lèi)方法依賴(lài)大規(guī)模 3D 標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，盡管在已知類(lèi)別和場(chǎng)景中表現(xiàn)優(yōu)異，但由于獲取 3D 標(biāo)注數(shù)據(jù)的成本高昂，同時(shí)受限于訓(xùn)練數(shù)據(jù)分布，導(dǎo)致它難以泛化到未見(jiàn)過(guò)的新類(lèi)別或新環(huán)境。為了減少標(biāo)注需求，弱監(jiān)督方法嘗試使用少量 3D 標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)，但它仍然依賴(lài)一定數(shù)量的 3D 訓(xùn)練數(shù)據(jù)，并且在開(kāi)放詞匯（Open-Vocabulary）場(chǎng)景下，模型對(duì)未見(jiàn)物體的識(shí)別能力仍然受限。

最近的零樣本 3DVG 方法通過(guò)大語(yǔ)言模型（LLM）進(jìn)行目標(biāo)推理，試圖繞開(kāi)對(duì) 3D 訓(xùn)練數(shù)據(jù)的需求。然而，這類(lèi)方法通常忽略了 3D 視覺(jué)細(xì)節(jié)，例如物體的顏色、形狀、朝向等，使得模型在面對(duì)多個(gè)相似物體時(shí)難以進(jìn)行細(xì)粒度區(qū)分。這些方法就像讓 AI “閉著眼睛” 理解 3D 世界，最終導(dǎo)致模型難以精準(zhǔn)定位目標(biāo)物體。

因此，如何在零樣本條件下結(jié)合視覺(jué)信息與 3D 空間關(guān)系，實(shí)現(xiàn)高效、準(zhǔn)確的 3DVG，成為當(dāng)前 3D 視覺(jué)理解領(lǐng)域亟待解決的問(wèn)題。

為此，來(lái)自香港科技大學(xué)（廣州）、新加坡 A*STAR 研究院和新加坡國(guó)立大學(xué)的研究團(tuán)隊(duì)提出了 SeeGround：一種全新的零樣本 3DVG 框架。該方法無(wú)需任何 3D 訓(xùn)練數(shù)據(jù)，僅通過(guò) 2D 視覺(jué)語(yǔ)言模型（VLM）即可實(shí)現(xiàn) 3D 物體定位。其核心創(chuàng)新在于將 3D 場(chǎng)景轉(zhuǎn)換為 2D-VLM 可處理的形式，利用 2D 任務(wù)的強(qiáng)大能力解決 3D 問(wèn)題，實(shí)現(xiàn)對(duì)任意物體和場(chǎng)景的泛化，為實(shí)際應(yīng)用提供了更高效的解決方案。

SeeGround 已被 CVPR 2025 接收，論文、代碼和模型權(quán)重均已公開(kāi)。

論文標(biāo)題：SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding
論文主頁(yè)：https://seeground.github.io
論文地址：https://arxiv.org/pdf/2412.04383
代碼：https://github.com/iris0329/SeeGround

SeeGround：用 2D 視覺(jué)大模型完成 3D 物體定位

如圖所示，SeeGround 主要由兩個(gè)關(guān)鍵模塊組成：透視自適應(yīng)模塊（PAM）和融合對(duì)齊模塊（FAM）。PAM 通過(guò)動(dòng)態(tài)視角選擇，確保 VLM 能夠準(zhǔn)確理解物體的空間關(guān)系；FAM 則通過(guò)視覺(jué)提示增強(qiáng)技術(shù)，將 2D 圖像中的物體與 3D 坐標(biāo)信息對(duì)齊，提升定位精度。

透視自適應(yīng)模塊（Perspective Adaptation Module, PAM）

在 3D 物體定位任務(wù)中，直接使用一個(gè)固定視角將 3D 場(chǎng)景渲染為 2D 圖像（如俯視圖）雖然能提供物體的顏色、紋理等信息，但卻存在一個(gè)關(guān)鍵問(wèn)題 ——VLM 本質(zhì)上是基于平面的視覺(jué)感知模型，它只能 “看到” 圖像中的物體，而無(wú)法推理 3D 物體的空間位置，比如前后、左右關(guān)系。

因此，如果描述中涉及相對(duì)空間位置（如 “桌子右邊的椅子”），VLM 很可能誤判。例如，在俯視視角下，桌子和椅子的相對(duì)位置可能會(huì)因透視投影而發(fā)生變化，原本在桌子右邊的椅子可能會(huì)被誤認(rèn)為在左邊，而 VLM 只能依賴(lài) 2D 圖像中的視覺(jué)特征，無(wú)法推斷物體在三維空間中的實(shí)際位置。直接使用固定視角渲染的 2D 圖像作為輸入，會(huì)導(dǎo)致模型在涉及空間位置關(guān)系的任務(wù)上表現(xiàn)不佳。

為了解決這個(gè)問(wèn)題，SeeGround 設(shè)計(jì)了一個(gè)動(dòng)態(tài)視角選擇策略，先解析用戶(hù)輸入的文本，識(shí)別出描述中涉及的錨定物體（anchor object），即用于參考空間關(guān)系的對(duì)象。隨后，系統(tǒng)根據(jù)錨定物體的位置計(jì)算最佳觀(guān)察角度，調(diào)整虛擬攝像機(jī)，使其從更符合人類(lèi)直覺(jué)的角度捕捉場(chǎng)景，確保 VLM 可以準(zhǔn)確理解物體的空間關(guān)系。最終，SeeGround 生成一張符合查詢(xún)語(yǔ)義的 2D 圖像，該圖像能夠更清晰地呈現(xiàn)目標(biāo)物體與其參考物體的相對(duì)位置，使 VLM 具備更強(qiáng)的 3D 關(guān)系推理能力。這一策略不僅提高了 VLM 在 3D 物體定位任務(wù)中的準(zhǔn)確率，同時(shí)也避免了因固定視角導(dǎo)致的方向性誤判和遮擋問(wèn)題，使得零樣本 3DVG 任務(wù)在復(fù)雜環(huán)境下依然具備穩(wěn)定的泛化能力。

融合對(duì)齊模塊（Fusion Alignment Module, FAM）

透視自適應(yīng)模塊（PAM）能夠?yàn)?VLM 提供更符合任務(wù)需求的觀(guān)察視角，但即使如此，VLM 仍然面臨一個(gè)關(guān)鍵挑戰(zhàn)：它無(wú)法直接推理 3D 物體的空間信息，也無(wú)法自動(dòng)對(duì)齊 2D 渲染圖中的物體與 3D 位置描述中的物體。

SeeGround 將 3D 場(chǎng)景表示為 2D 渲染圖像 + 文本 3D 坐標(biāo)信息，然而，當(dāng) VLM 看到 2D 渲染圖像時(shí)，它并不知道圖中的椅子對(duì)應(yīng)的是哪個(gè) 3D 坐標(biāo)。這意味著，如果場(chǎng)景中有多個(gè)相似物體（如多把椅子），VLM 可能會(huì)誤解 2D 圖像中的目標(biāo)物體，導(dǎo)致錯(cuò)誤的 3D 預(yù)測(cè)。

SeeGround 通過(guò)視覺(jué)提示增強(qiáng)（Visual Prompting） 技術(shù)，在 2D 渲染圖像中標(biāo)注出關(guān)鍵物體的位置，使 VLM 能夠識(shí)別出 2D 畫(huà)面中的具體目標(biāo)物體，并將其與 3D 坐標(biāo)數(shù)據(jù)關(guān)聯(lián)。

首先，SeeGround 使用對(duì)象查找表（Object Lookup Table） 來(lái)獲取場(chǎng)景中的所有物體的 3D 坐標(biāo)。然后，使用投影技術(shù)將 3D 物體的空間位置轉(zhuǎn)換為 2D 圖像中的對(duì)應(yīng)位置，并在渲染圖像上添加可視化標(biāo)注，以便 VLM 在推理時(shí)能夠準(zhǔn)確識(shí)別出目標(biāo)物體。同時(shí)，在文本描述輸入部分，SeeGround 進(jìn)一步增強(qiáng)了 3D 物體的空間描述，使 VLM 在推理時(shí)能夠結(jié)合 2D 視覺(jué)特征和 3D 坐標(biāo)信息，從而準(zhǔn)確匹配目標(biāo)物體。

實(shí)驗(yàn)結(jié)果

為了驗(yàn)證 SeeGround 在零樣本 3D 視覺(jué)定位（3DVG）任務(wù)中的有效性，作者在 ScanRefer 和 Nr3D 數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)。結(jié)果表明，SeeGround 在多個(gè)基準(zhǔn)測(cè)試中顯著超越了現(xiàn)有零樣本方法，并在某些任務(wù)上接近弱監(jiān)督甚至全監(jiān)督方法的性能。

此外，在對(duì)比實(shí)驗(yàn)中，即使去除部分文本信息，SeeGround 仍然能夠利用視覺(jué)線(xiàn)索進(jìn)行準(zhǔn)確定位，進(jìn)一步驗(yàn)證了該方法在不完全信息條件下的穩(wěn)健性。

作者專(zhuān)門(mén)設(shè)計(jì)了一個(gè)場(chǎng)景，即讓模型在文本描述缺失關(guān)鍵物體信息的情況下，嘗試定位目標(biāo)物體：在 “請(qǐng)找到打印機(jī)上方的柜子” 這一查詢(xún)?nèi)蝿?wù)中，文本輸入被刻意去除了 “打印機(jī)” 和 “柜臺(tái)” 等關(guān)鍵信息，僅提供物體類(lèi)別及其位置信息。

在這種情況下，僅依賴(lài)文本推理的 LLM 由于無(wú)法獲取必要的上下文信息，錯(cuò)誤地匹配到了錯(cuò)誤的柜子。而 SeeGround 通過(guò) VLM 結(jié)合視覺(jué)信息成功識(shí)別出圖像中的打印機(jī)，并準(zhǔn)確定位其上方的柜子。

這一特性進(jìn)一步提升了 SeeGround 在復(fù)雜現(xiàn)實(shí)環(huán)境中的適用性，使其能夠在 3D 物體定位任務(wù)中表現(xiàn)出更強(qiáng)的穩(wěn)健性和泛化能力。

結(jié)論

SeeGround 通過(guò)無(wú)需 3D 訓(xùn)練數(shù)據(jù)的創(chuàng)新設(shè)計(jì)，成功解決了現(xiàn)有零樣本方法在視覺(jué)細(xì)節(jié)和空間推理上的不足，顯著提升了 3DVG 任務(wù)的泛化能力。這一突破為增強(qiáng)現(xiàn)實(shí)、機(jī)器人導(dǎo)航和智能家居等領(lǐng)域提供了更高效、靈活的 3D 物體定位方案。