自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR2025最新!探索3D場景推理問答新高度:雙視覺感知網(wǎng)絡(luò)

人工智能 新聞
該論文提出了一種用于3D問答的雙視覺感知網(wǎng)絡(luò) DSPNet。

0.背景信息

在人工智能的前沿領(lǐng)域,3D場景問答(3D QA)正在成為視覺與語言理解的關(guān)鍵挑戰(zhàn)。相比于傳統(tǒng)的2D視覺問答(VQA),3D QA需要模型不僅能夠感知復雜的三維空間結(jié)構(gòu),還要理解語言描述與場景之間的關(guān)系。然而,目前的3D QA方法大多依賴于3D點云數(shù)據(jù),而忽視了多視角圖像提供的豐富局部紋理信息,這使得模型在面對小型、扁平物體時表現(xiàn)受限。

在這一背景下, 研究人員提出了一種名為DSPNet(Dual-vision Scene Perception Network)的新型網(wǎng)絡(luò)架構(gòu),它融合了點云與多視角圖像信息,實現(xiàn)更魯棒的3D場景問答推理。

1.論文信息

  • 標題:DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering
  • 作者:Jingzhou Luo, Yang Liu, Weixing Chen, Zhen Li, Yaowei Wang, Guanbin Li,Liang Lin
  • 機構(gòu):中山大學、香港中文大學(深圳)、鵬城實驗室
  • 原文鏈接:http://arxiv.org/abs/2503.03190
  • 代碼鏈接:https://github.com/LZ-CH/DSPNet

2. 挑戰(zhàn)與解決方案

現(xiàn)有的多數(shù)3D QA方法主要依賴3D點云(比如ScanQA和3DGraphQA),通過檢測和建模物體之間的關(guān)系來推理問題答案,而忽略了多視角圖像對于全面 3D 場景感知和推理的關(guān)鍵作用。

例如,考慮圖 1 中給出的問題“電視位于圖畫的哪一側(cè)?”不僅需要識別幾何場景中的實體,還需要理解場景實體和問題之間復雜的語義和空間關(guān)系。然而,現(xiàn)有的 3D QA 模型僅依靠點云信息很難準確識別一些扁平和小物體(例如電視、圖片、地毯、手機等),而多視角圖像可以通過豐富的局部紋理細節(jié)彌補這一點。

圖片

圖 1 通過雙視覺(點云和多視角圖像)實現(xiàn)更全面的場景感知

由于相機位姿噪聲、視角缺失和遮擋問題,簡單采用多視角圖像的反投影(back-projection)來融合特征,往往會導致特征退化,影響QA模型的穩(wěn)定性。如圖 2(a) 所示,在多視角特征聚合過程中,若對所有視圖賦予相同的權(quán)重,可能無法充分考慮不同視圖對特定任務的重要性。理想情況下,各視圖的貢獻應依據(jù)具體問題動態(tài)調(diào)整。此外,如圖 2(b) 所示,由于相機位姿固有噪聲、部分視角的缺失以及復雜的遮擋,在將多視角圖像反投影到 3D 點云空間時,特征退化在所難免。

圖片

圖 2 反投影的固有局限性。紅色點表示反投影期間遺漏的點(即無效點),紅色橢圓突出顯示與原始點云特征相比明顯退化的區(qū)域。

DSPNet旨在解決上述問題,通過雙視角感知策略,使得3D QA模型能夠同時利用點云與多視角圖像信息:

  • 基于文本引導的多視角融合(TGMF):融合多視角圖像特征,在多視角特征融合過程中也能考慮文本上下文語境,促進挖掘更有利于回答問題的視角圖像特征。
  • 自適應雙視覺感知(ADVP):逐點逐通道地自適應融合源于點云與圖像的特征,緩解在多視角圖像在反向投影過程中存在的特征退化問題
  • 多模態(tài)上下文引導推理(MCGR):執(zhí)行跨模態(tài)的高效交互與推理,綜合利用較為密集的與下采樣后的較為稀疏的視覺特征,在節(jié)省計算資源的同時,還能兼顧感知理解細致的場景信息。

3. 方法簡介

3.1 網(wǎng)絡(luò)架構(gòu)

圖片

圖 3 DSPNet的總體架構(gòu)

DSPNet的整體架構(gòu)如圖 3所示,包括文本編碼器、點云編碼器、多視角圖像編碼器三大輸入模塊,以及TGMF、ADVP和MCGR等關(guān)鍵模塊。

  • 文本編碼器:采用Sentence-BERT(SBERT)提取上下文信息,并對情景描述與問題進行編碼。
  • 點云編碼器:使用PointNet++提取點云特征,保留空間結(jié)構(gòu)信息。
  • 圖像編碼器:利用Swin Transformer提取多視角圖像特征,增強局部紋理感知能力。

3.2 核心模塊解析

(1)基于文本引導的多視角融合(TGMF)模塊

  • 如圖4,該模塊執(zhí)行反向投影,并通過計算文本內(nèi)容與多視角圖像的注意力,對不同視角在特征融合時賦予不同權(quán)重,從而使得多視角融合過程中能優(yōu)先考慮與文本相關(guān)的視角。
  • 步驟1:根據(jù)相機參數(shù),將多視角圖像特征反向投影到3D點云坐標空間。
  • 步驟2:利用跨模態(tài)注意力機制根據(jù)文本與視角池化特征的相互注意力計算每個視角的權(quán)重,使得與問題相關(guān)的視角獲得更高關(guān)注度。
  • 步驟3:融合加權(quán)后的多視角特征,形成融合后的視覺信息。

圖片

圖 4 文本引導的多視角融合(TGMF)模塊旨在融合多視圖特征。

(2)自適應雙視覺感知(ADVP)模塊

  • 傳統(tǒng)的點云與多視角圖像融合方法難以應對特征退化問題,如圖 5所示,ADVP模塊通過逐點逐通道的注意力機制來動態(tài)調(diào)整特征的權(quán)重:
  • 步驟1:拼接點云特征和回投后的多視角特征。
  • 步驟2:使用MLP學習自適應權(quán)重。
  • 步驟3:使用加權(quán)增強高置信度特征,同時抑制低置信度特征。并最終使用一層全連接層映射到統(tǒng)一的特征空間。

圖片

圖 5 自適應雙視覺感知(ADVP)模塊旨在自適應地感知來自點云和多視角圖像的視覺信息。

(3)多模態(tài)上下文引導推理(MCGR)模塊

  • MCGR模塊旨在通過跨模態(tài)交互,綜合利用密集與稀疏的視覺特征,在節(jié)省計算資源的同時,能兼顧感知理解細致的場景信息(見圖 3的MCGR模塊)。
  • 步驟1:使用最遠點采樣(FPS)提取較為稀疏的關(guān)鍵點級別特征,減少計算量。引入位置編碼,保持空間信息完整性。
  • 步驟2:在MCGR子層中,稀疏的點特征通過cross-attention與密集點特征進行交互,并采用跨模態(tài)Transformer,與文本信息進行深度融合。這避免了密集點特征直接與文本進行交互,既降低了計算成本,又確保了空間視覺信息的完整性。
  • 步驟3:通過堆疊L層的MCGR子層,來將視覺信息與文本信息進行深度融合,提高空間推理能力。

4. 實驗部分

4.1 在SQA3D上的表現(xiàn)

如表 1所示,DSPNet在“What”、“How”和“Other”問題類型上取得最佳結(jié)果,并且在平均準確率方面優(yōu)于其他方法,包括使用了外部3D-文本成對數(shù)據(jù)集預訓練的方法。這證明了DSPNet具有強勁的多模態(tài)空間推理能力。

圖片

表 1 在SQA3D數(shù)據(jù)集上的問答準確率。測試集欄中:括號內(nèi)表示各題型的樣本數(shù)。最好結(jié)果以粗體顯示,次好結(jié)果以下劃線顯示。

4.2 在ScanQA上的表現(xiàn)

如表 2所示,DSPNet在大多數(shù)評估指標上都優(yōu)于現(xiàn)有的代表性方法,尤其是在 CIDEr、ROUGE 和 METEOR 中,它明顯超越了其他方法。

圖片

表 2 ScanQA 上的答案準確率。每個條目表示“有對象測試”/“無對象測試”。最佳結(jié)果以粗體標記,次佳結(jié)果以下劃線標記。

4.3 消融實驗

如表 3所示,實驗表明,TGMF、ADVP和MCGR這三個模塊對提升DSPNet的3D空間推理能力至關(guān)重要。進一步驗證了DSPNet的方法有效性。

圖片

表 3 各組件的消融研究。在 ScanQA 數(shù)據(jù)集的驗證集和 SQA3D 數(shù)據(jù)集的測試集上進行,使用 EM@1 作為評測指標。

如表 4所示,去除DSPNet的2D模態(tài),僅使用點云作為視覺信息來源,此時模型在兩個評測集上的準確率大幅下降,這進一步驗證了多視角圖像在三維場景問答任務中的重要性。

圖片

表 4 使用 2D 模態(tài)的有效性消融研究

5. 定性研究

如圖 6所示,DSPNet 在感知和推理一些具有挑戰(zhàn)性的實體方面表現(xiàn)更好,例如那些具有平面形狀和豐富局部紋理細節(jié)的實體,這些實體僅基于點云幾何形狀難以識別。此外,DSPNet 可以區(qū)分細微的顏色差異,例如白色和銀色之間的差異,從而增強了其在識別細粒度視覺區(qū)別方面的魯棒性。

圖片

圖 6 DSPNet方法與 ScanQA 和 SQA 的定性比較

6. 結(jié)論

該論文提出了一種用于3D問答的雙視覺感知網(wǎng)絡(luò) DSPNet。DSPNet 通過基于文本引導的多視角融合(TGMF) 模塊融合多視角圖像特征,并采用自適應雙視角感知(ADVP)模塊,將圖像與點云特征融合為統(tǒng)一的表征。最終,引入多模態(tài)上下文引導推理(MCGR) 模塊,實現(xiàn)對3D場景的綜合推理。實驗結(jié)果表明,DSPNet 在 3D問答任務中優(yōu)于現(xiàn)有方法,預測答案與參考答案在語義結(jié)構(gòu)上的對齊性更好,表現(xiàn)更加出色。

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2021-10-18 17:40:07

AI 數(shù)據(jù)人工智能

2023-06-02 10:33:35

2022-07-13 10:20:14

自動駕駛3D算法

2025-03-05 00:15:00

2025-04-11 09:44:23

2024-05-09 09:29:31

3D模型自動駕駛

2022-01-20 11:17:27

自動駕駛智能汽車

2025-04-07 08:35:00

3DAI生成

2025-01-07 13:19:48

模型AI訓練

2022-05-23 10:26:10

人工智能機器學習機器視覺

2011-10-13 10:08:51

iOS 5iOS

2025-04-26 16:44:45

2015-09-14 16:12:12

云計算大數(shù)據(jù)高度

2020-07-03 18:01:06

邊緣計算物聯(lián)網(wǎng)技術(shù)

2024-04-23 09:30:07

3D模型

2025-03-24 13:32:43

2024-10-09 09:42:26

2022-03-21 18:27:42

模型3DAI
點贊
收藏

51CTO技術(shù)棧公眾號