自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI 精華

發(fā)布于 2024-11-14 13:20
瀏覽
0收藏

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2409.02389
項目鏈接:https://msr3d.github.io/

亮點直擊

  • 引入了MSQA,這是一個大規(guī)模的3D情境推理數(shù)據(jù)集,包括251K個情境問答對,利用可擴展的自動化數(shù)據(jù)生成流程,在多樣化的真實場景中采集。
  • 提出使用交替多模態(tài)輸入設(shè)置進行模型學(xué)習(xí)和評估,建立了兩個全面的基準(zhǔn)測試任務(wù),MSQA和MSNN,以評估模型在3D場景中進行情境推理和導(dǎo)航的能力。
  • 本文進行了全面的實驗分析,將現(xiàn)有模型與本文提出的基準(zhǔn)模型MSR3D在MSQA和MSNN上進行比較。本文強調(diào)了處理多模態(tài)交替輸入和情境建模的重要性。通過數(shù)據(jù)擴展和跨域遷移實驗,證明了在MSQA數(shù)據(jù)上進行預(yù)訓(xùn)練的有效性,以及MSR3D在3D場景中的多模態(tài)情境推理潛力。

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

總結(jié)速覽

解決的問題

現(xiàn)有的場景理解數(shù)據(jù)集和基準(zhǔn)測試在數(shù)據(jù)模態(tài)、多樣性、規(guī)模和任務(wù)范圍方面存在局限性,無法充分支持對3D場景中情境理解的研究。

提出的方案

提出了多模態(tài)情境問答 (MSQA) 數(shù)據(jù)集和基準(zhǔn)測試,通過3D場景圖和視覺-語言模型大規(guī)模采集數(shù)據(jù),以提升模型對情境的推理能力。此外,提出了多模態(tài)情境下一步導(dǎo)航 (MSNN) 基準(zhǔn)測試,用于評估模型在情境推理中的導(dǎo)航能力。

應(yīng)用的技術(shù)

  1. 多模態(tài)輸入設(shè)置:引入文本、圖像和點云數(shù)據(jù)的交替輸入,以提供更清晰的情境描述,避免單一模態(tài)導(dǎo)致的模糊。
  2. 數(shù)據(jù)擴展與跨域遷移實驗:利用MSQA進行模型預(yù)訓(xùn)練,以提升模型的情境推理能力。

達到的效果

對MSQA和MSNN的綜合評估顯示了現(xiàn)有視覺-語言模型的局限性,驗證了處理多模態(tài)交替輸入和情境建模的重要性。數(shù)據(jù)擴展和跨域遷移實驗進一步表明,MSQA數(shù)據(jù)集在預(yù)訓(xùn)練中的應(yīng)用顯著提升了模型的情境推理能力。

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

多模態(tài)情境推理數(shù)據(jù)集

本文提出了一種新穎且可擴展的方法,用于收集高質(zhì)量的3D情境推理數(shù)據(jù),并遵循三項核心原則:

  • 確保情境的全面性和多樣性
  • 設(shè)計高度依賴情境的問題并提供準(zhǔn)確答案
  • 支持多模態(tài)交替輸入格式以避免歧義

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

數(shù)據(jù)收集

如下圖3所示,本文精心設(shè)計了一個基于LLM的自動數(shù)據(jù)收集流程,包含三個階段:情境采樣、問答對生成和數(shù)據(jù)精煉。本文的數(shù)據(jù)收集目標(biāo)是確保生成數(shù)據(jù)的高質(zhì)量。以下是流程的詳細介紹。

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

  • 問答對生成:類似于先前的工作[28, 30],采用場景圖來提示LLM生成數(shù)據(jù)。首先使用剪裁的物體圖像提示GPT-4V以實例化場景圖中的每個物體及其屬性。然后,在初始化后的物體之間進行兩兩計算以推導(dǎo)出關(guān)系,這些關(guān)系可以分為五種類型:接觸的垂直關(guān)系(如支撐)、非接觸的垂直關(guān)系(如在上方)、水平距離(如靠近)、水平鄰近關(guān)系(如右側(cè))和多物體關(guān)系(如在…之間)。


在將這些關(guān)系建立為場景圖中的邊后,根據(jù)采樣情境的位置和視角調(diào)整水平鄰近關(guān)系,以獲得情境場景圖。基于這些情境場景圖,設(shè)計系統(tǒng)提示語并手工制作示例以提示GPT-3.5生成情境問答對。本文關(guān)注9種不同的問題范圍,涵蓋物體屬性、計數(shù)、空間關(guān)系、導(dǎo)航動作等(如下圖4(a)所示)。在提示過程中,指示LLM輸出問題類別。為進一步增強LLM生成的問答對的多樣性,我們使用不同的種子示例組合,并根據(jù)不同的距離樣本生成不同的情境子場景圖用于問題生成。

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

數(shù)據(jù)精煉為了提升生成的情境問答對的質(zhì)量,進行了精煉流程,包括兩個主要方面:

  1. 對情境場景圖,檢查屬性和關(guān)系的分布,以減輕可能導(dǎo)致幻覺的潛在偏差;
  2. 手動審查LLM生成的問答對以驗證其準(zhǔn)確性,并基于正則表達式設(shè)計過濾函數(shù)來檢測和糾正潛在錯誤。

先前的研究[28, 68]已強調(diào)數(shù)據(jù)平衡的重要性,通過篩選不平衡的問答對來平衡生成數(shù)據(jù)的答案分布。通過這些步驟,收集了跨ScanNet、3RScan和ARKitScenes的251K多模態(tài)情境問答對。下表1和提供了MSQA與現(xiàn)有數(shù)據(jù)集的對比及更多統(tǒng)計數(shù)據(jù)。

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

數(shù)據(jù)質(zhì)量控制

盡管基于LLM的數(shù)據(jù)收集流程具有可擴展性,但生成數(shù)據(jù)的質(zhì)量仍然是主要關(guān)注點,特別是在3D視覺-語言任務(wù)中,語言的錨定具備挑戰(zhàn)性。為應(yīng)對這些問題,進行了人類研究,將生成的數(shù)據(jù)與SQA3D中的人工標(biāo)注數(shù)據(jù)進行比較。具體而言,從MSQA和SQA3D中各抽取100條數(shù)據(jù)實例并混合供人類評估。評估員被要求從三個方面為數(shù)據(jù)打分:

  • 情境描述的自然性和清晰度
  • 問題的情境依賴性和清晰度
  • 答案的準(zhǔn)確性和完整性

每個方面的評分范圍為1到5分。評估流程的詳細信息見附錄B。評估結(jié)果如上面圖4(b)所示,顯示MSQA在各方面的質(zhì)量與SQA3D相當(dāng)。此外,圖4(c)表明,MSQA中高評分數(shù)據(jù)(即得分≥4的質(zhì)量數(shù)據(jù))的比例與SQA3D相匹配或超過SQA3D。這表明了MSQA的質(zhì)量以及數(shù)據(jù)精煉流程的有效性。

評估基準(zhǔn)

本節(jié)詳細描述了用于多模態(tài)情境推理的評估任務(wù)。具體而言,考慮了以下兩個基準(zhǔn)任務(wù):

多模態(tài)情境問答 (MSQA)
在MSQA中評估模型在情境感知和處理交織的多模態(tài)輸入方面的能力。具體來說,給定一個多模態(tài)情境描述,模型需要回答一個基于3D場景的文本-圖像交織問題。由于回答是開放式的,以往的指標(biāo)(如分類準(zhǔn)確率和完全匹配準(zhǔn)確率)無法準(zhǔn)確評估。為了解決此問題,參考OpenEQA使用基于GPT的評估指標(biāo)來評估開放式回答,并擴展其提示集以適用于3D情境推理。總體上,報告了包含N個樣本的測試集的正確率評分C,其計算方式如下:

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

多模態(tài)情境下一步導(dǎo)航 (MSNN) 除了MSQA外,還希望通過具身AI任務(wù)(如導(dǎo)航)評估模型的情境感知能力。為將長時規(guī)劃與情境理解分離,本文提出了MSNN任務(wù),聚焦于在當(dāng)前情境和導(dǎo)航目標(biāo)的基礎(chǔ)上預(yù)測最佳的即時下一步動作。具體來說,給定代理的當(dāng)前交織多模態(tài)情境描述(包括位置、方向和文本描述)、目標(biāo)文本描述和整體場景,我們指示模型以文本形式回答通向目標(biāo)的下一步動作。


為評估,MSNN數(shù)據(jù)采用類似情境QA生成流程并包含四個關(guān)鍵步驟:

  • 起始情境采樣
  • 目標(biāo)采樣
  • 最優(yōu)路徑預(yù)測
  • 計算真實的即時下一步動作


最優(yōu)路徑由A*算法生成,以在平面圖上規(guī)劃從起始位置到目標(biāo)的最短路徑,而即時下一步動作則依據(jù)相對起始情境的最優(yōu)路徑方向確定。最終,生成了一個包含34K個MSNN樣本的數(shù)據(jù)集,覆蓋ScanNet中的378個3D場景。此數(shù)據(jù)集進一步用于監(jiān)督微調(diào)和MSNN評估。

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

實驗

模型設(shè)置

受3D通用模型、LLM和VLM最新進展的啟發(fā),本文提出了幾種適用于MSQA和MSNN的潛在方法,包括可直接零樣本應(yīng)用于這些任務(wù)的模型,以及需要指令調(diào)優(yōu)的模型。

零樣本模型

本文研究了現(xiàn)有LLMs和VLMs(例如GPT-3.5和GPT-4o)在多模態(tài)情境推理中的能力。鑒于這些模型在處理3D點云方面的局限性,我們將3D場景的文本描述作為輸入提供給這些模型。具體而言,場景被描述為對象集合,每個對象都包含類別、位置、大小和屬性等特征。然后將該場景的文本描述與交織的多模態(tài)情境描述、指令和問題結(jié)合,進一步由LLM或VLM處理。對于純文本模型(如LLMs),用對象類別替代對象的圖像作為模型輸入。此外,還引入了Claude-3.5-Sonnet以消除GPT家族內(nèi)的潛在偏差。

指令調(diào)優(yōu)

基于3D通用模型的最新進展,對現(xiàn)有的3D視覺-語言基礎(chǔ)模型在MSQA和MSNN任務(wù)上進行微調(diào)。選擇LEO作為代表模型,因其在3D視覺-語言理解和推理中的卓越表現(xiàn)。由于LEO不支持交織的多模態(tài)輸入,將輸入圖像替換為其對應(yīng)的對象類別,類似于零樣本模型。此外,還擴展了LEO,以適應(yīng)交織的多模態(tài)輸入,形成了我們強大的基線模型MSR3D,專用于情境推理和導(dǎo)航。MSR3D通過根據(jù)代理的情境對點云輸入進行平移和旋轉(zhuǎn)來建模情境。選擇MSR3D作為后續(xù)消融研究和分析的主要模型。更多關(guān)于MSR3D設(shè)計的細節(jié)詳見附錄C。

評估結(jié)果

本節(jié)提供了模型在MSQA和MSNN任務(wù)上的評估結(jié)果。報告了兩個任務(wù)測試集的平均正確性評分。此外,還考察了不同情境和問題輸入模態(tài)(Input)、3D場景表示(Scene)以及模型設(shè)置(Setting)。對于MSNN,將預(yù)訓(xùn)練數(shù)據(jù)(PT data)的選擇作為額外的變量來驗證MSQA在具身任務(wù)中的實用性。

多模態(tài)情境問答 (MSQA)

下表2中展示了MSQA的實驗結(jié)果,并報告以下發(fā)現(xiàn):

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

  • 零樣本模型在情境空間推理方面表現(xiàn)不佳。零樣本模型擅長回答常識性問題(如可操作性和房間類型等分類為“其他”的問題),這可能得益于LLMs在自然語言任務(wù)中的優(yōu)勢。由于對象屬性被列出,這些模型在屬性和描述方面的表現(xiàn)優(yōu)于微調(diào)模型。然而,它們在處理空間關(guān)系和導(dǎo)航問題時表現(xiàn)欠佳,凸顯出其在多模態(tài)情境推理中的局限性。
  • 情境建模在情境空間推理中至關(guān)重要。像LEO這樣的3D視覺-語言模型在未在MSQA上微調(diào)的情況下表現(xiàn)不佳,反映出其作為通用基礎(chǔ)模型的局限性。我們的模型在不使用交織輸入的情況下在空間關(guān)系和導(dǎo)航任務(wù)上優(yōu)于LEO,這突顯了我們的情境建模方法的重要性。同時,MSR3D在未使用3D場景輸入(即“盲模式”)微調(diào)時性能大幅下降,這表明情境意識和3D場景理解在MSQA任務(wù)中的重要性。
  • 3D點云相較于文本描述更適合作為場景表示。本文進行了一項僅使用文本描述的額外實驗,這些文本描述是通過基于情境場景圖的GPT-3.5提示生成的。用于生成文本描述的情境與MSQA中的QA對一致。上表2中的結(jié)果(“DES”行)顯示,在僅使用文本描述時,特別是在對象屬性、空間關(guān)系和導(dǎo)航方面,性能顯著下降。進一步探討了“DES”在計數(shù)任務(wù)上表現(xiàn)更佳的原因。下表3中顯示,對于GT < 3的情況,“DES”表現(xiàn)更好,但對于GT ≥ 3時表現(xiàn)較差。這是因為“DES”在輸入中明確描述了目標(biāo)對象。然而,當(dāng)目標(biāo)對象數(shù)量超過一定閾值時,由于上下文長度的限制,部分目標(biāo)對象可能被截斷。綜上所述,結(jié)果表明,相較于文本描述,3D點云在情境推理中是一種更為有效的表示方式。

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

情境組件對情境推理至關(guān)重要

為了揭示情境組件在微調(diào)(FT)模型中的有效性,我們添加了一個完全移除情境組件的FT基線,保留3D場景和問題作為輸入。前面表2(無情境)中的結(jié)果顯示,去除情境組件后性能顯著下降。特別是,導(dǎo)航相關(guān)問題的下降更為顯著,這與MSNN的評估結(jié)果相一致,突顯了情境組件的重要性。

交織多模態(tài)輸入為情境推理帶來了新挑戰(zhàn)

盡管交織多模態(tài)輸入具有優(yōu)勢,觀察到MSR3D(T+I)的表現(xiàn)略遜于僅文本輸入(T)。為進一步分析這一細微差異,我們從測試集中提取了兩個子集,使圖像僅出現(xiàn)在情境或問題中。下表4中報告了這兩個子集的評估結(jié)果,顯示“T+I”在圖像僅出現(xiàn)在問題中的子集上表現(xiàn)顯著下降。我們推測,將圖像納入問題可能加大了情境推理的難度,因為從圖像中識別查詢對象需要額外的定位能力。

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

多模態(tài)情境下一步導(dǎo)航 (MSNN)

在下表5中展示了MSNN的實驗結(jié)果,并報告以下發(fā)現(xiàn):

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

MSNN任務(wù)具有挑戰(zhàn)性

表5的結(jié)果顯示,最新的LLMs(如GPT-3.5和GPT-4o)和3D視覺語言模型在解決MSNN任務(wù)時都面臨顯著的挑戰(zhàn)。這表明了MSNN任務(wù)在3D情境推理和具身AI研究中的價值。

MSQA作為具身AI預(yù)訓(xùn)練源的有效性

我們發(fā)現(xiàn),將MSQA用于預(yù)訓(xùn)練(對LEO和MSR3D均有效)顯著提升了MSNN任務(wù)的表現(xiàn),說明MSQA作為解決具身導(dǎo)航任務(wù)的預(yù)訓(xùn)練源的有效性。

MSR3D的情境建模方法有效

MSR3D(T),結(jié)合情境建模,在導(dǎo)航行為預(yù)測中顯示出顯著更高的準(zhǔn)確性(相比LEO(T)高出8.56%)。這驗證了我們情境建模方法的有效性。此外,我們通過屏蔽代理的位置和方向來測試無情境的MSR3D,結(jié)果表現(xiàn)顯著下降(見表5的無情境結(jié)果),進一步證明了情境信息的重要性,同時MSR3D能夠有效利用情境信息。

附加分析

擴展效應(yīng)
通過在不同數(shù)據(jù)規(guī)模下訓(xùn)練MSR3D來探索MSQA的擴展效應(yīng)。研究了擴展的三個因素:QA(隨機下采樣QA對)、情境(下采樣QA對和情境)以及場景(下采樣QA對和場景)。如圖7所示,隨著這三個因素的擴展,模型性能呈現(xiàn)持續(xù)提升的趨勢,顯示了顯著的擴展效應(yīng),表明進一步擴展的潛力。

跨領(lǐng)域遷移本文將MSQA數(shù)據(jù)分為三個子集,分別為ScanNet3RScanARKitScenes,并通過在每個子集上訓(xùn)練MSR3D并在所有子集上進行評估來研究跨領(lǐng)域遷移。下表6的結(jié)果顯示,每個子集上最佳的表現(xiàn)是通過在同一領(lǐng)域內(nèi)訓(xùn)練(加粗的部分),而非跨領(lǐng)域遷移,展現(xiàn)了領(lǐng)域間的差距。在ARKitScenes上訓(xùn)練的模型在跨領(lǐng)域遷移中的表現(xiàn)較差??紤]到ARKitScenes中場景相對簡單,這表明在復(fù)雜場景上的訓(xùn)練有助于提升跨領(lǐng)域泛化能力。

NeurIPS`24 | 超25萬對助力具身智能!3D場景大規(guī)模多模態(tài)情境推理數(shù)據(jù)集MSQA | BIGAI-AI.x社區(qū)

結(jié)論

本文提出了多模態(tài)情境問答(MSQA),這是一個大規(guī)模的多模態(tài)情境推理數(shù)據(jù)集,通過可擴展的數(shù)據(jù)生成pipeline收集而成。MSQA包含251K個情境QA對,涵蓋多種現(xiàn)實世界場景,所有數(shù)據(jù)以統(tǒng)一格式呈現(xiàn),包括交錯的文本、圖像和點云。本文提出了基于MSQA的挑戰(zhàn)性基準(zhǔn),用于評估3D場景中的多模態(tài)情境推理。此外,還提出了多模態(tài)情境下一步導(dǎo)航(MSNN),這一任務(wù)旨在評估情境推理和具身導(dǎo)航的能力。我們的全面實驗凸顯了我們數(shù)據(jù)集和基準(zhǔn)的重要價值。希望這項工作能推動情境場景理解和具身智能的發(fā)展。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/hVFResEE9FKMda7h78WUWw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦