自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛:通過「空間智能」重構(gòu)世界

發(fā)布于 2025-1-16 12:38
瀏覽
0收藏

李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)

在人工智能的持續(xù)演進(jìn)中,多模態(tài)大語言模型(MLLMs)已成為核心研究領(lǐng)域之一,其在整合語言和視覺信息方面的潛力備受關(guān)注。李飛飛、謝賽寧團(tuán)隊(duì)的最新研究成果猶如一顆璀璨的新星,照亮了 MLLM 在空間智能領(lǐng)域的探索之路,引發(fā)了學(xué)界和業(yè)界的廣泛關(guān)注。本文將深入剖析該團(tuán)隊(duì)的研究,詳細(xì)闡述 MLLM 在空間智能方面的突破與挑戰(zhàn),一同探索 MLLMs 在視覺空間智能方面的進(jìn)展與難題。


李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


1.引言視覺空間智能

在人類的日常生活中,視覺空間智能起著極為關(guān)鍵的作用。無論是在家中規(guī)劃家具擺放,還是在工作場(chǎng)所導(dǎo)航尋路,我們都在不斷運(yùn)用這一能力。人類能夠憑借視覺感知和記憶,快速構(gòu)建空間布局,并據(jù)此做出準(zhǔn)確的判斷和決策。

對(duì)于人工智能而言,尤其是多模態(tài)大語言模型,視覺空間智能的發(fā)展卻面臨諸多挑戰(zhàn)。盡管語言模型在文本處理上取得了顯著成果,但在理解和處理視覺空間信息方面仍處于探索階段。這一能力的缺失限制了 MLLMs 在許多實(shí)際應(yīng)用中的表現(xiàn),如機(jī)器人控制、自動(dòng)駕駛和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域。


李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


為了填補(bǔ)這一研究空白,本文引入了一個(gè)全新的基準(zhǔn)測(cè)試——VSI-Bench。它基于大量真實(shí)的室內(nèi)場(chǎng)景視頻,構(gòu)建了超過 5000 個(gè)問題-答案對(duì),旨在全面評(píng)估 MLLMs 的視覺空間智能。這一基準(zhǔn)測(cè)試的出現(xiàn),為 MLLMs 在該領(lǐng)域的研究提供了重要的工具和標(biāo)準(zhǔn),開啟了深入探究的大門。


2.視覺空間智能內(nèi)涵、范疇與關(guān)鍵要素解析

定義與范圍的精準(zhǔn)界定

本文聚焦于視覺空間智能在現(xiàn)實(shí)世界環(huán)境中的應(yīng)用,區(qū)別于傳統(tǒng)的抽象空間認(rèn)知測(cè)試。在實(shí)際場(chǎng)景中,如家庭、辦公室和工廠等,視覺空間智能表現(xiàn)為對(duì)空間關(guān)系的準(zhǔn)確感知和有效操作。例如,在家庭場(chǎng)景中,能夠判斷家具之間的合理間距;在辦公室里,能快速找到所需物品的位置;在工廠中,可規(guī)劃高效的物料運(yùn)輸路徑。這種基于現(xiàn)實(shí)場(chǎng)景的定義,使得研究更具實(shí)際意義和應(yīng)用價(jià)值。比如你要去宜家買家具,當(dāng)你看到一個(gè)心儀的衣柜時(shí)你會(huì)在腦海里想一下你的臥室,放到哪里更合適,這時(shí)候我們會(huì)在腦海里重構(gòu)一下自己的臥室空間,回憶一下房間里的物體、他們的位置以及大概的大小,判斷下新買的衣柜應(yīng)該放到哪里。

能力分類的深度剖析

李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


視覺空間智能涵蓋多個(gè)關(guān)鍵能力領(lǐng)域(見圖 2)。視覺感知是基礎(chǔ),要求模型能夠從視頻中準(zhǔn)確識(shí)別各類物體,這涉及到對(duì)物體形狀、顏色、紋理等特征的提取和識(shí)別。例如,在復(fù)雜的室內(nèi)視頻中,模型需分辨出桌椅、電器等不同物體。

語言智能則負(fù)責(zé)理解與空間相關(guān)的語言描述,并將其與視覺信息相結(jié)合。當(dāng)遇到“房間里有幾張椅子”這樣的問題時(shí),模型要理解問題含義,并在視頻中找到對(duì)應(yīng)的答案。

時(shí)間處理能力使模型能夠追蹤物體在視頻中的時(shí)間動(dòng)態(tài)變化,構(gòu)建其運(yùn)動(dòng)軌跡。比如在監(jiān)控視頻中,模型可記錄人員或物體的移動(dòng)路徑。

空間推理能力是核心,包括關(guān)系推理和自我中心-客體中心轉(zhuǎn)換。關(guān)系推理要求模型依據(jù)距離和方向判斷物體間的空間關(guān)系,如確定書架與窗戶的相對(duì)位置。自我中心-客體中心轉(zhuǎn)換則是在以自身視角和以環(huán)境為中心的視角之間切換,這類似于人類在空間中定位自己和周圍物體的過程。

3.VSI-Bench創(chuàng)新基準(zhǔn)測(cè)試的構(gòu)建與解析

概述:架構(gòu)與任務(wù)體系

VSI-Bench 由 288 個(gè)真實(shí)視頻生成的 5000 多個(gè)問題-答案對(duì)組成,數(shù)據(jù)來源于 ScanNet、ScanNet++ 和 ARKitScenes 等權(quán)威數(shù)據(jù)集,涵蓋多種環(huán)境和地理區(qū)域。其任務(wù)分為配置、測(cè)量估計(jì)和時(shí)空三大類共八個(gè)任務(wù)(見圖 3)。

配置任務(wù)中的物體計(jì)數(shù),考驗(yàn)?zāi)P蛯?duì)視頻中特定物體數(shù)量的準(zhǔn)確統(tǒng)計(jì)能力;相對(duì)距離任務(wù)要求模型判斷物體間的遠(yuǎn)近關(guān)系;相對(duì)方向任務(wù)促使模型確定物體的方位;路線規(guī)劃任務(wù)模擬機(jī)器人導(dǎo)航,需要模型規(guī)劃出從起點(diǎn)到終點(diǎn)的合理路徑。

測(cè)量估計(jì)任務(wù)中,物體大小估計(jì)要求模型根據(jù)視頻判斷物體的尺寸;房間大小估計(jì)需模型估算出整個(gè)房間的面積;絕對(duì)距離估計(jì)則是精確計(jì)算兩個(gè)物體之間的實(shí)際距離。

時(shí)空任務(wù)的外觀順序,要求模型記住物體在視頻中首次出現(xiàn)的先后順序,測(cè)試其對(duì)空間信息的記憶能力。

基準(zhǔn)測(cè)試

數(shù)據(jù)收集與統(tǒng)一的精細(xì)操作:從不同數(shù)據(jù)集中選取樣本后,對(duì)視頻進(jìn)行標(biāo)準(zhǔn)化處理。ScanNet 視頻轉(zhuǎn)換為 24 FPS,ScanNet++和 ARKitScenes 視頻子采樣到 30 FPS,并統(tǒng)一分辨率為 640 × 480 像素。同時(shí),對(duì)不同數(shù)據(jù)集的注釋結(jié)構(gòu)進(jìn)行統(tǒng)一,提取包含數(shù)據(jù)集、視頻路徑、房間大小等關(guān)鍵信息的元信息,并精心篩選和重映射物體類別,確保數(shù)據(jù)的一致性和有效性。


李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


問題-答案生成的科學(xué)方法:除路線規(guī)劃任務(wù)采用人工標(biāo)注外,其他任務(wù)利用元信息和問題模板自動(dòng)生成問題-答案對(duì)。例如物體計(jì)數(shù)的問題模板為“ How many {object} are in this room?  ”,通過替換 {object} 生成具體問題。在數(shù)值答案任務(wù)中,合理生成選擇題選項(xiàng),并對(duì)每個(gè)場(chǎng)景和任務(wù)的問題數(shù)量進(jìn)行子采樣,保證數(shù)據(jù)集的平衡性。


李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


人工循環(huán)質(zhì)量審查的嚴(yán)格把控:在數(shù)據(jù)集收集和問題-答案對(duì)生成階段,均實(shí)施人工審查。收集時(shí)過濾掉 3D 網(wǎng)格重建不完全的場(chǎng)景,生成后手動(dòng)驗(yàn)證元信息正確性,尤其關(guān)注物體數(shù)量。在問題-答案對(duì)審查中,人工評(píng)估人員標(biāo)記錯(cuò)誤或模糊的問題,研究團(tuán)隊(duì)據(jù)此追溯錯(cuò)誤源并采取糾正措施,如刪除問題樣本、修改元信息或問題模板等,經(jīng)過多次迭代確保基準(zhǔn)測(cè)試質(zhì)量。

4. VSI-Bench 上的評(píng)估模型性能的全面審視

評(píng)估設(shè)置

基準(zhǔn)模型的廣泛涵蓋:全面評(píng)估了 15 個(gè)涵蓋不同家族、參數(shù)規(guī)模和訓(xùn)練方法的視頻支持 MLLMs,包括專有模型如 Gemini1.5 和 GPT-4o,以及開源模型如 InternVL2、ViLA 等,確保評(píng)估的全面性和代表性。

指標(biāo)設(shè)計(jì)的合理考量:根據(jù)答案類型采用不同評(píng)估指標(biāo)。選擇題答案(MCA)任務(wù)使用準(zhǔn)確率(ACC),基于精確匹配(可含模糊匹配)計(jì)算;數(shù)值答案(NA)任務(wù)采用平均相對(duì)準(zhǔn)確率(MRA),通過考慮相對(duì)誤差率來衡量模型預(yù)測(cè)的準(zhǔn)確性,以適應(yīng)不同類型問題的評(píng)估需求。

基線設(shè)置的有效參照:設(shè)置Chance Level (Random) 作為 MCA 任務(wù)隨機(jī)選擇答案的準(zhǔn)確率基線,Chance Level (Frequency) 為選擇每個(gè)任務(wù)最頻繁答案的準(zhǔn)確率基線,為模型性能評(píng)估提供清晰的參照標(biāo)準(zhǔn)。


李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)

結(jié)果分析

人類水平與模型的對(duì)比洞察:人類評(píng)估者在基準(zhǔn)測(cè)試中平均準(zhǔn)確率達(dá) 79%,在配置和時(shí)空任務(wù)上表現(xiàn)卓越,準(zhǔn)確率在 94% - 100%之間,體現(xiàn)了人類在視覺空間智能方面的優(yōu)勢(shì)。在測(cè)量任務(wù)中,人類與最佳 MLLM 的差距相對(duì)較小,表明 MLLMs 在定量估計(jì)方面有一定潛力,但仍需提升。

專有與開源模型的差異解讀:專有模型 Gemini1.5 Pro 表現(xiàn)突出,雖與人類有差距,但遠(yuǎn)超基線水平,在絕對(duì)距離和房間大小估計(jì)等任務(wù)中接近人類表現(xiàn),得益于其強(qiáng)大的研發(fā)資源和架構(gòu)。開源模型中,部分頂級(jí)模型如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 有競(jìng)爭(zhēng)力,僅落后 Gemini1.5 Pro 4%-5%,但多數(shù)開源模型(7/12)低于基線水平,反映出開源模型在視覺空間智能方面的局限性。

視覺信息影響的顯著發(fā)現(xiàn):對(duì)比視覺啟用、禁用和基線水平結(jié)果發(fā)現(xiàn),視頻對(duì)任務(wù)至關(guān)重要,視覺啟用模型性能優(yōu)于禁用模型,而禁用模型低于基線水平。在絕對(duì)距離估計(jì)、路線規(guī)劃和相對(duì)方向等任務(wù)中,MLLMs 即使有視覺信息也難以超越基線,凸顯這些任務(wù)的難度。


李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


5.MLLMs 的語言空間推理機(jī)制探究與瓶頸剖析

通過自我解釋揭示推理過程

李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)

案例研究的深刻啟示:以 Gemini1.5 Pro 為例,在成功案例中,模型展示出較強(qiáng)的視頻理解和語言推理能力,能準(zhǔn)確描述視頻信息并構(gòu)建合理推理步驟,如在相對(duì)方向任務(wù)中正確判斷物體方位。但在錯(cuò)誤案例中,常出現(xiàn)自我中心 - 客體中心轉(zhuǎn)換和關(guān)系推理錯(cuò)誤,表明模型在復(fù)雜空間推理上存在不足。


李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)



錯(cuò)誤類型的詳細(xì)分析:對(duì) Gemini1.5 Pro 在 VSI - Bench(tiny)上的錯(cuò)誤分類分析發(fā)現(xiàn),約 71%的錯(cuò)誤源于空間推理能力缺陷,其他包括視覺感知、語言智能和自我中心-客體中心轉(zhuǎn)換錯(cuò)誤,但空間推理錯(cuò)誤占主導(dǎo),成為 MLLM 性能提升的關(guān)鍵瓶頸。

CoT 方法

李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)

研究三種語言提示技術(shù)【零樣本思維鏈(CoT)、自一致性 CoT 和思維樹(ToT)】發(fā)現(xiàn),它們?cè)?VSI-Bench 上平均導(dǎo)致性能下降。雖在部分任務(wù)有輕微提升,但在房間大小和物體大小等任務(wù)中大幅下降,說明在視覺空間推理任務(wù)中,單純依靠語言提示技術(shù)提升模型性能不可行,與傳統(tǒng)語言推理任務(wù)有顯著差異。

李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


6.創(chuàng)新方法與效果評(píng)估MLLMs 的視覺空間記憶與認(rèn)知地圖

通過認(rèn)知地圖探索空間記憶

李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


認(rèn)知地圖生成的獨(dú)特方式:提示 Gemini1.5 Pro 根據(jù)視頻在 10×10 網(wǎng)格中預(yù)測(cè)物體中心位置生成認(rèn)知地圖(見圖 10),模擬人類構(gòu)建空間認(rèn)知的過程,以探究模型如何在內(nèi)部表示空間信息。

李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


局部空間意識(shí)的精準(zhǔn)評(píng)估:通過計(jì)算認(rèn)知地圖中物體間歐幾里得距離并與真實(shí)地圖比較,發(fā)現(xiàn) MLLMs 定位相鄰物體準(zhǔn)確率達(dá) 64%,表明有一定局部空間意識(shí)。但隨著物體距離增加準(zhǔn)確率下降,說明模型構(gòu)建全局空間模型困難,多形成局部世界模型(見圖 11)。

利用認(rèn)知地圖提升距離推理能力的效果

實(shí)驗(yàn)表明,讓 Gemini1.5 Pro 先生成認(rèn)知地圖再回答相對(duì)距離問題,準(zhǔn)確率提高 10%(見表 3)。這顯示認(rèn)知地圖能輔助模型進(jìn)行更準(zhǔn)確的距離推理,為提升 MLLMs 視覺空間智能提供了新途徑。


李飛飛:通過「空間智能」重構(gòu)世界-AI.x社區(qū)


7.相關(guān)工作

具有視覺空間意識(shí)的 MLLMs

近年來,MLLMs 借助 LLMs 的語言和推理能力及視覺編碼器的特征提取能力,在視覺理解上取得進(jìn)展。但在應(yīng)用于現(xiàn)實(shí)世界視覺空間任務(wù)時(shí)仍面臨諸多挑戰(zhàn),如準(zhǔn)確感知和理解空間信息。本文與以往關(guān)注 2D 圖像或純語言的研究不同,采用真實(shí)視頻評(píng)估模型,更貼合實(shí)際應(yīng)用場(chǎng)景。

MLLMs 在視頻上的基準(zhǔn)測(cè)試

隨著 MLLMs 在靜態(tài)圖像任務(wù)的出色表現(xiàn),其視頻理解能力評(píng)估受關(guān)注。已有 Video-MME、EgoSchema 和 OpenEQA 等基準(zhǔn)測(cè)試,但多側(cè)重內(nèi)容級(jí)理解,缺乏 3D 空間考慮。本文的 VSI-Bench 填補(bǔ)了這一空白,為研究 MLLMs 視覺空間能力提供了重要工具。

8.討論與未來工作

通過 VSI-Bench 對(duì) MLLMs 的研究發(fā)現(xiàn),其在視覺空間智能方面有優(yōu)勢(shì)也有瓶頸。雖在感知、時(shí)間處理和語言能力上有表現(xiàn),但空間推理能力尤其是自我中心-客體中心轉(zhuǎn)換和關(guān)系推理能力亟待提高。

當(dāng)前語言提示方法對(duì)空間推理效果不佳,但認(rèn)知地圖為提升空間距離推理能力帶來希望。未來可從特定任務(wù)微調(diào)、開發(fā)空間推理自監(jiān)督學(xué)習(xí)目標(biāo)和設(shè)計(jì)視覺空間提示技術(shù)等方向努力,推動(dòng) MLLMs 在視覺空間領(lǐng)域取得更大突破,為人工智能發(fā)展注入新動(dòng)力。

論文地址:??https://arxiv.org/pdf/2412.14171??

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

代碼地址:

??https://github.com/vision-x-nyu/thinking-in-space??

原文鏈接:

??https://www.yuque.com/u21774036/qnmlr1/ecqfh7gtbquvvwk5?#《李飛飛:通過「空間智能」重構(gòu)世界》??

本文轉(zhuǎn)載自??AIGC前沿技術(shù)追蹤??,作者: 愛讀論文的吳彥祖 ????

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦