AI能看懂圖像卻算不好距離,上交時間-空間智能基準(zhǔn)難倒9大頂尖多模態(tài)模型
多模態(tài)大語言模型(MLLM)在具身智能和自動駕駛“端到端”方案中的應(yīng)用日益增多,但它們真的準(zhǔn)備好理解復(fù)雜的物理世界了嗎?
上海交通大學(xué)聯(lián)合中國地質(zhì)大學(xué)、南洋理工大學(xué)、智源研究院以及斯坦福大學(xué)的研究團(tuán)隊推出首個多模態(tài)大模型(MLLM)時空智能評測基準(zhǔn)STI-Bench(Spatial-Temporal Intelligence Benchmark),向當(dāng)前最先進(jìn)的多模態(tài)大語言模型發(fā)起了關(guān)于精確空間時間理解的嚴(yán)峻挑戰(zhàn)。
結(jié)果顯示,即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等當(dāng)前最強(qiáng)的多模態(tài)大模型,在需要定量分析真實世界空間關(guān)系和動態(tài)變化的任務(wù)上,表現(xiàn)并不盡人意。
從語義理解到時空智能
MLLM在視覺語言理解上成就斐然,并被寄望于成為具身智能和自動駕駛的“端到端”解決方案。但這要求模型超越傳統(tǒng)的語義理解,具備精準(zhǔn)的時空智能。
試想AI應(yīng)用場景中的需求:
- 自動駕駛: 需知曉與前車的精確距離(米)、行人過馬路的速度(米/秒)、安全過彎的車速限制等。
- 機(jī)器人操作:需判斷目標(biāo)物體的尺寸位置(毫米級)、物體間的空間布局、高效的抓取路徑與速度。
這些任務(wù)的核心是定量化的空間-時間理解能力,而這恰恰可能是當(dāng)前大模型能力的薄弱環(huán)節(jié)。STI-Bench正是為了系統(tǒng)評估這一關(guān)鍵能力而生。
STI-Bench:”時空智能”的全面基準(zhǔn)測試
與現(xiàn)有側(cè)重語義的評測不同,STI-Bench直接采用真實世界視頻作為輸入,聚焦于精確、量化的時空理解,旨在評估模型在真實應(yīng)用場景中的潛力。
基準(zhǔn)構(gòu)建
數(shù)據(jù)來源包括300多個真實世界視頻,覆蓋三類典型場景:桌面操作(毫米級)、室內(nèi)環(huán)境(厘米級)、戶外場景(分米級)。
評測任務(wù)共八項,分屬兩個維度。第一類是靜態(tài)空間理解,包括:(1)尺度度量,評估物體大小和物體之間的距離;(2)空間關(guān)系,理解物體的相對位置關(guān)系;(3)3D視頻定位,預(yù)測物體在三維空間中的位置框。第二類是動態(tài)時序理解,包括:(4)位移與路徑長度,判斷物體運(yùn)動距離;(5)速度與加速度,分析物體運(yùn)動的快慢及其變化趨勢;(6)自我中心方向,估計相機(jī)的旋轉(zhuǎn)角度;(7)軌跡描述,概括物體運(yùn)動路徑;(8)姿態(tài)估計,識別相機(jī)或物體在運(yùn)動過程中的姿態(tài)變化。
此外,該數(shù)據(jù)集還包含2000多對高質(zhì)量問答(QA),所有問答基于精確標(biāo)注計算真值,采用GPT-4o生成多樣化問題與答案,并經(jīng)過多輪人工審核與校準(zhǔn),確保問答內(nèi)容準(zhǔn)確、語言合理、且與對應(yīng)場景的精度需求高度匹配。
實驗結(jié)果
研究團(tuán)隊對當(dāng)前最先進(jìn)的多模態(tài)模型進(jìn)行了全面評測,包括最強(qiáng)的專有模型(GPT-4o、Gemini-2.0-Flash、Gemini-2.5-Pro、Claude-3.7-Sonnet)和知名開源模型(Qwen2.5-VL-72B、InternVL2.5-78B、VideoLLaMA 3等)。
評測結(jié)果令人感到擔(dān)憂:
整體表現(xiàn)不佳:表現(xiàn)最好的Qwen2.5-VL-72B和Gemini-2.5-Pro也僅不到42%的準(zhǔn)確率,僅比隨機(jī)猜測(20%)高一些,距離實際應(yīng)用所需的可靠性還有天壤之別。
定量空間任務(wù)成”重災(zāi)區(qū)”:
- 尺度度量:最高僅34.2%(Gemini-2.5-Pro)
- 位移路徑長度:最佳成績不到33%
- 速度與加速度:最高僅36.9%
場景差異明顯:
- 所有模型在戶外場景表現(xiàn)相對較好(最高約50%)
- 在對精度要求更高的室內(nèi)場景和桌面環(huán)境中普遍下降(均低于40%)
開源模型嶄露頭角:
Qwen2.5-VL-72B不僅贏過所有開源對手,甚至擊敗了所有專有模型,為開源社區(qū)帶來振奮。
錯誤原因分析
為了揭示大模型在空間-時間理解上失敗的根本原因,研究者對Gemini-2.5-Pro在各個場景下各類任務(wù)的思考過程進(jìn)行了詳細(xì)錯誤分析,發(fā)現(xiàn)了三大核心瓶頸:
1. 定量空間屬性不準(zhǔn)確模型往往難以通過單目視頻準(zhǔn)確估計視覺輸入中物體的空間屬性,如尺寸、距離,以及無法從視頻中推斷3D信息,影響了所有需要精確空間測量的任務(wù)。
2. 時間動態(tài)理解缺陷模型在理解隨時間變化的跨幀信息方面表現(xiàn)不佳,難以準(zhǔn)確計算和描述運(yùn)動特征如位移、速度和軌跡。尤其難以區(qū)分物體運(yùn)動與相機(jī)運(yùn)動,這些問題源于跨幀信息整合困難和物理先驗的缺失。
3. 跨模態(tài)整合能力薄弱模型無法有效結(jié)合理解文本指令與視覺內(nèi)容,整合非視覺數(shù)據(jù)與視覺信息。這導(dǎo)致對時間約束的誤解、給定初始條件等使用不當(dāng),以及結(jié)構(gòu)化數(shù)據(jù),如坐標(biāo)、姿態(tài)等與視覺元素的正確關(guān)聯(lián),影響所有依賴多模態(tài)信息的任務(wù)。
這些問題直指當(dāng)前MLLM在精準(zhǔn)的空間-時間理解上的能力缺陷,也為未來研究指明了方向。
總結(jié)
STI-Bench的結(jié)果清晰地揭示了當(dāng)前多模態(tài)大模型在精確空間-時間理解方面的嚴(yán)重不足。只有當(dāng)MLLM掌握了可靠、精確的空間-時間理解能力,它們才能在具身智能和自動駕駛等領(lǐng)域發(fā)揮真正的價值,邁出從虛擬世界到物理世界的關(guān)鍵一步。
STI-Bench的發(fā)布,為評估和改進(jìn)MLLM的空間-時間理解能力提供了一個新的基準(zhǔn)和“試金石”,有望引導(dǎo)研究人員更深入地探索解決方案。
目前,該項目的論文、代碼、數(shù)據(jù)等已經(jīng)開源。
論文鏈接: https://arxiv.org/pdf/2503.23765
論文主頁: https://mira-sjtu.github.io/STI-Bench.io/
Github: https://github.com/MIRA-SJTU/STI-Bench
Huggingface: https://huggingface.co/datasets/MIRA-SJTU/STI-Bench