自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="2ziiq"><li id="2ziiq"></li></u>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

李飛飛謝賽寧新作「空間推理」：多模態(tài)大模型性能突破關(guān)鍵所在

2024-12-23 12:37:34

即使是最先進(jìn)的多模態(tài)大模型，在空間認(rèn)知方面與人類相比仍有顯著差距，測試中約71%的錯誤都源于空間推理方面的缺陷，即空間推理能力是當(dāng)前主要瓶頸。

李飛飛謝賽寧再發(fā)新成果：

直接把o1式思考拉至下一個level——多模態(tài)大語言模型的空間思維！

這項研究系統(tǒng)評估了多模態(tài)大模型的視覺空間智能，結(jié)果發(fā)現(xiàn)：

當(dāng)前，即使是最先進(jìn)的多模態(tài)大模型，在空間認(rèn)知方面與人類相比仍有顯著差距，測試中約71%的錯誤都源于空間推理方面的缺陷，即空間推理能力是當(dāng)前主要瓶頸。

圖片

更為有趣的是，在這種情況下，思維鏈、思維樹等常用的語言提示技術(shù)直接失靈了——

不僅沒有提升模型在空間任務(wù)上的表現(xiàn)，反而會使性能下降。

而在問答過程中明確生成認(rèn)知地圖則會增強(qiáng)多模態(tài)大模型的空間距離能力。

圖片

這項工作陣容非常豪華，合著作者中不僅有李飛飛，還有紐約大學(xué)計算機(jī)科學(xué)助理教授、CV大牛謝賽寧。

而剩下的四位作者，全部共同一作。

圖片

這項研究吸引了不少網(wǎng)友的關(guān)注，大伙兒一邊看論文，一邊已迫不及待搓搓手期待2025年的新進(jìn)展。

圖片

多模態(tài)大模型的空間思維

雖然當(dāng)前多模態(tài)大語言模型在語言理解和一般視覺任務(wù)上取得了顯著進(jìn)展，但在空間認(rèn)知和理解方面的能力仍未得到充分研究。

反觀人類，面對心理旋轉(zhuǎn)測試、挑選家具這些任務(wù)時，會同時依賴于空間和視覺思考。

圖片

多模態(tài)大語言模型能否“進(jìn)行空間思考”？能否構(gòu)建一個準(zhǔn)確的、隱式的“認(rèn)知地圖”來幫助它們回答有關(guān)空間的問題？使用多模態(tài)大語言模型來增強(qiáng)空間智能的優(yōu)勢和局限性是什么？

為了探索這些問題，團(tuán)隊研究了視覺空間智能。

作者解釋，之所以在“空間智能”前加上“視覺”一詞，是因?yàn)榭臻g智能不受感官模式限制，比如盲人也可以通過別的感官感知空間，而該研究專注于視頻輸入，所以討論視覺空間智能。

圖片

VSI-Bench視覺空間智能基準(zhǔn)測試集

首先團(tuán)隊提出了一個名為VSI-Bench的基準(zhǔn)測試集。

基于之前的計算機(jī)視覺工作，團(tuán)隊重新利用現(xiàn)有的空間掃描視頻（最初用于3D重建）及其真實(shí)標(biāo)注來自動生成視覺問答（VQA）問題。

具體來說，這個測試集基于ScanNet、ScanNet++和ARKitScenes等數(shù)據(jù)集中的288個真實(shí)室內(nèi)場景視頻，包括住宅、辦公室、實(shí)驗(yàn)室等各種環(huán)境。

團(tuán)隊設(shè)計了超5000個問答對，將評測任務(wù)分為三大類：

配置型任務(wù)：物體計數(shù)、相對距離、相對方向、路線規(guī)劃
測量估計：物體尺寸、房間大小、絕對距離
時空任務(wù)：物體出現(xiàn)順序等

并采用人工審核確保數(shù)據(jù)質(zhì)量，消除歧義和錯誤標(biāo)注。

圖片

隨后，他們?nèi)嬖u估了15種支持視頻的多模態(tài)大語言模型，開源、閉源的都有。

圖片

結(jié)果，人類在VSI-Bench上的平均準(zhǔn)確率達(dá)到79%，在配置型和時空任務(wù)上準(zhǔn)確率更高，處于94%-100%之間。

相比之下，表現(xiàn)最好的閉源模型是Gemini-1.5 Pro，平均準(zhǔn)確率為48.8%，開源模型LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B與之相近。

在需要精確估計絕對距離/大小的三個測量任務(wù)上，大模型和人類表現(xiàn)差距相對較小。

團(tuán)隊還進(jìn)一步證實(shí)了視頻輸入對模型性能的重要性，盲測實(shí)驗(yàn)中，在絕對距離估計等特定任務(wù)上，即使是最先進(jìn)的模型也難以超越隨機(jī)基線的表現(xiàn)。

語言視覺兩個層面分析模型思維過程

為了深入理解模型的認(rèn)知機(jī)制，團(tuán)隊又從語言和視覺兩個層面分析了模型的思維過程。

圖片

圖片

在語言層面，通過讓模型進(jìn)行自我解釋，發(fā)現(xiàn)它們確實(shí)具備不錯的視頻理解和語言推理能力。

但詳細(xì)的錯誤分析顯示，超70%的錯誤源于其空間推理能力的不足。

圖片

圖片

接著，團(tuán)隊用常用的語言提示技術(shù)改進(jìn)，包括思維鏈、思維樹、自洽性。

結(jié)果不僅沒有提升模型在空間任務(wù)上的表現(xiàn)，反而導(dǎo)致了性能下降，也就是說純粹的語言推理技術(shù)難以解決空間認(rèn)知問題。

在視覺層面，他們又使用認(rèn)知地圖來分析模型的空間記憶能力。

結(jié)果顯示，模型在理解局部空間關(guān)系時表現(xiàn)較好，相鄰物體位置關(guān)系的準(zhǔn)確率達(dá)到64%。但隨著物體之間距離的增加，模型的空間關(guān)系理解能力顯著下降。

這說明模型傾向于建立局部空間模型，而不是形成完整的全局空間理解。

圖片

圖片

不過，他們研究了一種新思路：

使用認(rèn)知地圖輔助空間推理。

圖片

加入這種機(jī)制，模型在相對距離任務(wù)上的準(zhǔn)確率提升了10個百分點(diǎn)，這為提升模型空間智能提供了一個潛在的解決方向。

李飛飛謝賽寧領(lǐng)銜，四位共同一作

論文一經(jīng)公布，幾位作者就激情當(dāng)起了自個兒的首批自來水（doge）。

謝賽寧表示：

視頻理解是下一個前沿領(lǐng)域，但并非所有視頻都是相同的。
這項研究探索了多模態(tài)大語言模型如何觀察、記憶和回憶空間。

圖片

“AI教母”李飛飛也轉(zhuǎn)發(fā)開麥：

這是人類智能中極為重要的一個方面，2025年還有更多值得期待，推動空間智能的邊界！

圖片

這項研究共同一作有四位，正如李飛飛教授透露，多位都是謝賽寧的學(xué)生。

Jihan Yang

圖片

Jihan Yang是紐約大學(xué)Courant研究所博士后研究員，導(dǎo)師是謝賽寧。在此之前，Jihan Yang于香港大學(xué)獲得了博士學(xué)位，中山大學(xué)獲得了學(xué)士學(xué)位。

他的研究興趣集中在機(jī)器學(xué)習(xí)和計算機(jī)視覺領(lǐng)域，特別關(guān)注多模態(tài)和具身智能。

Shusheng Yang

圖片

Shusheng Yang目前是紐約大學(xué)博士生。

領(lǐng)英顯示，他是華中科技大學(xué)校友，曾經(jīng)在阿里和騰訊有過工作經(jīng)歷。

圖片

Anjali Gupta

圖片

Anjali Gupta是紐約大學(xué)Courant研究所博士生，導(dǎo)師是謝賽寧教授。

她的研究領(lǐng)域是機(jī)器學(xué)習(xí)和計算機(jī)視覺，特別是以視覺為中心的多模態(tài)大語言模型。

Rilyn Han

圖片

Rilyn Han來自耶魯大學(xué)，主修計算機(jī)科學(xué)和經(jīng)濟(jì)學(xué)，研究主要關(guān)注探索多模態(tài)大語言模型的能力。

論文鏈接：https://arxiv.org/pdf/2412.14171
項目主頁：https://vision-x-nyu.github.io/thinking-in-space.github.io/
參考鏈接：
[1]https://x.com/sainingxie/status/1870877202595958791
[2]https://x.com/drfeifei/status/1870881981703291097
[3]https://vision-x-nyu.github.io/thinking-in-space.github.io/

責(zé)任編輯：武曉燕來源：量子位

多模態(tài)大模型性能

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="76moc"><track id="76moc"></track></legend>