自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最強(qiáng)o1也剛剛及格!中科大等團(tuán)隊(duì)測(cè)試視頻CoT推理能力:多數(shù)模型不及格

人工智能 新聞
中科大等團(tuán)隊(duì)提出了評(píng)估基準(zhǔn)——VCR-Bench,里面包含七個(gè)獨(dú)立評(píng)估維度的任務(wù)框架,每個(gè)維度針對(duì)性地考察模型的不同能力(如時(shí)空推理、因果推斷等)。

視頻理解的CoT推理能力,怎么評(píng)?

中科大等團(tuán)隊(duì)提出了評(píng)估基準(zhǔn)——VCR-Bench,里面包含七個(gè)獨(dú)立評(píng)估維度的任務(wù)框架,每個(gè)維度針對(duì)性地考察模型的不同能力(如時(shí)空推理、因果推斷等)。為確保評(píng)估的全面性和可靠性,每個(gè)維度都設(shè)計(jì)了100余條高質(zhì)量樣本。

圖片圖片

結(jié)果發(fā)現(xiàn)當(dāng)前多模態(tài)模型在視頻復(fù)雜推理任務(wù)上表現(xiàn)普遍不佳——

最優(yōu)模型o1僅獲得62.8的CoT得分和56.7%的準(zhǔn)確率,大多數(shù)模型兩項(xiàng)指標(biāo)均低于40分,且閉源模型優(yōu)于開(kāi)源模型,大模型優(yōu)于小模型。

具體來(lái)看。

多模態(tài)視頻理解

在多模態(tài)研究領(lǐng)域,視頻數(shù)據(jù)因其豐富的語(yǔ)義信息和全面的場(chǎng)景細(xì)節(jié),為構(gòu)建復(fù)雜的思維鏈(Chain-of-Thought,CoT)推理任務(wù)提供了理想載體。

然而,當(dāng)前多模態(tài)研究社區(qū)面臨一個(gè)關(guān)鍵挑戰(zhàn):

缺乏系統(tǒng)化的評(píng)估方法來(lái)驗(yàn)證模型在視頻理解中的CoT推理能力,這嚴(yán)重制約了視頻復(fù)雜推理任務(wù)的研究進(jìn)展。

針對(duì)這一研究空白,中科大等的研究團(tuán)隊(duì)創(chuàng)新性地提出了首個(gè)面向視頻CoT推理過(guò)程的多模態(tài)評(píng)估基準(zhǔn)(Benchmark)。

圖片

該基準(zhǔn)通過(guò)建立標(biāo)準(zhǔn)化的評(píng)估體系,顯著提升了視頻理解任務(wù)中推理能力的驗(yàn)證效度。

此項(xiàng)工作自發(fā)布以來(lái)獲得了學(xué)術(shù)界的高度關(guān)注,在HuggingFace的4月11日Daily Papers評(píng)選中榮登榜單第二位,展現(xiàn)了其重要的學(xué)術(shù)價(jià)值和應(yīng)用前景。

圖片

研究者認(rèn)為,當(dāng)前視頻理解領(lǐng)域的評(píng)測(cè)基準(zhǔn)主要存在兩個(gè)關(guān)鍵性局限:

首先,現(xiàn)有方法普遍僅關(guān)注模型輸出的最終結(jié)果,而忽視了對(duì)推理過(guò)程的評(píng)估。這種評(píng)估方式可能導(dǎo)致”假陽(yáng)性”現(xiàn)象——即便模型在理解或推理環(huán)節(jié)存在錯(cuò)誤,仍可能通過(guò)猜測(cè)或巧合獲得正確的最終答案。

其次,現(xiàn)有基準(zhǔn)缺乏對(duì)模型推理能力的多維度解構(gòu),無(wú)法精準(zhǔn)識(shí)別模型在復(fù)雜推理任務(wù)中的能力瓶頸(如視覺(jué)感知不足與邏輯推理缺陷的區(qū)分)。

這兩個(gè)局限性嚴(yán)重制約了對(duì)視頻理解模型真實(shí)推理能力的科學(xué)評(píng)估。而針對(duì)這些問(wèn)題所提出的VCR-Bench,則能夠很好的實(shí)現(xiàn)視頻CoT過(guò)程評(píng)估,填補(bǔ)現(xiàn)有不足。

圖片

△圖1結(jié)果評(píng)估的局限性

首個(gè)面向視頻CoT推理的Benchmark

具體而言,研究團(tuán)隊(duì)首先構(gòu)建了包含七個(gè)獨(dú)立評(píng)估維度的任務(wù)框架,每個(gè)維度針對(duì)性地考察模型的不同能力(如時(shí)空推理、因果推斷等)。

為確保評(píng)估的全面性和可靠性,每個(gè)維度精心設(shè)計(jì)了100余條高質(zhì)量樣本,最終形成包含859個(gè)精選視頻和1034組問(wèn)答對(duì)的大規(guī)模數(shù)據(jù)集。

這種多維度的評(píng)估體系能夠?qū)δP偷木C合推理能力進(jìn)行全面診斷,不僅覆蓋了視頻理解的各個(gè)關(guān)鍵環(huán)節(jié),還能有效揭示模型在不同能力維度上的強(qiáng)弱項(xiàng)。

圖片圖片

△圖2不同維度樣例

其次,對(duì)于數(shù)據(jù)集中的每一條樣本,研究團(tuán)隊(duì)不僅提供了標(biāo)準(zhǔn)問(wèn)答對(duì),還額外標(biāo)注了經(jīng)過(guò)人工驗(yàn)證的詳細(xì)CoT推理步驟作為參考標(biāo)準(zhǔn)。

在評(píng)估過(guò)程中,首先對(duì)被測(cè)模型生成的推理內(nèi)容進(jìn)行結(jié)構(gòu)化解析,將其分解為離散的推理步驟。隨后,基于預(yù)先定義的能力維度框架,包括視覺(jué)感知(perception)和邏輯推理(reasoning)兩大類(lèi)別,對(duì)這些步驟進(jìn)行分類(lèi)標(biāo)注。為保障評(píng)估的客觀性,采用GPT-4o作為自動(dòng)評(píng)分器,通過(guò)比對(duì)模型生成的推理步驟與人工標(biāo)注的黃金標(biāo)準(zhǔn),分別計(jì)算步驟類(lèi)別的召回率(Recall)和精確率(Precision),最終以F1分?jǐn)?shù)作為模型CoT得分。這一評(píng)估方案既保證了評(píng)分的可解釋性,又能有效反映模型在不同推理維度上的真實(shí)表現(xiàn)。

最后,采用GPT4o從模型的輸出內(nèi)容中提取出最終結(jié)果,并于正確結(jié)果進(jìn)行匹配,從而得到模型在VCR-Bench上推理的結(jié)果準(zhǔn)確性。

圖片圖片

△圖3VCR-Bench的評(píng)估過(guò)程

研究者在VCR-Bench上進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了其評(píng)估體系的有效性,并得到了多條富有啟發(fā)意義的結(jié)論:

  • 當(dāng)前多模態(tài)模型在視頻復(fù)雜推理任務(wù)上表現(xiàn)普遍不佳,最優(yōu)模型o1僅獲得62.8的CoT得分和56.7%的準(zhǔn)確率,大多數(shù)模型兩項(xiàng)指標(biāo)均低于40分,且閉源模型優(yōu)于開(kāi)源模型,大模型優(yōu)于小模型。
  • 通過(guò)對(duì)感知能力和推理能力的對(duì)比分析發(fā)現(xiàn),大多數(shù)測(cè)試模型的視覺(jué)感知得分都低于其推理能力得分,特別是在性能較差的模型中,這種差距表現(xiàn)得更為顯著。這一規(guī)律清晰地表明,視覺(jué)感知能力的不足已經(jīng)成為制約多模態(tài)模型性能提升的首要因素。

圖片

△圖4不同模型在VCR-Bench中的CoT得分

  • 模型在時(shí)空定位(TSG)維度表現(xiàn)最差,多數(shù)模型無(wú)法正確回答相關(guān)問(wèn)題,顯示出處理時(shí)空變化任務(wù)的嚴(yán)重不足。圖片

△圖5不同模型在VCR-Bench上的準(zhǔn)確率結(jié)果

圖片

△圖6TSG任務(wù)樣例

  • 模型的CoT得分和準(zhǔn)確率呈現(xiàn)高度正相關(guān)(r=0.89),說(shuō)明正確有效的CoT的推理步驟能夠幫助模型更好的回答對(duì)問(wèn)題。
  • 部分模型如LLaVA系列雖然能達(dá)到尚可的準(zhǔn)確率,但其CoT得分卻明顯偏低,深入分析發(fā)現(xiàn)這些模型存在指令遵循不充分的問(wèn)題,其輸出內(nèi)容往往過(guò)于簡(jiǎn)略,缺乏必要的推理步驟;相比之下,Qwen2.5-VL等表現(xiàn)較好的模型能夠嚴(yán)格遵循指令要求,生成更加完整、細(xì)致的推理過(guò)程,因而獲得更高的CoT評(píng)分。
  • 模型在中等長(zhǎng)度視頻上表現(xiàn)最佳,短視頻和長(zhǎng)視頻相對(duì)較差。長(zhǎng)視頻因內(nèi)容復(fù)雜度高帶來(lái)理解挑戰(zhàn);而短視頻對(duì)于人類(lèi)標(biāo)注員而言也較容易理解,能夠標(biāo)注出更有深度的問(wèn)題,此外一些特殊的維度(TSG)以短視頻為主,也是造成短視頻性能不佳的原因。這一現(xiàn)象凸顯了模型對(duì)不同時(shí)長(zhǎng)視頻的適應(yīng)能力仍需提升。

圖片

△圖7更多實(shí)驗(yàn)結(jié)果展示。

(左側(cè):模型在不同時(shí)長(zhǎng)視頻上的準(zhǔn)確率;右上:模型在不同實(shí)驗(yàn)設(shè)置下的準(zhǔn)確率;右下:模型CoT得分與準(zhǔn)確率的相關(guān)性統(tǒng)計(jì))

Paper: https://arxiv.org/abs/2504.07956

Project Page: https://vlm-reasoning.github.io/VCR-Bench/

Dataset: https://huggingface.co/datasets/VLM-Reasoning/VCR-Bench

Code: https://github.com/zhishuifeiqian/VCR-Bench

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-11-21 12:43:06

2024-07-16 13:24:38

2010-04-20 21:48:48

2011-12-14 20:23:31

HTC

2024-04-07 09:00:00

數(shù)據(jù)模型

2023-06-15 13:45:41

模型AI

2017-04-11 09:33:12

JS面試題應(yīng)聘者

2024-09-24 11:01:03

2024-09-13 06:32:25

2025-01-23 10:45:52

2025-02-08 14:10:00

模型系統(tǒng)AI

2023-08-21 13:49:00

圖像技術(shù)

2025-04-15 09:22:00

AI訓(xùn)練模型

2021-05-07 09:34:20

量子芯片計(jì)算機(jī)

2024-11-06 13:03:49

2024-06-17 07:10:00

2025-03-05 08:40:00

2025-01-20 13:08:25

2021-12-06 09:53:09

自然語(yǔ)言神經(jīng)網(wǎng)絡(luò)人工智能

2023-10-22 07:01:29

AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)