自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

近千個(gè)反現(xiàn)實(shí)視頻構(gòu)建了「不可能」基準(zhǔn),哪個(gè)AI不服?來戰(zhàn)!

人工智能 新聞
來自 NUS 的團(tuán)隊(duì)提出了 Impossible Videos 概念,即那些違背物理、生命、地理或社會(huì)常識(shí)的視頻,并構(gòu)建了 IPV-BENCH,一個(gè)全新的基準(zhǔn),用于評(píng)測(cè) AI 模型在 “反現(xiàn)實(shí)” 視頻生成與理解方面的極限能力。

白澤琛,新加坡國立大學(xué) Show Lab 博士生,他的研究方向主要包括視頻理解和統(tǒng)一的多模態(tài)模型,在 CVPR、ICCV、NeurIPS、ICLR 等會(huì)議發(fā)表多篇文章;曾在 Amazon AI 擔(dān)任 Applied Scientist,在 ByteDance、Baidu 擔(dān)任 Research Intern。

茲海,新加坡國立大學(xué) Show Lab Research Fellow,于北京大學(xué)獲得博士學(xué)位,主要研究方向?yàn)槎嗄B(tài)模型的安全。

Mike Zheng Shou,PI,新加坡國立大學(xué)校長青年教授,福布斯 30 under 30 Asia,創(chuàng)立并領(lǐng)導(dǎo) Show Lab 實(shí)驗(yàn)室。

"當(dāng)物理、生命、地理與社會(huì)規(guī)律被顛覆,多模態(tài)模型(LMMs)是否還能識(shí)別它們的 “不可能性”?"

隨著人工智能合成視頻(AIGC)技術(shù)的飛速發(fā)展,我們正步入一個(gè)由 AI 主導(dǎo)的視頻創(chuàng)作時(shí)代。當(dāng)前的 AI 視頻生成技術(shù)可以逼真地模擬現(xiàn)實(shí)世界,但在 “反現(xiàn)實(shí)”(anti-reality)場(chǎng)景方面仍然存在巨大的探索空間。

來自 NUS 的團(tuán)隊(duì)提出了 Impossible Videos 概念,即那些違背物理、生命、地理或社會(huì)常識(shí)的視頻,并構(gòu)建了 IPV-BENCH,一個(gè)全新的基準(zhǔn),用于評(píng)測(cè) AI 模型在 “反現(xiàn)實(shí)” 視頻生成與理解方面的極限能力。

圖片

  • 論文標(biāo)題:Impossible Videos
  • 論文鏈接:https://arxiv.org/abs/2503.14378
  • 項(xiàng)目主頁:https://showlab.github.io/Impossible-Videos/
  • 代碼開源:https://github.com/showlab/Impossible-Videos
  • Hugging Face: https://huggingface.co/datasets/showlab/ImpossibleVideos

Impossible Videos 示例,包括物理、生物、地理和社會(huì)規(guī)范下的不可能場(chǎng)景

為什么 Impossible Videos 重要?

當(dāng)前的合成視頻數(shù)據(jù)集大多模擬現(xiàn)實(shí)世界,而忽略了真實(shí)世界中不可能發(fā)生的反現(xiàn)實(shí)場(chǎng)景。

我們嘗試回答兩個(gè)核心問題:

1、現(xiàn)有的視頻生成模型是否能按照提示生成高質(zhì)量的 “不可能” 視頻?

2、現(xiàn)有的視頻理解模型是否能夠正確識(shí)別和解釋 “不可能” 視頻?

Impossible Videos 的研究將推動(dòng):

  • 更強(qiáng)大的 AI 視覺推理能力。
  • 更深入的 AI 物理、社會(huì)和常識(shí)性理解。
  • 更安全可控的 AI 內(nèi)容生成能力。

IPV-BENCH:首個(gè) Impossible Video 基準(zhǔn)

我們構(gòu)建了 IPV-BENCH,一個(gè)涵蓋 四大領(lǐng)域(物理、生物、地理、社會(huì)),共 14 個(gè)類別 的基準(zhǔn),用于評(píng)測(cè)視頻模型的生成和理解能力。一共包含 260 個(gè)文本提示,902 個(gè)高質(zhì)量 AI 生成 impossible videos,及相應(yīng)反事實(shí)事件標(biāo)注。與現(xiàn)有其他基準(zhǔn)數(shù)據(jù)集相比,IPV-BENCH 擁有更豐富全面的數(shù)據(jù)模態(tài)及標(biāo)注。

Impossible Videos 分類

圖片

Benchmark 統(tǒng)計(jì)數(shù)據(jù)

圖片

關(guān)鍵結(jié)果分析

1. 評(píng)測(cè)主流 AI 視頻生成模型

使用 IPV-BENCH 提供的 260 條文本提示,我們測(cè)試了多個(gè)主流的開源和閉源 AI 視頻生成模型,如 OpenAI Sora、Kling、HunyuanVideo 等。我們提出了評(píng)價(jià)指標(biāo) IPV-Score,綜合考慮生成視頻的視覺質(zhì)量以及提示遵循情況。發(fā)現(xiàn):

  • 大多數(shù)模型難以生成符合 “不可能” 概念的高質(zhì)量視頻。表現(xiàn)最佳的 Mochi 1 也僅在 37.3% 的例子中生成了高質(zhì)量且符合提示要求的 “不可能” 視頻,大多數(shù)模型的成功率徘徊在 20% 左右。
  • 模型在視頻質(zhì)量以及提示遵循兩方面能力不均衡。商業(yè)模型在視覺質(zhì)量上遙遙領(lǐng)先,但是難以嚴(yán)格遵循文本提示生成 “不可能” 事件。開源模型如 Mochi 1 視覺質(zhì)量雖然遜色,但是提示遵循能力遠(yuǎn)強(qiáng)于閉源模型。
  • 影響生成能力的兩點(diǎn)限制:1)“不可能” 的文本提示作為分布外數(shù)據(jù),容易引起 artifacts,造成視頻質(zhì)量下降。2)過度強(qiáng)調(diào)對(duì)事實(shí)規(guī)律的遵循限制了模型的創(chuàng)造力。

圖片

各視頻生成模型評(píng)估結(jié)果

圖片

圖片

視頻生成模型的失敗案例。(上) Mochi 1: A car was driving on a country road when it suddenly began to leave the ground and fly into the sky. (下) Sora: On a city street, a yellow car gradually turns green as it drives.

2. 評(píng)測(cè)主流 AI 視頻理解模型

使用 902 個(gè)高質(zhì)量視頻以及對(duì)應(yīng)的人工標(biāo)注,我們構(gòu)建了三個(gè)不同任務(wù)評(píng)測(cè)主流多模態(tài)理解模型對(duì)超現(xiàn)實(shí)現(xiàn)象的理解能力,包括:1)AI 生成視頻判斷任務(wù)(Judgement),2)“不可能” 事件識(shí)別任務(wù)(選擇題,MC),3)“不可能” 事件描述任務(wù)(自然語言,Open)。

圖片

“不可能” 事件識(shí)別任務(wù)示例

圖片

“不可能” 事件描述任務(wù)示例

根據(jù)是否需要時(shí)域線索進(jìn)行判斷,我們將 “不可能” 事件劃分為空域 (Spatial) 和時(shí)域(Temporal)兩類。 分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):

  • 現(xiàn)有模型展示出了對(duì) “不可能” 事件一定程度的理解能力。在 “不可能” 事件識(shí)別任務(wù)(MC)中,現(xiàn)有模型在區(qū)分選項(xiàng)中的不可能事件和其他事件方面展示了較大的潛力。然而,在沒有選項(xiàng)線索的開放描述任務(wù)中(Open),模型從視頻中直接推理并解釋” 不可能” 事件仍舊困難。
  • 物理規(guī)律類視頻的理解更具挑戰(zhàn)、生物、社會(huì)、地理類的視頻理解相對(duì)容易。
  • 現(xiàn)有模型在時(shí)域動(dòng)態(tài)推理方面仍存在不足。模型在時(shí)域任務(wù)上的性能顯著低于在空域任務(wù)上的性能。

圖片

視頻理解模型在各類別任務(wù)上的表現(xiàn)

圖片

視頻理解模型在空域和時(shí)域任務(wù)上的表現(xiàn)

總結(jié)與未來方向

  • 首個(gè) Impossible Videos Benchmark: 提供標(biāo)準(zhǔn)化評(píng)測(cè)體系。
  • 新挑戰(zhàn):從反事實(shí)的視角評(píng)測(cè)模型對(duì)現(xiàn)實(shí)世界規(guī)律的理解。
  • 面向未來:當(dāng)前多模態(tài)模型在 “不可能” 事件理解、 時(shí)域推理、反事實(shí)生成 等方面仍存在巨大挑戰(zhàn)?;?Impossible Videos 的數(shù)據(jù)增強(qiáng)、模型微調(diào)等是幫助模型掌握世界規(guī)律的新視角。
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-04-20 08:11:33

Css前端@property

2014-07-17 10:38:30

大數(shù)據(jù)

2023-12-05 07:19:43

CAP定理分布式

2016-03-14 14:45:18

中華網(wǎng)

2021-02-21 14:05:02

區(qū)塊鏈比特幣安全

2017-12-19 14:15:27

程序員愿望加班

2009-11-05 09:34:00

虛擬化終結(jié)者

2012-04-10 08:58:26

小米

2019-01-02 06:26:02

API應(yīng)用程序編程接口應(yīng)用安全

2013-12-13 10:01:16

諾基亞安卓手機(jī)

2016-09-01 16:37:24

2024-01-24 13:08:00

2023-05-09 08:59:09

ChatGPT程序員裁員

2025-04-17 09:00:00

架構(gòu)聊消息微信

2018-07-26 08:13:31

根服務(wù)器網(wǎng)絡(luò)TCP

2013-07-02 09:26:11

IntelCEO代工

2012-03-24 21:26:56

2023-05-09 22:57:26

AI網(wǎng)絡(luò)

2015-04-28 10:57:28

javascriptjavascript題javascript題

2021-10-15 10:34:31

云計(jì)算制造業(yè)云應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)