自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="bxqle"><abbr id="bxqle"><dfn id="bxqle"></dfn></abbr></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

近千個(gè)反現(xiàn)實(shí)視頻構(gòu)建了「不可能」基準(zhǔn)，哪個(gè)AI不服？來戰(zhàn)！

作者：機(jī)器之心 2025-04-03 09:51:20

人工智能新聞

來自 NUS 的團(tuán)隊(duì)提出了 Impossible Videos 概念，即那些違背物理、生命、地理或社會(huì)常識(shí)的視頻，并構(gòu)建了 IPV-BENCH，一個(gè)全新的基準(zhǔn)，用于評(píng)測(cè) AI 模型在 “反現(xiàn)實(shí)” 視頻生成與理解方面的極限能力。

白澤琛，新加坡國立大學(xué) Show Lab 博士生，他的研究方向主要包括視頻理解和統(tǒng)一的多模態(tài)模型，在 CVPR、ICCV、NeurIPS、ICLR 等會(huì)議發(fā)表多篇文章；曾在 Amazon AI 擔(dān)任 Applied Scientist，在 ByteDance、Baidu 擔(dān)任 Research Intern。

茲海，新加坡國立大學(xué) Show Lab Research Fellow，于北京大學(xué)獲得博士學(xué)位，主要研究方向?yàn)槎嗄B(tài)模型的安全。

Mike Zheng Shou，PI，新加坡國立大學(xué)校長青年教授，福布斯 30 under 30 Asia，創(chuàng)立并領(lǐng)導(dǎo) Show Lab 實(shí)驗(yàn)室。

"當(dāng)物理、生命、地理與社會(huì)規(guī)律被顛覆，多模態(tài)模型（LMMs）是否還能識(shí)別它們的 “不可能性”？"

隨著人工智能合成視頻（AIGC）技術(shù)的飛速發(fā)展，我們正步入一個(gè)由 AI 主導(dǎo)的視頻創(chuàng)作時(shí)代。當(dāng)前的 AI 視頻生成技術(shù)可以逼真地模擬現(xiàn)實(shí)世界，但在 “反現(xiàn)實(shí)”（anti-reality）場(chǎng)景方面仍然存在巨大的探索空間。

來自 NUS 的團(tuán)隊(duì)提出了 Impossible Videos 概念，即那些違背物理、生命、地理或社會(huì)常識(shí)的視頻，并構(gòu)建了 IPV-BENCH，一個(gè)全新的基準(zhǔn)，用于評(píng)測(cè) AI 模型在 “反現(xiàn)實(shí)” 視頻生成與理解方面的極限能力。

論文標(biāo)題：Impossible Videos
論文鏈接：https://arxiv.org/abs/2503.14378
項(xiàng)目主頁：https://showlab.github.io/Impossible-Videos/
代碼開源：https://github.com/showlab/Impossible-Videos
Hugging Face: https://huggingface.co/datasets/showlab/ImpossibleVideos

Impossible Videos 示例，包括物理、生物、地理和社會(huì)規(guī)范下的不可能場(chǎng)景

為什么 Impossible Videos 重要？

當(dāng)前的合成視頻數(shù)據(jù)集大多模擬現(xiàn)實(shí)世界，而忽略了真實(shí)世界中不可能發(fā)生的反現(xiàn)實(shí)場(chǎng)景。

我們嘗試回答兩個(gè)核心問題：

1、現(xiàn)有的視頻生成模型是否能按照提示生成高質(zhì)量的 “不可能” 視頻？

2、現(xiàn)有的視頻理解模型是否能夠正確識(shí)別和解釋 “不可能” 視頻？

Impossible Videos 的研究將推動(dòng)：

更強(qiáng)大的 AI 視覺推理能力。
更深入的 AI 物理、社會(huì)和常識(shí)性理解。
更安全可控的 AI 內(nèi)容生成能力。

IPV-BENCH：首個(gè) Impossible Video 基準(zhǔn)

我們構(gòu)建了 IPV-BENCH，一個(gè)涵蓋四大領(lǐng)域（物理、生物、地理、社會(huì)），共 14 個(gè)類別的基準(zhǔn)，用于評(píng)測(cè)視頻模型的生成和理解能力。一共包含 260 個(gè)文本提示，902 個(gè)高質(zhì)量 AI 生成 impossible videos，及相應(yīng)反事實(shí)事件標(biāo)注。與現(xiàn)有其他基準(zhǔn)數(shù)據(jù)集相比，IPV-BENCH 擁有更豐富全面的數(shù)據(jù)模態(tài)及標(biāo)注。

Impossible Videos 分類

Benchmark 統(tǒng)計(jì)數(shù)據(jù)

關(guān)鍵結(jié)果分析

1. 評(píng)測(cè)主流 AI 視頻生成模型

使用 IPV-BENCH 提供的 260 條文本提示，我們測(cè)試了多個(gè)主流的開源和閉源 AI 視頻生成模型，如 OpenAI Sora、Kling、HunyuanVideo 等。我們提出了評(píng)價(jià)指標(biāo) IPV-Score，綜合考慮生成視頻的視覺質(zhì)量以及提示遵循情況。發(fā)現(xiàn)：

大多數(shù)模型難以生成符合 “不可能” 概念的高質(zhì)量視頻。表現(xiàn)最佳的 Mochi 1 也僅在 37.3% 的例子中生成了高質(zhì)量且符合提示要求的 “不可能” 視頻，大多數(shù)模型的成功率徘徊在 20% 左右。
模型在視頻質(zhì)量以及提示遵循兩方面能力不均衡。商業(yè)模型在視覺質(zhì)量上遙遙領(lǐng)先，但是難以嚴(yán)格遵循文本提示生成 “不可能” 事件。開源模型如 Mochi 1 視覺質(zhì)量雖然遜色，但是提示遵循能力遠(yuǎn)強(qiáng)于閉源模型。
影響生成能力的兩點(diǎn)限制：1）“不可能” 的文本提示作為分布外數(shù)據(jù)，容易引起 artifacts，造成視頻質(zhì)量下降。2）過度強(qiáng)調(diào)對(duì)事實(shí)規(guī)律的遵循限制了模型的創(chuàng)造力。

各視頻生成模型評(píng)估結(jié)果

視頻生成模型的失敗案例。(上) Mochi 1: A car was driving on a country road when it suddenly began to leave the ground and fly into the sky. (下) Sora: On a city street, a yellow car gradually turns green as it drives.

2. 評(píng)測(cè)主流 AI 視頻理解模型

使用 902 個(gè)高質(zhì)量視頻以及對(duì)應(yīng)的人工標(biāo)注，我們構(gòu)建了三個(gè)不同任務(wù)評(píng)測(cè)主流多模態(tài)理解模型對(duì)超現(xiàn)實(shí)現(xiàn)象的理解能力，包括：1）AI 生成視頻判斷任務(wù)（Judgement），2）“不可能” 事件識(shí)別任務(wù)（選擇題，MC），3）“不可能” 事件描述任務(wù)（自然語言，Open）。

“不可能” 事件識(shí)別任務(wù)示例

“不可能” 事件描述任務(wù)示例

根據(jù)是否需要時(shí)域線索進(jìn)行判斷，我們將 “不可能” 事件劃分為空域 (Spatial) 和時(shí)域（Temporal）兩類。分析實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)：

現(xiàn)有模型展示出了對(duì) “不可能” 事件一定程度的理解能力。在 “不可能” 事件識(shí)別任務(wù)（MC）中，現(xiàn)有模型在區(qū)分選項(xiàng)中的不可能事件和其他事件方面展示了較大的潛力。然而，在沒有選項(xiàng)線索的開放描述任務(wù)中（Open），模型從視頻中直接推理并解釋” 不可能” 事件仍舊困難。
物理規(guī)律類視頻的理解更具挑戰(zhàn)、生物、社會(huì)、地理類的視頻理解相對(duì)容易。
現(xiàn)有模型在時(shí)域動(dòng)態(tài)推理方面仍存在不足。模型在時(shí)域任務(wù)上的性能顯著低于在空域任務(wù)上的性能。

視頻理解模型在各類別任務(wù)上的表現(xiàn)

視頻理解模型在空域和時(shí)域任務(wù)上的表現(xiàn)

總結(jié)與未來方向

首個(gè) Impossible Videos Benchmark: 提供標(biāo)準(zhǔn)化評(píng)測(cè)體系。
新挑戰(zhàn)：從反事實(shí)的視角評(píng)測(cè)模型對(duì)現(xiàn)實(shí)世界規(guī)律的理解。
面向未來：當(dāng)前多模態(tài)模型在 “不可能” 事件理解、時(shí)域推理、反事實(shí)生成等方面仍存在巨大挑戰(zhàn)?；?Impossible Videos 的數(shù)據(jù)增強(qiáng)、模型微調(diào)等是幫助模型掌握世界規(guī)律的新視角。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型視頻生成

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="2uwqe"></sub>