自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷

發(fā)布于 2025-4-3 10:56
瀏覽
0收藏

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.00983 
開源地址:https://haoyi-duan.github.io/WorldScore/ 

亮點直擊

  • 提出了首個世界生成基準(zhǔn)WorldScore,支持對3D、4D、圖像到視頻(I2V)文本到視頻(T2V)等多種方法進行統(tǒng)一評估。
  • 為基準(zhǔn)測試精心構(gòu)建了一個高質(zhì)量、多樣化的數(shù)據(jù)集,涵蓋不同類別的靜態(tài)與動態(tài)場景,并包含多種視覺風(fēng)格。
  • 提出了WorldScore 評估指標(biāo),綜合衡量世界生成模型的關(guān)鍵性能,包括可控性、質(zhì)量動態(tài)性
  • 通過對17 個開源模型2 個閉源模型的全面評估,揭示了當(dāng)前世界生成方法的關(guān)鍵洞見與挑戰(zhàn),為未來研究提供了寶貴指導(dǎo)。

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

風(fēng)格化圖像示例:預(yù)定義的風(fēng)格集合包含7種不同的視覺藝術(shù)風(fēng)格

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

當(dāng)現(xiàn)有視頻評估基準(zhǔn)(如VBench)基于單場景視頻質(zhì)量對模型A和B給出相似評分時,WorldScore基準(zhǔn)通過識別模型B在生成新場景和執(zhí)行指定攝像機運動方面的失敗,有效區(qū)分了兩者的世界生成能力

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 缺乏統(tǒng)一評估標(biāo)準(zhǔn):現(xiàn)有基準(zhǔn)主要針對視頻生成或單場景生成,缺乏對大規(guī)模、多樣化世界生成的系統(tǒng)性評估。
  • 控制能力不足:現(xiàn)有方法難以滿足用戶對多場景無縫集成和精確空間布局控制的需求。
  • 兼容性局限:現(xiàn)有基準(zhǔn)無法兼容3D/4D場景生成方法所需的相機軌跡和參考圖像輸入。

提出的方案

  1. WorldScore 基準(zhǔn):首個統(tǒng)一的世界生成評估框架,將世界生成分解為一系列“下一場景生成”任務(wù),每個任務(wù)包含三元組(當(dāng)前場景、下一場景、布局)。
  2. 多樣化數(shù)據(jù)集:涵蓋靜態(tài)與動態(tài)世界、室內(nèi)與室外場景、寫實與風(fēng)格化視覺域,共3000個高質(zhì)量測試樣本。
  3. 多維度評估指標(biāo)(WorldScore)
  • 可控性(Controllability):生成結(jié)果對輸入控制(如相機軌跡、文本描述)的遵循程度。
  • 質(zhì)量(Quality):生成內(nèi)容的逼真性和一致性。
  • 動態(tài)性(Dynamics):運動的準(zhǔn)確性和穩(wěn)定性。

應(yīng)用的技術(shù)

  1. 任務(wù)分解:通過“下一場景生成”任務(wù)統(tǒng)一評估3D/4D場景生成、文本/圖像到視頻生成等多種方法。
  2. 統(tǒng)一輸出格式:將所有模型的輸出轉(zhuǎn)換為視頻格式,實現(xiàn)跨方法直接對比。
  3. 多模態(tài)輸入支持:同時提供圖像+文本描述作為當(dāng)前場景輸入,以及相機矩陣+文本描述作為布局輸入,兼容不同模型需求。

達到的效果

  1. 全面評估:對19個代表性模型(開源/閉源)進行測試,涵蓋圖像到視頻(5個)、文本到視頻(7個)、3D場景生成(6個)和4D生成(1個)四大類。
  2. 關(guān)鍵洞見:揭示每類模型在世界生成中的優(yōu)勢與挑戰(zhàn),例如:
  • 視頻生成模型在動態(tài)性上表現(xiàn)較好,但可控性不足;
  • 3D/4D生成模型在布局控制上更優(yōu),但動態(tài)場景生成能力有限。
  1. 推動領(lǐng)域發(fā)展:為世界生成任務(wù)提供標(biāo)準(zhǔn)化評估框架,促進多模態(tài)生成技術(shù)的融合與改進。

WorldScore 基準(zhǔn)測試

設(shè)計概述

目標(biāo)是建立一個統(tǒng)一不同方法論的世界生成評估基準(zhǔn)。WorldScore 基準(zhǔn)包含三個關(guān)鍵組成部分:

  • 標(biāo)準(zhǔn)化的世界規(guī)范;
  • 精心策劃的數(shù)據(jù)集;
  • 多維度的評估指標(biāo)。


整體框架如下圖2所示。將世界生成任務(wù)分解為一系列下一場景生成任務(wù),其中每一步由一個包含空間布局和語義內(nèi)容的世界規(guī)范定義(圖2左上角)。該世界規(guī)范使得我們能夠指導(dǎo)從3D/4D場景生成到視頻生成等不同類型的模型。生成的輸出結(jié)果統(tǒng)一以視頻形式呈現(xiàn)(圖2右下角),并通過WorldScore指標(biāo)(圖2右上角)評估三個關(guān)鍵方面:可控性、質(zhì)量和動態(tài)性。這種統(tǒng)一的評估方法確保了不同方法論范式之間的公平比較。

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

世界規(guī)范

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

靜態(tài)與動態(tài)世界

由于動態(tài)特性與可控性、質(zhì)量評估的本質(zhì)差異,我們明確將動態(tài)評估與其他兩方面解耦。為此定義兩類任務(wù):

  • 靜態(tài)世界生成:要求模型生成可變長度的場景序列以評估可控性和質(zhì)量。此時下一場景文本描述N指向新場景內(nèi)容,布局L描述大幅相機運動。
  • 動態(tài)世界生成:要求模型生成場景內(nèi)運動以評估動態(tài)性。此時N描述與當(dāng)前場景C相同內(nèi)容但含動態(tài)變化(如動物移動),布局L明確指定固定相機位姿且無相機運動。

數(shù)據(jù)集構(gòu)建

數(shù)據(jù)集包含3000個世界規(guī)范樣本(2000靜態(tài)/1000動態(tài)),詳細統(tǒng)計見表S4。

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

當(dāng)前場景C的構(gòu)建

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

  • 靜態(tài)世界:定義10類場景(5室內(nèi)/5室外),從開源數(shù)據(jù)集[8,38,42,57,62,67,69,74,98]和Unsplash采集圖像,經(jīng)嚴格篩選獲得約5000張照片級圖像(真實照片或物理渲染圖)。通過視覺語言模型GPT-4o生成描述  并進行10分類,每類保留前100張高質(zhì)量圖像,最終獲得1000組 。
  • 風(fēng)格化擴展:為每組真實風(fēng)格樣本隨機選擇7種風(fēng)格之一,通過風(fēng)格控制文本到圖像模型[55]生成對應(yīng)風(fēng)格化圖像 (示例見圖3前兩行)。
  • 動態(tài)世界:定義5類運動類型,從Unsplash手動篩選每類100張圖像,采用相同流程生成描述及風(fēng)格化版本,最終1000組樣本(示例見圖3末行)。

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

下一場景文本描述  的構(gòu)建

每個世界生成任務(wù)包含連續(xù)的下一場景生成步驟,N分為兩種情形:

  1. 小世界:N僅含1個新場景
  2. 大世界: N含3個新場景

為保證場景序列的連貫性,采用自回歸式描述生成方法[90]:指導(dǎo)大語言模型生成與當(dāng)前所有場景描述不同的下一場景文本。例如對小世界任務(wù),模型需生成與當(dāng)前場景P語義不同但合理的后續(xù)描述(如從"客廳"切換到"廚房")。

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

布局L的構(gòu)建

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

  1. 覆蓋所有空間方向
  2. 適配文本到視頻模型——因多數(shù)模型基于含此類運動描述的電影片段訓(xùn)練

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

這些運動既包含場景內(nèi)運動(如鏡頭推進),也包含場景間轉(zhuǎn)場(如鏡頭拉出)。每個靜態(tài)場景生成樣本隨機分配一個布局 L(示例見圖5右)。若分配布局為場景內(nèi)運動,則將N替換為P 。

WorldScore評估指標(biāo)

WorldScore包含兩個綜合得分:

  • WorldScore-Static:僅評估靜態(tài)世界生成能力
  • WorldScore-Dynamic:額外評估動態(tài)世界生成能力

二者均通過三大關(guān)鍵維度的子指標(biāo)聚合而成:

可控性

包含三項指標(biāo):

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

物體控制準(zhǔn)確率

使用開集目標(biāo)檢測模型[44]檢測下一場景描述N中指定的物體是否出現(xiàn):

  • 從N提取1-2個物體描述
  • 計算檢測結(jié)果與描述的匹配成功率

內(nèi)容對齊度

采用CLIPScore評估生成場景與整個文本描述N的語義對齊程度(物體描述通常僅占文本長度的1/4)。

質(zhì)量指標(biāo)

3D一致性靜態(tài)世界視頻的幾何穩(wěn)定性評估:

  • 使用DROID-SLAM逐幀估計稠密深度
  • 計算連續(xù)幀共視像素的重投影誤差(示例見圖6)

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

典型示例如下: 頂部:3D一致性右側(cè)。不良示例出現(xiàn)幾何形狀突變,而非平滑過渡。中部:光度一致性。不良示例中山地草場的紋理發(fā)生嚴重偏移。底部:運動準(zhǔn)確性。優(yōu)秀示例中章魚運動而水母保持靜止(左),右側(cè)不良示例則出現(xiàn)水母移動而章魚靜止的情況。

光度一致性

檢測外觀(如紋理)的穩(wěn)定性:

  • 計算連續(xù)幀光流的平均端點誤差(AEPE)
  • 有效識別紋理閃爍等問題(圖6中排山脈的草紋理偏移)

風(fēng)格一致性

通過Gram矩陣比較單次場景生成任務(wù)首尾幀的F-范數(shù)差異。

主觀質(zhì)量

結(jié)合CLIP-IQA+與CLIP審美評分的混合指標(biāo),經(jīng)200人實驗驗證其與人類偏好最佳匹配。

動態(tài)性指標(biāo)

運動準(zhǔn)確性

量化指定區(qū)域運動的精確性:

  • 對比目標(biāo)區(qū)域(如汽車)與非目標(biāo)區(qū)域(如行人)的光流差異
  • 消除非預(yù)期相機運動帶來的全局光流干擾(圖6末行示例)

運動幅度

通過連續(xù)幀光流估計模型生成大幅運動的能力。

運動平滑度

利用視頻插幀模型[93]生成平滑基準(zhǔn),評估生成視頻  的時間連續(xù)性。

分數(shù)歸一化與聚合

  1. 各指標(biāo)線性歸一化至[0,1]區(qū)間后乘以100
  2. WorldScore-Static:可控性與質(zhì)量維度得分的算術(shù)平均
  3. WorldScore-Dynamic:額外加入動態(tài)性三個維度得分
  4. 不支持動態(tài)任務(wù)的3D生成模型,動態(tài)指標(biāo)強制賦0

實驗結(jié)果

評估模型

在WorldScore基準(zhǔn)測試中評估了19個世界生成模型,包括:

  • 12個視頻生成模型
  • 2個領(lǐng)先閉源I2V模型:Gen-3、Hailuo
  • 6個開源I2V模型:DynamiCrafter、VideoCrafter1/2、EasyAnimate、CogVideoX-I2V 、Allegro
  • 4個開源T2V模型:VideoCrafter1-T2V、T2v-Turbo、Vchitect-2.0、CogVideoX-T2V
  • 6個3D場景生成模型:SceneScape、Text2Room、LucidDreamer、WonderJourney、InvisibleStitch、WonderWorld
  • 1個4D生成模型:4D-fy (完整模型細節(jié)見下表S1)

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

關(guān)鍵發(fā)現(xiàn)與挑戰(zhàn)

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

表2的基準(zhǔn)測試結(jié)果揭示了以下結(jié)論:

3D模型在靜態(tài)世界生成中占優(yōu)

  • WorldScore-Static前三名均為3D模型:WonderWorld(72.69)、LucidDreamer(70.40),顯著優(yōu)于最佳視頻模型CogVideoX-T2V(62.15)。
  • 優(yōu)勢來源:3D模型天生具備更高的相機控制精度(通過顯式3D表征)和內(nèi)容對齊能力(可生成更大空間),以及優(yōu)異的3D與光度一致性。
  • 局限性:無法生成動態(tài)世界,擴展至4D的4D-fy表現(xiàn)欠佳(動態(tài)生成本身難度較高)。

視頻模型的相機控制短板

  • 最佳視頻模型CogVideoX-T2V的相機控制得分(40.22)仍遠低于任何3D/4D模型。
  • 改進方向:近期相機條件注入方法[20,81]可能提供解決方案。

開源視頻模型媲美閉源模型

  • CogVideoX-I2V在WorldScore-Static(62.15)和WorldScore-Dynamic(59.12)上均超過閉源模型Gen-3與Hailuo。
  • 細節(jié)差異:CogVideoX-I2V相機控制更強,但物體控制與內(nèi)容對齊稍弱。

運動幅度與平滑度的權(quán)衡

  • 運動幅度大的模型(如Allegro)往往伴隨更低的運動平滑度,反映當(dāng)前視頻模型難以兼顧大幅運動與自然過渡。

運動幅度≠運動準(zhǔn)確性

  • 運動幅度與準(zhǔn)確性相關(guān)性弱(R<0.3),表明大運動模型可能產(chǎn)生非指令要求的相機運動或無關(guān)物體運動。

視頻模型的場景局限性

  • 長序列生成:視頻模型在"大世界"任務(wù)(多場景序列)中表現(xiàn)顯著下降(圖7)。
  • 室外場景:視頻模型與3D模型的性能差距在室外場景中更大(室內(nèi)場景差距較?。?/li>

19款模型大PK!李飛飛團隊發(fā)布首個世界生成基準(zhǔn)WorldScore:曝出世界生成三大致命傷-AI.x社區(qū)

T2V vs I2V的控制差異

  • T2V模型:更易控制(可控性得分高+運動幅度大),但傾向于生成更大相機運動。
  • I2V模型:質(zhì)量得分更高,但受輸入圖像視角限制,生成新場景內(nèi)容的能力較弱。

結(jié)論

總之,WorldScore基準(zhǔn)測試揭示了當(dāng)前各類世界生成方法的局限性。對于3D場景生成模型,雖然它們在靜態(tài)世界生成方面表現(xiàn)出色,但將其擴展到4D表征并融入動態(tài)性仍然具有挑戰(zhàn)性。對于視頻生成模型,主要挑戰(zhàn)包括可控性、長序列生成以及室外場景的生成。這些發(fā)現(xiàn)為未來研究指明了清晰方向:彌合3D與4D表征之間的差距、開發(fā)更魯棒的可控性機制、以及設(shè)計能夠處理長場景序列的架構(gòu)。我們相信WorldScore基準(zhǔn)將成為衡量這些方向進展的有價值工具,最終推動該領(lǐng)域發(fā)展出更強大、更通用的世界生成系統(tǒng)。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/2lRg-QP-pJGbUgPQwLQQzQ??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦