自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="cpsti"></sub>

<blockquote id="cpsti"><p id="cpsti"></p></blockquote>

<cite id="cpsti"><track id="cpsti"></track></cite>

<cite id="cpsti"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

李飛飛團(tuán)隊(duì)提出世界模型基準(zhǔn)：“世界生成”能力迎來統(tǒng)一評測，3D/4D/視頻模型同臺PK

作者：量子位 2025-04-10 09:10:00

人工智能新聞

李飛飛吳佳俊團(tuán)隊(duì)提出了全面評測基準(zhǔn)WorldScore，涵蓋了三大類評估指標(biāo)，動態(tài)靜態(tài)都有涉及，其數(shù)據(jù)集中包含了3000個(gè)測試樣例。

世界模型領(lǐng)域最新進(jìn)展，要比拼“世界生成”了。

李飛飛吳佳俊團(tuán)隊(duì)提出了全面評測基準(zhǔn)WorldScore，涵蓋了三大類評估指標(biāo)，動態(tài)靜態(tài)都有涉及，其數(shù)據(jù)集中包含了3000個(gè)測試樣例。

并且，WorldScore將3D場景生成、4D場景生成和視頻生成三類模型的評估，統(tǒng)一到了一起。

利用WorldScore基準(zhǔn)，團(tuán)隊(duì)對一共19款模型進(jìn)行了全面評估。

評估的結(jié)果揭示了當(dāng)前世界生成技術(shù)面臨的相機(jī)控制能力不足、長序列世界生成困難等主要挑戰(zhàn)，為模型研究人員提供了重要參考。

正如網(wǎng)友所評價(jià)，從單一場景到整體世界構(gòu)建的轉(zhuǎn)變，需要這樣的基準(zhǔn)來對研究做出指導(dǎo)。

3D/4D/視頻生成統(tǒng)一評測

研究團(tuán)隊(duì)認(rèn)為，之前的基準(zhǔn)測試（例如 VBench）僅能評估單個(gè)場景的生成能力，遠(yuǎn)未達(dá)到“世界”生成的層次。

并且以前的基準(zhǔn)測試僅考慮視頻模型，但世界生成模型還包括3D和4D方法，而WorldScore可以對所有這些模型進(jìn)行統(tǒng)一評估。

WorldScore將世界生成任務(wù)分解成一系列連續(xù)的下一場景生成任務(wù)，每個(gè)任務(wù)由三個(gè)關(guān)鍵組成部分定義：

當(dāng)前場景：包含一張場景圖像和對應(yīng)的文本描述；
下一場景；
布局：一系列相機(jī)矩陣定義的相機(jī)軌跡，以及描述相機(jī)如何移動的文本說明。

數(shù)據(jù)集方面，WorldScore包含了3000個(gè)測試樣例，其中2000個(gè)用于評估靜態(tài)世界生成能力，1000個(gè)用于評估動態(tài)世界生成能力。

靜態(tài)世界生成數(shù)據(jù)涵蓋了10個(gè)場景類別，包括5類室內(nèi)場景（餐飲空間、居住空間、通道、公共空間、工作空間）和5類室外場景（城市、郊區(qū)、水域景觀、陸地景觀、綠色景觀）。

動態(tài)世界數(shù)據(jù)則包含了5種不同類型的運(yùn)動：關(guān)節(jié)運(yùn)動、可變形運(yùn)動、流體運(yùn)動、剛體運(yùn)動和多物體運(yùn)動。

每個(gè)測試樣例都有兩個(gè)版本——真實(shí)風(fēng)格和藝術(shù)風(fēng)格，以評估模型在不同視覺域的表現(xiàn)。

所涉及的指標(biāo)則包括了可控性、質(zhì)量和動態(tài)評估（靜態(tài)場景不涉及此項(xiàng)）三個(gè)大類。

其中可控性評估，具體又包括了三項(xiàng)指標(biāo)：

相機(jī)控制能力：通過計(jì)算生成視頻中相機(jī)運(yùn)動與指定軌跡的偏差來評估，具體計(jì)算尺度不變的旋轉(zhuǎn)誤差和平移誤差，然后取其幾何平均值；
物體控制能力：使用開放集物體檢測模型檢查指定物體是否出現(xiàn)在生成場景中，從文本提示中提取1-2個(gè)關(guān)鍵物體描述，計(jì)算檢測到這些物體的成功率；
內(nèi)容一致性：使用CLIPScore評估生成場景與完整文本描述的語義匹配程度。

質(zhì)量評估，涵蓋了四項(xiàng)內(nèi)容：

3D一致性：使用DROID-SLAM估計(jì)每幀的密集深度圖，計(jì)算連續(xù)幀之間可見像素的重投影誤差，評估場景幾何結(jié)構(gòu)的穩(wěn)定性；
光度一致性：通過計(jì)算連續(xù)幀之間的光流來評估外觀和紋理的穩(wěn)定性，使用平均端點(diǎn)誤差（AEPE）來量化不穩(wěn)定的視覺表現(xiàn)；
風(fēng)格一致性：計(jì)算第一幀和最后一幀Gram矩陣之間的F范數(shù)差異，評估風(fēng)格保持程度；
主觀質(zhì)量：結(jié)合CLIP-IQA+和CLIP Aesthetic兩個(gè)自動評估指標(biāo)（該組合經(jīng)過200人的人類研究驗(yàn)證最接近人類感知）。

動態(tài)評估則包含三個(gè)方面：

運(yùn)動準(zhǔn)確性：比較指定運(yùn)動區(qū)域內(nèi)外的光流，評估運(yùn)動是否出現(xiàn)在正確位置；
運(yùn)動幅度：通過估計(jì)連續(xù)幀之間的光流大小來評估生成大幅度運(yùn)動的能力；
運(yùn)動平滑性：使用視頻幀插值模型生成平滑過渡作為參考，評估生成視頻的時(shí)間連續(xù)性。

最終，所有評估指標(biāo)都經(jīng)過線性歸一化處理到0-100區(qū)間，并通過計(jì)算控制和質(zhì)量維度各指標(biāo)的算術(shù)平均值得到WorldScore-Static得分。

在此基礎(chǔ)上，再加入動態(tài)維度的三項(xiàng)指標(biāo)成績，就得到了WorldScore-Dynamic評分。

3D模型更擅長靜態(tài)，視頻模型動態(tài)效果更好

利用WorldScore，研究團(tuán)隊(duì)對19款不同類型模型的世界生成能力進(jìn)行了評測，包括2款閉源模型和17款開源模型。

評測結(jié)果顯示，在靜態(tài)世界生成方面，3D場景生成模型展現(xiàn)出明顯優(yōu)勢。其中WonderWorld和LucidDreamer分別以72.69分和70.40分位居榜首，遠(yuǎn)超表現(xiàn)最好的視頻模型CogVideoX-I2V的62.15分。

但在動態(tài)世界生成方面，則是視頻模型展現(xiàn)出了較強(qiáng)的實(shí)力，開源模型CogVideoX-I2V以59.12分的成績領(lǐng)先。

在不同場景類型的測試中，視頻模型在室內(nèi)場景表現(xiàn)相對較好，但在室外場景生成時(shí)與3D模型的差距明顯擴(kuò)大。

同時(shí)，序列長度對模型性能有顯著影響——所有模型在短序列任務(wù)上表現(xiàn)尚可，但視頻模型在處理長序列時(shí)性能顯著下降，而3D模型則相對穩(wěn)定。

此外，研究者還對比了T2V和I2V兩類視頻模型的特點(diǎn)。結(jié)果表明，T2V模型在控制性和動態(tài)生成能力方面較強(qiáng)，更容易實(shí)現(xiàn)大幅度的相機(jī)運(yùn)動。

相比之下，I2V模型傾向于保持輸入圖像的視角，雖然生成質(zhì)量較高，但相機(jī)運(yùn)動相對保守。

作者簡介

本文的兩名共同一作均來自吳佳俊團(tuán)隊(duì)，分別是碩士生段皞一（Haoyi Duan）和博士生俞洪興（Hong-Xing Koven Yu）。

段皞一是浙江大學(xué)2023屆優(yōu)秀畢業(yè)生，還獲得了竺院榮譽(yù)學(xué)位，本科期間在周釗教授的指導(dǎo)下研究多模態(tài)學(xué)習(xí)。

俞洪興本科和和碩士均就讀于中山大學(xué)，碩士期間導(dǎo)師是鄭偉詩教授（現(xiàn)任中山大學(xué)計(jì)算機(jī)學(xué)院副院長）。

俞洪興的主要研究方向是物理場景理解、動力學(xué)模型與仿真，以及3D/4D視覺生成。

目前，兩人正在進(jìn)行密切合作。

今年入選CVPR HighLight的單圖生成交互式3D場景模型WonderWorld，也是兩人共同一作。

除了兩名共同一作和吳佳俊以及李飛飛之外，斯坦福碩士生Sirui (Ariel) Chen也參與了WorldScore的工作。

論文地址：
https://arxiv.org/abs/2504.00983

責(zé)任編輯：張燕妮來源：量子位

模型 AI 評測

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="pflgt"></p>

<cite id="pflgt"><rp id="pflgt"><pre id="pflgt"></pre></rp></cite><cite id="pflgt"></cite>

<label id="pflgt"></label>