自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強(qiáng)?這個(gè)框架一測(cè)便知

人工智能 新聞
昨天,Meta、紐約大學(xué)的研究者用「自我獎(jiǎng)勵(lì)方法」,讓大模型自己生成自己的微調(diào)數(shù)據(jù),從而在 Llama 2 70B 的迭代微調(diào)后超越了 GPT-4。今天,英偉達(dá)的全新對(duì)話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數(shù)據(jù)的情況下,在 10 個(gè)對(duì)話 QA 數(shù)據(jù)集上的平均得分略勝于 GPT-4。

AI 視頻生成,是最近最熱門的領(lǐng)域之一。各個(gè)高校實(shí)驗(yàn)室、互聯(lián)網(wǎng)巨頭 AI Lab、創(chuàng)業(yè)公司紛紛加入了 AI 視頻生成的賽道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等視頻生成模型的發(fā)布,更是讓人眼前一亮。v???

大家肯定對(duì)以下幾個(gè)問題感到好奇:

  • 到底哪個(gè)視頻生成模型最牛?
  • 每個(gè)模型有什么特長(zhǎng)?
  • AI 視頻生成領(lǐng)域目前還有哪些值得關(guān)注的問題待解決?

為此,我們推出了 VBench,一個(gè)全面的「視頻生成模型的評(píng)測(cè)框架」,來告訴你 「視頻模型哪家強(qiáng),各家模型強(qiáng)在哪」。

圖片


  • 論文:https://arxiv.org/abs/2311.17982
  • 代碼:https://github.com/Vchitect/VBench
  • 網(wǎng)頁(yè):https://vchitect.github.io/VBench-project/
  • 論文標(biāo)題:VBench: Comprehensive Benchmark Suite for Video Generative Models

VBench 不光能全面、細(xì)致地評(píng)估視頻生成的效果,而且還特別符合人們的感官體驗(yàn),能省下一大堆評(píng)估的時(shí)間和精力。

圖片

  • VBench 包含 16 個(gè)分層和解耦的評(píng)測(cè)維度 
  • VBench 開源了用于文生視頻生成評(píng)測(cè)的 Prompt List 體系
  • VBench 每個(gè)維度的評(píng)測(cè)方案與人類的觀感與評(píng)價(jià)對(duì)齊 
  • VBench 提供了多視角的洞察,助力未來對(duì)于 AI 視頻生成的探索

“VBench” - 「視頻生成模型」的全面基準(zhǔn)測(cè)試套件

AI 視頻生成模型 - 評(píng)測(cè)結(jié)果

已開源的 AI 視頻生成模型

各個(gè)開源的 AI 視頻生成模型在 VBench 上的表現(xiàn)如下。

圖片

各家已開源的 AI 視頻生成模型在 VBench 上的表現(xiàn)。在雷達(dá)圖中,為了更清晰地可視化比較,我們將每個(gè)維度的評(píng)測(cè)結(jié)果歸一化到了 0.3 與 0.8 之間。

圖片

各家已開源的 AI 視頻生成模型在 VBench 上的表現(xiàn)。

在以上 6 個(gè)模型中,可以看到 VideoCrafter-1.0 和 Show-1 在大多數(shù)維度都有相對(duì)優(yōu)勢(shì)。

創(chuàng)業(yè)公司的視頻生成模型

VBench 目前給出了 Gen-2 和 Pika 這兩家創(chuàng)業(yè)公司模型的評(píng)測(cè)結(jié)果。

圖片

Gen-2 和 Pika 在 VBench 上的表現(xiàn)。在雷達(dá)圖中,為了更清晰地可視化比較,我們加入了 VideoCrafter-1.0 和 Show-1 作為參考,同時(shí)將每個(gè)維度的評(píng)測(cè)結(jié)果歸一化到了 0.3 與 0.8 之間。

圖片

Gen-2 和 Pika 在 VBench 上的表現(xiàn)。我們加入了 VideoCrafter-1.0 和 Show-1 的數(shù)值結(jié)果作為參考。

可以看到,Gen-2 和 Pika 在視頻質(zhì)量(Video Quality)上有明顯優(yōu)勢(shì),例如時(shí)序一致性(Temporal Consistency)和單幀質(zhì)量(Aesthetic Quality 和 Imaging Quality)相關(guān)維度。在與用戶輸入的 prompt 的語(yǔ)義一致性上(例如 Human Action 和 Appearance Style),部分維度開源模型會(huì)更勝一籌。

視頻生成模型 VS 圖片生成模型

圖片

視頻生成模型 VS 圖片生成模型。其中 SD1.4,SD2.1 和 SDXL 是圖片生成模型。

視頻生成模型在 8 大場(chǎng)景類別上的表現(xiàn)

下面是不同模型在 8 個(gè)不同類別上的評(píng)測(cè)結(jié)果。

圖片

VBench 現(xiàn)已開源,一鍵即可安裝

目前,VBench 已全面開源,且支持一鍵安裝。歡迎大家來玩,測(cè)試一下感興趣的模型,一起推動(dòng)視頻生成社區(qū)的發(fā)展。

圖片

圖片

圖片


開源地址:https://github.com/Vchitect/VBench


圖片

我們也開源了一系列 Prompt List:https://github.com/Vchitect/VBench/tree/master/prompts,包含在不同能力維度上用于評(píng)測(cè)的 Benchmark,以及在不同場(chǎng)景內(nèi)容上的評(píng)測(cè) Benchmark。

圖片

左邊詞云展示了我們 Prompt Suites 的高頻詞分布,右圖展示了不同維度和類別的 prompt 數(shù)量統(tǒng)計(jì)。

VBench 準(zhǔn)不準(zhǔn)?

針對(duì)每個(gè)維度,我們計(jì)算了 VBench 評(píng)測(cè)結(jié)果與人工評(píng)測(cè)結(jié)果之間的相關(guān)度,進(jìn)而驗(yàn)證我們方法與人類觀感的一致性。下圖中,橫軸代表不同維度的人工評(píng)測(cè)結(jié)果,縱軸則展示了 VBench 方法自動(dòng)評(píng)測(cè)的結(jié)果,可以看到我們方法在各個(gè)維度都與人類感知高度對(duì)齊。

圖片

VBench 帶給 AI 視頻生成的思考

VBench 不僅可以對(duì)現(xiàn)有模型進(jìn)行評(píng)測(cè),更重要的是,還可以發(fā)現(xiàn)不同模型中可能存在的各種問題,為未來 AI 視頻生成的發(fā)展提供有價(jià)值的 insights。

「時(shí)序連貫性」以及「視頻的動(dòng)態(tài)程度」:不要二選一,而應(yīng)同時(shí)提升

我們發(fā)現(xiàn)時(shí)序連貫性(例如 Subject Consistency、Background Consistency、Motion Smoothness)與視頻中運(yùn)動(dòng)的幅度(Dynamic Degree)之間有一定的權(quán)衡關(guān)系。比如說,Show-1 和 VideoCrafter-1.0 在背景一致性和動(dòng)作流暢度方面表現(xiàn)很好,但在動(dòng)態(tài)程度方面得分較低;這可能是因?yàn)樯?nbsp;「沒有動(dòng)起來」 的畫面更容易顯得 「在時(shí)序上很連貫」。另一方面,VideoCrafter-0.9 在與時(shí)序一致性的維度上弱一些,但在 Dynamic Degree 上得分很高。

這說明,同時(shí)做好 「時(shí)序連貫性」 和 「較高的動(dòng)態(tài)程度」 確實(shí)挺難的;未來不應(yīng)只關(guān)注其中一方面的提升,而應(yīng)該同時(shí)提升 「時(shí)序連貫性」 以及 「視頻的動(dòng)態(tài)程度」 這兩方面,這才是有意義的。

分場(chǎng)景內(nèi)容進(jìn)行評(píng)測(cè),發(fā)掘各家模型潛力

有些模型在不同類別上表現(xiàn)出的性能存在較大差異,比如在美學(xué)質(zhì)量(Aesthetic Quality)上,CogVideo 在 「Food」 類別上表現(xiàn)不錯(cuò),而在 「LifeStyle」 類別得分較低。如果通過訓(xùn)練數(shù)據(jù)的調(diào)整,CogVideo 在 「LifeStyle」 這些類別上的美學(xué)質(zhì)量是否可以提升上去,進(jìn)而提升模型整體的視頻美學(xué)質(zhì)量?

這也告訴我們,在評(píng)估視頻生成模型時(shí),需要考慮模型在不同類別或主題下的表現(xiàn),挖掘模型在某個(gè)能力維度的上限,進(jìn)而針對(duì)性地提升 「拖后腿」 的場(chǎng)景類別。

有復(fù)雜運(yùn)動(dòng)的類別:時(shí)空表現(xiàn)都不佳

在空間上復(fù)雜度高的類別,在美學(xué)質(zhì)量維度得分都比較低。例如,「LifeStyle」 類別對(duì)復(fù)雜元素在空間中的布局有比較高的要求,「Human」 類別由于鉸鏈?zhǔn)浇Y(jié)構(gòu)的生成帶來了挑戰(zhàn)。

對(duì)于時(shí)序復(fù)雜的類別,比如 「Human」 類別通常涉及復(fù)雜的動(dòng)作、「Vehicle」 類別會(huì)經(jīng)常出現(xiàn)較快的移動(dòng),它們?cè)谒袦y(cè)試的維度上得分都相對(duì)較低。這表明當(dāng)前模型在處理時(shí)序建模方面仍然存在一定的不足,時(shí)序上的建模局限可能會(huì)導(dǎo)致空間上的模糊與扭曲,從而導(dǎo)致視頻在時(shí)間和空間上的質(zhì)量都不理想。

難生成的類別:提升數(shù)據(jù)量收益不大

我們對(duì)常用的視頻數(shù)據(jù)集 WebVid-10M 進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)其中約有 26% 的數(shù)據(jù)與 「Human」 有關(guān),在我們統(tǒng)計(jì)的八個(gè)類別中占比最高。然而,在評(píng)估結(jié)果中,「Human」 類別卻是八個(gè)類別中表現(xiàn)最差的之一。

這說明對(duì)于 「Human」 這樣復(fù)雜的類別,僅僅增加數(shù)據(jù)量可能不會(huì)對(duì)性能帶來顯著的改善。一種潛在的方法是通過引入 「Human」 相關(guān)的先驗(yàn)知識(shí)或控制,比如 Skeletons 等,來指導(dǎo)模型的學(xué)習(xí)。

百萬(wàn)量級(jí)的數(shù)據(jù)集:提升數(shù)據(jù)質(zhì)量?jī)?yōu)先于數(shù)據(jù)量

「Food」 類別雖然在 WebVid-10M 中僅占據(jù) 11%,但在評(píng)測(cè)中幾乎總是擁有最高的美學(xué)質(zhì)量分?jǐn)?shù)。于是我們進(jìn)一步分析了 WebVid-10M 數(shù)據(jù)集不同類別內(nèi)容的美學(xué)質(zhì)量表現(xiàn),發(fā)現(xiàn) 「Food」 類別在 WebVid-10M 中也有最高的美學(xué)評(píng)分。

這意味著,在百萬(wàn)量級(jí)數(shù)據(jù)的基礎(chǔ)上,篩選 / 提升數(shù)據(jù)質(zhì)量比增加數(shù)據(jù)量更有幫助。

待提升的能力:準(zhǔn)確生成生成多物體,以及物體間的關(guān)系

當(dāng)前的視頻生成模型在 「多對(duì)象生成」(Multiple Objects)和 「空間關(guān)系」(Spatial Relationship)方面還是追不上圖片生成模型(尤其是 SDXL),這凸顯了提升組合能力的重要性。所謂組合能力指的是模型在視頻生成中是否能準(zhǔn)確展示多個(gè)對(duì)象,及它們之間的空間及互動(dòng)關(guān)系。

解決這一問題的潛在方法可能包括:

  • 數(shù)據(jù)打標(biāo):構(gòu)建視頻數(shù)據(jù)集,提供對(duì)視頻中多個(gè)物體的明確描述,以及物體間空間位置關(guān)系以及互動(dòng)關(guān)系的描述。
  • 在視頻生成過程中添加中間模態(tài) / 模塊來輔助控制物體的組合和空間位置關(guān)系。
  • 使用更好的文本編碼器(Text Encoder)也會(huì)對(duì)模型的組合生成能力有比較大的影響。
  • 曲線救國(guó):將 T2V 做不好的 「物體組合」 問題交給 T2I,通過 T2I+I2V 的方式來生成視頻。這一做法針對(duì)其他很多視頻生成中的問題或許也有效。
責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-11-17 22:50:08

模型AI

2023-04-10 21:20:38

2009-11-27 08:59:18

Windows 7系統(tǒng)升級(jí)

2013-05-14 09:22:56

Intel密碼安全

2023-12-20 14:54:29

谷歌Gen-2視頻

2024-01-11 12:45:12

AI訓(xùn)練

2023-12-09 14:38:39

2024-03-01 12:18:00

AI訓(xùn)練

2024-02-26 01:00:00

谷歌研究

2020-07-20 14:08:10

代碼開發(fā)工具

2024-10-28 07:30:00

2024-01-25 11:43:00

2023-10-23 12:28:04

數(shù)據(jù)AI

2023-12-16 12:47:02

AI模型

2023-12-12 13:45:00

模型訓(xùn)練

2023-11-21 21:27:32

AI圖片

2023-07-27 14:25:30

模型AI

2025-01-09 13:30:00

2023-11-03 11:03:10

AIGen-2

2025-04-02 08:50:00

AI視頻生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)