實測13個類Sora視頻生成模型,8000多個案例,一次看個夠
作者團(tuán)隊介紹:本文作者主要來自騰訊 AI Lab,作者分別是曾愛玲,騰訊 AI 資深研究員;來自中科大的楊雨航,主要研究方向是人與物互動的理解與生成;陳衛(wèi)東,騰訊 AI 資深研究員;劉威,騰訊杰出科學(xué)家,IEEE fellow。
最近,騰訊 AI Lab 聯(lián)合中科大發(fā)布了一份針對類 SORA 視頻生成模型的測評報告,重點聚焦目前最前沿的類 SORA DiT 架構(gòu)的高質(zhì)量視頻生成閉源模型,產(chǎn)品以及部分開源模型評估,從技術(shù)上,這些模型相較于之前 Stable Diffusion 類的視頻模型不僅全面提升了畫質(zhì),還在動作自然度和多樣性、視覺 - 語言對齊以及控制精度上做出了顯著進(jìn)步,測評涵蓋了從文生視頻(T2V)、圖生視頻(I2V)以及視頻到視頻(V2V)生成模型全面能力評估,甚至連前幾天剛更新的 pika1.5 特效以及 Meta 公布的 Movie Gen 都加進(jìn)來了!
為了更加系統(tǒng)全面地測試,作者團(tuán)隊從多個維度系統(tǒng)地設(shè)計了 700 多個生成提示詞和圖片,分別從 1) 視頻垂類場景,2) 多個客觀評價角度,3) 十大視頻應(yīng)用場景以及用戶需求等角度,從基礎(chǔ)能力到應(yīng)用和落地能力多方面進(jìn)行了測試設(shè)計,評估了 13 個主流模型(包括 10 個閉源和 3 個最新開源模型),生成了超過 8000 個視頻案例,以多模型對比可視化地形式直觀展示生成效果,幫助大家更好地理解現(xiàn)在模型的能力與不足,作者強(qiáng)調(diào)需要關(guān)注各個維度的實際例子的比較,而不僅僅是一個數(shù)值指標(biāo)。
圖一:視頻生成的多維度測評一覽
- 論文題目:The Dawn of Video Generation: Preliminary Explorations with SORA-like Models
- 論文鏈接:https://arxiv.org/pdf/2410.05227
- 網(wǎng)站鏈接:https://ailab-cvc.github.io/VideoGen-Eval/
這篇文章可以說是現(xiàn)階段視頻生成領(lǐng)域的一次全面梳理和深度評估。之前視頻生成測評報告里多用客觀數(shù)值指標(biāo)來判斷模型的能力,但目前的自動化評估仍然難以完全反映模型的真實表現(xiàn)并且難以對齊人類偏好,同時測評的模型有較大的滯后性,且極少有生成視頻的案例梳理,難以體現(xiàn)視頻生成研究的前沿性。本文以最直觀的測評方式:把測評視頻公開,把答案交給讀者,強(qiáng)調(diào)了人眼觀感的重要性,讀者可以在網(wǎng)站上直接觀看并對比多個模型的生成結(jié)果來直觀感受。這種 “眼見為實” 的評估方式,也為行業(yè)帶來了更多的透明性和參考價值,給創(chuàng)作者實實在在帶來了更多參考來源。
研究的亮點之一在于對模型在垂直領(lǐng)域中的應(yīng)用,包括以人為中心的視頻生成、機(jī)器人、動畫插幀、自動駕駛、世界模型、相機(jī)可控的視頻生成等領(lǐng)域的垂類模型的深入對比。
以下是部分提示詞測試結(jié)果展示:
文字提示詞:這是一個動畫視頻,中間有一個鏡頭,顯示一個棕色頭發(fā)的小男孩餓著肚子吃盤子里的雞蛋和熏肉。那男孩吃得又快又亂,把食物弄到臉上。
文字提示詞:三個人談笑風(fēng)生,一起向右轉(zhuǎn),然后右邊的兩個人蹲了下來,左邊的人指著右邊的兩人。
其次,用數(shù)百個提示詞測試視頻模型在文本對齊、視覺和動作質(zhì)量、構(gòu)圖美學(xué)、組合能力、鏡頭轉(zhuǎn)場、情感理解、穩(wěn)定性和創(chuàng)意等客觀視頻生成能力上的表現(xiàn)。
文字提示詞:相機(jī)保持靜止,男孩揮舞著棒球棍,把棒球打走了。
文字提示詞:展示世界上最具標(biāo)志性的橋梁和高速公路,從金門大橋到中國長城。攝像機(jī)跟隨車輛穿過這些建筑,突出了它們的建筑輝煌和它們所連接的風(fēng)景。使用無人機(jī)拍攝、路上拍攝和延時拍攝相結(jié)合的方式來捕捉這些基礎(chǔ)設(shè)施的運(yùn)動和功能。
文字提示詞:一個人在網(wǎng)上收到負(fù)面反饋,導(dǎo)致他 / 她與焦慮和抑郁作斗爭。
文字提示詞:超市里的泰迪熊。相機(jī)正在逆時針移動。
文字提示詞:特寫鏡頭:濃郁的巧克力傾瀉而下。流動在傾倒時形成 “TME”。溫暖的燈光增強(qiáng)了光澤質(zhì)感。慢動作捕捉到天鵝絨般的漣漪。隨著巧克力令人著迷的下降,相機(jī)開始拍攝。
文章的后半部分探討了使用場景(包括廣告電商、動漫、影視、短視頻、教育等十大場景)和新任務(wù)的探索,這不僅為學(xué)術(shù)研究提供了重要參考,也為實際視頻廣泛應(yīng)用鋪平了道路。所有生成結(jié)果均公開,并將持續(xù)更新,成為新的視頻生成基準(zhǔn)。
文字提示詞:這段視頻是一個靜態(tài)的中鏡頭,拍攝了一袋濃縮咖啡豆和一個裝滿咖啡的白色咖啡杯。當(dāng)咖啡充滿杯子時,蒸汽開始上升。
深入比較了開源和閉源模型,目前開源模型的性能還遠(yuǎn)遠(yuǎn)不足,強(qiáng)調(diào)了差距尤其體現(xiàn)在訓(xùn)練資源、模型規(guī)模、數(shù)據(jù)質(zhì)量與數(shù)量等方面。最后,文章詳細(xì)列舉了視頻生成領(lǐng)域面臨的挑戰(zhàn)和介紹未來的研究方向,包括復(fù)雜動作理解與生成、概念理解、交互視頻生成、個性化生成、多語種文本生成、多模態(tài)視頻生成、以及提出持續(xù)可改進(jìn)的視頻生成模型等前沿探索性問題。
文字提示詞:相機(jī)保持靜止,該男子用右手拿起桌子上的眼鏡。
注:目前圖生視頻,存在對輸入圖片的理解不足,以及生成動作困難等問題
文字提示詞:一支足球隊在贏得比賽后在球場上擠在一起、跳躍和歡呼的動態(tài)鏡頭。相機(jī)捕捉到了歡樂和友情。
注:目前視頻生成對多人場景生成較差
總的來說,這篇報告不僅系統(tǒng)性地展示了 SORA 類模型的現(xiàn)狀,還提供了大量的視頻結(jié)果分析,特別是在不同場景中的應(yīng)用表現(xiàn)和未來的研究挑戰(zhàn)方面。作者鼓勵社區(qū)利用這些公開資源進(jìn)行深入研究,并通過直接觀察生成視頻,獲取更細(xì)致的理解,總結(jié)共性問題。隨著領(lǐng)域的快速發(fā)展,報告對未來的突破持樂觀態(tài)度,并承諾持續(xù)更新研究成果,探索更全面的定量評估方法,推動對視頻生成領(lǐng)域的更深刻理解。對于視頻生成領(lǐng)域的研究人員和開發(fā)者來說,這篇文章為理解模型的能力邊界、局限性以及未來的研究方向提供了寶貴的參考。
今年初伴隨著 Sora 的出現(xiàn),也是視頻生成的元年。從本文的大量視頻來看,真的如題目所寫 “視頻生成的黎明時期”,尚有很多不足但這一年確實進(jìn)展很快。我們也期待隨著技術(shù)的迭代進(jìn)步,以語言交互的方式做視頻以及把創(chuàng)作視頻內(nèi)容門檻降低,人人都能釋放更多創(chuàng)意和制作高質(zhì)量視頻內(nèi)容的時代終將到來,到那個時候也許會迎來新一輪 AIGC 生產(chǎn)革命。
回顧近期人工智能的發(fā)展,可以看到目前正處于規(guī)?;A段,各公司競相擴(kuò)大模型規(guī)模,工程執(zhí)行成為主要任務(wù)。未來將進(jìn)入以研究和創(chuàng)新為主導(dǎo)的第三階段,數(shù)據(jù)生產(chǎn)和模型評估將至關(guān)重要。單純出租模型的商業(yè)模式可能難以為繼,構(gòu)建模型之上的應(yīng)用程序和提供模型基礎(chǔ)設(shè)施將更有前景。
最后劃重點:為了方便研究人員和用戶更好地查看和對比,作者非常貼心地在網(wǎng)站中分別展示了一個視頻對比所有的模型以及單個模型單獨(dú)查看模式,一次看個夠!
(圖二、圖三、圖四參考原項目查看。)
圖二:一個視頻對比所有的模型的查看方式
圖三:網(wǎng)站貼心地準(zhǔn)備了三大任務(wù)以及 12 個模型分別的查看入口
圖四:點擊每個模型的名字,就能單獨(dú)查看每個模型的視頻生成結(jié)果了!
針對本文測評的持續(xù)更新結(jié)果,作者建立了一個專業(yè)用戶交流群,歡迎感興趣的讀者加入。點擊以下鏈接訪問:
https://github.com/AILab-CVC/VideoGen-Eval/blob/main/docs/specifc_model/wechat.md