騰訊出手了!開源最大AI視頻模型,130億參數(shù),性能媲美閉源,擊敗Runway Gen-3、Luma 1.6 原創(chuàng)
編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
AI視頻領(lǐng)域持續(xù)不斷有新玩家入局!
12月3日,騰訊出手了,不僅在元寶APP里上線AI視頻功能,還直接開源了混元視頻模型!
圖片
(打開元寶APP,若沒有找到入口的話,可以檢查是否更新到了最新版本,目前可能會有排隊(duì)時(shí)間。)
騰訊一來就干了票大的:直接開源了AI視頻里最大的模型——130 億參數(shù)!
開源地址:https://github.com/Tencent/HunyuanVideo
混元團(tuán)隊(duì)對HunyuanVideo的性能也很有信心,“其視頻生成性能可與領(lǐng)先的閉源模型媲美,甚至在某些方面更勝一籌”。
這源于背后能打的戰(zhàn)績,混元一挑5個(gè)閉源模型,排位第一!(注:GEN-3來自Runway 公司;Luma 1.6來自 Luma AI,CNTop系列來自系列騰訊旗下的映技派)
圖片
AI視頻生成的文本對齊、動(dòng)作質(zhì)量和視覺質(zhì)量沒有統(tǒng)一的“題庫”,需要人的判斷。
我們先來看看騰訊自己的demo。
然后小編又用Sora經(jīng)典的Prompt測試了一下,大家來看看效果如何:
電影預(yù)告片,講述了一位30歲的太空人的冒險(xiǎn)故事。他戴著一頂紅色羊毛針織摩托車頭盔,背景是藍(lán)天和鹽堿沙漠。影片采用電影化風(fēng)格,使用35毫米膠片拍攝,色彩鮮艷。
一段超真實(shí)的特寫視頻,展示了兩艘海盜船在一杯咖啡中激烈交戰(zhàn),咖啡的液面如同海洋,船只在其中航行,波濤洶涌,炮火四射。
看完了視頻生成效果,我們來看看HunyuanVideo的4個(gè)技術(shù)層面的特點(diǎn)!
1.統(tǒng)一圖像和視頻生成架構(gòu)
HunyuanVideo 采用的也是 Transformer 設(shè)計(jì),使用了全注意力機(jī)制來實(shí)現(xiàn)統(tǒng)一的圖像和視頻生成。
具體而言,混元采用了“從雙流到單流”的混合模型設(shè)計(jì)進(jìn)行視頻生成。在雙流階段,視頻和文本標(biāo)記通過多個(gè) Transformer 塊獨(dú)立處理,使每種模態(tài)能夠?qū)W習(xí)其適當(dāng)?shù)恼{(diào)制機(jī)制,而不相互干擾。在單流階段,我們將視頻和文本標(biāo)記連接起來,并將它們輸入到后續(xù)的 Transformer 塊,以有效地融合多模態(tài)信息。
這一設(shè)計(jì)捕捉了視覺和語義信息之間的復(fù)雜交互,增強(qiáng)了整體模型性能。
2.MLLM 文本編碼器
不同于文本到視頻模型通常使用預(yù)訓(xùn)練的 CLIP 和 T5-XXL 作為文本編碼器(其中 CLIP 使用 Transformer 編碼器,而 T5 使用編碼器-解碼器結(jié)構(gòu)。)
混元采用了預(yù)訓(xùn)練的多模態(tài)大型語言模型(MLLM)。
根據(jù)他們的技術(shù)報(bào)告,采用解碼器-only 結(jié)構(gòu)作為文本編碼器,有以下優(yōu)點(diǎn):
(i) 與 T5 相比,經(jīng)過視覺指令微調(diào)后的 MLLM 在特征空間中具有更好的圖像-文本對齊性,從而緩解了擴(kuò)散模型中指令跟隨的難度;(ii) 與 CLIP 相比,MLLM 在圖像細(xì)節(jié)描述和復(fù)雜推理上表現(xiàn)出了更強(qiáng)的能力;(iii) MLLM 可以通過跟隨系統(tǒng)指令來作為零樣本學(xué)習(xí)者,幫助文本特征更好地關(guān)注關(guān)鍵信息。此外,MLLM 基于因果注意力,而 T5-XXL 使用的是雙向注意力,后者為擴(kuò)散模型提供了更好的文本指導(dǎo)。因此,我們引入了額外的雙向標(biāo)記細(xì)化器來增強(qiáng)文本特征。
3.3D VAE
HunyuanVideo 使用 CausalConv3D 訓(xùn)練 3D VAE,將像素空間的視頻和圖像壓縮到緊湊的潛在空間中。
HunyuanVideo設(shè)置了視頻長度、空間和通道的壓縮比分別為 4、8 和 16。這可以顯著減少后續(xù)擴(kuò)散 Transformer 模型所需的標(biāo)記數(shù)量,使我們能夠以原始分辨率和幀率訓(xùn)練視頻。
4.提示重寫
為了應(yīng)對用戶提供的提示在語言風(fēng)格和長度上的差異,團(tuán)隊(duì)對 Hunyuan-Large 模型進(jìn)行了微調(diào),作為我們的提示重寫模型,將原始用戶提示轉(zhuǎn)換為模型偏好的提示。
混元提供了兩種重寫模式:普通模式和大師模式,可以通過不同的提示進(jìn)行調(diào)用。普通模式旨在增強(qiáng)視頻生成模型對用戶意圖的理解,促進(jìn)更準(zhǔn)確地解釋用戶提供的指令。大師模式則增強(qiáng)了構(gòu)圖、照明和鏡頭運(yùn)動(dòng)等方面的描述,更傾向于生成具有更高視覺質(zhì)量的視頻。然而,這種側(cè)重點(diǎn)有時(shí)可能導(dǎo)致某些語義細(xì)節(jié)的喪失。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)
