港大字節(jié)最新視頻生成模型刷屏!網(wǎng)友直接RIP市場營銷,Sora也不香了
剛剛,港大字節(jié)聯(lián)手發(fā)布最新視頻生成模型,讓歪果網(wǎng)友直呼瘋狂。
有人甚至直接RIP市場營銷、TikTok用戶和YouTube創(chuàng)作者。
你敢信,下面這一幕不是來自歐巴電視劇,而是AI生成的!
造出它的新模型名為Goku(悟空),是一系列基于rectified flow Transformer的模型,專為圖像和視頻聯(lián)合生成而設(shè)計(jì),支持文生視頻、圖生視頻、文生圖。
另外還有Goku+,是視頻廣告基礎(chǔ)模型,官方更是直言“它能以比原來低100倍的成本創(chuàng)建廣告視頻”。
Goku生成商品廣告手拿把掐,無論是展示食物還是化妝品都很逼真自然,人物神情也很難看出破綻:
以下生成的吃播視頻更是讓人分不出真假:
再拿出一張白底的皮鞋照片,毫不費(fèi)力就能將其搬到展臺(tái)上展示:
甚至能僅憑一張商品圖+文字prompt,就生成帶人物的交互講解視頻。
prompt:
The woman stands behind a colorful Minnie Mouse product, her head gently swaying left and right as she speaks animatedly. Her hands rest on the table, framing the product, while her mouth opens and closes with noticeable emphasis, conveying her enthusiasm and detailed explanation. The camera remains steady, capturing her expressive gestures and the vibrant design of the product in front of her.(女士站在一個(gè)色彩繽紛的米妮老鼠產(chǎn)品后面,她的頭部輕輕地左右擺動(dòng),邊說邊展現(xiàn)生動(dòng)的表情。她的手搭在桌子上,框住了產(chǎn)品,同時(shí)她的嘴巴張開合上,明顯強(qiáng)調(diào)著,傳達(dá)出她的熱情和詳盡的解釋。攝像機(jī)保持穩(wěn)定,捕捉到她富有表現(xiàn)力的手勢(shì)和她面前產(chǎn)品的鮮艷設(shè)計(jì)。)
各種場面都能hold住,時(shí)裝秀也不在話下:
在定性和定量評(píng)估中,Goku文本到圖像生成GenEval得分0.76和DPG-Bench得分83.65;文本到視頻生成VBench得分84.85,一舉拿下新SOTA。
網(wǎng)友們這下都坐不住了,紛紛稱Goku和Goku+是顛覆性的。
將AI視頻推向下一個(gè)level!
手里的Sora真真兒不香了。
基于流的視頻生成基礎(chǔ)模型
論文介紹,Goku是基于流的視頻生成基礎(chǔ)模型。
具體來說,Goku采用了校正流(Rectified Flow)Transformer實(shí)現(xiàn)圖像和視頻的聯(lián)合生成。
其核心組件包括,圖像-視頻聯(lián)合VAE、Transformer架構(gòu)和校正流公式——
先用圖像-視頻聯(lián)合VAE將圖像和視頻壓縮到共享的潛在空間,再用全注意力Transformer對(duì)潛在表示進(jìn)行建模,實(shí)現(xiàn)圖像和視頻的統(tǒng)一生成。
校正流公式基于RF(rectified flow)算法,將其應(yīng)用于圖像-視頻聯(lián)合生成,相比擴(kuò)散模型展現(xiàn)出了更快的收斂速度和更強(qiáng)的理論性質(zhì)。
訓(xùn)練方面,Goku采用了多階段訓(xùn)練策略。
首先進(jìn)行圖文語義對(duì)齊預(yù)訓(xùn)練,再進(jìn)行圖像-視頻聯(lián)合訓(xùn)練,最后針對(duì)不同模態(tài)進(jìn)行微調(diào),逐步提升模型生成能力。
值得關(guān)注的是,為了訓(xùn)練Goku,研究人員還準(zhǔn)備了大規(guī)模高質(zhì)量數(shù)據(jù)集和高效的訓(xùn)練基礎(chǔ)設(shè)施。
數(shù)據(jù)方面,研究人員構(gòu)建了約3600萬視頻和1.6億圖像的大規(guī)模數(shù)據(jù)集,并采用多種數(shù)據(jù)過濾和增強(qiáng)技術(shù)來提高數(shù)據(jù)質(zhì)量。
為此,他們提出了一個(gè)全面的數(shù)據(jù)處理流程,包括基于美學(xué)評(píng)分的視頻和圖像過濾、基于OCR的內(nèi)容分析及主觀評(píng)價(jià)。
他們還采用多模態(tài)大語言模型來為視頻、圖像數(shù)據(jù)生成信息密集且語境一致的標(biāo)題,并用額外的大語言模型繼續(xù)細(xì)化,以提高其準(zhǔn)確性、流暢性和描述豐富性。
基礎(chǔ)設(shè)施優(yōu)化則包括并行策略、細(xì)粒度激活檢查點(diǎn)技術(shù)、容錯(cuò)機(jī)制以及豆包大模型團(tuán)隊(duì)和港大之前聯(lián)合提出的ByteCheckpoint技術(shù)——
與基線方法相比,ByteCheckpoint在Checkpoint保存上性能提升高達(dá)529.22倍,在加載上,性能提升高達(dá)3.51倍。
為適應(yīng)不同計(jì)算需求和性能要求,研究團(tuán)隊(duì)提供了三種規(guī)模的模型:實(shí)驗(yàn)用的Goku-1B、標(biāo)準(zhǔn)版Goku-2B、Goku-8B。
不過遺憾的是,官方目前只放出了技術(shù)報(bào)告,暫時(shí)還不能玩,網(wǎng)友已經(jīng)迫不及待了~
論文鏈接:https://arxiv.org/abs/2502.04896
項(xiàng)目主頁:https://saiyan-world.github.io/goku/