AtomoVideo:AIGC賦能下的電商視頻動效生成
1. 概述
當(dāng)今電商領(lǐng)域,內(nèi)容營銷的形式正日趨多樣化,視頻內(nèi)容以其生動鮮明的視覺體驗和迅捷高效的信息傳播能力,為商家創(chuàng)造了新的機遇。消費者對視頻內(nèi)容的偏好驅(qū)動了視頻創(chuàng)意供給的持續(xù)增長,視覺內(nèi)容作為連接消費者和商品的橋梁,在廣告系統(tǒng)中正變得日益重要。
然而,與傳統(tǒng)的圖文內(nèi)容相比,視頻內(nèi)容的制作難度和成本都要高得多。制作一個高質(zhì)量的視頻需要專業(yè)的技能、設(shè)備以及時間,這使得成品的質(zhì)量層次不齊,且難以批量化生產(chǎn)。隨著人工智能和生成式內(nèi)容創(chuàng)造(AIGC)技術(shù)的進步,使得通過智能化手段批量制作優(yōu)質(zhì)視頻創(chuàng)意成為可能,并且能夠為客戶帶來顯著價值。
近日,OpenAI Sora 的發(fā)布讓人們看到了視頻智能創(chuàng)作的曙光,如今各大團隊也紛紛開始了“國產(chǎn)版 Sora”的探索之路,在 Sora 出現(xiàn)之前,阿里媽媽智能創(chuàng)作與AI應(yīng)用團隊在視頻 AIGC 領(lǐng)域已有近一年的研究和探索,與業(yè)務(wù)相結(jié)合,我們孵化出了?? ??尺寸魔方??、商品視頻動效生成等基于擴散模型的視頻生成和編輯工具。本文將聚焦于商品視頻動效生成,介紹我們在視頻 AIGC 應(yīng)用于視頻創(chuàng)意上的探索與實踐。
借助自研的AtomoVideo 視頻生成技術(shù)(中文:阿瞳木視頻,項目地址:https://atomo-video.github.io/),我們探索出了一種自動化地將電商平臺上現(xiàn)有的圖片素材轉(zhuǎn)換為高質(zhì)量的視頻動效的方法,并在萬相實驗室、廣告投放平臺等場景進行了落地和上線,服務(wù)于廣大阿里媽媽廣告客戶。
2. 核心技術(shù)
整個商品視頻動效的生成過程面臨諸多挑戰(zhàn),尤其是在電商場景下,商品主體的細節(jié)是不允許被改變的,也是商家非常在意的基本準(zhǔn)則。因此,如何在保持商品外觀準(zhǔn)確性的同時進行更加合理的動效視頻生成,是非常值得探索的問題。我們在現(xiàn)有T2V模型的基礎(chǔ)上,提出使用 Noise Rectification(無需訓(xùn)練的噪聲矯正器)來實現(xiàn)圖像到視頻的生成,為了進一步提升視頻連貫性和保真度,進而提出 AtomoVideo(阿瞳木視頻生成技術(shù)) 將基礎(chǔ)模型進行升級,賦能電商視頻動效生成。
2.1 Noise Rectification: 無需訓(xùn)練的噪聲矯正器
文本到圖像生成(T2I)在過去一年取得了飛速的發(fā)展,諸多設(shè)計行業(yè)從業(yè)者、科技愛好者利用 Stable Diffusion WebUI、ComfyUI 等開源工具已經(jīng)可以生成攝影級圖像和實現(xiàn)商業(yè)級落地應(yīng)用。相比之下,受限于訓(xùn)練機器資源和數(shù)據(jù)集收集困難等挑戰(zhàn),視頻生成遠沒有圖像生成領(lǐng)域發(fā)展迅速,近半年,隨著 Pika、Gen-2 等視頻編輯工具的出現(xiàn),社區(qū)中也涌現(xiàn)了許多文本到視頻生成(T2V)的工作,為了將此類 T2V 的工作遷移至我們的商品動效生成中,我們提出了一種無需訓(xùn)練的噪聲矯正器(Noise Rectification),可以自然地實現(xiàn) T2V 到 I2V 的轉(zhuǎn)變。
具體來說,我們對給定圖片添加一定步數(shù)的噪聲,以此來模擬訓(xùn)練過程中的加噪過程,這樣我們便獲得了含有輸入圖像信息的噪聲先驗,在此基礎(chǔ)上進行降噪即可保留一定輸入圖片的風(fēng)格等信息。然而,這種“墊圖”式 T2V 生成方式在電商領(lǐng)域?qū)o定圖片做動效生成時,會丟失大量原圖像中的細節(jié)信息,嚴(yán)重破壞原有圖片的美觀度。為此,我們專門設(shè)計了一個與“墊圖”生成可以完美配合的噪聲矯正器(Noise Rectification),噪聲矯正器流程圖如下所示:
Noise Rectification示意圖
考慮到模型訓(xùn)練無法達到完美損失,即模型預(yù)測噪聲總會存在偏差,從而導(dǎo)致視頻保真度的降低。為了緩解模型在 DDIM 去噪過程中的誤差累積(指實際添加的噪聲與每一步中模型預(yù)測的噪聲的差異),對于每一步模型預(yù)測的噪聲,我們利用初始采樣的噪聲,對其進行“噪聲矯正”,即 通過計算預(yù)測噪聲和真實噪聲之間的差異,采樣加權(quán)的計算方式對預(yù)測的噪聲進行適當(dāng)調(diào)整。通過這種設(shè)計,我們的方案可以消除第一幀的噪聲誤差,使得第一幀達到完美保真,同時其余幀也會和第一幀保持時序內(nèi)容上的一致。本方案提出的“墊圖+噪聲矯正”策略,不需要引入額外的訓(xùn)練,直接作用于動效模型的推理階段,即可提高圖生視頻的保真度。更多技術(shù)細節(jié)請參見我們的論文:
- Title:Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation
- 鏈接:??https://arxiv.org/abs/2403.02827??
- 項目主頁:??https://noise-rectification.github.io/???
使用該方案后的前后對比效果如下,能夠明顯看到動效視頻與給定圖像一致性的提升,結(jié)合可控生成技術(shù),我們可以完美還原商品細節(jié)。但這種針對 T2V 模型的噪聲校正策略在更多通用場景下會存在動效幅度較小的缺點,關(guān)于這一點的解決,我們將在下一章節(jié)進行介紹我們的改進。
輸入圖像 | 生成動效(直接墊圖生成) | 生成動效(使用Noise Rectification生成) |
2.2 AtomoVideo:高保真度的I2V模型升級
在商品信息注入和噪聲矯正器的加持下,商品動效生成已經(jīng)具備了不錯的生成效果,我們也基于以上改進在萬相實驗室上線了動效生成模塊的第一版,但由于所使用的基礎(chǔ)模型為 T2V 模型,并非適用于本任務(wù)的 I2V 模型,且生成時長僅有2s,在淘內(nèi)場景下使用受限。為此,我們專門研發(fā)了更適用于本任務(wù)的 I2V 基礎(chǔ)模型,稱為 AtomoVideo(中文:阿瞳木視頻),該模型對視頻的時序一致性和圖像保真度提升顯著,模型結(jié)構(gòu)框架圖如圖所示:
AtomoVideo 模型結(jié)構(gòu)圖
我們對模型做了如下幾個改進,包括優(yōu)質(zhì)數(shù)據(jù)集構(gòu)建、多粒度圖像注入、漸進性動作強度訓(xùn)練等。
1) 優(yōu)質(zhì)數(shù)據(jù)集構(gòu)建:收集內(nèi)部千萬規(guī)模的“文本-視頻”數(shù)據(jù)對,利用美觀度、文本視覺相關(guān)性、主體檢測(過濾人物視頻)、動效強度檢測等方式,清洗得到優(yōu)質(zhì)視頻數(shù)據(jù)子集,用于視頻生成模型訓(xùn)練。同時我們與設(shè)計師合作構(gòu)建了一個更加優(yōu)質(zhì)的數(shù)據(jù)集,匯集了大量在美觀度和動效質(zhì)量上均表現(xiàn)出色的高清視頻。
2) 多粒度圖像注入:為增強 I2V 生成的圖像保真度和時序一致性,我們使用了多粒度的圖像注入方法,在擴散模型輸入側(cè)將圖像的low-level和high-level語義進行輸入,在我們實驗中,這可以在完美還原給定圖像保真度的同時,增加生成視頻的時序一致性。
3) 訓(xùn)練方法:我們觀察到大多數(shù)其他工作(如Pika、Gen2等)很難生成動作幅度大的視頻,還有一些工作在生成動作幅度較大的視頻時,穩(wěn)定性較差。為了克服這一點,我們使用了漸進性動作強度增加的多階段訓(xùn)練方式,由低動效視頻數(shù)據(jù)集開始,逐步增加至高動效數(shù)據(jù)集進行訓(xùn)練,我們發(fā)現(xiàn)這可以幫助模型在生成較大動作幅度視頻的同時,依然能夠維持較好的時序穩(wěn)定性。
經(jīng)過如上的改進和大規(guī)模訓(xùn)練,我們將基礎(chǔ)模型升級為可產(chǎn)生4s,720P的視頻生成模型。更多相關(guān)細節(jié)可以閱讀我們的技術(shù)報告:
- Title:AtomoVideo: High Fidelity Image-to-Video Generation
- 鏈接:??http://arxiv.org/abs/2403.01800??
- 項目主頁:??https://atomo-video.github.io??
部分生成示例如下,更多示例可前往項目主頁瀏覽:
輸入圖片 | 輸入文本 | 輸出視頻 |
Muppet walking down the street in a red shirt, cinematic. | ||
Flying through an intense battle between pirate ships in a stormy ocean. | ||
a singer of a music band |
此外,我們將I2V基礎(chǔ)模型的原始T2I模型部分進行了參數(shù)固定,而僅對新增的時序建模層和輸入層進行訓(xùn)練,因此,我們可以將社區(qū)廣泛使用的圖像 ControlNet 與 AtomoVideo 進行結(jié)合,這也是我們相比于 SVD 等視頻開源模型的優(yōu)勢。結(jié)合 T2I 領(lǐng)域預(yù)訓(xùn)練好的 ControlNet,可以實現(xiàn)局部控制生成,以盡量還原商品細節(jié),當(dāng)前我們上線版本已全部切換為該模型。
2.3 動效場景模板適配
由于輸入商品圖像的質(zhì)量一定程度會影響動效生成的效果,有較多圖片中并未包含任何動態(tài)元素,這種情況下,進行圖像到視頻的轉(zhuǎn)換顯得比較困難,容易產(chǎn)出“偏靜態(tài)”的視頻。因此,基于以上考量,我們與設(shè)計師共建了視頻動效場景模板,并針對每個不同的場景描述定制化了特殊的動態(tài)描述。其中視頻動效場景列表包含了諸如“山間云?!薄ⅰ昂5资澜纭钡葎討B(tài)場景,同時在大促節(jié)日時,會專門設(shè)計一批用于節(jié)日宣傳的動態(tài)模板進行投放(如下圖是在38大促期間設(shè)計的兩個動效模板)。
場景模板名稱 | AIGC圖片 | 動效視頻 |
粉色煙花 | ||
粉色世界 |
3. 業(yè)務(wù)應(yīng)用
當(dāng)前,電商視頻動效生成已經(jīng)在阿里媽媽-萬相實驗室(https://agi.taobao.com)和廣告投放平臺進行上線,支持廣告主在線生成視頻動效。以下是生成的一些樣例:
輸入圖片 | 動效視頻 |
4. 總結(jié)與展望
近半年,AIGC 視頻生成技術(shù)取得了令人矚目的飛躍發(fā)展。隨著 GEN-2、PIKA 1.0、Sora 等視頻創(chuàng)作工具和模型的出現(xiàn),影視制作和多媒體設(shè)計等行業(yè)正迎來一場創(chuàng)造力的革新風(fēng)暴,這些技術(shù)正在推動視頻內(nèi)容制作向著更高的逼真度和更強的可控性邁進。本文介紹了我們團隊在視頻 AIGC 賦能視頻廣告創(chuàng)意的探索和實踐,通過基于擴散模型的視頻生成技術(shù),結(jié)合可控生成技術(shù),使得靜態(tài)電商圖片栩栩如生地“動”了起來,實現(xiàn)了在電商領(lǐng)域的視頻 AIGC 應(yīng)用落地。
然而,目前的技術(shù)實現(xiàn)還遠未觸及視頻生成的真正潛力,在視頻畫面的穩(wěn)定性、內(nèi)容創(chuàng)造的可控性以及視頻時長等關(guān)鍵要素上,仍有很大的進步空間值得我們探索。Sora 的出現(xiàn)也讓我們看到了未來視頻創(chuàng)作工具大規(guī)模應(yīng)用的曙光,Diffusion Transformer、Scaling Up 等關(guān)鍵技術(shù)給了我們很多啟發(fā),在未來,希望不斷提升基礎(chǔ)模型生成效果的同時,用視頻 AIGC 技術(shù)賦能更多業(yè)務(wù)場景。
本文轉(zhuǎn)載自?? 阿里媽媽技術(shù)??,作者:智能創(chuàng)作與AI應(yīng)用
