自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代 精華

發(fā)布于 2025-4-23 12:13
瀏覽
0收藏

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2504.13074 
代碼&模型鏈接:https://github.com/SkyworkAI/SkyReels-V2

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

SKyReels-V2 生產(chǎn)驚人的現(xiàn)實和電影的高分辨率視頻幾乎無限長度

亮點直擊

  • 全面的視頻標注器,既能理解鏡頭語言,又能捕捉視頻的通用描述,從而顯著提升提示詞遵循能力。
  • 針對運動優(yōu)化的偏好學習,通過半自動數(shù)據(jù)收集流程增強運動動態(tài)表現(xiàn)。
  • 高效的擴散強制適配,支持超長視頻生成和故事敘述能力,為時序連貫性和敘事深度提供穩(wěn)健框架。
  • 開源SkyCaptioner-V1SkyReels-V2系列模型,包括擴散強制、文生視頻、圖生視頻、導演模式和元素生視頻模型,并提供多種參數(shù)量級(1.3B、5B、14B)。

先睹為快

SkyReels-V2現(xiàn)已支持生成30秒、40秒的視頻,且具備生成高運動質(zhì)量、高一致性、高保真視頻的能力。讓我們先來一睹它的風采。

Prompt:A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

Prompt:A graceful sea turtle glides through the ocean currents, its powerful flippers moving rhythmically as it swims. The turtle's smooth, greenish-brown shell catches glimpses of sunlight filtering through the water, creating a mesmerizing play of light and shadow. Schools of small fish dart around the turtle, adding life to the underwater scene. The background showcases vibrant coral reefs and swaying seaweed, creating a rich, dynamic marine environment. Wide-shot underwater scene with gentle camera movement following the turtle's path.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

Prompt:A woman stands before a vanity mirror, applying makeup with precise, deliberate motions. Her reflection shows focused eyes and a slight smile as she blends powder onto her cheeks. A soft lamp casts warm light, highlighting her hands holding a brush and compact. The mirror reflects a cluttered desk with makeup palettes, a perfume bottle, and scattered brushes. Her hair is loosely tied back, strands falling as she tilts her head. The scene shifts to her lips as she applies gloss, then to her eyes with eyeliner. The atmosphere is calm and intimate, with subtle details like the mirror’s frame, the texture of her skin, and the gentle sound of brushes.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

Prompt:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

Prompt:A jellyfish floats in deep blue waters, its translucent bell rhythmically contracting and expanding. Its tentacles drift like ribbons in the water. As the jellyfish gracefully swims, we see it passing through a colorful coral reef, where the orange, pink, and purple corals create a striking contrast against the blue-white hues of the jellyfish. The jellyfish continues forward, entering a forest of seaweed, where slender green fronds sway gently with the ocean currents. Finally, the jellyfish drifts toward an open sandy area, scattered with a few glistening starfish and shells. Throughout the journey, sunlight penetrates from the surface, creating beams that cut through the water, adding shifting patterns of light and shadow to this dreamlike underwater world.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • Prompt Adherence(提示詞遵循):現(xiàn)有通用多模態(tài)大語言模型(MLLM)難以理解電影語法(如鏡頭構圖、演員表情、攝像機運動),導致生成的視頻不符合專業(yè)電影風格。
  • Motion Dynamics(運動動態(tài)):現(xiàn)有方法在優(yōu)化時往往犧牲運動質(zhì)量以提升視覺質(zhì)量,導致動態(tài)效果不足。
  • Video Duration(視頻時長):現(xiàn)有模型受限于分辨率優(yōu)化,通常只能生成5-10秒的短視頻,難以實現(xiàn)長視頻合成。
  • Training Stability(訓練穩(wěn)定性):現(xiàn)有擴散模型和自回歸模型結(jié)合方法(如Diffusion-forcing Transformers)存在噪聲調(diào)度不穩(wěn)定問題,影響收斂。

提出的方案

  • 結(jié)構化視頻表示(Structural Video Representation):結(jié)合通用MLLM描述和專家模型(如鏡頭類型、攝像機運動)的細粒度標注,提升電影風格生成能力。
  • 統(tǒng)一視頻標注模型(SkyCaptioner-V1):通過知識蒸餾整合通用MLLM和專家模型的標注能力,提高視頻描述的準確性和專業(yè)性。
  • 多階段訓練策略(Multi-stage Training)
  • 漸進分辨率預訓練(Progressive-resolution Pretraining):優(yōu)化基礎視頻生成能力。
  • 四階段后訓練增強(4-stage Post-training)
  1. 概念平衡的監(jiān)督微調(diào)(SFT):提升基線質(zhì)量。
  2. 基于強化學習的運動優(yōu)化(RL Training):利用人工標注和合成失真數(shù)據(jù)優(yōu)化動態(tài)效果。
  3. 擴散強制框架(Diffusion Forcing Framework):采用非遞減噪聲調(diào)度,降低搜索空間復雜度,支持長視頻合成。
  4. 高質(zhì)量SFT微調(diào):進一步提升視覺保真度。

應用的技術

  • 多模態(tài)大語言模型(MLLM):用于通用視頻描述生成(如Qwen2.5-VL)。
  • 專家模型(Sub-expert Models):針對電影語法(鏡頭、表情、攝像機運動)進行細粒度標注。
  • 強化學習(RL):優(yōu)化運動動態(tài),減少人工標注成本(半自動偏好數(shù)據(jù)生成)。
  • 擴散強制框架(Diffusion Forcing):結(jié)合擴散模型的高保真和自回歸模型的時序一致性,支持長視頻生成。
  • 漸進訓練(Progressive Training):從低分辨率到高分辨率逐步優(yōu)化模型。

達到的效果

  • State-of-the-art性能
  • 在V-Bench評測中排名第一(截至2025-02-24)。
  • 提示詞遵循(尤其是電影語法)、運動質(zhì)量長視頻生成方面表現(xiàn)最優(yōu)。
  • 支持無限時長視頻生成:通過擴散強制框架和非遞減噪聲調(diào)度,突破傳統(tǒng)5-10秒限制。
  • 專業(yè)電影風格生成:能夠生成符合電影語法(如鏡頭構圖、攝像機運動)的高質(zhì)量視頻。
  • 多樣化應用:支持故事生成、圖生視頻、導演模式(Camera Director)、元素生成視頻等。

方法

本節(jié)全面概述了本文的方法框架。下圖2展示了訓練流程。首先詳述數(shù)據(jù)處理流程,接著解釋視頻標注器架構,隨后描述多任務預訓練策略,并在闡述后訓練優(yōu)化技術——包括強化學習、擴散強制訓練以及高質(zhì)量監(jiān)督微調(diào)(SFT)階段。還概述了訓練與推理的計算基礎設施。為驗證方法有效性,進行了與前沿基線的系統(tǒng)對比,展示了模型的實際應用場景,包括故事生成、圖生視頻、導演模式和元素生視頻生成。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

數(shù)據(jù)處理

數(shù)據(jù)處理是視頻模型訓練的基石。本文的框架整合了三個核心組件——數(shù)據(jù)源、處理Pipeline人工循環(huán)驗證——以確保嚴格的質(zhì)控標準。如圖3所示,處理Pipeline采用從寬松到嚴格的漸進過濾策略,在訓練過程中逐步縮減數(shù)據(jù)規(guī)模的同時提升質(zhì)量。該Pipeline首先處理來自多樣化數(shù)據(jù)源的原始輸入,隨后通過自動化流程按不同過濾閾值控制樣本質(zhì)量。關鍵支柱是人工循環(huán)驗證,其重點是對原始數(shù)據(jù)源及各階段訓練樣本進行人工評估。

通過在數(shù)據(jù)輸入、Pipeline輸出等關鍵節(jié)點進行系統(tǒng)化抽樣檢查,可識別并修正模糊、錯誤或非合規(guī)數(shù)據(jù),最終保障模型訓練所需的高質(zhì)量數(shù)據(jù)。

數(shù)據(jù)源

針對電影生成模型的目標,多階段質(zhì)控框架整合了三類數(shù)據(jù)源:

  1. 通用數(shù)據(jù)集:整合開源資源如Koala-36M、HumanVid及網(wǎng)絡爬取的額外視頻;
  2. 自采影視庫:包含28萬+部電影和80萬+集電視?。ǜ采w120+國家,總時長預估620萬+小時);

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

處理Pipeline

如下圖3所示,為構建訓練數(shù)據(jù)池,原始數(shù)據(jù)需經(jīng)過兩項預處理:鏡頭分割標注,隨后通過不同訓練階段的數(shù)據(jù)過濾器處理質(zhì)量問題。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

系統(tǒng)化分析將數(shù)據(jù)問題分為三類:

  1. 基礎質(zhì)量:低分辨率、低幀率、黑/白/靜態(tài)畫面、鏡頭抖動、運動不穩(wěn)定、隨意鏡頭切換;
  2. 視頻類型問題:監(jiān)控錄像、游戲錄屏、動畫、無意義內(nèi)容、靜態(tài)視頻;
  3. 后處理偽影:字幕、臺標、圖像編輯、分屏、黑/模糊邊框、畫中畫、變速、特效/馬賽克(詳見下表1)。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

使用數(shù)據(jù)裁剪器修復特定質(zhì)量問題,并進行數(shù)據(jù)平衡以確保模型泛化性。預訓練階段生成多階段預訓練數(shù)據(jù),后訓練階段生成后訓練數(shù)據(jù)。

預處理階段包含兩個流程:

  1. 鏡頭分割:所有原始視頻通過PyDetect和TransNet-V2進行鏡頭邊界檢測,分割為單鏡頭片段;
  2. 標注:分割后的單鏡頭片段使用下面的層次化標注系統(tǒng)進行標注。

預處理完成后,訓練數(shù)據(jù)池將經(jīng)歷多級數(shù)據(jù)過濾(各階段閾值不同),同時引入數(shù)據(jù)裁剪器修復質(zhì)量問題。

數(shù)據(jù)過濾器細節(jié)

本部分將闡述數(shù)據(jù)過濾器的分類及具體細節(jié)。數(shù)據(jù)過濾器由元素過濾器質(zhì)量過濾器組成,用于不同訓練階段的數(shù)據(jù)篩選。元素過濾器用于評估特定質(zhì)量問題的嚴重程度,包括兩類:

  • 基于分類的過濾器:檢測問題是否存在或分類;
  • 基于評分的過濾器:根據(jù)質(zhì)量需求設置不同閾值。

具體包括:

  1. 黑屏過濾器:使用啟發(fā)式規(guī)則檢測黑屏數(shù)據(jù);
  2. 靜態(tài)畫面過濾器:通過光流計算得分檢測靜態(tài)畫面;
  3. 美學過濾器:調(diào)用美學模型獲取評分;
  4. 去重:利用拷貝檢測嵌入空間的相似性消除感知冗余片段,提升預訓練集多樣性;
  5. OCR過濾器:分析文本存在性并計算文本區(qū)域占比,根據(jù)訓練階段裁剪數(shù)據(jù);
  6. 馬賽克過濾器:訓練專家模型檢測馬賽克區(qū)域;
  7. 特效/貼紙過濾器:訓練專家模型識別特效或貼紙。

此外,還整合了多種質(zhì)量過濾器,例如:

  • 視頻質(zhì)量評估模型(VQA)
  • 圖像質(zhì)量評估模型(IQA)
  • 視頻訓練適用性評分(VTSS)

這些模型將在特定訓練階段后啟用,并設置不同閾值進行數(shù)據(jù)篩選。圖3展示了不同訓練階段中過濾器的應用情況。

字幕與臺標裁剪細節(jié)

大部分訓練數(shù)據(jù)來自影視劇,可能包含影響生成質(zhì)量的字幕和臺標。直接丟棄此類數(shù)據(jù)會造成浪費,因此我們依次執(zhí)行以下處理:

  • 黑邊裁剪(預處理)
  • 基于啟發(fā)式方法裁剪黑邊,為字幕檢測提供更干凈的數(shù)據(jù);
  • 字幕檢測
  • 定義四個候選區(qū)域(幀頂部20%、底部40%、左右各20%);
  • 臺標檢測
  • 聚焦四角區(qū)域(各占幀寬/高的15%);
  • 使用MiniCPM-o模型檢測并記錄臺標坐標;
  • 視頻裁剪
  • 構建與視頻幀尺寸匹配的二進制矩陣(字幕/臺標區(qū)域標記為0,其余為1);
  • 應用單調(diào)棧算法(詳見算法A1)定位僅含1的最大內(nèi)部矩形;
  • 若該矩形覆蓋原幀80%以上面積且寬高比接近原幀,則按坐標裁剪所有幀并保存為新片段,否則丟棄數(shù)據(jù)。

完整流程如圖4所示。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

后訓練階段的數(shù)據(jù)平衡

在后訓練階段,基于標注器的主語類別進行細粒度概念平衡,使數(shù)據(jù)量減少50%。下圖5展示了平衡前后按主類別分組的概念分布對比。平衡后,還統(tǒng)計了每個主類別下子類別的分布情況。下表2詳細列出了前五類主類別的子類別統(tǒng)計數(shù)據(jù)。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

人工參與式驗證

人工參與式驗證(Human-In-The-Loop Validation)要求在數(shù)據(jù)生產(chǎn)的每個階段——數(shù)據(jù)源(Data Sources)、鏡頭分割(Shot Segmentation)、預訓練(Pre-training)和后訓練(Post-training)——進行人工視覺檢查,以確保模型訓練所用數(shù)據(jù)的高質(zhì)量。對于數(shù)據(jù)源,人工需主觀評估原始數(shù)據(jù)是否適合使用。在鏡頭分割階段,審核人員會檢查樣本,確保錯誤鏡頭(如錯誤轉(zhuǎn)場)比例低于1%。預訓練階段會對數(shù)據(jù)進行過濾,并手動檢查0.01%的樣本(每10,000個樣本檢查1個),以滿足嚴格限制:總體不良案例(如質(zhì)量差、內(nèi)容類型錯誤或處理問題)必須低于15%,其中子類別要求包括基礎質(zhì)量問題<3%、視頻類型問題<5%和后處理缺陷<7%。后訓練階段采用相同的0.1%抽樣率(每1,000個樣本檢查1個),但標準更嚴格:總不良案例需低于3%,包括基礎質(zhì)量<0.5%、視頻類型問題<1%和后處理缺陷<1.5%。


通過人工檢查得出的不良案例率來確定數(shù)據(jù)源批次的可用性。若某批次的不良案例率超過預設閾值,將采取丟棄或進一步優(yōu)化該批次等措施。此外,會根據(jù)不同數(shù)據(jù)源的特點調(diào)整過濾參數(shù)。例如,對于質(zhì)量問題頻發(fā)的數(shù)據(jù)源,會加強質(zhì)量相關過濾條件。這種分階段人工評估確保了數(shù)據(jù)質(zhì)量始終維持在較高水平,從而助力模型高效訓練。

視頻描述生成器

本文的視頻描述生成器(Video Captioner)旨在通過結(jié)合結(jié)構化描述格式與專業(yè)化子專家描述器,生成精確的視頻描述。其目標包括:1)糾正多模態(tài)大語言模型(MLLM)的錯誤或幻覺信息;2)持續(xù)優(yōu)化動態(tài)視頻元素(如鏡頭信息、表情和攝像機運動);3)根據(jù)應用場景(文本生成視頻或圖像生成視頻)動態(tài)調(diào)整描述長度。


本文設計了如下圖6所示的結(jié)構化描述,從多維度提供不同視角的詳細信息,包括:1)主體:主要和次要實體及其屬性(如外觀、動作、表情、位置、層級類別/類型,例如“動物→哺乳動物”);2)鏡頭元數(shù)據(jù):鏡頭類型、鏡頭角度、鏡頭位置、攝像機運動、環(huán)境、光線等。我們使用基礎模型Qwen2.5-VL-72B-Instruct生成這些初始結(jié)構化信息,但部分信息會被專家描述器的結(jié)果替換以獲得更精準的描述。最終,我們通過融合結(jié)構化數(shù)據(jù)為不同模型生成最終描述:1)文本生成視頻:生成密集描述;2)圖像生成視頻:聚焦“主體+時序動作/表情+攝像機運動”。每個描述字段遵循10%的丟棄率,以適應不同用戶場景(用戶可能無法精確描述每個字段)。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

子專家標注器

鏡頭標注器

鏡頭標注器由三個子標注器組成,分別描述鏡頭的不同方面。包括鏡頭類型、鏡頭角度和鏡頭位置。將這些方面定義為分類問題。1)鏡頭類型:特寫鏡頭、極特寫鏡頭、中景鏡頭、遠景鏡頭和全景鏡頭。2)鏡頭角度:平視鏡頭、高角度鏡頭、低角度鏡頭。3)鏡頭位置:背面視角、正面視角、頭頂視角、肩上視角、主觀視角和側(cè)面視角。


本文的訓練方法采用精心設計的兩階段策略來開發(fā)強大的鏡頭分類器。第一階段,使用網(wǎng)絡圖像訓練初步分類器,以建立基線性能(使用類別標簽作為觸發(fā)詞從網(wǎng)絡抓取數(shù)據(jù))。該低精度模型主要用于從我們的電影數(shù)據(jù)集中提取在所有目標類別中均衡的真實世界場景數(shù)據(jù)。第二階段專注于通過對真實電影數(shù)據(jù)的人工標注來開發(fā)高精度專家分類器,每個類別包含2,000個精心標注的樣本。


這些標注樣本構成我們最終高精度分類器的訓練集,這些分類器專門針對真實電影視頻中的鏡頭類型、鏡頭角度和鏡頭位置分類進行了優(yōu)化。這種多階段訓練方法既確保了訓練數(shù)據(jù)集中類別的均衡,又保證了生產(chǎn)應用中的高分類精度。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)


表情標注器

表情標注器提供對人類面部表情的詳細描述,重點關注幾個關鍵維度:1)情緒標簽:情緒分為七種常見類型,即中性、憤怒、厭惡、恐懼、高興、悲傷和驚訝。2)強度:情緒的強度被量化,例如“輕微憤怒”、“中度快樂”或“極度驚訝”,表示情緒的強度。 3)面部特征:構成情緒表達的物理特征,包括眼睛形狀、眉毛位置、嘴角彎曲程度、皺紋和肌肉運動。4)時間描述:捕捉情緒在時間上的動態(tài)變化,重點是情緒如何演變以及這些變化在視頻中的時間點。


表情標注生成包含兩個階段:1)首先檢測并裁剪人臉,并使用情緒分類器對其情緒進行分類。2)然后將情緒標簽和視頻幀輸入VLM模型以生成詳細的表情標注。適配了S2D 的框架,并使用約內(nèi)部數(shù)據(jù)集對模型進行訓練,聚焦于人類與非人類角色。對于VLM模型,使用InternVL2.5生成基于幀的描述,并將情緒標簽作為先驗,通過鏈式思維提示策略對描述進行優(yōu)化,生成最終表情標注。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

攝影機運動標注器

本文的框架通過一個三級處理管線整合“運動復雜度過濾”、“單類型運動建模”和“單類型運動數(shù)據(jù)整理”,采用分層分類策略對攝影機運動進行建模。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

SkyCaptioner-V1:結(jié)構化視頻描述模型

SkyCaptioner-V1作為最終用于數(shù)據(jù)標注的視頻描述模型,該模型基于基礎模型Qwen2.5-VL-72B-Instruct的描述結(jié)果和子專家描述器在平衡視頻數(shù)據(jù)上進行訓練。平衡視頻數(shù)據(jù)集是從1000萬初始樣本池中精心篩選出的約200萬視頻樣本,旨在保證概念平衡與標注質(zhì)量。


基于Qwen2.5-VL-7B-Instruct模型構建的SkyCaptioner-V1經(jīng)過微調(diào),以增強在特定領域視頻描述任務中的表現(xiàn)。為與現(xiàn)有最先進模型(SOTA)進行性能對比,在1000個樣本的測試集上進行了跨不同描述領域的人工準確率評估。下表3展示了結(jié)構化描述中各領域的詳細準確率指標。所提出的SkyCaptioner-V1在基線模型中取得了最高平均準確率,并在鏡頭相關領域展現(xiàn)出顯著優(yōu)勢。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

訓練細節(jié)

采用Qwen2..5-VL-7B-Instruct作為基礎模型,使用全局批次大小512進行訓練,該批次分布在64塊NVIDIA A800 GPU上,采用4個微批次大小和2步梯度累積。模型使用AdamW優(yōu)化器進行優(yōu)化,學習率設為1e-5,訓練2個epoch,并根據(jù)測試集的綜合評估指標選擇最佳檢查點。此訓練配置在保證大規(guī)模視頻描述任務計算效率的同時,確保了模型穩(wěn)定收斂。

多階段預訓練

本文采用Wan2.1的模型架構,僅從頭訓練DiT(Diffusion Transformer),同時保留VAE和文本編碼器等組件的預訓練權重。隨后,使用流匹配框架訓練視頻生成模型。該方法通過連續(xù)時間概率密度路徑將復雜數(shù)據(jù)分布轉(zhuǎn)換為簡單高斯先驗,支持通過常微分方程(ODE)實現(xiàn)高效采樣。

訓練目標

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

計算真實速度向量vt為:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

基于此訓練目標,首先設計雙軸分桶框架和FPS標準化方法對數(shù)據(jù)進行歸一化處理,隨后執(zhí)行分辨率逐步提升的三階段預訓練。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

為解耦幀率依賴性,在DiT架構中引入可學習頻率嵌入,這些嵌入與時間步嵌入進行加性交互。這些可學習頻率嵌入將在高質(zhì)量SFT階段僅使用FPS-24視頻數(shù)據(jù)后被棄用。


預訓練階段1

首先在低分辨率數(shù)據(jù)(256p)上進行預訓練以獲取基礎生成能力。本階段提出聯(lián)合圖像-視頻訓練方案,支持不同寬高比和幀長。我們實施嚴格數(shù)據(jù)過濾以去除低質(zhì)量和合成數(shù)據(jù),并通過去重保證數(shù)據(jù)多樣性。該低分辨率階段幫助模型從大量樣本中學習低頻概念。此階段訓練的模型展現(xiàn)出基礎視頻生成能力,但生成視頻仍較模糊。

預訓練階段2

本階段繼續(xù)聯(lián)合圖像-視頻訓練,但將分辨率提升至360p。應用更復雜的數(shù)據(jù)過濾策略,包括時長過濾、運動過濾、OCR過濾、美學過濾和質(zhì)量過濾。此訓練階段后,生成視頻清晰度顯著提升。

預訓練階段3

在最終預訓練階段將分辨率擴展至540p,專注于視頻目標。我們實施更嚴格的運動、美學和質(zhì)量過濾標準以確保高質(zhì)量訓練數(shù)據(jù)。此外,引入源過濾以去除用戶生成內(nèi)容,同時保留影視級數(shù)據(jù)。該方法提升生成視頻的視覺質(zhì)量,顯著增強模型生成具有優(yōu)秀紋理和電影級質(zhì)量的真實人類視頻的能力。

預訓練設置

優(yōu)化方面,在所有預訓練階段均采用AdamW優(yōu)化器。階段1中初始學習率設為1e-4,權重衰減為0。當損失收斂至穩(wěn)定范圍后,將學習率調(diào)整為5e-5并引入1e-4權重衰減。階段2和階段3中,學習率進一步降至2e-5。

后訓練階段

后訓練是提升模型整體性能的關鍵階段,后訓練包含四個子階段:540p高質(zhì)量監(jiān)督微調(diào)(SFT)、強化學習、擴散強制訓練以及720p高質(zhì)量監(jiān)督微調(diào)。出于效率考量,前三個后訓練階段采用540p分辨率執(zhí)行,最終階段則在720p分辨率下進行。540p高質(zhì)量SFT利用平衡數(shù)據(jù)集提升整體性能,為后續(xù)階段奠定更優(yōu)的初始化狀態(tài)。為增強運動質(zhì)量,我們將采用強化學習替代標準擴散損失方法。此階段我提出半自動化流程,通過人機協(xié)同方式收集偏好數(shù)據(jù)。本文提出擴散強制訓練階段,將全序列擴散模型轉(zhuǎn)化為應用幀級噪聲水平的擴散強制模型,從而具備可變長度視頻生成能力。最后通過720p高質(zhì)量SFT階段,將生成分辨率從540p提升至720p。

強化學習

受大語言模型(LLM)領域成功經(jīng)驗啟發(fā),本文提出通過強化學習增強生成模型性能。具體聚焦于運動質(zhì)量優(yōu)化,因為我們發(fā)現(xiàn)當前生成模型的主要缺陷在于:1)對大規(guī)模形變運動處理不佳(如圖下7.a、圖7.b);2)生成視頻可能違反物理定律(如圖7.c)。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

為避免文本對齊度與視頻質(zhì)量等其他指標退化,確保偏好數(shù)據(jù)對的文本對齊度和視頻質(zhì)量具有可比性,僅保留運動質(zhì)量差異。這種要求在人類標注成本較高的現(xiàn)實條件下,對獲取偏好標注數(shù)據(jù)提出了更大挑戰(zhàn)。為此,我們設計了結(jié)合自動生成運動對與人工標注結(jié)果的半自動化流程。這種混合方法不僅擴展了數(shù)據(jù)規(guī)模,更通過質(zhì)量管控提升了與人類偏好的對齊度?;谠撛鰪姅?shù)據(jù)集,我們首先訓練專用獎勵模型捕捉配對樣本間的通用運動質(zhì)量差異,該學習到的獎勵函數(shù)隨后指導直接偏好優(yōu)化(DPO)的樣本選擇過程,從而提升生成模型的運動質(zhì)量。

人工標注偏好數(shù)據(jù)

通過對生成視頻運動偽影的嚴格分析,建立了系統(tǒng)性故障模式分類體系:包括運動幅度過大/不足、主體形變、局部細節(jié)損壞、物理定律違反及非自然運動等。此外,記錄與這些故障模式對應的提示詞,并通過大語言模型生成同類提示詞。這些生成的提示詞涵蓋從人機交互到物體運動等各類場景,包含上述所有運動故障類型。每個提示詞使用預訓練模型的歷史檢查點池生成四個樣本。


樣本采集完成后,相同提示詞生成的樣本被系統(tǒng)性地配對成樣本對。邀請專業(yè)標注人員對這些樣本對進行偏好評分。標注流程遵循兩個主要步驟:1)數(shù)據(jù)過濾:樣本將在兩種情況下被排除:首先是內(nèi)容/質(zhì)量不匹配——若兩個樣本描述不同文本內(nèi)容或存在顯著視覺質(zhì)量差異,以確保聚焦運動質(zhì)量分析;其次是標注標準失效——若配對樣本中任一視頻未滿足主體清晰度、畫面內(nèi)主體尺寸充足或背景構圖簡潔三項標準。經(jīng)驗表明該過程將過濾約80%的數(shù)據(jù)對。2)偏好選擇:標注人員根據(jù)運動質(zhì)量標準為每個樣本對分配"更好/更差/平局"標簽。人工標注的運動質(zhì)量評價細則詳見表A2,其中列明了所有運動質(zhì)量故障類型的描述。每個故障類型被賦予加權分數(shù),通過計算兩個視頻的總分實現(xiàn)對比。

自動生成偏好數(shù)據(jù)

在嚴格質(zhì)量要求下,人工標注的高成本嚴重限制了數(shù)據(jù)集規(guī)模。為擴展偏好數(shù)據(jù)集,本文設計了自動化偏好數(shù)據(jù)生成流程,包含兩個核心步驟:

1)真實數(shù)據(jù)采集使用生成提示詞在現(xiàn)有數(shù)據(jù)集查詢語義相似提示詞(基于CLIP特征的余弦相似度計算)。篩選獲得語義匹配的真實參考視頻作為優(yōu)選樣本,拒絕樣本通過以下步驟生成以形成偏好對。

2)漸進失真構建基礎觀察發(fā)現(xiàn):最先進視頻生成模型的運動質(zhì)量仍遜色于真實視頻。通過對真實視頻施加可控失真來系統(tǒng)模擬運動缺陷。每個真實視頻附帶文本描述和首幀(靜態(tài)參考),在保持視覺結(jié)構的同時實現(xiàn)動態(tài)缺陷分析。創(chuàng)建三種失真樣本變體:V2V(噪聲潛變量直接反轉(zhuǎn),最低失真)、I2V(首幀引導重建,中等失真)、T2V(文本描述再生,最高失真)。同時,采用不同生成模型([5,18,17])和模型參數(shù)(如時間步長)構建不同運動質(zhì)量等級,保持樣本多樣性。前圖7展示了通過該自動化流程構建的三個案例。


除標準流程外,本文還探索了創(chuàng)新技術以誘發(fā)特定視頻質(zhì)量問題??稍跁r域調(diào)控幀采樣率:增加或降低采樣率以產(chǎn)生運動幅度過度/不足效果,或交替采樣率制造異常運動。通過Tea-Cache方法調(diào)節(jié)參數(shù)并注入噪聲以破壞視頻幀局部細節(jié)。針對汽車行駛或飛鳥等場景,通過視頻倒放創(chuàng)建配對樣本,挑戰(zhàn)模型辨別物理運動正誤的能力。這些方法能有效模擬視頻生成中的各類異常案例,精確復現(xiàn)運動異常、局部細節(jié)丟失、違反物理定律等生成過程中可能出現(xiàn)的缺陷場景。

獎勵模型訓練

遵循VideoAlign方法,基于Qwen2.5-VL-7B-Instruct構建運動質(zhì)量獎勵模型。訓練數(shù)據(jù)來源于上述數(shù)據(jù)收集流程,共形成3萬個樣本對。由于運動質(zhì)量與上下文無關,樣本對不包含提示詞。模型采用含平局擴展的Bradley-Terry模型(BTT)訓練:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

其中i > j、i < j、i=j分別表示樣本i優(yōu)于/劣于/等同于樣本j。

DPO訓練

應用文獻[46]提出的流式直接偏好優(yōu)化(Flow-DPO)來提升生成模型的運動質(zhì)量。其損失函數(shù)定義為:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

擴散強制訓練

本節(jié)介紹擴散強制Transformer(Diffusion Forcing Transformer),該架構賦予模型生成長視頻的能力。擴散強制是一種訓練與采樣策略,其中每個標記(token)被分配獨立噪聲水平。這使得訓練后的模型可根據(jù)任意單標記調(diào)度方案進行去噪。從概念上,該方法相當于部分掩碼(partial masking)機制:零噪聲標記完全解除掩碼,完全噪聲標記則完全掩碼。擴散強制訓練模型利用較干凈的標記作為條件信息,指導含噪標記的恢復。本文擴散強制Transformer可根據(jù)前段視頻的末幀實現(xiàn)無限長視頻生成。需注意,同步全序列擴散是擴散強制策略的特例——所有標記共享相同噪聲水平。這種關聯(lián)性使能夠通過全序列擴散模型微調(diào)得到擴散強制Transformer。


受AR-Diffusion啟發(fā),本文采用面向幀的概率傳播(FoPP)時間步調(diào)度器進行擴散強制訓練,流程包含以下步驟:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

當先前幀不存在或已去噪完成時,當前幀聚焦自去噪;否則以時間步差s進行去噪。值得注意的是,同步擴散(s=0)與自回歸生成(s=T)均為特例。較小的s值使相鄰幀更相似,較大的s值提升內(nèi)容多樣性。


本文的條件機制通過利用更干凈的歷史樣本作為條件實現(xiàn)自回歸幀生成。在此框架下,信息流具有固有方向性:含噪樣本依賴前序歷史確保一致性。這種方向性表明雙向注意力非必要,可替換為更高效的因果注意力。在采用雙向注意力完成擴散強制Transformer訓練后,可通過上下文因果注意力微調(diào)提升效率。推理階段,該架構支持歷史樣本K、V特征的緩存,消除冗余計算并顯著降低計算開銷。

高質(zhì)量監(jiān)督微調(diào)(SFT)

在540p與720p分辨率分別實施兩階段高質(zhì)量監(jiān)督微調(diào)(SFT)。初始SFT階段在預訓練完成后立即執(zhí)行,但在強化學習(RL)階段之前。該階段作為概念均衡訓練器,基于僅使用fps24視頻數(shù)據(jù)的預訓練基礎模型,戰(zhàn)略性地移除FPS嵌入組件以簡化架構。采用高質(zhì)量概念平衡樣本訓練,為后續(xù)訓練建立優(yōu)化初始化參數(shù)。完成擴散強制訓練后,在720p分辨率執(zhí)行二次SFT,采用相同損失函數(shù)與人工篩選的高質(zhì)量概念平衡數(shù)據(jù)集。此最終精煉階段聚焦分辨率提升,實現(xiàn)視頻質(zhì)量的整體增強。

基礎設施

本節(jié)介紹訓練與推理階段的基礎設施優(yōu)化方案。

訓練優(yōu)化

訓練優(yōu)化聚焦保障高效穩(wěn)健的訓練過程,包括內(nèi)存優(yōu)化、訓練穩(wěn)定性與并行策略三方面:

內(nèi)存優(yōu)化

注意力模塊的fp32內(nèi)存受限操作主導GPU內(nèi)存占用。我們通過高效算子融合減少內(nèi)核啟動開銷,同時優(yōu)化內(nèi)存訪問與利用率。梯度檢查點(GC)技術通過僅存儲transformer模塊輸入的fp32狀態(tài)最小化內(nèi)存;將其轉(zhuǎn)換為bf16格式可降低50%內(nèi)存且精度損失可忽略。激活卸載技術通過異步將臨時張量轉(zhuǎn)移至CPU進一步節(jié)省GPU內(nèi)存。鑒于8塊GPU共享CPU內(nèi)存與過度卸載導致計算重疊受限,我們策略性結(jié)合GC與選擇性激活卸載實現(xiàn)最優(yōu)效率。

訓練穩(wěn)定性

提出智能自愈框架,通過三階段修復實現(xiàn)自主故障恢復:實時檢測隔離受損節(jié)點、動態(tài)資源重分配(使用備用計算單元)、任務遷移與檢查點恢復確保訓練連續(xù)性。

并行策略

預計算VAE與文本編碼器結(jié)果。使用FSDP分布式存儲DiT權重與優(yōu)化器狀態(tài)以緩解大模型GPU內(nèi)存壓力。在720p分辨率訓練時,因大尺寸臨時張量導致嚴重GPU內(nèi)存碎片化問題(即使內(nèi)存充足仍觸發(fā)torch.empty_cache())。為此采用序列并行[72]技術緩解激活內(nèi)存壓力。

推理優(yōu)化

推理優(yōu)化核心目標是在保證質(zhì)量前提下降低視頻生成延遲。雖然擴散模型能生成高保真視頻,但其推理過程需30-50步多步采樣,5秒視頻生成耗時超5分鐘。實際部署中通過顯存優(yōu)化、量化、多GPU并行與蒸餾實現(xiàn)優(yōu)化:

顯存優(yōu)化

部署采用RTX 4090 GPU(24GB顯存)服務140億參數(shù)模型。通過FP8量化與參數(shù)級卸載技術組合,在單GPU實例上實現(xiàn)720p視頻生成并保持完整模型能力。

量化

分析表明注意力與線性層是DiT主要計算瓶頸。我們對全架構實施FP8量化:線性層采用FP8動態(tài)量化結(jié)合FP8 GEMM加速,在RTX 4090上相比bf16基準實現(xiàn)1.10×加速;注意力操作部署sageAttn2-8bit,同平臺實現(xiàn)1.30×推理加速。

并行策略

采用內(nèi)容并行(Content Parallel)、CFG并行與VAE并行三策略加速單視頻生成。實際部署中,從4卡擴展至8卡RTX 4090時整體延遲降低1.8×。

蒸餾

采用DMD蒸餾技術加速視頻生成。移除回歸損失,使用高質(zhì)量視頻數(shù)據(jù)(替代純噪聲)作為學生生成器輸入加速收斂。同時采用雙時間尺度更新規(guī)則確保偽評分生成器跟蹤學生生成器輸出分布,以及DMD多步調(diào)度方案。如公式所示,梯度用于更新學生生成器G:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

性能表現(xiàn)

為了全面評估本文提出的方法,構建了用于人工評估的 SkyReels-Bench,并利用開源的 V-Bench 進行自動化評估。這使我們能夠?qū)⒈疚牡哪P团c當前最先進的(SOTA)基線模型進行比較,包括開源和專有模型。

SkyReels-Bench

在人工評估方面,設計了 SkyReels-Bench,包括 1,020 條文本提示,系統(tǒng)性地評估三個維度:指令遵循性、運動質(zhì)量、一致性和視覺質(zhì)量。該基準旨在評估文本生成視頻(T2V)和圖像生成視頻(I2V)模型,在不同生成范式下提供全面的評估。

指令遵循性

評估生成視頻與所提供文本提示之間的匹配程度。1)動作指令遵循性:對指定動作或移動的準確執(zhí)行;2)主體指令遵循性:對描述主體和屬性的正確表達;3)空間關系:主體之間正確的位置和交互;4)鏡頭遵循性:指定鏡頭類型(特寫、廣角等)的正確實現(xiàn);5)表情遵循性:情緒狀態(tài)和面部表情的準確描繪;6)攝影機運動遵循性:攝影機動作(平移、俯仰、變焦等)的正確執(zhí)行;7)幻覺:不存在提示中未指定的內(nèi)容。

運動質(zhì)量

評估視頻中主體的時間動態(tài)特性。1)運動多樣性:動作的多樣性和表現(xiàn)力;2)流暢性和穩(wěn)定性:運動的平滑性,無抖動或不連續(xù);3)物理合理性:遵循自然物理規(guī)律和真實運動模式。

一致性

評估視頻幀之間的一致性。1)主體一致性:視頻中主要主體的外觀穩(wěn)定性;2)場景一致性:背景、地點和環(huán)境元素的連貫性。對于圖像生成視頻(I2V)模型,我們另外評估:3)首幀保真度:生成視頻與輸入圖像的一致性,包括色彩保持、主體身份保留以及場景元素的連續(xù)性。

視覺質(zhì)量

評估生成內(nèi)容的空間保真度。1)視覺清晰度:視覺元素的銳度和清晰度;2)色彩準確性:色彩平衡合適,無過飽和現(xiàn)象;3)結(jié)構完整性:主體和背景無失真或損壞。

該全面評估框架使我們能夠系統(tǒng)性地比較不同模型的視頻生成能力,并識別出各模型在視頻質(zhì)量各方面的特定優(yōu)勢與弱點。


在評估中,由20位專業(yè)評估員使用1-5評分量表對每個維度進行評分,評分標準詳見下表4。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

最終結(jié)果匯總于下表5。評估結(jié)果顯示,本文的模型在指令遵循性方面相較基線方法取得了顯著提升,同時在運動質(zhì)量方面保持了競爭力,且未犧牲一致性。為確保公平,所有模型均在默認設置下以一致分辨率進行評估,且未應用任何后處理濾波操作。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

模型基準測試與排行榜

為了客觀比較 SkyReels-V2 與其他領先開源視頻生成模型的性能,利用公共基準 VBench1.0 進行了全面評估。


本文特別采用了該基準中的長版本提示。在與基線模型公平對比時,我們嚴格遵循其推理推薦設置。同時,本文的模型在生成過程中使用了50次推理步數(shù)和6的引導尺度,與常規(guī)實踐保持一致。


VBench 結(jié)果(下表6)顯示,SkyReels-V2 在所有基線模型中表現(xiàn)最優(yōu),包括 HunyuanVideo-13B 和 Wan2.1-14B,取得了最高的總得分(83.9%)和質(zhì)量得分(84.7%)。在此次評估中,語義得分略低于 Wan2.1-14B,但在此前的人工評估中優(yōu)于 Wan2.1-14B,這一主要差距可歸因于 V-Bench 在鏡頭語義遵循性方面評估不充分。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

應用

故事生成

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

然而,視頻長度的擴展可能導致錯誤積累。本文采用一種穩(wěn)定化技術,對先前生成的幀施加輕微噪聲標記,從而防止錯誤積累并進一步穩(wěn)定長視頻生成過程。


在下圖8中,展示了將長鏡頭視頻擴展至超過30秒的示例,證明了在增強時間長度的同時維持視覺連貫性的能力。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

本文的模型不僅支持時間延展,還能夠生成具有引人入勝敘事的長鏡頭視頻。通過一系列敘事文本提示的引導,能夠協(xié)調(diào)一段多動作、具有視覺一致性的視頻敘述。該能力確保了場景之間的平滑過渡,使動態(tài)敘事成為可能,同時不影響視覺元素的完整性。

下圖9展示了用戶通過順序文本提示操控“小女孩的動作”“女人的表情”以及“引擎狀態(tài)”等屬性的實例。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

圖像生成視頻(I2V)合成

在本文的框架下,有兩種方法可用于開發(fā)圖像生成視頻(I2V)模型:


1)全序列文本生成視頻(T2V)擴散模型的微調(diào)(SkyReels-V2-I2V):參考 Wan 2.1 的 I2V 實現(xiàn),我們在 T2V 架構基礎上引入第一幀圖像作為條件輸入。輸入圖像被填充至目標視頻長度,并通過 VAE 編碼器獲得圖像潛變量。


這些潛變量與噪聲潛變量和4個二值掩碼通道(第一幀為1,其余為0)拼接,使模型能夠利用參考幀進行后續(xù)生成。為了在微調(diào)過程中保留原始 T2V 能力,我們對新增的卷積層和交叉注意力中的圖像上下文至值投影進行零初始化,而其他新組件(如圖像上下文至鍵投影)采用隨機初始化,以最小化性能突變。


此外,I2V 訓練利用第3.2節(jié)所述的字幕生成框架生成的 I2V 特定提示。值得注意的是,該方法在 384 張 GPU 上僅使用 10,000 次訓練迭代即可取得具有競爭力的結(jié)果。


2)帶首幀條件的文本生成視頻擴散強制模型(SkyReels-V2-DF):本文的另一種方法直接利用擴散框架的條件機制,通過將第一幀作為干凈參考輸入,無需顯式重新訓練模型,同時通過潛變量約束保持時間一致性。


使用 SkyReels-Bench 評估套件對 SkyReels-V2 與領先的開源和閉源圖像生成視頻模型進行評估(見下表7)。評估結(jié)果顯示,無論是 SkyReels-V2-I2V(3.29)還是 SkyReels-V2-DF(3.24),都在開源模型中達到了最先進性能,顯著超越 HunyuanVideo-13B(2.84)和 Wan2.1-14B(2.85)在所有質(zhì)量維度上的表現(xiàn)。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

SkyReels-V2-I2V 的平均得分為 3.29,與專有模型 Kling-1.6(3.4)和 Runway-Gen4(3.39)相當?;谶@一有前景的結(jié)果,我們已公開發(fā)布 SkyReels-V2-I2V 模型,以推動圖像生成視頻合成的社區(qū)研究。

攝影導演模塊

盡管 SkyCaptioner-V1 在注釋攝影機動作方面表現(xiàn)穩(wěn)健,實現(xiàn)了主體分布的良好平衡,但攝影機動作數(shù)據(jù)本身的不均衡性對進一步優(yōu)化電影攝影參數(shù)構成挑戰(zhàn)。


為解決這一限制,本文從監(jiān)督微調(diào)(SFT)數(shù)據(jù)集中特別策劃了約100萬個樣本,確?;緮z影機動作及其常見組合的均衡代表性。在此增強數(shù)據(jù)集基礎上,使用384張GPU進行了3,000次迭代的圖像生成視頻模型微調(diào)實驗。


該專項訓練顯著提升了攝影機運動的電影表現(xiàn)力,尤其是在流暢性和多樣性方面。

元素生成視頻(E2V)

當前視頻生成模型主要處理兩項任務:文本生成視頻(T2V)和圖像生成視頻(I2V)。T2V 利用 T5 或 CLIP 等文本編碼器從文本提示生成視頻,但往往因擴散過程的隨機性而產(chǎn)生不一致性。


I2V 則從靜態(tài)圖像及可選文本生成運動,但通常受限于對初始幀的過度依賴。


在先前的工作中,提出了一種元素生成視頻(E2V)任務,并發(fā)布了 SkyReels-A2,一個可控的視頻生成框架,能夠根據(jù)文本提示將任意視覺元素(如人物、物體、背景)合成為連貫視頻,同時確保每個元素參考圖像的高度保真度。


如下圖10所示,SkyReels-A2 能夠生成高質(zhì)量、時間一致的視頻,并支持多元素的可編輯組合。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區(qū)

A2-Bench,一項用于全面評估 E2V 任務的新型基準測試,其結(jié)果與人工主觀評價表現(xiàn)出統(tǒng)計學顯著相關性。


未來計劃發(fā)布一個統(tǒng)一的視頻生成框架,支持更多輸入模態(tài),如音頻和姿態(tài)。該框架將基于我們此前在音頻驅(qū)動和姿態(tài)驅(qū)動人像動畫的研究成果 SkyReels-A1 構建,旨在支持更豐富、多樣的輸入形式。


通過這一擴展,該框架的應用范圍將顯著擴大,涵蓋但不限于短劇制作、音樂視頻和虛擬電商內(nèi)容創(chuàng)作等場景。

結(jié)論

SkyReels-V2模型,這是一種新穎的視頻生成框架,能夠在無限長度范圍內(nèi)生成視頻,同時保持對鏡頭場景提示的高度遵循、優(yōu)質(zhì)視頻輸出和強健運動質(zhì)量。


主要提升通過以下方面實現(xiàn):

1)提示遵循性:通過 SkyCaptioner-V1 模塊增強,該模塊結(jié)合了通用多模態(tài)大語言模型(MLLM)與專用鏡頭專家模型的知識蒸餾,從而實現(xiàn)與輸入提示的精準對齊;

2)視頻質(zhì)量:通過多樣化數(shù)據(jù)源和多階段訓練管pipeline著提升,確保視覺一致性和高保真度輸出;

3)運動質(zhì)量:在半自動數(shù)據(jù)生產(chǎn)pipeline支持下,通過強化學習后訓練優(yōu)化,進一步提升動態(tài)一致性與流暢性;

4)無限長度生成:由擴散強制框架支持,可無顯式長度約束地無縫擴展視頻內(nèi)容。


盡管取得了這些進展,擴散強制框架仍在生成過程中存在錯誤積累的問題,限制了高質(zhì)量視頻輸出的實際時長。未來工作將重點解決該問題,以進一步提升模型的可擴展性與可靠性。

本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/qq5I0PtmaNbrYXmu3B5owQ??

收藏
回復
舉報
回復
相關推薦