自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Sora之后,蘋果發(fā)布視頻生成大模型STIV,87億參數(shù)一統(tǒng)T2V、TI2V任務(wù)

人工智能 新聞
OpenAI 的 Sora 公布了一天之后,在一篇由多位作者署名的論文《STIV: Scalable Text and Image Conditioned Video Generation》中,蘋果正式公布自家的多模態(tài)大模型研究成果 —— 這是一個具有高達(dá) 8.7B 參數(shù)的支持文本、圖像條件的視頻生成模型。

Apple MM1Team 再發(fā)新作,這次是蘋果視頻生成大模型,關(guān)于模型架構(gòu)、訓(xùn)練和數(shù)據(jù)的全面報告,87 億參數(shù)、支持多模態(tài)條件、VBench 超 PIKA,KLING,GEN-3。

圖片


  • 論文地址: https://arxiv.org/abs/2412.07730
  • Hugging Face link: https://huggingface.co/papers/2412.07730

OpenAI 的 Sora 公布了一天之后,在一篇由多位作者署名的論文《STIV: Scalable Text and Image Conditioned Video Generation》中,蘋果正式公布自家的多模態(tài)大模型研究成果 —— 這是一個具有高達(dá) 8.7B 參數(shù)的支持文本、圖像條件的視頻生成模型。

近年來,視頻生成領(lǐng)域取得了顯著進(jìn)展,尤其是基于 Diffusion Transformer (DiT) 架構(gòu)的視頻生成模型 Sora 的推出。盡管研究者已在如何將文本及其他條件融入 DiT 架構(gòu)方面進(jìn)行了廣泛探索,如 PixArt-Alpha 使用跨注意力機(jī)制,SD3 將文本與噪聲塊拼接并通過 MMDiT 模塊應(yīng)用自注意力等,但純文本驅(qū)動的視頻生成(T2V)在生成連貫、真實視頻方面仍面臨挑戰(zhàn)。為此,文本 - 圖像到視頻(TI2V)任務(wù)被提出,通過加入初始圖像幀作為參考,提供了更具約束性的生成基礎(chǔ)。

當(dāng)前主要挑戰(zhàn)在于如何將圖像條件高效地融入 DiT 架構(gòu),同時在模型穩(wěn)定性和大規(guī)模訓(xùn)練效率方面仍需創(chuàng)新。為解決這些問題,我們提出了一個全面、透明的白皮書,涵蓋了模型結(jié)構(gòu),訓(xùn)練策略,數(shù)據(jù)和下游應(yīng)用,統(tǒng)一了T2V和TI2V任務(wù)。

基于以上問題,該工作的貢獻(xiàn)與亮點主要集中在:

  1. 提出 STIV 模型,實現(xiàn) T2V 和 TI2V 任務(wù)的統(tǒng)一處理,并通過 JIT-CFG 顯著提升生成質(zhì)量;
  2. 系統(tǒng)性研究包括 T2I、T2V 和 TI2V 模型的架構(gòu)設(shè)計、高效穩(wěn)定的訓(xùn)練技術(shù),以及漸進(jìn)式訓(xùn)練策略;
  3. 模型易于訓(xùn)練且適配性強(qiáng),可擴(kuò)展至視頻預(yù)測、幀插值和長視頻生成等任務(wù);
  4. 實驗結(jié)果展示了 STIV 在 VBench 基準(zhǔn)數(shù)據(jù)集上的優(yōu)勢,包括詳細(xì)的消融實驗和對比分析。

圖片

該研究不僅提升了視頻生成質(zhì)量,還為視頻生成模型在未來多種應(yīng)用場景中的推廣奠定了堅實基礎(chǔ)。

圖片

構(gòu)建 STIV 的配方解析

圖片

基礎(chǔ)模型架構(gòu)

STIV 基于 PixArt-Alpha 架構(gòu),通過凍結(jié)的變分自編碼器(VAE)將輸入幀轉(zhuǎn)換為時空潛變量,并使用可學(xué)習(xí)的 DiT 塊進(jìn)行處理。文本輸入由 T5 分詞器和內(nèi)部訓(xùn)練的 CLIP 文本編碼器處理。此外,該研究還對架構(gòu)進(jìn)行了以下優(yōu)化:

  1. 時空注意力分解:采用分解的時空注意力機(jī)制,分別處理空間和時間維度的特征,這使得模型能夠復(fù)用 T2I 模型的權(quán)重,同時降低了計算復(fù)雜度。
  2. 條件嵌入:通過對圖像分辨率、裁剪坐標(biāo)、采樣間隔和幀數(shù)等元信息進(jìn)行嵌入,并結(jié)合擴(kuò)散步長和文本嵌入,生成一個統(tǒng)一的條件向量,應(yīng)用于注意力層和前饋網(wǎng)絡(luò)。
  3. 旋轉(zhuǎn)位置編碼(RoPE):利用 RoPE 提升模型處理時空相對關(guān)系的能力,適配不同分辨率的生成任務(wù)。
  4. 流匹配目標(biāo):采用流匹配(Flow Matching)訓(xùn)練目標(biāo),以更優(yōu)的條件最優(yōu)傳輸策略替代傳統(tǒng)擴(kuò)散損失,提升生成質(zhì)量。

模型擴(kuò)展與訓(xùn)練優(yōu)化

  1. 穩(wěn)定訓(xùn)練策略:通過在注意力機(jī)制中應(yīng)用 QK-Norm 和 sandwich-norm,以及對每層的多頭注意力(MHA)和前饋網(wǎng)絡(luò)(FFN)進(jìn)行歸一化,顯著提升了模型訓(xùn)練穩(wěn)定性。
  2. 高效訓(xùn)練改進(jìn):借鑒 MaskDiT 方法,對 50% 的空間 token 進(jìn)行隨機(jī)掩碼處理以減少計算量,并切換優(yōu)化器至 AdaFactor,同時使用梯度檢查點技術(shù)顯著降低內(nèi)存需求,支持更大規(guī)模模型的訓(xùn)練。

融合圖像條件的方法

簡單的幀替換方法

在訓(xùn)練過程中,我們將第一個幀的噪聲潛變量替換為圖像條件的無噪聲潛變量,然后將這些潛變量傳遞到 STIV 模塊中,并屏蔽掉被替換幀的損失。在推理階段,我們在每次 擴(kuò)散步驟中使用原始圖像條件的無噪聲潛變量作為第一個幀的潛變量。

幀替換策略為 STIV 的多種應(yīng)用擴(kuò)展提供了靈活性。例如,當(dāng) c_I (condition of image)=? 時,模型默認(rèn)執(zhí)行文本到視頻(T2V)生成。而當(dāng) c_I 為初始幀時,模型則轉(zhuǎn)換為典型的文本-圖像到視頻(TI2V)生成。此外,如果提供多個幀作為 c_I,即使沒有 c_T (condition of text),也可以用于視頻預(yù)測。同時,如果將首尾幀作為 c_I提供,模型可以學(xué)習(xí)幀插值,并生成首尾幀之間的中間幀。進(jìn)一步結(jié)合 T2V 和幀插值,還可以生成長時視頻:T2V 用于生成關(guān)鍵幀,而幀插值則填補(bǔ)每對連續(xù)關(guān)鍵幀之間的中間幀。最終,通過隨機(jī)選擇適當(dāng)?shù)臈l件策略,可以訓(xùn)練出一個能夠執(zhí)行所有任務(wù)的統(tǒng)一模型。

圖像條件隨機(jī)丟棄

如前所述,幀替換策略為訓(xùn)練不同類型的模型提供了高度靈活性。我們在此展示其具體應(yīng)用,即同時訓(xùn)練模型以執(zhí)行文本到視頻(T2V)和文本 - 圖像到視頻(TI2V)任務(wù)。在訓(xùn)練過程中,我們隨機(jī)丟棄圖像條件 cI 和文本條件 cT,類似于 T2V 模型中僅對文本條件隨機(jī)丟棄的方式。

聯(lián)合圖像 - 文本無分類器引導(dǎo)(JIT-CFG)

無分類器引導(dǎo)(Classifier-Free Guidance, CFG)在文本到圖像生成中表現(xiàn)出色,可以通過將概率質(zhì)量引導(dǎo)到高似然區(qū)域來顯著提升生成質(zhì)量。在此基礎(chǔ)上,我們提出了聯(lián)合圖像 - 文本無分類器引導(dǎo)(JIT-CFG),同時利用文本和圖像條件進(jìn)行引導(dǎo),其速度估計公式為:

圖片

其中 s 為引導(dǎo)比例。當(dāng) c_I=? 時,該方法退化為標(biāo)準(zhǔn)的 T2V 無分類器引導(dǎo)。盡管可以像 InstructPix2Pix 所述引入兩個獨立的引導(dǎo)比例,以平衡圖像和文本條件的強(qiáng)度,我們發(fā)現(xiàn)兩步推理方法已經(jīng)能夠取得優(yōu)異效果。此外,使用兩個引導(dǎo)比例會增加一次前向傳遞,從而提高推理成本。

實驗證明圖像條件隨機(jī)丟棄結(jié)合 JIT-CFG 不僅能自然地實現(xiàn)多任務(wù)訓(xùn)練,還有效解決了高分辨率視頻生成模型訓(xùn)練的 “靜止” 問題。我們推測,圖像條件隨機(jī)丟棄可以防止模型過度依賴圖像條件,從而更好地捕捉視頻訓(xùn)練數(shù)據(jù)中的運動信息。

漸進(jìn)式訓(xùn)練策略

我們采用漸進(jìn)式訓(xùn)練策略,其流程如圖 4 所示。首先訓(xùn)練一個文本到圖像(T2I)模型,用以初始化文本到視頻(T2V)模型;隨后,T2V 模型用于初始化 STIV 模型。為快速適應(yīng)高分辨率和長時訓(xùn)練,我們在空間和時間維度中加入了插值的 RoPE 嵌入,并利用低分辨率、短時長模型的權(quán)重進(jìn)行初始化。值得注意的是,高分辨率 T2V 模型同時結(jié)合了高分辨率 T2I 模型和低分辨率 T2V 模型的權(quán)重進(jìn)行初始化。

圖片

數(shù)據(jù)

圖片

視頻預(yù)處理和特征提取細(xì)節(jié)

為了確保高質(zhì)量的輸入數(shù)據(jù),我們首先解決了原始視頻中不一致的動作以及諸如切換和漸變之類的不必要過渡問題。利用 PySceneDetect,我們對視頻幀進(jìn)行分析,識別并分割出包含突兀過渡或漸變的場景。這一過程剔除了不一致的片段,確保視頻片段在視覺上保持一致性,從而減少偽影并提升整體質(zhì)量。隨后,我們提取了一系列初始特征用于后續(xù)篩選,包括運動分?jǐn)?shù)、美學(xué)分?jǐn)?shù)、文本區(qū)域、幀高度、幀寬度、清晰度分?jǐn)?shù)、時間一致性以及視頻方向等。

視頻字幕生成與分類細(xì)節(jié)

視頻 - 文本對在訓(xùn)練文本到視頻生成模型中起著至關(guān)重要的作用。然而,許多視頻數(shù)據(jù)集缺乏高質(zhì)量的對齊字幕,并且通常包含噪聲或不相關(guān)內(nèi)容。為此,我們在數(shù)據(jù)處理流程中引入了一個額外的視頻字幕生成模塊,用于生成全面的文本描述。

我們主要探索了兩種方向:(1) 抽樣少量幀,應(yīng)用圖像字幕生成器生成字幕后,再使用大型語言模型(LLM)對生成的字幕進(jìn)行總結(jié);(2) 直接使用視頻專用的 LLM 生成字幕。

在初步嘗試了第一種方法后,我們發(fā)現(xiàn)兩個主要局限性:一是圖像字幕生成器只能捕捉單幀的視覺細(xì)節(jié),導(dǎo)致缺乏對視頻動作的描述;二是 LLM 在基于多幀字幕生成密集描述時可能會出現(xiàn)虛構(gòu)現(xiàn)象(hallucination)。

近期研究使用 GPT 家族模型創(chuàng)建微調(diào)數(shù)據(jù)集并訓(xùn)練視頻 LLM。為了在大規(guī)模字幕生成中平衡質(zhì)量和成本,我們選擇了一種高效的視頻字幕生成器。隨后,我們使用 LLM 對生成的字幕進(jìn)行分類,并統(tǒng)計視頻的類別分布。

DSG-Video: 虛構(gòu)檢測評估

為了比較不同字幕生成技術(shù),我們開發(fā)了一個評估模塊,用于評估字幕的豐富度和準(zhǔn)確性。

我們通過測量字幕中提及的唯一對象的多樣性來量化字幕的豐富度,并通過檢測虛構(gòu)對象來評估準(zhǔn)確性。

受文本到圖像評估方法的啟發(fā),我們提出了 DSG-Video,用于驗證字幕中提到的對象是否真實出現(xiàn)在視頻內(nèi)容中。

1. 首先,我們利用 LLM 自動生成針對字幕關(guān)鍵細(xì)節(jié)的問題,例如對象的身份、動作和上下文。

舉例來說,給定一段提到 “沙發(fā)上坐著一只貓” 的字幕,LLM 會生成問題,比如 “視頻中是否有一只貓?” 以及 “貓是否在沙發(fā)上?”

2. 然后,我們使用多模態(tài) LLM 回答這些對象驗證問題,通過評估視頻中多個均勻采樣幀的每個參考對象的存在情況。

對于每個生成的問題(例如,“該幀中是否有貓?”),多模態(tài) LLM 檢查每個采樣幀并提供響應(yīng)。如果對于某個問題,所有幀的響應(yīng)都表明對象不存在,則我們將其分類為虛構(gòu)對象。

這一方法確保了對視頻中每個對象的逐幀驗證。基于此,我們定義了兩個評估指標(biāo):

  • DSG-Video_i:虛構(gòu)對象實例的比例(即提到的所有對象中被檢測為虛構(gòu)的比例);
  • DSG-Video_s:包含虛構(gòu)對象的句子的比例(即所有句子中含虛構(gòu)對象的比例)。

結(jié)果

基于上述研究,我們將 T2V 和 STIV 模型從 600M 參數(shù)擴(kuò)展到 8.7B。

主要結(jié)果展示在表格中,與最新的開源和閉源模型對比后,證明了我們方法的有效性。具體而言,我們基于 Panda-70M 數(shù)據(jù)集中的 20,000 條經(jīng)過篩選的視頻,使用預(yù)訓(xùn)練的視頻生成模型進(jìn)行了微調(diào)(SFT)。在預(yù)訓(xùn)練階段采用了 MaskDiT 技術(shù)后,我們嘗試對模型進(jìn)行無掩碼方式的微調(diào)(UnmaskSFT)。此外,我們還對 STIV 模型進(jìn)行了時間插值微調(diào),以提升生成視頻的運動平滑度(+TUP)。

T2V 性能

表格列了不同 T2V 模型在 VBench 上的對比結(jié)果,包括 VBench-Quality、VBench-Semantic 和 VBench-Total 分?jǐn)?shù)。分析表明,擴(kuò)展 T2V 模型的參數(shù)能夠提升語義理解能力。具體來說,當(dāng)模型從 XL 增加到 XXL 和 M 時(三種模型尺度),VBench-Semantic 分?jǐn)?shù)從 72.5 提升到 72.7,最終達(dá)到 74.8。這表明更大的模型在捕獲語義信息方面表現(xiàn)更好。然而,對于視頻質(zhì)量的影響相對有限,VBench-Quality 僅從 80.7 提升至 82.1。這一發(fā)現(xiàn)表明,模型參數(shù)擴(kuò)展對語義能力的提升大于對視頻質(zhì)量的影響。此外,將空間分辨率從 256 提升到 512 時,VBench-Semantic 分?jǐn)?shù)顯著提高,從 74.8 上升到 77.0。

SFT 的影響

通過高質(zhì)量的 SFT 數(shù)據(jù)微調(diào)模型,可以顯著提升 VBench-Quality 分?jǐn)?shù),從 82.2 提升到 83.9。在無掩碼條件下對模型進(jìn)行微調(diào)時,語義分?jǐn)?shù)略有提升。我們的最佳模型實現(xiàn)了 79.5 的 VBench-Semantic 分?jǐn)?shù),超越了 KLING、PIKA 和 Gen-3 等領(lǐng)先的閉源模型。結(jié)合時間插值技術(shù)后,我們的模型在質(zhì)量評分方面超越了所有其他模型,達(dá)到了最新的行業(yè)標(biāo)準(zhǔn)。

TI2V 性能

如表中所示,我們的模型在與最新方法的對比中表現(xiàn)出色。分析表明,盡管模型參數(shù)擴(kuò)展提升了 I2V 分?jǐn)?shù),但對質(zhì)量的影響較小。相比之下,提高分辨率能夠顯著改善質(zhì)量和 I2V 分?jǐn)?shù)。這一趨勢表明,分辨率的提高對于提升多任務(wù)生成能力尤為關(guān)鍵。完整的分解維度結(jié)果見文章附錄。

圖片

圖片

應(yīng)用

視頻預(yù)測 

我們從 STIV-XXL 模型出發(fā),訓(xùn)練一個以前四幀為條件的文本 - 視頻到視頻模型(STIV-V2V)。實驗結(jié)果表明,在 MSRVTT 測試集和 MovieGen Bench 上,視頻到視頻模型的 FVD 分?jǐn)?shù)顯著低于文本到視頻模型。這表明視頻到視頻模型在生成高保真和一致性視頻幀方面表現(xiàn)出色,尤其適用于自動駕駛和嵌入式 AI 等需要高質(zhì)量生成的領(lǐng)域。

幀插值

我們提出了 STIV-TUP,一個時間插值模型,以 STIV-XL 為初始模型,并在具有時間間隔的連續(xù)幀上進(jìn)行訓(xùn)練,同時添加文本條件。實驗表明,STIV 可以在文本和圖像條件下進(jìn)行高質(zhì)量的幀插值,并且在 MSRVTT 測試集中,使用文本條件稍微優(yōu)于其他條件。此外,我們將時間插值器與主模型級聯(lián),發(fā)現(xiàn)這種方法能夠提升生成質(zhì)量,同時保持其他指標(biāo)穩(wěn)定。

多視角生成

多視角生成旨在從給定的輸入圖像創(chuàng)建新視角。這項任務(wù)對視角一致性要求較高,依賴于良好預(yù)訓(xùn)練的視頻生成模型。通過將視頻生成模型適配為多視角生成,我們可以驗證預(yù)訓(xùn)練是否有效捕獲了 3D 信息,從而提升生成效果。

我們使用某些新視角相機(jī)的定義,并以初始幀為給定圖像,預(yù)測接下來的新視角幀。通過訓(xùn)練一個 TI2V 模型并調(diào)整分辨率和訓(xùn)練步數(shù),我們實現(xiàn)了與現(xiàn)有方法相當(dāng)?shù)谋憩F(xiàn),同時驗證了我們的時空注意力機(jī)制在保持 3D 一致性方面的有效性。

圖片

長視頻生成

我們開發(fā)了一種高效生成長視頻的分層框架,包括兩種模式的訓(xùn)練:(1) 關(guān)鍵幀預(yù)測,學(xué)習(xí)以較大時間間隔采樣的幀;(2) 插值幀生成,通過學(xué)習(xí)連續(xù)幀,并將首尾幀作為條件。在采樣階段,首先使用關(guān)鍵幀預(yù)測模式生成關(guān)鍵幀,再通過插值模式生成中間幀,從而實現(xiàn)長視頻生成。

圖片

更多關(guān)于模型結(jié)構(gòu)、圖像條件融合方法,訓(xùn)練策略的各種消融實驗以及其他研究細(xì)節(jié),請參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-12-12 13:24:00

項目promptT2V

2024-04-07 14:56:22

技術(shù)應(yīng)用

2023-11-17 22:50:08

模型AI

2024-02-19 07:58:01

OpenAI模型GPT

2024-09-24 15:51:02

2024-12-12 08:35:58

2025-02-03 12:16:01

視頻生成AI

2023-11-20 11:47:18

AI圖像編輯工具

2024-06-28 16:03:38

2024-10-16 14:10:00

AI視頻生成

2024-02-19 08:31:10

SoraAIOpenAI

2024-05-07 08:04:09

代碼格式化工具

2024-12-23 00:30:12

2024-10-29 14:40:00

圖像生成模型

2024-06-24 13:35:58

2025-02-24 10:03:21

2024-05-22 09:22:13

2024-03-27 12:46:53

AI訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號