港大&字節(jié)發(fā)布領先商用級圖像視頻生成模型Goku有點東西
文章鏈接:https://arxiv.org/pdf/2502.04896
項目鏈接:https://saiyan-world.github.io/goku/
亮點直擊
- 業(yè)界領先的文本生成圖像和視頻能力,在多個基準測試中創(chuàng)下新紀錄。
- 創(chuàng)新性地引入 Rectified Flow Transformer,提高圖像-視頻的聯(lián)合生成質量。
- 構建大規(guī)模高質量數據集,結合 MLLM & LLM 提高文本描述質量。
- 優(yōu)化計算效率與訓練穩(wěn)定性,支持大規(guī)模分布式訓練,實現(xiàn)高效推理。
總結速覽
解決的問題
- 現(xiàn)有的圖像與視頻生成模型在質量、一致性和計算效率方面仍存在不足。
- 需要構建大規(guī)模、高質量的數據集,以支持高性能生成模型的訓練。
- 現(xiàn)有的生成架構未能充分統(tǒng)一圖像和視頻的表示,影響跨模態(tài)生成效果。
- 訓練大規(guī)模生成模型的計算成本高,需優(yōu)化并行計算與存儲機制。
提出的方案
- 提出 Goku 模型,基于Rectified Flow Transformer,實現(xiàn)圖像和視頻的聯(lián)合生成。
- 構建高質量數據集(36M 視頻-文本對 & 160M 圖像-文本對),結合OCR 分析、審美評分等技術進行篩選。
- 采用3D 變分自編碼器(VAE)建立共享隱變量空間,實現(xiàn)統(tǒng)一圖像-視頻表示。
- 采用全注意力機制(Full-Attention),增強圖像與視頻生成的一致性。
- 采用ByteCheckpoint和MegaScale進行高效并行計算與容錯優(yōu)化,提高大規(guī)模訓練的穩(wěn)定性。
應用的技術
- Rectified Flow生成框架,提高數據表示能力與生成質量。
- 3D 變分自編碼器(VAE),實現(xiàn)圖像和視頻的統(tǒng)一表示。
- 全注意力 Transformer 架構,提升跨模態(tài)生成的一致性。
- 先進的數據篩選與標注方法(MLLM 生成描述 + LLM 糾正)。
- 高效的計算基礎設施(模型并行、ByteCheckpoint、MegaScale 計算優(yōu)化)。
達到的效果
- 在文本生成圖像任務上,Goku 在 GenEval 評分0.76,DPG-Bench 評分83.65,均為 SOTA 級別。
- 在文本生成視頻任務上,Goku 在 VBench 評分84.85,超越領先商用模型。
- 在 UCF-101 零樣本生成任務上取得 SOTA 結果,顯示強大的泛化能力。
- 生成樣本的視覺質量和文本對齊性均優(yōu)于現(xiàn)有模型,可應用于商業(yè)與學術研究。
Goku: 用于視覺創(chuàng)作的生成流模型
本節(jié)介紹 Goku 的三個核心組件:圖像-視頻聯(lián)合 VAE、Goku Transformer 架構以及修正流(rectified flow)公式。這些組件協(xié)同工作,構成一個統(tǒng)一且可擴展的圖像-視頻聯(lián)合生成框架。
在訓練過程中,每個原始視頻輸入 (其中圖像是 的特例)首先通過3D 圖像-視頻聯(lián)合 VAE從像素空間編碼到隱空間。隨后,編碼后的隱變量被組織成包含視頻和圖像表示的 mini-batch,以學習統(tǒng)一的跨模態(tài)表示。在這些隱變量上應用修正流(rectified flow),并利用一系列 Transformer 塊 有效建模復雜的時空依賴關系。
圖像-視頻聯(lián)合 VAE
先前研究表明,diffusion和flow-based的模型可以通過在隱空間中建模(采用變分自編碼器 VAE)顯著提高效率和生成質量。
受 Sora啟發(fā),開源社區(qū)引入了 3D-VAE 以探索視頻生成任務中的時空壓縮。為將隱空間建模的優(yōu)勢擴展到多種媒體格式(包括圖像和視頻),本文采用了一個聯(lián)合訓練的圖像-視頻 VAE,它在統(tǒng)一框架下處理圖像和視頻數據。
- 視頻采用的壓縮步長,分別作用于高度、寬度和時間維度。
- 圖像采用的空間壓縮步長。
Transformer 結構
Goku Transformer 塊的設計基于 GenTron,這是類別條件擴散 Transformer的擴展,專用于文本到圖像/視頻任務。
關鍵組成部分
- 自注意力模塊(Self-Attention):捕捉 token 之間的相關性。
- 交叉注意力層(Cross-Attention):融合文本條件嵌入(使用 Flan-T5 語言模型提取。
- 前饋網絡(FFN):用于特征投影。
- 層級 adaLN-Zero 塊:整合時間步信息,引導特征變換。
Plain Full Attention(純全注意力機制)
在基于 Transformer 的視頻生成模型中,先前的方法通常結合時間注意力(temporal attention)和空間注意力(spatial attention),以擴展文本到圖像的生成能力至視頻任務。研究表明這種方法在建模復雜時序運動方面表現(xiàn)不佳。
在 Goku 中,采用 全注意力機制(Full Attention),在統(tǒng)一的網絡中建模多模態(tài) token(圖像和視頻)。
經過 VAE 處理后的視頻仍包含大量 token(尤其是在高幀率、長時長視頻的情況下),使用:
- FlashAttention以優(yōu)化 GPU 內存使用和計算效率。
- 序列并行以提高計算性能。
Patch n’ Pack 機制
為了實現(xiàn)對不同長寬比和時長的視頻和圖像的聯(lián)合訓練,采用 NaViT的方法:
- 在序列維度上同時打包(packing)圖像和視頻,使不同長度的訓練實例能靈活混合。
- 消除了數據桶(data buckets)的需求,簡化訓練流程。
3D RoPE 位置編碼
在大語言模型(LLM)中已被驗證能夠:
- 增強長序列處理能力
- 減少遠距離 token 之間的相互依賴性
在 Goku 訓練框架中,將 3D RoPE 位置編碼擴展至圖像和視頻 token:
- 支持不同分辨率的視頻和圖像,適應性強。
- 相比正弦位置編碼(sinusoidal positional embedding)收斂更快,在不同訓練階段切換時表現(xiàn)更穩(wěn)定。
Q-K 歸一化(Query-Key Normalization)
在大規(guī)模 Transformer 訓練時,可能會出現(xiàn)損失爆炸(loss spikes),導致模型損壞,最終生成的圖像/視頻可能出現(xiàn)嚴重的偽影甚至純噪聲。
- 在計算注意力權重前,對每個 Query-Key 特征應用RMSNorm。
- 確保訓練過程更加平穩(wěn)可靠,降低損失波動的風險。
Goku Transformer 由上述多個 Transformer 塊堆疊而成。為了適應不同的計算需求和性能要求,設計了三種模型變體,如下表所示:
Goku 通過聯(lián)合 VAE、全注意力 Transformer 和修正流,構建了一個統(tǒng)一且高效的圖像-視頻生成框架,并針對跨模態(tài)一致性、計算效率和訓練穩(wěn)定性進行了深度優(yōu)化。
Flow-based訓練
為了評估性能,比較了使用去噪擴散概率模型(DDPM)和修正流訓練的模型的關鍵指標,例如 FID-50K 和 Inception Score(IS)。如下表 2 所示,RF 表現(xiàn)出比 DDPM 更快的收斂速度。例如,Goku-1B(RF)在 40 萬訓練步數后達到了較低的 FID-50K,而 Goku-1B(DDPM)需要 100 萬步才能達到類似的性能水平。
訓練細節(jié)
多階段訓練
直接優(yōu)化聯(lián)合圖像和視頻訓練提出了重大挑戰(zhàn),因為網絡必須同時學習對圖像至關重要的空間語義和對視頻必不可少的時間運動動態(tài)。為了解決這一復雜性,我們引入了一種分解的多階段訓練策略,逐步增強模型的能力,確保在兩種模態(tài)上進行有效且穩(wěn)健的學習。
- 階段 1:文本-語義配對
在初始階段,我們專注于通過文本到圖像任務對 Goku 進行預訓練,以建立對文本到圖像關系的扎實理解。這一步驟對于模型在基本語義理解中扎根至關重要,使其能夠學習將文本提示與高級視覺語義關聯(lián)起來。通過這一過程,模型發(fā)展出表示視覺概念的可靠能力,這些概念對圖像和視頻生成都至關重要,例如對象屬性、空間配置和上下文一致性。 - 階段 2:圖像和視頻聯(lián)合學習
在文本-語義配對的基礎能力之上,將 Goku 擴展到圖像和視頻數據的聯(lián)合學習。這一階段利用了 Goku 的統(tǒng)一框架,該框架采用了適用于圖像和視頻的全局注意力機制。此外,與獲取類似數量的高質量圖像數據相比,獲取大量高質量視頻數據通常需要更多的資源。為了解決這種差異,本文的框架在訓練期間將圖像和視頻整合到統(tǒng)一的標記序列中,使高質量圖像中固有的豐富信息能夠增強視頻幀的生成。通過精心策劃的圖像和視頻數據集,Goku 不僅獲得了生成高質量圖像和視頻的能力,還通過利用高質量圖像數據中的豐富信息提升了視頻的視覺質量。 - 階段 3:模態(tài)特定微調
最后,對 Goku 進行每種特定模態(tài)的微調,以進一步提高其輸出質量。對于文本到圖像生成,我們實施了以圖像為中心的調整,旨在生成更具視覺吸引力的圖像。對于文本到視頻生成,我們專注于改善時間平滑度、運動連續(xù)性和幀間穩(wěn)定性的調整,從而生成逼真且流暢的視頻輸出。
級聯(lián)分辨率訓練
在聯(lián)合訓練的第二階段,采用級聯(lián)分辨率策略來優(yōu)化學習過程。最初,訓練在低分辨率圖像和視頻數據(288 × 512)上進行,使模型能夠以較低的計算成本高效地專注于基本的文本-語義-運動關系。一旦這些核心交互關系得到充分建立,訓練數據的分辨率逐步提高,從 480 × 864 過渡到 720 × 1280。這種逐步提高分辨率的方式使 Goku 能夠細化對復雜細節(jié)的理解并提高整體圖像保真度,最終為圖像和視頻生成帶來卓越的質量。
圖像到視頻
為了擴展 Goku 以適應圖像作為視頻生成的附加條件,采用了一種廣泛使用的策略,即使用每個視頻片段的第一幀作為參考圖像。相應的圖像標記被廣播并與配對的噪聲視頻標記沿通道維度連接。為了在微調期間充分利用預訓練知識,引入了一個單層 MLP 用于通道對齊,同時保持模型架構的其余部分與 Goku-T2V 相同。
基礎設施優(yōu)化
為了實現(xiàn) Goku 的可擴展和高效訓練,首先采用了先進的并行策略,以應對長上下文、大規(guī)模模型的挑戰(zhàn)。為了進一步優(yōu)化內存使用并平衡計算與通信,我們實現(xiàn)了細粒度的激活檢查點。此外,集成了來自 MegaScale 的魯棒容錯機制,支持自動故障檢測和恢復,同時最小化中斷。最后,利用 ByteCheckpoint 確保訓練狀態(tài)的高效和可擴展的保存與加載,支持跨多種硬件配置的靈活性。
模型并行策略
由于模型規(guī)模龐大且序列長度極長(最長序列超過 220K 標記),我們采用了多種并行策略以確保高效訓練。采用 3D 并行 在三個軸上實現(xiàn)可擴展性:輸入序列、數據和模型參數。
- 序列并行(SP)在序列維度上對輸入進行切片,用于獨立層(例如 LayerNorm),以消除冗余計算、減少內存使用,并支持對非合規(guī)輸入的填充。采用Ulysses作為實現(xiàn),它從訓練循環(huán)的開始將樣本在序列并行組中進行分片。在注意力計算期間,它使用all-to-all 通信分發(fā)查詢、鍵和值分片,使每個工作節(jié)點能夠處理完整序列但僅處理一部分注意力頭。在并行計算注意力頭后,另一次 all-to-all 通信聚合結果,重新組合所有頭和分片的序列維度。
- 全分片數據并行(FSDP)(在所有數據并行節(jié)點上劃分所有參數、梯度和優(yōu)化器狀態(tài)。與分布式數據并行中的 all-reduce 不同,F(xiàn)SDP 對參數執(zhí)行 all-gather,對梯度執(zhí)行 reduce-scatter,從而與前向和反向計算重疊,隱地減少通信開銷。在我們的實現(xiàn)中,我們采用了HYBRID_SHARD策略,該策略在分片組內結合FULL_SHARD,并在這些組之間復制參數,從而有效實現(xiàn)數據并行(DP)。這種方法通過限制 all-gather 和 reduce-scatter 操作來最小化通信成本。
激活檢查點
雖然并行方法顯著節(jié)省了內存并支持長序列的大規(guī)模訓練,但它們不可避免地引入了節(jié)點間的通信開銷,這可能導致整體性能不佳。為了解決這一問題并通過最大化計算和通信的重疊來更好地平衡它們,本文設計了一種細粒度的激活檢查點(AC) 策略。實現(xiàn)了選擇性激活檢查點,以最小化需要存儲激活的層數,同時最大化 GPU 利用率。
集群容錯
將 Goku 的訓練擴展到大規(guī)模 GPU 集群不可避免地會引入故障場景,這可能會降低訓練效率。隨著節(jié)點數量的增加,遇到故障的可能性也會增加,因為更大的系統(tǒng)中至少有一個節(jié)點發(fā)生故障的概率更高。這些中斷可能會延長訓練時間并增加成本。為了提高大規(guī)模訓練的穩(wěn)定性和效率,本文采用了 MegaScale 的容錯技術,包括自檢診斷、多級監(jiān)控和快速重啟/恢復機制。這些策略有效減輕了中斷的影響,使 Goku 能夠在大規(guī)模生成建模任務中保持穩(wěn)健的性能。
訓練狀態(tài)的保存與加載
保存訓練狀態(tài)(如模型參數、指數移動平均(EMA)參數、優(yōu)化器狀態(tài)和隨機狀態(tài))對于訓練大規(guī)模模型至關重要,尤其是在集群故障可能性增加的情況下。重新加載保存的狀態(tài)確保了可重復性,這對于模型可靠性和調試隱問題(包括由無意錯誤或惡意攻擊引起的問題)至關重要。
為了支持可擴展的大規(guī)模訓練,本文采用 ByteCheckpoint 作為檢查點解決方案。它不僅能夠以高 I/O 效率并行保存和加載分片檢查點,還支持重新分片分布式檢查點。這種靈活性允許在不同訓練規(guī)模之間無縫切換,適應不同數量的節(jié)點和多樣化的存儲后端。在我們的設置中,在數千個 GPU 上保存一個 8B 模型的檢查點會阻塞訓練不到 4 秒,與每次迭代的整體前向和反向計算時間相比可以忽略不計。
數據整理流程
本文解鎖了用于工業(yè)級視頻/圖像生成模型的數據量。數據整理流程如下圖 2 所示,包括五個主要階段:(1) 圖像和視頻收集,(2) 視頻提取和剪輯,(3) 圖像和視頻過濾,(4) 標注,以及 (5) 數據分布平衡。
數據概覽
研究者們從各種來源收集原始圖像和視頻數據,包括公開的學術數據集、互聯(lián)網資源以及通過與合作組織合作獲得的專有數據集。經過嚴格過濾后,Goku 的最終訓練數據集包括約 1.6 億個圖像-文本對和 3600 萬個視頻-文本對,涵蓋公開數據集和內部整理的專有數據集。
- 文本到圖像數據
文本到圖像訓練數據集包括來自LAION的 1 億個公開樣本和 6000 萬個高質量內部樣本。我們使用公開數據進行預訓練,并使用內部數據進行微調。 - 文本到視頻數據
T2V 訓練數據集包括 1100 萬個公開視頻片段和 2500 萬個內部視頻片段。前者包括Panda-70M、InternVid、OpenVid-1M和Pexels。并未直接使用這些數據集,而是通過數據整理流程篩選出高質量樣本。
數據處理與過濾
為了構建高質量的視頻數據集,實施了一個全面的處理流程,包括以下幾個關鍵階段。首先對原始視頻進行預處理和標準化,以解決編碼格式、時長和幀率的不一致問題。接下來,采用兩階段的視頻剪輯方法將視頻分割為有意義且多樣化的片段,并保持一致的時長。此外,還應用了多種過濾流程,包括視覺美學過濾以保留逼真且視覺豐富的片段、OCR 過濾以排除包含過多文本的視頻,以及運動過濾以確保平衡的運動動態(tài)。此外,基于分辨率和相應的過濾閾值(如 DINO 相似度、美學評分、OCR 文本覆蓋率和運動評分)對多級訓練數據進行分段,見下表 4。
下表 3 列出了用于視頻質量評估的關鍵參數及其對應的閾值。每個參數對于確保生成和評估高質量視頻至關重要。時長參數規(guī)定原始視頻長度應至少為 4 秒,以捕捉有意義的時間動態(tài)。分辨率標準確保視頻的最小維度(高度或寬度)不低于 480 像素,以保持足夠的視覺清晰度。比特率決定了播放期間每秒處理的數據量,要求至少為 500 kbps,以確保足夠的質量、清晰度和可控的文件大小。低比特率的視頻通常對應于低復雜度的內容,例如靜態(tài)視頻或純色背景的視頻。最后,幀率強制執(zhí)行至少 24 幀/秒(電影標準)或 23.976 幀/秒(NTSC 標準)的標準,以保證流暢的運動并防止視覺偽影。這些閾值共同為評估和生成高質量視頻內容建立了基線。
- 原始視頻的預處理和標準化
從互聯(lián)網收集的視頻通常需要大量預處理,以解決編碼格式、時長和幀率的差異。首先,我們基于視頻的基本屬性(如時長、分辨率、比特率)進行初步過濾。具體的過濾標準和相應閾值詳見上表 3。與基于模型的更高級過濾方法(如美學評估模型)相比,這一初步過濾步驟在計算上更為高效。在此階段之后,原始視頻被標準化為一致的編碼格式H.264(Wiegand 等,2003),確保數據集的統(tǒng)一性并促進后續(xù)處理階段。 - 視頻片段提取
此階段采用兩階段的視頻剪輯方法。首先,使用PySceneDetect進行鏡頭邊界檢測,從原始視頻中生成粗粒度的視頻片段。接下來,通過每秒采樣一幀,生成DINOv2特征并計算相鄰幀之間的余弦相似度,進一步細化視頻片段。當相似度低于設定閾值時,我們標記鏡頭變化并進一步分割片段。具體來說,如下表 4 所示,對于分辨率約為 480 × 864 的視頻,當相鄰幀之間的 DINO 相似度超過 0.85 時進行分段。對于分辨率大于 720 × 1280 的視頻,閾值設置為 0.9。此外,為了標準化長度,我們將片段限制為最長 10 秒。同時,我們考慮來自同一源視頻的不同片段之間的相似性,以確保多樣性并保持質量。具體來說,我們計算每個片段關鍵幀的感知哈希值并進行比較。如果兩個片段的哈希值相似,表明存在顯著重疊,則保留美學評分較高的片段。這確保了最終數據集包含多樣化和高質量的視頻片段。
- 視覺美學過濾
為了評估視頻的視覺質量,利用美學模型對關鍵幀進行評估。關鍵幀的美學評分取平均值以獲得每個視頻的整體美學評分。對于分辨率約為 480 × 864 的視頻,美學評分低于 4.3 的視頻將被丟棄;而對于分辨率超過 720 × 1280 的視頻,閾值提高到 4.5。這一過濾過程確保所選片段具有逼真性、視覺豐富性和高美學質量。
OCR 過濾
為了排除包含過多文本的視頻,本文采用內部 OCR 模型檢測關鍵幀中的文本。OCR 模型識別文本區(qū)域,并通過將檢測到的最大邊界框面積除以關鍵幀的總面積來計算文本覆蓋率。文本覆蓋率超過預定義閾值的視頻將被丟棄。具體來說,對于分辨率約為 480 × 864 的視頻,閾值設置為 0.02;而對于分辨率超過 720 × 1280 的視頻,閾值降低至 0.01。這一過程有效過濾了包含過多文本內容的視頻。
運動過濾
與圖像不同,視頻需要基于運動特性進行額外過濾。為此,利用 RAFT計算視頻片段的平均光流,進而得出運動評分。對于分辨率約為 480 × 864 的視頻,運動評分低于 0.3(表示低運動)或高于 20.0(表示過度運動)的片段將被排除。對于分辨率超過 720 × 1280 的視頻,閾值分別調整為 0.5 和 15.0。此外,為了增強運動控制,運動評分被附加到每個字幕中。
字幕生成
詳細的字幕對于使模型能夠精確生成與文本對齊的圖像/視頻至關重要。對于圖像,我們使用 InternVL2.0為每個樣本生成密集字幕。對于視頻片段,我們首先使用 InternVL2.0 生成關鍵幀字幕,然后使用 Tarsier2生成視頻整體字幕。需要注意的是,Tarsier2 模型能夠自然地描述視頻中的相機運動類型(例如放大、向右平移),從而無需單獨的預測模型,簡化了整體流程,與之前的工作(如 Polyak 等,2024)相比更為高效。利用 Qwen2合并關鍵幀和視頻字幕。此外,還通過實驗發(fā)現(xiàn),將運動評分(由 RAFT計算得出)添加到字幕中可以改善視頻生成的運動控制。這種方法使用戶能夠在提示中指定不同的運動評分,從而指導模型生成具有不同運動動態(tài)的視頻。
訓練數據平衡
模型的性能顯著受數據分布的影響,尤其是視頻數據。為了平衡視頻訓練數據,我們首先使用內部視頻分類模型為視頻生成語義標簽。然后,基于這些語義標簽調整數據分布,以確保各類別的均衡表示。
- 數據語義分布
視頻分類模型基于四個均勻采樣的關鍵幀為每個視頻分配語義標簽。模型將視頻分為 9 個主要類別(例如人類、風景、動物、食物)和 86 個子類別(例如半自拍、兒童、晚餐、婚禮)。下圖 3a 展示了我們過濾后的訓練片段的語義分布,其中人類、風景、食物、城市生活和動物是主要類別。
- 數據平衡
生成視頻的質量與訓練數據的語義分布密切相關。由于外觀的廣泛多樣性,涉及人類的視頻在建模上更具挑戰(zhàn)性,而動物和風景則表現(xiàn)出更高的視覺一致性,相對更容易建模。為了解決這種差異,我們實施了一種數據平衡策略,強調與人類相關的內容,同時確保每個主要類別中子類別的均衡表示。對過度代表的子類別進行選擇性下采樣,而對不足代表的子類別則通過人工數據生成和過采樣技術進行增強。平衡后的數據分布如圖 3b 所示。
實驗
文本到圖像結果
在廣泛認可的圖像生成基準上對 Goku-T2I 進行了全面的定量評估,包括 GenEval、T2I-CompBench和 DPG-Bench。結果總結在下表 5 中。
- GenEval 上的表現(xiàn)
為了全面評估文本-圖像對齊能力,使用GenEval基準,該基準評估文本描述與視覺內容之間的對應關系。由于Goku-T2I主要在密集生成字幕上進行訓練,因此在處理詳細提示時具有天然優(yōu)勢。為了進一步探索這一點,我們使用ChatGPT-4o擴展了 GenEval 中的原始簡短提示,在保留語義的同時增強了描述的細節(jié)。Goku-T2I在使用原始簡短提示時表現(xiàn)出色,超越了大多數最先進的模型。在使用改寫后的提示時,Goku-T2I達到了最高分(0.76),展示了其在將詳細文本描述與生成圖像對齊方面的卓越能力。 - T2I-CompBench 上的表現(xiàn)
進一步使用T2I-CompBench基準評估生成圖像與文本條件之間的對齊能力,該基準專注于顏色、形狀和紋理等各種對象屬性。如表 5 所示,Goku-T2I在多個強基線模型(包括PixArt-??(Chen 等,2023)、SDXL(Podell 等,2023)和DALL-E 2(Mishkin 等,2022))中表現(xiàn)優(yōu)異。值得注意的是,提示改寫的引入進一步提高了所有屬性的性能,凸顯了Goku-T2I在文本-圖像對齊方面的魯棒性。 - DPG-Bench 上的表現(xiàn)
雖然上述基準主要評估使用簡短提示的文本-圖像對齊能力,但DPG-Bench旨在測試模型在密集提示跟隨上的表現(xiàn)。這一具有挑戰(zhàn)性的基準包含 1000 個詳細提示,嚴格測試模型為復雜文本輸入生成視覺準確輸出的能力。如表 5 最后一列所示,Goku-T2I以 83.65 的平均分取得了最高性能,超越了PixArt-??(Chen 等,2023)(71.11)、DALL-E 3(83.50)和EMU3(Wang 等,2024b)(80.60)。這些結果突顯了Goku-T2I在處理密集提示和保持高保真文本-圖像對齊方面的卓越能力。
文本到視頻結果
- UCF-101 上的表現(xiàn)
在UCF-101上使用零樣本文本到視頻設置進行實驗。由于 UCF-101 僅包含類別標簽,我們利用視頻-語言模型Tarsier-34B為所有 UCF-101 視頻生成詳細字幕。然后使用這些字幕通過Goku合成視頻。最后,我們使用Goku-2B模型生成了 13,320 個不同分辨率的視頻進行評估,包括 256×256、240×360 和 128×128。遵循標準實踐,使用在Kinetics-400上預訓練的I3D模型作為特征提取器?;谔崛〉奶卣?,我們計算了Fréchet 視頻距離(FVD)(Unterthiner 等,2018)以評估生成視頻的保真度。下表 6 中的結果表明,Goku生成的視頻始終具有更低的 FVD 和更高的Inception Score(IS)。例如,在 128×128 分辨率下,Goku生成的視頻的 FVD 為 217.24,達到了最先進的性能,并顯著優(yōu)于其他方法。
VBench 上的表現(xiàn)。如下表 7 所示,在 VBench上對 Goku-T2V 進行了評估。VBench 是一個綜合基準,旨在從 16 個維度評估視頻生成質量。Goku-T2V 在 VBench 上實現(xiàn)了最先進的整體性能,展現(xiàn)了其在不同屬性和場景下生成高質量視頻的能力。
在關鍵指標方面,Goku-T2V 在人體動作表示、動態(tài)程度和多物體生成方面表現(xiàn)突出,反映了其處理復雜多樣視頻內容的能力。此外,它在外觀風格、質量評分和語義對齊方面取得了具有競爭力的結果,突出了其在多個方面的均衡性能。
關于所有 16 個評估維度的詳細結果,見下表 8。這一全面分析進一步證明了 Goku-T2V 在視頻生成方面相較于以往方法的優(yōu)越性。
圖像到視頻
從 T2V 初始化對 Goku-I2V 進行微調,使用了約 450 萬個文本-圖像-視頻三元組,這些數據來源于多個領域,以確保強大的泛化能力。盡管微調步驟相對較少(10k),但我們的模型在動畫化參考圖像的同時,仍然能夠高效地保持與伴隨文本的高度對齊。正如下圖 4 所示,生成的視頻具有較高的視覺質量和時間連貫性,能夠有效捕捉文本描述的語義細節(jié)。
圖像與視頻的定性可視化
為了進行直觀比較,本文進行了定性評估,并下在圖 6 中展示了采樣結果。評估涵蓋了開源模型(如 CogVideoX和 Open-Sora-Plan)以及閉源商業(yè)產品(如 DreamMachine、Pika、Vidu)和 Kling)。
結果表明,在處理復雜提示詞時,一些商業(yè)模型難以生成關鍵視頻元素。例如,Pika、DreamMachine 和 Vidu(第 3–5 行)未能渲染出掠過水面的無人機。雖然某些模型成功生成了目標無人機,但它們往往會產生變形的主體(第 1–2 行)或缺乏運動一致性的靜態(tài)幀(第 6 行)。相比之下,Goku-T2V(8B)在準確融合提示詞的所有細節(jié)方面表現(xiàn)出色,生成了具有流暢運動的連貫視覺輸出。附錄中提供了更多比較,以進行更全面的評估。此外,更多視頻示例可在 Goku 主頁上查看。
消融實驗
模型擴展(Model Scaling)。 本文比較了參數規(guī)模為 2B 和 8B 的 Goku-T2V 模型。如下圖 5a 所示,模型擴展有助于減少失真對象結構的生成,例如圖 5a(第 1 行)中的手臂和圖 5a(第 2 行)中的輪子。這與在大型多模態(tài)模型中觀察到的結果一致。
聯(lián)合訓練(Joint Training)。 進一步研究了圖像-視頻聯(lián)合訓練的影響。以相同的預訓練 Goku-T2I(8B)權重為起點,在 480p 視頻上對 Goku-T2V(8B)進行微調,訓練步數相同,但分別進行了聯(lián)合訓練和非聯(lián)合訓練。如圖 5b 所示,未經過聯(lián)合訓練的 Goku-T2V 生成的視頻幀質量較低,而采用聯(lián)合訓練的模型更穩(wěn)定地生成了逼真的視頻幀。
結論
Goku,一個用于聯(lián)合圖像與視頻生成的新模型,旨在實現(xiàn)行業(yè)標準的性能。通過先進的數據篩選流程和穩(wěn)健的模型架構,Goku 確保精細化數據選擇與圖像-視頻模態(tài)的有效融合,從而生成高質量的輸出。
關鍵組件(如圖像-視頻聯(lián)合 VAE 及修正流的應用)促進了跨模態(tài)的無縫 token 交互,建立了一個共享的隱空間,從而增強了模型的適應性及 token 之間的注意力機制。實證結果表明,Goku 在商用級視覺生成質量方面表現(xiàn)出色。
本文轉自AI生成未來 ,作者:AI生成未來
