自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成

發(fā)布于 2025-4-16 06:42
瀏覽
0收藏

Seaweed-7B: Cost-Effective Training of Video Generation Foundation Model

2025-04-11|ByteDance, ByteDance Seed|??83

??http://arxiv.org/abs/2504.08685v1???
???https://huggingface.co/papers/2504.08685???
???https://seaweed.video/??

研究背景與意義

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

Seaweed-7B 是一種中等規(guī)模的視頻生成基礎(chǔ)模型,參數(shù)量約為 70 億。該研究的核心目標(biāo)是探索一種成本高效的訓(xùn)練策略,在計(jì)算資源有限的情況下實(shí)現(xiàn)與大規(guī)模模型相媲美的性能。視頻生成領(lǐng)域近年來發(fā)展迅速,但其高計(jì)算成本和推理開銷成為主要瓶頸。Seaweed-7B 的提出旨在通過優(yōu)化架構(gòu)設(shè)計(jì)和訓(xùn)練策略,降低訓(xùn)練和推理成本,同時(shí)保持高性能。

背景意義簡述

  1. 研究動(dòng)機(jī):當(dāng)前視頻生成模型通常需要大量 GPU 資源進(jìn)行訓(xùn)練和推理,這限制了創(chuàng)新的速度和應(yīng)用范圍。Seaweed-7B 的研究試圖證明中等規(guī)模模型在特定設(shè)計(jì)下的潛力。
  2. 研究意義:通過減少對昂貴硬件的依賴,Seaweed-7B 可以更廣泛地應(yīng)用于社交媒體、數(shù)字娛樂等領(lǐng)域,尤其是在對 GPU 內(nèi)存和推理成本敏感的應(yīng)用場景中。
  3. 潛在影響:這項(xiàng)研究不僅為視頻生成領(lǐng)域提供了新的思路,還可能推動(dòng)其他模態(tài)(如語言和圖像)中等規(guī)模模型的發(fā)展。

研究方法與創(chuàng)新

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

Seaweed-7B 的成功得益于一系列精心設(shè)計(jì)的技術(shù)選擇。以下從 VAE 設(shè)計(jì)、擴(kuò)散模型架構(gòu)、多階段訓(xùn)練策略等方面詳細(xì)解析其方法論和創(chuàng)新點(diǎn)。

方法創(chuàng)新詳解

VAE 設(shè)計(jì)與優(yōu)化

  • 壓縮比與重建質(zhì)量:VAE 的核心在于平衡壓縮比和重建質(zhì)量。研究發(fā)現(xiàn),64 倍壓縮率的 VAE 在相同計(jì)算資源下收斂更快,并達(dá)到更高的重建質(zhì)量。相比 DiT 中的 patchification 方法,VAE 內(nèi)部壓縮信息的效果更優(yōu)。
  • 混合分辨率訓(xùn)練:為了提升高分辨率和長時(shí)序視頻的重建能力,研究團(tuán)隊(duì)引入了混合分辨率訓(xùn)練方法。這種方法顯著提高了模型對未見過分辨率的泛化能力。
  • 穩(wěn)定性改進(jìn):通過使用 SpectralNorm 替代 BatchNorm,VAE 的訓(xùn)練過程更加穩(wěn)定,盡管早期可能會(huì)犧牲一些定量指標(biāo),但最終重建性能更佳。

擴(kuò)散模型架構(gòu)

  • Full-Attention 在充分計(jì)算資源支持下表現(xiàn)最佳,但在高分辨率視頻訓(xùn)練中計(jì)算負(fù)擔(dān)較大。
  • Sparse Window Attention 是一種折中方案,適合預(yù)算受限的情況。實(shí)驗(yàn)表明,隨著訓(xùn)練步數(shù)增加,F(xiàn)ull-Attention 最終超越 Window Attention。
  • Hybrid-Stream 結(jié)構(gòu):與傳統(tǒng)的 Dual-Stream 相比,Hybrid-Stream 結(jié)構(gòu)通過共享部分 FFN 參數(shù)和 AdaSingle 時(shí)間步調(diào)制,實(shí)現(xiàn)了更快的收斂速度和更低的內(nèi)存消耗。
  • 注意力機(jī)制優(yōu)化
  • MM-RoPE 編碼:通過引入 3D MM-RoPE 編碼,模型能夠更好地捕捉視頻中的位置信息,從而改善生成質(zhì)量和運(yùn)動(dòng)一致性。

多階段訓(xùn)練策略

  • 預(yù)訓(xùn)練階段:從低分辨率圖像開始,逐步過渡到圖像-視頻聯(lián)合訓(xùn)練。這種策略有助于模型建立文本提示與視覺概念之間的對齊關(guān)系。
  • 微調(diào)階段:采用監(jiān)督微調(diào)(SFT)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),進(jìn)一步提升生成視頻的美學(xué)質(zhì)量、運(yùn)動(dòng)一致性和結(jié)構(gòu)連貫性。
  • 任務(wù)分配:在不同階段合理分配 GPU 資源,確保整體質(zhì)量的提升。例如,Text-to-Video 任務(wù)成本較低,而 Image-to-Video 則需要更多關(guān)注。

基礎(chǔ)設(shè)施優(yōu)化

  • 并行化策略:利用 3D 并行化(數(shù)據(jù)并行、上下文并行、模型分片)和 FSDP 技術(shù),有效減少通信開銷,提高分布式訓(xùn)練效率。
  • Runtime Balance:通過構(gòu)建離線查找表,動(dòng)態(tài)調(diào)整每批次樣本的分布,緩解圖像-視頻聯(lián)合訓(xùn)練中的負(fù)載不平衡問題。
  • MLAC 激活檢查點(diǎn):多級激活檢查點(diǎn)技術(shù)顯著降低了 GPU 內(nèi)存占用和重計(jì)算開銷,使得模型能夠在長上下文中高效訓(xùn)練。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

為了驗(yàn)證 Seaweed-7B 的性能,研究團(tuán)隊(duì)設(shè)計(jì)了一系列實(shí)驗(yàn),涵蓋文本到視頻、圖像到視頻等多個(gè)任務(wù)。

實(shí)驗(yàn)結(jié)果簡述

生成質(zhì)量評估:

  • 在 Text-to-Video 和 Image-to-Video 任務(wù)中,Seaweed-7B 的表現(xiàn)與許多更大規(guī)模的模型相當(dāng)甚至更優(yōu)。
  • 具體指標(biāo)包括保真度、美學(xué)、運(yùn)動(dòng)質(zhì)量、提示對齊和推理效率。

下游任務(wù)泛化能力:

  • Seaweed-7B 可以通過輕量級微調(diào)或繼續(xù)訓(xùn)練,適應(yīng)多種下游視頻生成任務(wù),展現(xiàn)出強(qiáng)大的泛化能力。

對比基準(zhǔn):

  • 與 Sora、Wan-2.1 等模型相比,Seaweed-7B 在多個(gè)關(guān)鍵指標(biāo)上表現(xiàn)出色,尤其是在運(yùn)動(dòng)質(zhì)量和提示跟隨方面。
  • 盡管在視覺質(zhì)量上略遜于 Kling 1.6(HD),但考慮到其分辨率差異(480p/720p vs. 1080p),這一差距是可以接受的。

統(tǒng)計(jì)顯著性:

  • 在 MagicArena 的 Elo 評分系統(tǒng)中,Seaweed-7B 在 Image-to-Video 任務(wù)中排名第二,僅次于 Kling 1.6(HD)。
  • 在 Text-to-Video 任務(wù)中,Seaweed-7B 排名前二至三名,勝過多個(gè)大規(guī)模模型。

結(jié)論與展望

結(jié)論展望簡述

總結(jié)貢獻(xiàn):

  • 提出了成本高效的視頻生成模型訓(xùn)練策略,證明中等規(guī)模模型在特定設(shè)計(jì)下的潛力。
  • 在多個(gè)生成任務(wù)中展現(xiàn)了高度競爭力,尤其在運(yùn)動(dòng)質(zhì)量和提示跟隨方面表現(xiàn)突出。

分析局限:

  • 當(dāng)前模型在高分辨率視頻生成上的表現(xiàn)仍有提升空間。
  • Rephraser 模塊可能會(huì)影響較長輸入提示的語義準(zhǔn)確性。

方法展望:

  • 進(jìn)一步優(yōu)化 VAE 和擴(kuò)散模型的設(shè)計(jì),探索更高分辨率視頻生成的可能性。
  • 開發(fā)更高效的推理加速技術(shù),如 diffusion distillation 和 adversarial training。
  • 擴(kuò)展模型的應(yīng)用范圍,探索其在實(shí)時(shí)交互場景中的潛力。

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

2025-04-11|HKU, ByteDance|??32

??http://arxiv.org/abs/2504.08736v1???
???https://huggingface.co/papers/2504.08736???
???https://silentview.github.io/GigaTok??

研究背景與意義

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

研究背景在于自回歸(AR)圖像生成框架中,視覺分詞器將圖像壓縮為離散的潛碼符號,從而實(shí)現(xiàn)高效的下游模型訓(xùn)練。然而,隨著分詞器規(guī)模的擴(kuò)大,雖然圖像重建質(zhì)量有所提升,但下游生成質(zhì)量卻顯著下降,形成了“重建-生成困境”。這一問題在現(xiàn)有文獻(xiàn)中尚未得到充分解決。GigaTok旨在通過引入語義正則化等方法,同時(shí)改善圖像重建和生成性能。

  • 核心問題:大規(guī)模視覺分詞器擴(kuò)展時(shí),如何平衡重建質(zhì)量和生成性能。
  • 創(chuàng)新意義:首次提出語義正則化方法,有效緩解了重建-生成困境,并探索了三種關(guān)鍵實(shí)踐策略以優(yōu)化分詞器擴(kuò)展。

研究方法與創(chuàng)新

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

本文提出了GigaTok,一種能夠同時(shí)改進(jìn)圖像重建、生成和表示學(xué)習(xí)的大規(guī)模視覺分詞器。其核心創(chuàng)新點(diǎn)包括:

語義正則化:

  • 通過語義正則化約束分詞器特征與預(yù)訓(xùn)練視覺編碼器的一致性,防止?jié)摯a空間復(fù)雜度過高。
  • 具體做法是在分詞器訓(xùn)練過程中加入語義正則化損失項(xiàng),鼓勵(lì)分詞器特征與預(yù)訓(xùn)練模型特征的高度相似性。

三種擴(kuò)展實(shí)踐:

  • 一維分詞器:相較于二維分詞器,一維分詞器展現(xiàn)出更好的可擴(kuò)展性。
  • 非對稱擴(kuò)展:優(yōu)先擴(kuò)展解碼器而非編碼器,證明更有效果。
  • 熵?fù)p失:引入熵?fù)p失以穩(wěn)定十億級參數(shù)分詞器的訓(xùn)練過程。

技術(shù)優(yōu)勢:

  • GigaTok通過上述方法成功擴(kuò)展至30億參數(shù),實(shí)現(xiàn)了最先進(jìn)的重建、下游生成和表示學(xué)習(xí)性能。
  • 實(shí)驗(yàn)表明,語義正則化顯著降低了潛碼空間復(fù)雜度,使得更大規(guī)模的分詞器仍能保持良好的生成能力。

對比分析:

  • 與傳統(tǒng)方法相比,GigaTok不僅提升了重建質(zhì)量,還解決了生成性能下降的問題。
  • 特別是通過語義正則化,GigaTok能夠引導(dǎo)分詞器編碼更具語義一致性的潛碼空間。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

實(shí)驗(yàn)部分驗(yàn)證了GigaTok的有效性和優(yōu)越性,主要從以下幾個(gè)方面展開:

實(shí)驗(yàn)設(shè)置:

  • 使用不同規(guī)模的分詞器進(jìn)行實(shí)驗(yàn),涵蓋小規(guī)模到超大規(guī)模。
  • 比較指標(biāo)包括重建質(zhì)量(rFID)、生成性能(gFID)和線性探測精度(LinAcc.)。

結(jié)果分析:

  • 重建質(zhì)量:GigaTok在所有規(guī)模下均表現(xiàn)出更高的重建質(zhì)量。
  • 生成性能:語義正則化顯著改善了生成性能,解決了傳統(tǒng)方法中的“重建-生成困境”。
  • 表示學(xué)習(xí):通過線性探測精度驗(yàn)證,GigaTok提升了下游模型的學(xué)習(xí)能力。

對比基準(zhǔn):

  • 與現(xiàn)有方法相比,GigaTok在重建和生成性能上均達(dá)到或超越了SOTA水平。
  • 特別是一維分詞器在擴(kuò)展性上優(yōu)于二維分詞器,展現(xiàn)出更強(qiáng)的適應(yīng)能力。

多場景表現(xiàn):

  • 在不同分辨率和數(shù)據(jù)集上的實(shí)驗(yàn)進(jìn)一步驗(yàn)證了GigaTok的魯棒性和泛化能力。

結(jié)論與展望

總結(jié)來看,GigaTok通過語義正則化和三種擴(kuò)展策略,成功解決了大規(guī)模視覺分詞器擴(kuò)展中的重建-生成困境,實(shí)現(xiàn)了卓越的重建、生成和表示學(xué)習(xí)性能。

  • 貢獻(xiàn)總結(jié)

a.首次將視覺分詞器擴(kuò)展至30億參數(shù),取得了SOTA的重建、生成和表示學(xué)習(xí)性能。

b.提出了語義正則化方法,顯著降低了潛碼空間復(fù)雜度。

c.探索并驗(yàn)證了三種擴(kuò)展實(shí)踐策略的有效性。

  • 局限分析
  • 當(dāng)前方法在極端大尺度下的表現(xiàn)仍有待進(jìn)一步驗(yàn)證。
  • 訓(xùn)練成本較高,可能限制實(shí)際應(yīng)用范圍。
  • 未來展望
  • 進(jìn)一步優(yōu)化語義正則化方法,探索更多潛在應(yīng)用場景。
  • 研究如何降低訓(xùn)練成本,提升模型的實(shí)際可用性。
  • 擴(kuò)展至更多模態(tài),如視頻生成等領(lǐng)域,推動(dòng)多模態(tài)生成技術(shù)的發(fā)展。

ZipIR: Latent Pyramid Diffusion Transformer for High-Resolution Image Restoration

2025-04-11|U Rochester, Adobe Research|??13

??http://arxiv.org/abs/2504.08591v1???
???https://huggingface.co/papers/2504.08591??

研究背景與意義

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

ZipIR的提出旨在解決高分辨率圖像恢復(fù)(IR)領(lǐng)域中質(zhì)量與效率之間的根本權(quán)衡問題。近年來,生成模型特別是擴(kuò)散模型在圖像恢復(fù)方面取得了顯著進(jìn)展,能夠有效恢復(fù)語義細(xì)節(jié)和局部保真度。然而,在超高分辨率下部署這些模型時(shí),由于長距離注意力機(jī)制帶來的計(jì)算需求,面臨著質(zhì)量和效率之間的關(guān)鍵權(quán)衡?,F(xiàn)有方法如基于UNet的擴(kuò)散模型雖然有效,但在處理超高清輸出時(shí)面臨效率挑戰(zhàn)。

ZipIR通過引入一種高度壓縮的潛在表示,將圖像壓縮32倍,從而減少空間標(biāo)記數(shù)量,使高性能模型如擴(kuò)散變壓器(DiT)得以應(yīng)用。這種方法不僅提高了處理速度,還增強(qiáng)了對嚴(yán)重退化輸入的恢復(fù)能力。研究的意義在于為高分辨率圖像恢復(fù)提供了更高效、更可擴(kuò)展的解決方案,推動(dòng)了圖像恢復(fù)技術(shù)的發(fā)展。

研究方法與創(chuàng)新

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

ZipIR的核心創(chuàng)新在于其獨(dú)特的Latent Pyramid VAE(LP-VAE)設(shè)計(jì)和基于DiT的架構(gòu)優(yōu)化。以下從多個(gè)角度深入解析其方法論與創(chuàng)新點(diǎn):

1. LP-VAE的設(shè)計(jì)與優(yōu)勢

  • LP-VAE通過子帶分解將高階圖像結(jié)構(gòu)與低階細(xì)節(jié)分離,確保低級退化主要影響精細(xì)潛在特征,而粗級代碼保持一致,從而簡化擴(kuò)散模型的學(xué)習(xí)過程。
  • 該設(shè)計(jì)采用金字塔式編碼器,逐層捕獲不同分辨率下的信息,最終形成一個(gè)高度壓縮的64通道潛在表示。這種分層結(jié)構(gòu)不僅減少了標(biāo)記數(shù)量,還提升了潛在空間的結(jié)構(gòu)化程度。
  • LP-VAE解決了傳統(tǒng)VAE在高分辨率任務(wù)中的兩大挑戰(zhàn):對微小擾動(dòng)的敏感性和解碼過程中低級細(xì)節(jié)的失真。

2. 擴(kuò)散模型的擴(kuò)展與優(yōu)化

  • ZipIR利用LP-VAE的潛在表示訓(xùn)練了一個(gè)參數(shù)量達(dá)30億的大規(guī)模擴(kuò)散變壓器(DiT),使其能夠在全分辨率圖像上進(jìn)行訓(xùn)練,提升全局建模能力。
  • 進(jìn)一步引入Pyramid Cascade Encoders,通過多級金字塔結(jié)構(gòu)捕捉細(xì)粒度細(xì)節(jié)、低分辨率結(jié)構(gòu)和宏觀語義,顯著增強(qiáng)了模型的表達(dá)能力。
  • 在訓(xùn)練過程中,采用了漸進(jìn)式訓(xùn)練策略,逐步優(yōu)化粗級和細(xì)級編碼器,避免了直接訓(xùn)練復(fù)雜模型可能帶來的不穩(wěn)定性。

3. 像素感知解碼器與文本引導(dǎo)

  • 像素感知解碼器通過跳過連接添加空間信息,進(jìn)一步增強(qiáng)從高度壓縮的潛在空間重建高質(zhì)量圖像的能力。
  • 文本嵌入模塊通過交叉注意力層整合語義信息,支持無分類器引導(dǎo),使模型能夠根據(jù)文本提示生成更符合預(yù)期的恢復(fù)結(jié)果。

創(chuàng)新總結(jié)ZipIR的創(chuàng)新之處在于其系統(tǒng)性地解決了高分辨率圖像恢復(fù)中的效率與質(zhì)量矛盾。通過LP-VAE實(shí)現(xiàn)潛在空間的高度壓縮,結(jié)合大規(guī)模擴(kuò)散模型和漸進(jìn)式訓(xùn)練策略,實(shí)現(xiàn)了在2K分辨率下的快速、高質(zhì)量恢復(fù)。此外,文本引導(dǎo)和像素感知解碼器的設(shè)計(jì)進(jìn)一步提升了模型的靈活性和魯棒性。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

實(shí)驗(yàn)部分驗(yàn)證了ZipIR在多種場景下的性能表現(xiàn),包括超分辨率、去模糊、降噪和JPEG偽影去除等任務(wù)。

實(shí)驗(yàn)設(shè)置

  • 數(shù)據(jù)集:使用3000張2K分辨率的Pexels照片作為訓(xùn)練集,并在RealPhoto60等真實(shí)低質(zhì)量數(shù)據(jù)集上進(jìn)行測試。
  • 比較方法:與Real-ESRGAN、StableSR、DiffBIR、SeeSR和SUPIR等先進(jìn)方法對比。
  • 評估指標(biāo):采用PSNR、LPIPS、FID、pFID和KID等多維度指標(biāo)。

結(jié)果分析

  • 超分辨率任務(wù):在16×和8×超分辨率場景下,ZipIR分別取得最低的FID(3.24)和最佳的LPIPS(0.3374),表明其在感知質(zhì)量和保真度方面的優(yōu)越性。
  • 混合退化恢復(fù):面對8×下采樣、高斯模糊(σ=2)、噪聲(σ=40)和JPEG偽影(p=50)的復(fù)合退化,ZipIR表現(xiàn)出更強(qiáng)的分布一致性(KID=11.23×103)和感知質(zhì)量(LPIPS=0.5791)。
  • 效率對比:相比SeeSR(73.7秒)和SUPIR(52.99秒),ZipIR僅需6.92秒即可完成2K分辨率圖像的處理,展示了其卓越的效率。

消融實(shí)驗(yàn)

  • 高分辨率訓(xùn)練:實(shí)驗(yàn)證明,高分辨率訓(xùn)練顯著提升了局部細(xì)節(jié)的清晰度和準(zhǔn)確性。
  • 像素感知解碼器:引入像素感知解碼器后,F(xiàn)ID和pFID分別下降至20.95和38.73,表明其在空間信息恢復(fù)中的重要作用。

結(jié)論與展望

總結(jié)貢獻(xiàn)ZipIR通過引入LP-VAE和大規(guī)模擴(kuò)散模型,成功解決了高分辨率圖像恢復(fù)中的效率與質(zhì)量矛盾。其主要貢獻(xiàn)包括:

  1. 提出了一種高效的潛在表示壓縮方法(LP-VAE),顯著降低了計(jì)算復(fù)雜度。
  2. 設(shè)計(jì)了漸進(jìn)式訓(xùn)練策略和多級金字塔編碼器,提升了模型的表達(dá)能力和訓(xùn)練穩(wěn)定性。
  3. 引入像素感知解碼器和文本引導(dǎo)模塊,增強(qiáng)了模型的空間信息恢復(fù)能力和語義理解能力。

分析局限盡管ZipIR在多項(xiàng)指標(biāo)上表現(xiàn)出色,但仍存在一些局限性:

  • 對極端退化(如極高倍率下采樣或嚴(yán)重噪聲)的恢復(fù)能力仍有提升空間。
  • 模型訓(xùn)練需要大量高質(zhì)量數(shù)據(jù),可能限制其在特定領(lǐng)域的應(yīng)用。

方法展望未來工作可以從以下幾個(gè)方向展開:

  1. 探索更高的壓縮率和更大容量的擴(kuò)散模型,進(jìn)一步提升高分辨率圖像恢復(fù)效果。
  2. 研究自監(jiān)督學(xué)習(xí)方法,降低對標(biāo)注數(shù)據(jù)的依賴。
  3. 將ZipIR擴(kuò)展到視頻恢復(fù)等更多應(yīng)用場景,推動(dòng)相關(guān)技術(shù)的發(fā)展。

PixelFlow: Pixel-Space Generative Models with Flow

2025-04-10|HKU, Adobe|??10

??http://arxiv.org/abs/2504.07963v1???
???https://huggingface.co/papers/2504.07963???
???https://github.com/ShoufaChen/PixelFlow??

研究背景與意義

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

PixelFlow 提出了一種全新的圖像生成范式,直接在像素空間中進(jìn)行生成,而無需依賴預(yù)訓(xùn)練的變分自編碼器(VAE)或上采樣器。這一方法簡化了圖像生成過程,避免了傳統(tǒng)潛在空間模型中VAE和擴(kuò)散組件解耦的問題,從而實(shí)現(xiàn)了端到端的優(yōu)化。研究的意義在于挑戰(zhàn)了當(dāng)前以潛在空間模型為主導(dǎo)的生成范式,為高分辨率圖像生成提供了一種更高效、更靈活的解決方案。

  • 現(xiàn)狀概述:目前主流的生成模型多基于潛在空間,如LDMs(Latent Diffusion Models),通過壓縮原始數(shù)據(jù)到低維潛在空間來降低計(jì)算需求。然而,這種做法限制了端到端優(yōu)化的可能性,并可能損失高頻細(xì)節(jié)。
  • 問題洞察:盡管潛在空間模型取得了巨大成功,但其復(fù)雜的兩階段設(shè)計(jì)(先訓(xùn)練VAE,再訓(xùn)練擴(kuò)散模型)導(dǎo)致了優(yōu)化困難和診斷復(fù)雜性。此外,像素空間中的直接生成雖然直觀,但在高分辨率下計(jì)算成本高昂。
  • 目標(biāo)闡明:PixelFlow旨在通過直接在像素空間中操作,結(jié)合高效的級聯(lián)流建模,實(shí)現(xiàn)高質(zhì)量圖像生成的同時(shí)保持較低的計(jì)算成本。

研究方法與創(chuàng)新

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

PixelFlow的核心創(chuàng)新在于其獨(dú)特的架構(gòu)設(shè)計(jì)和訓(xùn)練策略,具體體現(xiàn)在以下幾個(gè)方面:

端到端可訓(xùn)練性:

  • 通過放棄對預(yù)訓(xùn)練VAE的依賴,PixelFlow實(shí)現(xiàn)了從噪聲到清晰圖像的完全端到端訓(xùn)練。這種方法不僅簡化了模型設(shè)計(jì),還允許全局優(yōu)化,避免了潛在空間模型中常見的信息丟失問題。

級聯(lián)流建模:

  • PixelFlow采用漸進(jìn)式的分辨率提升策略,在不同分辨率階段逐步去噪。早期階段處理低分辨率樣本,隨著去噪過程的推進(jìn)逐漸增加分辨率,最終達(dá)到目標(biāo)分辨率。這種方法顯著降低了全分辨率下的計(jì)算負(fù)擔(dān)。
  • 具體實(shí)現(xiàn)上,PixelFlow利用Flow Matching算法將樣本從先驗(yàn)分布逐步轉(zhuǎn)換為目標(biāo)數(shù)據(jù)分布。通過定義一系列線性路徑連接先驗(yàn)分布和目標(biāo)分布的樣本,確保了生成過程的平滑性和可控性。

Transformer架構(gòu)的適配:

  • Patchify:將輸入圖像劃分為token序列,直接對原始像素進(jìn)行操作,而非依賴VAE編碼的潛在表示。
  • RoPE:用二維相對位置編碼(2D-RoPE)替代傳統(tǒng)的正弦余弦位置編碼,增強(qiáng)了對不同分辨率圖像的支持能力。
  • Resolution Embedding:引入分辨率嵌入作為條件信號,使模型能夠區(qū)分不同分辨率的輸入。
  • PixelFlow基于Transformer構(gòu)建生成模型,使用XL規(guī)模配置以支持高分辨率生成任務(wù)。為了更好地適應(yīng)像素空間生成,PixelFlow引入了多項(xiàng)改進(jìn):

靈活性與效率:

  • PixelFlow支持靈活的推理配置,例如根據(jù)不同分辨率階段分配不同的采樣步數(shù),以及選擇不同的ODE求解器(如Euler或Dopri5)。這些設(shè)計(jì)使得模型能夠在性能和效率之間找到最佳平衡點(diǎn)。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

實(shí)驗(yàn)部分驗(yàn)證了PixelFlow在多個(gè)生成任務(wù)上的有效性,包括類別條件圖像生成和文本到圖像生成。

實(shí)驗(yàn)設(shè)置:

  • 數(shù)據(jù)集:ImageNet-1K用于類別條件生成;LAION子集用于文本到圖像生成。
  • 訓(xùn)練細(xì)節(jié):采用AdamW優(yōu)化器,學(xué)習(xí)率固定為1×10??。生成過程中使用分類器自由引導(dǎo)(CFG)增強(qiáng)生成質(zhì)量。

結(jié)果對比:

  • 在256×256類別條件生成任務(wù)中,PixelFlow達(dá)到了1.98的FID分?jǐn)?shù),優(yōu)于多個(gè)潛在空間模型(如LDM-4-G FID 3.60,DiT-XL/2 FID 2.27)。
  • 文本到圖像生成方面,PixelFlow在GenEval、T2I-CompBench和DPG-Bench等基準(zhǔn)測試中表現(xiàn)出色,分別取得0.64、77.93的成績。

消融實(shí)驗(yàn):

  • Kickoff Sequence Length:實(shí)驗(yàn)表明,從適當(dāng)?shù)男》直媛剩ㄈ?×8)開始生成可以兼顧質(zhì)量和效率,而過低的分辨率(如2×2)會(huì)導(dǎo)致性能下降。
  • Patch Size:使用4×4的patch size在大多數(shù)評價(jià)指標(biāo)上優(yōu)于2×2,同時(shí)提高了計(jì)算效率。
  • ODE Solver:Dopri5求解器相比Euler求解器能更準(zhǔn)確地捕捉生成動(dòng)態(tài),但計(jì)算成本略高。
  • CFG Schedule:提出的分階段CFG策略進(jìn)一步提升了生成質(zhì)量,F(xiàn)ID從2.43降低至1.98。

結(jié)論與展望

PixelFlow通過直接在像素空間中操作,成功挑戰(zhàn)了潛在空間模型的主導(dǎo)地位,展現(xiàn)了強(qiáng)大的生成能力和靈活性。其主要貢獻(xiàn)包括:

  • 建立了一個(gè)端到端可訓(xùn)練的像素空間生成模型。
  • 通過級聯(lián)流建模實(shí)現(xiàn)了高效且高質(zhì)量的圖像生成。
  • 在類別條件生成和文本到圖像生成任務(wù)中均取得了具有競爭力的結(jié)果。

局限性:

  • 盡管PixelFlow避免了全分辨率計(jì)算,但最終階段仍需進(jìn)行全分辨率注意力操作,占用了約80%的推理時(shí)間。
  • 隨著序列長度增加,訓(xùn)練收斂速度變慢,影響了模型的大規(guī)模擴(kuò)展能力。

未來方向:

  • 探索更高效的注意力機(jī)制以減少計(jì)算開銷。
  • 優(yōu)化訓(xùn)練策略以加速長序列收斂。
  • 將PixelFlow應(yīng)用于更多模態(tài)的生成任務(wù),如視頻生成和3D內(nèi)容生成。

FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation

2025-04-10|Tencent AI Lab|??7

??http://arxiv.org/abs/2504.07405v1???
???https://huggingface.co/papers/2504.07405???
???https://flexip-tech.github.io/flexip/??

研究背景與意義

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

個(gè)性化圖像生成是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn)研究方向之一,其核心挑戰(zhàn)在于如何在保持主體身份一致性的前提下實(shí)現(xiàn)多樣化的編輯效果。現(xiàn)有方法通常在身份保留和個(gè)性化編輯之間存在固有的權(quán)衡,難以同時(shí)滿足高保真度的身份保留和靈活的編輯需求。論文《FlexIP: Dynamic Control of Preservation and Personality for Customized Image Generation》提出了一種全新的框架FlexIP,旨在通過顯式解耦身份保留和個(gè)性化編輯目標(biāo)來解決這一問題。

FlexIP通過引入雙適配器架構(gòu)(Preservation Adapter 和 Personalization Adapter)以及動(dòng)態(tài)權(quán)重門控機(jī)制(Dynamic Weight Gating),實(shí)現(xiàn)了對這兩項(xiàng)目標(biāo)的獨(dú)立控制。這種方法不僅突破了傳統(tǒng)方法的性能限制,還為個(gè)性化圖像生成提供了更靈活、更精確的解決方案。此外,F(xiàn)lexIP的設(shè)計(jì)理念強(qiáng)調(diào)了跨模態(tài)信息的有效分離和互補(bǔ)性利用,為未來的研究提供了新的思路。

研究方法與創(chuàng)新

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

FlexIP的核心創(chuàng)新點(diǎn)在于其獨(dú)特的架構(gòu)設(shè)計(jì)和工作機(jī)制:

  1. 雙適配器架構(gòu):FlexIP采用雙適配器架構(gòu),分別處理身份保留和個(gè)性化編輯任務(wù)。Preservation Adapter通過結(jié)合高維語義概念和低維空間細(xì)節(jié)捕捉主體身份特征,而Personalization Adapter則專注于風(fēng)格化操作和文本指令的融合。這種設(shè)計(jì)避免了特征競爭,顯著提高了編輯的保真度和靈活性。
  2. 動(dòng)態(tài)權(quán)重門控機(jī)制:為了平衡身份保留和個(gè)性化編輯之間的權(quán)衡,F(xiàn)lexIP引入了動(dòng)態(tài)權(quán)重門控機(jī)制。該機(jī)制根據(jù)輸入數(shù)據(jù)類型自適應(yīng)調(diào)整兩個(gè)適配器的貢獻(xiàn)比例。例如,對于靜態(tài)圖像數(shù)據(jù),系統(tǒng)會(huì)優(yōu)先增強(qiáng)身份保留能力;而對于視頻數(shù)據(jù),則更注重風(fēng)格化自由度。這種連續(xù)參數(shù)化控制表面的設(shè)計(jì)使得用戶能夠在推理階段平滑地調(diào)節(jié)身份保留與編輯靈活性之間的平衡。
  3. 細(xì)粒度控制與全局一致性結(jié)合:FlexIP通過學(xué)習(xí)查詢嵌入(Learnable Queries)和CLIP [CLS]嵌入的協(xié)同作用,實(shí)現(xiàn)了細(xì)粒度局部細(xì)節(jié)與全局語義的一致性整合。具體而言,Resampler模塊通過多層感知交叉注意力(Perceiver Cross-Attention, PSA)提取身份相關(guān)特征,并將這些特征與文本嵌入相結(jié)合,從而確保生成結(jié)果既符合文本指令又保留主體身份。
  4. 零樣本風(fēng)格遷移擴(kuò)展:FlexIP不僅適用于常規(guī)的個(gè)性化圖像生成任務(wù),還能擴(kuò)展到零樣本風(fēng)格遷移場景。其雙適配器架構(gòu)能夠有效提取詳細(xì)信息并維持指令編輯的平衡集成,展現(xiàn)出強(qiáng)大的泛化能力。

綜上所述,F(xiàn)lexIP通過明確分解視覺和文本信息流,解決了現(xiàn)有方法中身份保留與個(gè)性化編輯之間的隱式權(quán)衡問題,提供了一種連續(xù)、精確的平衡控制方案。這種方法不僅提升了模型的性能,還為個(gè)性化圖像生成領(lǐng)域開辟了新的研究方向。

實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

比肩可靈視頻生模型;改善視覺Tokenizer性能;高壓縮潛在表示;像素空間擴(kuò)散生成-AI.x社區(qū)

為了驗(yàn)證FlexIP的有效性,作者設(shè)計(jì)了一系列實(shí)驗(yàn),涵蓋了定量評估和定性比較兩個(gè)方面:

  1. 定量評估:實(shí)驗(yàn)使用DreamBench+和MSBench兩個(gè)數(shù)據(jù)集進(jìn)行評估,包含187個(gè)獨(dú)特主體及其對應(yīng)的9組文本提示,共計(jì)生成16,830張定制化圖像。評估指標(biāo)包括身份保留(DINO-I, CLIP-I)、個(gè)性化程度(CLIP-T)、圖像質(zhì)量(CLIP-IQA, Aesthetic)等多個(gè)維度。結(jié)果顯示,F(xiàn)lexIP在所有評價(jià)指標(biāo)上均優(yōu)于現(xiàn)有方法,特別是在mRank、個(gè)性化(CLIP-T)、身份保留(CLIP-I和DINO-I)以及圖像質(zhì)量(CLIP-IQA和Aesthetic)等方面表現(xiàn)突出。
  2. 定性比較:定性實(shí)驗(yàn)展示了FlexIP在不同任務(wù)中的優(yōu)越性。例如,在相同的文本指令下,F(xiàn)lexIP能夠同時(shí)保持主體身份的一致性和編輯的多樣性。此外,通過調(diào)整動(dòng)態(tài)權(quán)重門控機(jī)制的參數(shù),用戶可以平滑地在身份保留和編輯靈活性之間切換,體現(xiàn)了該方法的高度可控性。
  3. 消融研究:消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了動(dòng)態(tài)權(quán)重門控機(jī)制的重要性。實(shí)驗(yàn)表明,去除該機(jī)制會(huì)導(dǎo)致模型性能顯著下降,尤其是在需要精細(xì)調(diào)節(jié)身份保留與編輯靈活性的場景中。

結(jié)論與展望

FlexIP作為一種新穎的框架,成功解決了個(gè)性化圖像生成中身份保留與個(gè)性化編輯之間的權(quán)衡問題。其主要貢獻(xiàn)包括:

  • 提出了一種雙適配器架構(gòu),實(shí)現(xiàn)了對身份保留和個(gè)性化編輯目標(biāo)的獨(dú)立控制。
  • 設(shè)計(jì)了動(dòng)態(tài)權(quán)重門控機(jī)制,將傳統(tǒng)的二元權(quán)衡轉(zhuǎn)化為連續(xù)參數(shù)化控制表面,提升了模型的靈活性和可控性。
  • 在多個(gè)評價(jià)指標(biāo)上顯著超越現(xiàn)有方法,展現(xiàn)了強(qiáng)大的性能優(yōu)勢。

然而,F(xiàn)lexIP也存在一定的局限性。例如,其訓(xùn)練過程可能需要更多的計(jì)算資源,且在極端編輯場景下的表現(xiàn)仍有提升空間。未來工作可以圍繞以下幾個(gè)方向展開:

  • 探索更高效的訓(xùn)練策略以降低計(jì)算成本。
  • 進(jìn)一步優(yōu)化模型在復(fù)雜編輯任務(wù)中的表現(xiàn)。
  • 將FlexIP擴(kuò)展到更多模態(tài)的數(shù)據(jù)處理任務(wù)中,如三維建?;蛞曨l生成。

總之,F(xiàn)lexIP為個(gè)性化圖像生成領(lǐng)域帶來了重要的理論和技術(shù)突破,具有廣泛的應(yīng)用前景。

本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇

已于2025-4-16 09:59:45修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦