自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大

發(fā)布于 2024-12-25 09:21
瀏覽
0收藏

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.17098
Github鏈接:https://zj-binxia.github.io/DreamOmni-ProjectPage/

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

亮點直擊

  • 對現(xiàn)有的模型框架進行了分析,并基于不同任務的特點,提出了一種高效且強大的統(tǒng)一圖像生成與編輯框架——DreamOmni。
  • 引入了一種合成拼貼數(shù)據(jù)pipeline,用以解決當前創(chuàng)建和篩選高質量編輯數(shù)據(jù)的低效性和困難。此外,還利用該合成拼貼數(shù)據(jù)pipeline來提高T2I模型輸出的準確性。實驗結果表明,合成數(shù)據(jù)是一種高效、優(yōu)質且具有成本效益的方法,能夠擴展數(shù)據(jù)規(guī)模,進而實現(xiàn)統(tǒng)一的圖像生成與編輯訓練。
  • 經(jīng)過統(tǒng)一訓練后,結合T2I數(shù)據(jù)和多種合成數(shù)據(jù)集,DreamOmni展示了具有競爭力的T2I生成能力,并在一系列編輯任務中表現(xiàn)出色。

總結速覽

解決的問題

文生圖遇到了一些挑戰(zhàn):

  • 將這些模型適應到下游應用通常需要以不同的方式集成各種插件(如ControlNet和IP-adapter),或擴展輸入通道(例如,SD-inpainting 、InstructP2P)。這種對專門化框架的依賴限制了多任務泛化能力,并增加了部署的復雜性。
  • 高質量和準確的編輯數(shù)據(jù)難以獲得,包括基于指令的編輯、拖拽編輯和主題驅動的生成數(shù)據(jù)。

提出的方案

  • 提出將T2I模型與多種編輯任務(如基于指令的編輯、圖像修復與擴展、拖拽編輯以及參考圖像生成)統(tǒng)一到一個框架中。
  • 引入了一個高效的合成數(shù)據(jù)pipeline,用于高效且準確地構建編輯數(shù)據(jù),促進原生統(tǒng)一生成與編輯模型的訓練。

應用的技術

  • DreamOmni:DreamOmni框架支持統(tǒng)一的圖像生成與編輯,具有快速的訓練收斂速度和強大的性能。
  • 一種基于拼貼的合成數(shù)據(jù)生成流程。該流程可以高效地生成用于各種編輯任務的數(shù)據(jù),例如在基于指令的編輯中進行添加、刪除和替換操作,在拖拽編輯中進行平移、縮放和旋轉操作。此外,它還支持參考圖像生成以及分割與檢測任務。此外,合成數(shù)據(jù)生成流程提高了T2I(文本到圖像)生成的準確性,特別是對于與文本、幾何形狀、顏色、位置和數(shù)量相關的屬性。

達到的效果

T2I視覺比較

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

圖像修復比較

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

圖像條件生成比較

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

主題驅動生成的視覺比較

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

基于指令的編輯的視覺比較

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

拖動編輯的視覺比較

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

方法論

多任務統(tǒng)一化是計算機視覺和人工智能領域的一個趨勢和追求,它不僅增強了模型的可用性,減少了部署的復雜性,還能實現(xiàn)協(xié)同訓練,從而促進任務之間的協(xié)同效應。然而,目前的T2I基礎模型主要是專門為T2I設計的,通常忽視了與其他任務(如各種圖像編輯任務)整合的潛力。為此,提出了DreamOmni,一個統(tǒng)一的圖像生成與編輯模型。從三個方面設計并訓練了DreamOmni:

  • 在公平的環(huán)境下比較了各種框架,并基于不同任務的特性設計了一個強大且訓練收斂速度快的框架,支持統(tǒng)一的多任務處理。
  • 提出了一個便捷、高效且準確的合成數(shù)據(jù)流程,用于擴展數(shù)據(jù)規(guī)模,以促進多任務的統(tǒng)一訓練并增強模型的指令跟隨能力。
  • 介紹DreamOmni的訓練方案。

T2I和各種編輯任務的本地統(tǒng)一訓練可以防止概念遺忘和生成質量下降,同時增強模型的編輯和提示跟隨能力。

框架

旨在設計一個統(tǒng)一且強大的圖像生成與編輯框架。目前,不同的編輯模型通常有不同的結構設計。例如,IP-adapter和 BLIP-Diffusion通過跨注意力注入信息以保持主體的一致性;而InstructP2P通過為模型添加不同數(shù)量的輸入通道來實現(xiàn)編輯一致性。這些結構是針對特定任務量身定制的,缺乏通用性。因此,如下圖2 (a) 所示,將VLM特征與噪聲隱空間變量進行拼接,并將其輸入到DIT塊進行聯(lián)合多頭自注意力操作。

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

之后,VLM特征和噪聲隱空間變量會通過FeedForward模塊進行處理。這使得模型能夠自主學習任何層次的特征(從整體一致性到主體一致性)進行編輯和生成。值得注意的是,對于FeedForward模塊,將VLM特征和噪聲隱空間變量分開,通過兩個不同的FeedForward模塊進行處理,且網(wǎng)絡結構相同。此外,并沒有使用CLIP或 T5作為文本編碼器,而是引入了一個視覺-語言模型(VLM),使得圖像和文本提示可以共同理解與編碼。


在當前的框架設計中,一些工作,如DIT,是在標簽條件生成下進行比較的,而不是T2I。然而,T2I本質上比基于標簽的生成更為復雜,因為它需要集成和理解復雜的提示。此外,許多T2I模型,例如SDXL,使用了不同的模型大小、數(shù)據(jù)集和訓練設置。這種差異使得評估不同模型組件對整體性能的影響變得具有挑戰(zhàn)性。此外,SDXL在其UNet結構中融合了許多Transformer塊。


那么,為什么DIT能夠超越SDXL呢? 為了解決這個問題,進行了大量的實驗,如圖3所示。觀察到DIT優(yōu)于Unet,因為DIT將大部分計算分配到2×下采樣的隱空間變量,而Unet將更多計算分配到4×下采樣的隱空間變量。由于在1×隱空間變量上的注意力操作會帶來內(nèi)存負擔,進一步采用殘差卷積塊來細化1×隱空間變量的生成細節(jié)。此外,還觀察到,在UNet框架中使用長連接可以顯著加速模型的訓練收斂速度,而不會影響性能。如圖2 (a)所示,將早期和后期的特征沿通道維度進行拼接,并應用線性層將這兩個特征合并。值得注意的是,VLM特征和噪聲隱空間變量使用的線性層是不同的。

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

合成數(shù)據(jù)

除了統(tǒng)一框架外,還需要大量數(shù)據(jù)來支持聯(lián)合訓練。雖然T2I數(shù)據(jù)比較容易獲取,但為像基于指令的編輯任務創(chuàng)建和篩選準確、高質量的數(shù)據(jù)要復雜得多。為了解決這一問題,引入了一個合成拼貼數(shù)據(jù)流程,能夠高效且準確地生成所需的編輯數(shù)據(jù)。如圖2 (b) 所示,流程涵蓋了六個任務。值得注意的是,這并不是合成流程的全部能力;它還能夠處理更復雜的任務組合。

  • T2I生成:如圖2 (b)所示,除了常規(guī)的T2I數(shù)據(jù)外,通過結合合成數(shù)據(jù)進一步增強模型在T2I任務中的表現(xiàn),特別是在文本、形狀、位置、數(shù)量和顏色生成方面。具體來說,對于文本,在空白畫布上隨機生成單詞或短語,使用各種字體、顏色、厚度和大小。對于形狀和數(shù)量,隨機創(chuàng)建具有不同數(shù)量、顏色和大小的幾何形狀,并將它們排列在畫布上。基于這些屬性及其位置,我們生成準確的提示,并通過LLM進一步優(yōu)化。此外,使用多種貼紙和分割數(shù)據(jù)進行合成,將它們放置在畫布上并計算它們的精確空間關系。這些提示隨后會由LLM生成并進一步優(yōu)化,以產(chǎn)生更自然的描述。
  • 修復與擴展:隨機生成用于涂抹、塊狀物和圖像邊緣的mask。值得注意的是,在訓練過程中,除了將被遮罩的圖像及其相應的mask輸入到VLM進行編碼外,還以50%的概率包含圖像描述。
  • 基于指令的編輯:將任務分為三種操作:添加、刪除和替換。對于刪除和替換操作,隨機選擇一個背景圖像和一個物體圖像來創(chuàng)建源圖像。在刪除情況下,目標圖像僅為背景圖像;對于替換,目標圖像通過將物體替換為不同的物體來生成。值得注意的是,對于添加,由于需要將添加的物體放置在與背景相對的合適位置,在本論文中使用了空白背景。
  • 拖動編輯:將數(shù)據(jù)分為三種類型:平移、縮放和旋轉。值得注意的是,Instadrag 將每一對拖動點視為一張獨立的圖像,這種方法較為稀疏且由于固定的拖動點數(shù)量要求,實用性較差。因此,使用格式  表示每個拖動點,作為提示輸入,其中 和 表示源圖像中拖動點的坐標,dx 和 dy 表示平移向量。此外,我們通過將這些坐標除以圖像的寬度或高度來對其進行歸一化。
  • 參考圖像生成:將數(shù)據(jù)分為兩種類型:基于圖像的生成,類似于ControlNet,和基于主體的生成。對于基于圖像的生成,首先選擇高質量的圖像,并創(chuàng)建相應的Canny圖、深度圖和分割mask作為訓練的源圖像。對于基于主體的生成,合成源圖像,并隨機選擇這些圖像中的物體來創(chuàng)建目標圖像。模型通過參考源圖像中的特定屬性生成新的內(nèi)容,從而能夠靈活地生成多樣的場景和主體。
  • 分割與檢測:隨機選擇一個背景圖像和一個物體圖像,將它們合成成源圖像。隨后,應用顏色操作或在物體區(qū)域畫一個邊框,基于物體圖像的Alpha通道來獲得目標圖像。


總體來說,合成拼貼數(shù)據(jù)流程既高效又精確,能夠輕松生成數(shù)十億種多樣化的編輯圖像。它非常適合用于DreamOmni的大規(guī)模預訓練和微調。

模型訓練

經(jīng)過仔細考慮,為DreamOmni的DIT模型選擇了2.5B參數(shù)的模型大小。這一大小在確保強大性能的同時,也能保證用戶友好性。對于VLM編碼器,直接采用了Qwen2-VL 7B模型,基于以下三個原因:

  • 它支持任意分辨率的圖像輸入;
  • 它提供強大的模型性能;
  • 它是以寬松的開源許可證發(fā)布的。


VLM特征來源于Qwen2-VL的倒數(shù)第二層。此外,使用FLUX-schnell的VAE作為DreamOmni的VAE,它保留了更多的隱空間通道,使模型能夠捕捉更細致的圖像細節(jié)。此外,我們使用Rectified Flow優(yōu)化DreamOmni,該方法通過在噪聲和數(shù)據(jù)之間沿直線插值執(zhí)行前向過程。使用損失L對DreamOmni進行訓練:

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

其中, 表示在時間步t的噪聲特征圖。真實圖像通過VAE編碼到隱空間空間以得到z。這里,表示高斯噪聲,表示DIT模型,是條件信息。

T2I訓練數(shù)據(jù)集包括1.25億張圖像,涵蓋了LAION數(shù)據(jù)集(1.03億)和收集的數(shù)據(jù)(2200萬)。這些圖像已通過InternVL2 進行了標注。對于合成數(shù)據(jù),如T2I、指令編輯、修復與擴展、拖動編輯和參考圖像生成,分別生成了1200萬張圖像,總數(shù)大約為6000萬張。此外,對于分割與檢測,生成了800萬張圖像。在訓練之前,為了提高訓練速度,首先將提示編碼為VLM特征。


訓練過程分為三個階段。在第一階段,使用256×256大小的圖像,批次大小為2048,學習率為1×10??,進行377K次迭代;在第二階段,使用512×512大小的圖像,批次大小為1024,學習率為5×10??,進行189K次迭代;在最后階段,從12M高質量T2I數(shù)據(jù)中隨機抽取1M張高質量圖像,并結合每種合成數(shù)據(jù)類型,訓練1024×1024大小的圖像,批次大小為256,學習率為2×10??,進行140K次迭代。


所有實驗均在64個A100 GPU上進行。此外,為了使模型能夠生成不同分辨率的圖像,在訓練時,類似于SDXL的方法,依據(jù)圖像的縱橫比將圖像分成31個buckets,縱橫比從4:1到1:4不等。

實驗

框架評估

在相似的設置下比較了幾種T2I模型框架,以識別有效的組成部分。使用相同的VAE、CLIP文本編碼器、參數(shù)、運行時間以及LAION訓練/測試數(shù)據(jù)集,評估了基于Unet的SDXL、基于DIT的Pixart、SD3-Medium和DreamOmni變體。值得注意的是,如圖3所示,為了便于比較,并沒有使用DreamOmni的全部2.5B參數(shù),而是將所有模型的參數(shù)調整為0.85B。DreamOmni-V1具有與SDXL相同的兩個下采樣層(2×和4×),但缺少Unet連接。

DreamOmni-V2在DreamOmni-V1的基礎上增加了Unet連接,而DreamOmni-V3進一步集中所有DIT操作于2×下采樣的隱空間空間。

  1. 有Unet連接的模型(如SDXL、DreamOmni-V2、DreamOmni-V3)顯示出比沒有Unet連接的模型(如SD3-Medium、DreamOmni-V1)更快的收斂速度。尤其是,DreamOmni-V3的收斂速度比SD3-Medium快四倍,顯著提升了訓練和微調效率。
  2. 比較DreamOmni-V3和DreamOmni-V2時,發(fā)現(xiàn)將DIT模塊的計算集中在更高分辨率的隱空間空間(2×)上,更具成本效益。

T2I生成評估

如表1所示,我們的合成數(shù)據(jù)顯著提升了DreamOmni在T2I生成方面的能力,特別是在數(shù)量、顏色和位置方面,使得我們的模型在GenEval上取得了SOTA結果。值得注意的是,SD3-Medium 是一個2B的開源SOTA T2I模型,參數(shù)與我們的DreamOmni相似。此外,圖4展示了定性結果??梢钥吹剑珼reamOmni的輸出不僅視覺上更具吸引力,而且與給定的提示更為一致。

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

修復評估

將DreamOmni與ControlNet-Inpainting和SD-Inpainting 在我們的高質量評估數(shù)據(jù)集上進行了比較,以評估其性能。定量結果如表2所示,表明DreamOmni在生成質量和一致性方面顯著優(yōu)于ControlNet-Inpainting和SD-Inpainting。視覺結果(圖5)進一步強調了DreamOmni在生成細節(jié)方面的優(yōu)勢,超越了ControlNet-Inpainting和SD-Inpainting。此外,DreamOmni在處理大面積掩碼時非常有效,能夠生成逼真的內(nèi)容,而不是模糊和不一致的輸出。

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

參考圖像生成評估

對于基于圖像的生成,與ControlNet 在Canny圖、深度圖和分割圖像條件下進行了比較。圖6展示了視覺結果。這些結果表明,在所有測試條件下,DreamOmni明顯優(yōu)于ControlNet。方法不僅能更忠實地遵循圖像條件和提示,還表現(xiàn)出更好的視覺質量,具有更好的構圖和更豐富的細節(jié)。

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

對于基于主體的圖像生成,將我們的方法與競爭方法(如BLIP-Diffusion和IP-Adapter)進行了比較。為了展示DreamOmni強大的泛化能力,在動漫和攝影圖像上驗證了其性能。圖7展示了視覺結果。與其他方法相比,我們的DreamOmni不僅能有效保留指定的主體,而且能較好地遵循提示。

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

指令編輯評估

將DreamOmni與MGIE 和InstructP2P 等競爭方法進行了比較。圖8展示了視覺結果??梢钥吹?,DreamOmni在添加、刪除和替換操作上表現(xiàn)出更精確的編輯。具體來說,編輯結果展現(xiàn)出較高的一致性,對未編輯區(qū)域的變化最小,并且生成的編輯內(nèi)容質量較高。這進一步驗證了我們的合成數(shù)據(jù)pipeline是一種高效且有效的創(chuàng)建基于指令編輯數(shù)據(jù)集的方法,能夠使模型學習精準的指令編輯。此外,合成數(shù)據(jù)pipeline的高效性使得模型能夠輕松擴展多樣化的訓練數(shù)據(jù)。

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

拖動編輯評估

在合成評估數(shù)據(jù)集上對DreamOmni進行了評估。下圖9展示了視覺結果。

  • 與目標圖像相比,DreamOmni能夠準確執(zhí)行平移、旋轉和縮放的拖動編輯。
  • 對于平移和縮放,DreamOmni能夠保持拖動物體的完整性。然而,大范圍的旋轉操作對DreamOmni來說更具挑戰(zhàn)性,因為它涉及物體自身的復雜變換,這可能導致編輯物體的變形。
  • 這些結果展示了我們的合成數(shù)據(jù)pipeline在拖動編輯方面的有效性,通過將拖動點位置和位移信息編碼為指令輸入,使得模型能夠學習精確的拖動編輯(如前面圖2所示)。

圖像生成與各種編輯任務大一統(tǒng)!賈佳亞團隊提出DreamOmni:訓練收斂速度快且性能強大-AI.x社區(qū)

結論

當前的T2I基礎模型缺乏統(tǒng)一的框架和下游任務訓練,如圖像編輯。為了解決這個問題,介紹了DreamOmni,一種用于T2I生成和編輯的統(tǒng)一模型。在公平設置下評估了現(xiàn)有模型的框架,并考慮了不同編輯任務的具體需求。通過分析,開發(fā)了一個將T2I與各種編輯任務集成的框架。此外,訓練編輯模型的挑戰(zhàn)之一是創(chuàng)建高質量、大規(guī)模的編輯數(shù)據(jù),這通常是低效的。為了解決這個問題,設計了一種合成拼貼數(shù)據(jù)pipeline,能夠高效生成大量精準、高質量的編輯數(shù)據(jù)。此外,該pipeline增強了模型在文本、位置、數(shù)量、顏色和幾何方面的生成準確性。通過聯(lián)合訓練T2I和多任務合成數(shù)據(jù),開發(fā)了一個原生的、統(tǒng)一的圖像生成與編輯模型。T2I訓練強化了模型對特定概念的掌握,并提高了生成質量,而編輯訓練使其能夠處理編輯任務的需求。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/sLknSiSY1iZ9v7AsO2nFfw??

收藏
回復
舉報
回復
相關推薦