自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="1hzso"></pre>

<style id="1hzso"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大

發(fā)布于 2024-11-12 13:04

瀏覽

0收藏

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2411.03286
工程鏈接：https://github.com/fkyyyy/DiT4Edit（待開源）

亮點直擊

基于基于Transformer的擴散模型在圖像編輯中的優(yōu)勢，提出了DiT4Edit，第一個不需要調(diào)優(yōu)的基于擴散Transformer（DiT）的圖像編輯框架。
為了適應基于Transformer的去噪計算機制，首先提出了統(tǒng)一的注意力控制機制，以實現(xiàn)圖像編輯。引入了DPM-Solver反演和圖像塊合并策略，以減少推理時間。
大量定性和定量的實驗結(jié)果證明了DiT4Edit在對象編輯、風格編輯和形狀感知編輯方面的優(yōu)越性能，適用于各種圖像尺寸，包括512 × 512、1024 × 1024和1024 × 2048。

總結(jié)速覽

解決的問題：
現(xiàn)有的基于UNet的高分辨率圖像編輯方法在實現(xiàn)形狀感知的對象編輯方面仍存在不足。相比之下，Diffusion Transformers (DiT) 能更有效地捕捉圖像塊之間的長程依賴關系，但目前在圖像編輯領域的應用仍較少。

提出的方案：
本文提出了基于Diffusion Transformers的首個圖像編輯框架——DiT4Edit。DiT4Edit采用DPM-Solver反演算法來獲取反演隱變量，與傳統(tǒng)UNet框架常用的DDIM反演算法相比，顯著減少了迭代步數(shù)。此外，設計了適用于Transformer計算流的統(tǒng)一注意力控制和圖像塊合并機制。

應用的技術：

Diffusion Transformers (DiT) 框架
DPM-Solver反演算法
統(tǒng)一注意力控制和圖像塊合并機制

達到的效果：
DiT4Edit在編輯質(zhì)量和速度上優(yōu)于UNet框架，尤其在高分辨率和任意尺寸的圖像編輯中表現(xiàn)突出。大量實驗驗證了該框架在各種編輯場景中的強大性能，展示了Diffusion Transformers在支持圖像編輯方面的潛力。

方法

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

基礎知識：隱空間擴散模型

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

擴散模型架構(gòu)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

選擇Transformer作為去噪模型的原因
與UNet結(jié)構(gòu)相比，Transformer引入了全局注意力機制，使得模型能夠關注圖像中的更廣泛區(qū)域。這種增強的可擴展性使得Transformer能夠生成大尺寸（例如大于512×512）甚至任意尺寸的高質(zhì)量圖像。本文基于DiT的編輯框架在大尺寸圖像上的編輯結(jié)果在下圖1和圖2中有所展示，這些是UNet框架之前未涉及的編輯任務。因此，采用了基于Transformer的去噪模型作為編輯框架，利用Transformer的能力來應對這些更復雜的編輯挑戰(zhàn)。

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

基于擴散Transformer的圖像編輯

如上圖2所示，基于預訓練的擴散Transformer圖像編輯框架的流程。

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

最近的研究（Hong等，2024）提出了一種通過反向歐拉方法來獲取方程8中高階項近似的策略。

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

統(tǒng)一控制注意力機制：在之前的研究Prompt to Prompt (P2P)中，研究人員展示了交叉注意力層包含來自提示文本的豐富語義信息。這一發(fā)現(xiàn)可以通過在擴散過程中替換源圖像與目標圖像之間的交叉注意力圖來編輯圖像。具體而言，常用的兩種基于文本引導的交叉注意力控制策略是交叉注意力替換和交叉注意力細化。這兩種方法確保了從目標提示到源提示的信息無縫流動，從而將隱空間變量圖引導到期望的方向。

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

Patches Merging：為了提高推理速度，借鑒了Token Merging的方法，將patch合并技術嵌入到去噪模型中。這個方法的靈感來自于這樣一個觀察：在transformer架構(gòu)中，涉及到的patch數(shù)量明顯大于UNet。計算流程如下圖4所示。對于一個特征圖，我們首先計算每個patch之間的相似度，然后將最相似的patch合并，從而減少由注意力機制處理的patch數(shù)量。經(jīng)過注意力計算后，我們會將patch拆分回來，以保持模型下一層的輸入大小。通過將patch合并技術融入我們的框架中，我們旨在簡化處理過程，提高整體效率，同時不改變每一層的基本操作。

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

實驗

實現(xiàn)細節(jié)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

研究者們評估了DiT4Edit編輯框架與六個先前基準模型（包括Pix2Pix-Zero、PnPInversion、SDEdit、IP2P、MasaCtrl和InfEdit）的質(zhì)量表現(xiàn)差異，所有方法均使用官方開源代碼實現(xiàn)。

如下圖5所示，在512×512和1024×1024圖像上對比了本文的方案。圖5的第一行展示了本文的框架在編輯真實512×512圖像時，能夠生成與原始內(nèi)容一致的編輯圖像，而現(xiàn)有方法通常會改變原始圖像的背景或目標細節(jié)。此外，圖5的第二行和第三行展示了在大規(guī)模圖像和任意尺寸圖像上的實驗——這些任務是以前基于UNet的方法難以處理的。結(jié)果表明，本文提出的框架有效地處理了大圖像中的風格和物體形狀修改。相比之下，一些先進的基于UNet的方法，盡管能夠進行編輯任務，但通常會導致背景和物體位置的顯著變化和損壞。此外，由于UNet結(jié)構(gòu)的局限性，這些方法通常只能生成512×512大小的目標圖像。這些發(fā)現(xiàn)強調(diào)了基于transformer的擴散模型在大規(guī)模圖像編輯中的巨大潛力。

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

定量比較

為了進行定量評估，使用了三個指標：Fréchet Inception Distance (FID)、峰值信噪比（PSNR）和CLIP，以評估我們模型與SOTA（最先進方法）在圖像生成質(zhì)量、背景保持和文本對齊方面的性能差異。本文比較了三種尺寸的圖像：512×512、1024×1024 和1024×2048，結(jié)果詳細列在下表1中。與Pix2Pix-Zero、PnPInversion、SDEdit、IP2P、MasaCtrl和InfEdit進行了性能比較。需要注意的是，由于此前沒有基于DiT的編輯框架，所有對比基準都基于UNet架構(gòu)。實驗結(jié)果表明，DiT4Edit編輯策略在圖像生成質(zhì)量、背景保持和文本對齊方面優(yōu)于SOTA方法。由于集成的transformer結(jié)構(gòu)具備全局注意力能力，DiT4Edit框架在各種大小的編輯任務中表現(xiàn)出了強大的魯棒性。生成的圖像不僅顯示出更高的質(zhì)量，而且在背景和細節(jié)控制方面提供了更好的控制，保持了與原始圖像的一致性。特別是在編輯大規(guī)模或任意尺寸的圖像時，DiT4Edit相較于其他方法展示了顯著的優(yōu)勢，充分展示了transformer架構(gòu)強大的可擴展能力。同時，我們的編輯框架具有更短的推理時間，與無反演編輯方法（InfEdit）相當。

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

消融實驗

本文進行了系列消融研究，旨在展示DPM-Solver反演和patch合并的有效性。關于patch合并的消融實驗結(jié)果如前面圖4和下表2所示。實現(xiàn)patch合并后，盡管保持了與未使用patch合并時相當?shù)木庉嬞|(zhì)量，但大尺寸圖像的編輯時間顯著減少。這表明，patch合并可以顯著提升圖像編輯框架的整體性能。此外，DPM-Solver和DDIM的消融實驗結(jié)果如圖7所示。在相同推理步數(shù)（T = 30）下比較兩種方法時，DPM-Solver在圖像編輯質(zhì)量方面始終優(yōu)于DDIM。這表明本文采用的DPM-Solver反演策略能夠生成更優(yōu)的潛在圖像，從而在較少的步中獲得更好的編輯效果。

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質(zhì)量更優(yōu) | 北大&港科大-AI.x社區(qū)

結(jié)論

本文提出了DiT4Edit，這是首個基于擴散transformer的圖像編輯框架。與之前的UNet框架不同，DiT4Edit提供了更優(yōu)的編輯質(zhì)量，并支持多種尺寸的圖像。通過利用DPM Solver反演、統(tǒng)一的注意力控制機制和patch合并，DiT4Edit在512×512和1024×1024尺寸圖像的編輯任務中超越了UNet結(jié)構(gòu)。特別是，DiT4Edit能夠處理任意尺寸的圖像，如1024×2048，展示了transformer在全局注意力和可擴展性方面的優(yōu)勢。本文的研究為基于DiT的圖像編輯奠定了基礎，并有助于進一步探索transformer結(jié)構(gòu)在生成式AI中的潛力。

局限性
在實驗中，觀察到T5-tokenizer偶爾會遇到詞匯分割問題，這可能導致最終編輯過程中的失敗。此外，我們的模型與原始圖像相比，可能會出現(xiàn)顏色不一致的情況。更多的編輯失敗案例請參考補充材料。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/T71qD02qJogrBa2arhTzjQ??

標簽

已于2024-11-12 14:15:34修改

贊

收藏

回復

舉報

回復

相關推薦

谷歌將免費提供3款，生成式AI圖像編輯工具

Aceryt ? 2922瀏覽 ? 0回復
北大字節(jié)開辟圖像生成新范式！超越Sora核心組件DiT，不再預測下一個token

Crystalcxt ? 2432瀏覽 ? 0回復
CVPR 2024高分論文：全新生成式編輯框架GenN2N，統(tǒng)一NeRF轉(zhuǎn)換任務

輕薄滴假象 ? 2622瀏覽 ? 0回復
精細化圖像編輯！LocInv：優(yōu)化交叉注意力泄漏問題（國科大&巴塞羅那自治大學）

angel ? 3049瀏覽 ? 0回復
DiT架構(gòu)大一統(tǒng)：一個框架集成圖像、視頻、音頻和3D生成，可編輯、能試玩

輕薄滴假象 ? 2655瀏覽 ? 0回復
國內(nèi)首個中文原生DiT架構(gòu)SOTA大模型全面開源！———Hunyuan-DiT技術報告詳解

angel ? 4802瀏覽 ? 0回復
林達華團隊最新發(fā)布ReasonPix2Pix：讓基于指令的高級圖像編輯效果飛升！

angel ? 4762瀏覽 ? 0回復
北大天工等團隊圖像編輯新SOTA，可精準模擬物理世界場景

Crystalcxt ? 2725瀏覽 ? 0回復
CVPR`24 | 4D編輯哪家強？浙大首次提出通用指導4D編輯框架：Instruct 4D-to-4D

angel ? 2752瀏覽 ? 0回復
編輯能力無上限！北航&谷歌&曠視等開源Chat-Edit-3D: 3D 場景編輯新范式！

angel ? 2249瀏覽 ? 0回復
RegionDrag：快·準·好的圖像編輯方法！港大&牛津

angel ? 2309瀏覽 ? 0回復
TurboEdit:少步擴散和解耦控制的實時精確圖像編輯

angel ? 1894瀏覽 ? 0回復
400萬樣本，數(shù)據(jù)才是AIGC的王道！UltraEdit：基于指令的細粒度圖像編輯數(shù)據(jù)集

angel ? 2753瀏覽 ? 0回復
超越SDEdit等七大SOTA，免訓練多模態(tài)圖像編輯里程碑：HeadRouter帶來精準語義調(diào)整

angel ? 2069瀏覽 ? 0回復
釋放你的想象！支持25種復雜編輯類型！浙大等提出AnyEdit：統(tǒng)一高質(zhì)量圖像編輯框架

angel ? 3025瀏覽 ? 0回復
港中文&騰訊等發(fā)布DiTCtrl：基于MM-DiT架構(gòu)

angel ? 2642瀏覽 ? 0回復
即插即用，無縫集成各種模型，港科大&螞蟻等發(fā)布Edicho：圖像編輯一致性最新成果！

angel ? 1908瀏覽 ? 0回復
BlobCtrl帶你玩轉(zhuǎn)元素級視覺編輯，效果炸裂！(北大&港中文&騰訊)

angel ? 1280瀏覽 ? 0回復
統(tǒng)一圖像編輯框架，達到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯(lián)合的圖像生成；視頻試穿框架

AI研究前瞻 ? 186瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

熱門推薦

Seedream 3.0技術細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：首次超越擴散模型和非自回歸Transformer模型！字節(jié)開源RAR：自回歸生成最新SOTA！

下一篇：生成任意3D和4D場景！GenXD：通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟

社區(qū)精華內(nèi)容

目錄

<sub id="nwm6t"></sub>