釋放你的想象!支持25種復(fù)雜編輯類型!浙大等提出AnyEdit:統(tǒng)一高質(zhì)量圖像編輯框架 精華
文章鏈接:https://arxiv.org/pdf/2411.15738
項目鏈接:https://dcd-anyedit.github.io/
亮點直擊
- 從全新的視角系統(tǒng)地對各種編輯指令進行分類,并創(chuàng)新性地引入了一個統(tǒng)一的編輯框架,該框架利用自適應(yīng)編輯 pipeline自動收集不同場景下的多樣化高質(zhì)量編輯數(shù)據(jù),從而以可擴展的方式進行處理。
- 構(gòu)建了一個多類型、多場景的數(shù)據(jù)集AnyEdit,并為其設(shè)計了相應(yīng)的基準(zhǔn)測試集AnyEdit-Test,涵蓋了25種復(fù)雜的編輯類型,以滿足現(xiàn)實世界中更廣泛的編輯需求。
- 使用提出的AnySD方法,充分挖掘AnyEdit的潛力,在多個編輯類型中實現(xiàn)了指令遵循和圖像保真度的SOTA。
驚艷效果,一睹為快
總結(jié)速覽
解決的問題:
- 現(xiàn)有模型難以準(zhǔn)確執(zhí)行復(fù)雜的用戶指令:由于訓(xùn)練數(shù)據(jù)質(zhì)量較低且編輯類型有限,現(xiàn)有的指令驅(qū)動的圖像編輯模型在處理復(fù)雜用戶指令時存在困難。
- 缺乏高質(zhì)量的指令編輯數(shù)據(jù)集:現(xiàn)有的編輯數(shù)據(jù)集數(shù)據(jù)質(zhì)量不足,且難以支持基于多模態(tài)感知和復(fù)雜指令的圖像編輯任務(wù),如空間構(gòu)圖、視角變化和常識理解等。
- 當(dāng)前數(shù)據(jù)集在多種輸入格式和編輯需求上的適應(yīng)性差:現(xiàn)有數(shù)據(jù)集缺乏對不同編輯任務(wù)的適配,導(dǎo)致編輯結(jié)果質(zhì)量差,且生成的圖像常存在低分辨率、高噪聲或與文本不對齊的問題。
提出的方案:
- AnyEdit數(shù)據(jù)集:提出了一個全面的多模態(tài)指令編輯數(shù)據(jù)集,包含250萬高質(zhì)量的編輯對,涵蓋20多種編輯類型和五個領(lǐng)域。通過引入對抗合成場景來平衡數(shù)據(jù)集中的概念分布,確保編輯數(shù)據(jù)的多樣性和質(zhì)量。
- 自適應(yīng)編輯流程:為了適應(yīng)不同的編輯需求,AnyEdit引入了自適應(yīng)編輯流程,可以根據(jù)任務(wù)類型選擇合適的數(shù)據(jù)處理流程,提高編輯效果。
- 指令驗證和圖像評估:通過開發(fā)指令驗證預(yù)篩選和圖像評估后篩選策略,過濾出不合格的編輯結(jié)果,從而確保數(shù)據(jù)集質(zhì)量。
- AnyEdit Stable Diffusion(AnySD):提出了一種新的穩(wěn)定擴散模型,采用任務(wù)感知路由和可學(xué)習(xí)的任務(wù)嵌入來支持不同類型的編輯任務(wù),從而構(gòu)建一個強大的指令驅(qū)動的圖像編輯模型。
應(yīng)用的技術(shù):
- 多模態(tài)數(shù)據(jù)集:通過收集并組織2.5百萬高質(zhì)量的圖像-文本編輯對,AnyEdit涵蓋了包括局部編輯、全局編輯、相機運動編輯、隱式編輯和視覺編輯在內(nèi)的多種編輯類型。
- 自適應(yīng)編輯流程:通過自動化選擇適合每個任務(wù)的數(shù)據(jù)處理流程,提升數(shù)據(jù)集的適應(yīng)性。
- 任務(wù)感知路由:AnySD模型通過任務(wù)感知路由調(diào)整編輯的粒度(如局部物體編輯或全局風(fēng)格編輯),增強了模型在處理多種編輯任務(wù)時的適應(yīng)能力。
- 學(xué)習(xí)型任務(wù)嵌入:通過引入可學(xué)習(xí)的任務(wù)嵌入,AnySD模型能夠有效協(xié)調(diào)不同任務(wù)的復(fù)雜性,提升編輯效果。
- 圖像質(zhì)量評估:通過引入圖像質(zhì)量的預(yù)篩選和后篩選機制,確保數(shù)據(jù)集的編輯對具備高質(zhì)量。
達到的效果:
- 提升編輯模型的性能:通過AnyEdit數(shù)據(jù)集和AnySD模型,實驗表明AnyEdit能顯著提高擴散基礎(chǔ)編輯模型的性能,在MagicBrush和Emu-Edit基準(zhǔn)測試中創(chuàng)下新紀(jì)錄。
- 更高的視覺和語義相似性:AnyEdit比現(xiàn)有的SOTA數(shù)據(jù)集提高了28.9%的視覺相似性和18.8%的語義相似性。
- 解決復(fù)雜任務(wù)的局限性:在AnyEdit-Test基準(zhǔn)測試中,AnyEdit數(shù)據(jù)集幫助解決了現(xiàn)有模型在復(fù)雜任務(wù)(如動作變化)中的表現(xiàn)差異,顯著提升了模型對多場景編輯任務(wù)的處理能力。
- 挑戰(zhàn)現(xiàn)有基準(zhǔn)測試的能力:AnyEdit-Test展示了現(xiàn)有基準(zhǔn)測試在復(fù)雜任務(wù)中的局限性,強調(diào)了AnyEdit-Test在評估編輯模型能力中的重要性。
通過這些技術(shù)和方案,AnyEdit為指令驅(qū)動的圖像編輯模型的開發(fā)提供了巨大的潛力,推動了人類創(chuàng)造力的發(fā)揮。
AnyEdit
編輯類型定義
為了使基于指令的編輯模型具備全面的能力,以遵循任何創(chuàng)意構(gòu)思,制作了一個多模態(tài)圖像編輯數(shù)據(jù)集 AnyEdit,用于基于指令的圖像編輯,該數(shù)據(jù)集包含250萬對高質(zhì)量的編輯樣本,涵蓋五個主要領(lǐng)域,如圖1所示。
該數(shù)據(jù)集包括被劃分為五大類的編輯任務(wù),每個類別下包含不同的編輯類型:
- 局部編輯:添加、刪除、替換、顏色變化、外觀變化、材質(zhì)變化、動作變化、文本變化、計數(shù)。
- 全局編輯:背景變化、色調(diào)轉(zhuǎn)移、風(fēng)格變化。
- 相機運動編輯:旋轉(zhuǎn)變化、外延繪制、移動、調(diào)整大小。
- 隱式編輯:隱性變化、關(guān)系變化。
- 視覺編輯:視覺參考、材質(zhì)轉(zhuǎn)移、視覺條件(如深度、分割、涂鴉、草圖、mask)。
具體來說,局部編輯針對圖像的特定區(qū)域進行修改,而不改變與之無關(guān)的語義內(nèi)容;全局編輯則影響整個圖像。相機運動編輯通過操控特定物體或場景內(nèi)整體內(nèi)容的視角來擴展這一概念。隱式編輯涉及狀態(tài)或交互模式的隱藏變化,通常需要更深的理解。視覺編輯則加入額外的視覺輸入作為參考,配合編輯指令一起使用。圖1(a)展示了每種編輯類型的示例。
自動數(shù)據(jù)集收集
通用數(shù)據(jù)準(zhǔn)備
以往研究表明,高質(zhì)量的初始圖像有助于編輯圖像創(chuàng)作的多樣性。為了應(yīng)對現(xiàn)實世界中復(fù)雜場景下的圖像編輯需求,從已標(biāo)注的數(shù)據(jù)集(如 MSCOCO 、LLaVA-CC3M-Pretrain)和多視角圖像數(shù)據(jù)集(如 MVImgNet)中收集了約 68 萬對真實世界的圖像-文本配對。隨后,使用多語言大模型(例如 VILA)來豐富這些簡短的描述,以增強描述的完整性。然而,這些圖像-文本配對存在固有的數(shù)據(jù)偏差,導(dǎo)致模型在一些沒有被廣泛覆蓋的領(lǐng)域中表現(xiàn)不佳。因此,引入了 反事實合成場景對數(shù)據(jù)集,以平衡初始圖像-文本配對的數(shù)據(jù)分布。具體來說,從互聯(lián)網(wǎng)數(shù)據(jù)中收集較少出現(xiàn)的尾部概念,并結(jié)合多個概念和上下文,通過 LLaMA-3B 生成描述。隨后,使用現(xiàn)成的 T2I 模型生成初始圖像。通過這種方式,通過引入罕見的概念組合,豐富了原始數(shù)據(jù)集,從而為 AnyEdit 數(shù)據(jù)集收集提供了約 70 萬對高質(zhì)量和多樣的圖像-文本配對,如表2所示。
多樣化指令生成
目標(biāo)是基于初始圖像的描述,生成多樣的編輯指令和相應(yīng)的編輯后描述輸出。如圖2所示,我們利用公開的 Llama3-8b 模型將原始描述轉(zhuǎn)換為多樣的編輯指令。為了克服在生成編輯指令時指令多樣性和一致性方面的局限性,將直觀的類型約束與大語言模型(LLM)生成相結(jié)合,并使用上下文示例來開發(fā)一個針對每種編輯類型的特定任務(wù)代理。此外,將生成的編輯指令與原始描述結(jié)合,形成指令對,作為上下文示例供其進行迭代自我增強,從而逐漸提高指令的多樣性和復(fù)雜性。
自適應(yīng)編輯pipeline
傳統(tǒng)的指令編輯數(shù)據(jù)集依賴于固定的pipeline或耗時的手動篩選,這使得在復(fù)雜的編輯類型和各種輸入格式下,難以高效地生成高質(zhì)量的編輯圖像。在此,我們提出了一種自適應(yīng)的編輯pipeline視角,能夠根據(jù)特定的編輯類型定制編輯后的圖像。具體來說,設(shè)計了9條核心pipeline,用于生成局部、全局、相機運動、隱式和視覺編輯數(shù)據(jù),涵蓋了20多種編輯類型。在圖像編輯生成過程中,我們將編輯指令對與原始圖像及其變體輸入到自適應(yīng)編輯pipeline中。該pipeline根據(jù)編輯類型動態(tài)選擇量身定制的解決方案,生成與預(yù)期編輯一致的圖像。此外,在擴散過程中將額外的約束(如膨脹mask、布局和幾何引導(dǎo))融入到UNet層中,以實現(xiàn)更精確的語義對齊和減少偽影。
數(shù)據(jù)質(zhì)量增強
由于編輯數(shù)據(jù)的質(zhì)量對于在AnyEdit中訓(xùn)練強大的編輯模型至關(guān)重要,進一步引入了一個全面的數(shù)據(jù)質(zhì)量增強篩選策略。該策略包括兩個步驟:指令驗證預(yù)篩選和圖像質(zhì)量后篩選。
- 指令驗證預(yù)篩選 注意到,來自大語言模型(LLMs)的部分編輯指令有時會引入歧義,進而不利于編輯圖像(例如,“顏色變化”編輯中的外觀變化,或“動作變化”編輯中的靜態(tài)桌面動作變化)。同時,低質(zhì)量的初始圖像(如低分辨率、不良的長寬比、缺乏美學(xué))即使經(jīng)過多輪篩選,也會導(dǎo)致編輯結(jié)果不滿意。因此,采用特定任務(wù)的啟發(fā)式規(guī)則來驗證各種指令,確保指令的一致性,并進行美學(xué)評估,以確保使用的圖像在審美上平衡,適合編輯過程。
特性與統(tǒng)計
得益于我們有效的自動化數(shù)據(jù)集收集方法,AnyEdit包含250萬對高質(zhì)量的編輯樣本,涵蓋25種不同的編輯類型。AnyEdit涵蓋了更廣泛的領(lǐng)域,包括視角編輯、隱式編輯和視覺編輯等復(fù)雜編輯任務(wù),并融合了更豐富的場景種類,包括概念豐富的合成場景(參見表1)。此外,圖1(b)中的AnyEdit數(shù)據(jù)分布反映了多種編輯類型的廣泛覆蓋。定量評估表明,基于語義相似度和視覺相似度指標(biāo)(參見表3),AnyEdit在像素級一致性和準(zhǔn)確反映編輯指令方面表現(xiàn)出顯著的提升(相較于UltraEdit,DINOv2提升+25.2%,CLIPin提升+16.0%)。
AnyEdit數(shù)據(jù)集集中每種編輯類型的詳細流程圖:
現(xiàn)有圖像編輯數(shù)據(jù)集的比較
“真實圖像”表示原始圖像來自現(xiàn)實世界,“合成圖像”表示它們來自T2I模型,“合成場景”表示圖像和描述都是為了解決固有的數(shù)據(jù)偏差而生成的:
方法
架構(gòu)
由于AnyEdit包含了跨多個領(lǐng)域的多種編輯指令,因此具有開發(fā)強大編輯模型的潛力,能夠處理高質(zhì)量的編輯任務(wù)。然而,訓(xùn)練這樣一個模型面臨三個額外的挑戰(zhàn):(a)對各種多模態(tài)輸入的語義對齊;(b)識別每個領(lǐng)域中的語義編輯,以控制編輯的粒度和范圍;(c)協(xié)調(diào)各種編輯任務(wù)的復(fù)雜性,以防止災(zāi)難性遺忘。為此,提出了一種新穎的AnyEdit穩(wěn)定擴散方法(AnySD),以應(yīng)對現(xiàn)實世界中的各種編輯任務(wù)。如圖3所示,AnySD包括三個設(shè)計:視覺提示投影器、任務(wù)感知路由和可學(xué)習(xí)的任務(wù)嵌入。接下來,將介紹每個AnySD設(shè)計。
可學(xué)習(xí)的任務(wù)嵌入
訓(xùn)練與推理
為了增強 AnySD 處理多樣化編輯條件的能力,引入了 CFG ,擴展自 InstructPix2Pix,用于三種條件化。此外,將 AnySD 的訓(xùn)練結(jié)構(gòu)分為兩個階段,以確保擴散模型能夠充分理解通用的編輯知識并開發(fā)細粒度的任務(wù)特定技能。
階段 I:指令理解
在此階段,為了增強模型的指令跟隨能力,凍結(jié)任務(wù)感知路由,將額外的條件設(shè)置為零張量,并僅預(yù)訓(xùn)練擴散過程中的 UNet 主干,以使其與編輯指令對齊。此外,在訓(xùn)練過程中隨機省略原始圖像和編輯指令,以增強推理時的 CFG。
階段 II:任務(wù)調(diào)整
推理
在推理階段,我們使用 LLMs(例如 LLaMA-3)預(yù)測編輯類型,并根據(jù)輸入的指令應(yīng)用我們的 AnySD 進行編輯。
實驗
首先在流行的標(biāo)準(zhǔn)編輯基準(zhǔn)上評估 AnyEdit 和 AnySD,展示 AnyEdit 數(shù)據(jù)集的高質(zhì)量以及 AnySD 架構(gòu)的優(yōu)越性。此外,將評估擴展到更具挑戰(zhàn)性的 AnyEdit-Test 基準(zhǔn),以展示方法的擴展性,更好地與現(xiàn)實場景中的創(chuàng)意編輯需求對接。還進一步展示定性結(jié)果并進行深入分析,以說明 AnyEdit 的可擴展性和更廣泛的適用性。
實驗設(shè)置
設(shè)置
為了公平比較,采用 Stable-Diffusion 1.5 作為主干,并遵循 InstructPix2Pix的設(shè)置來訓(xùn)練我們的 AnySD。值得注意的是,僅使用 AnyEdit 數(shù)據(jù)進行訓(xùn)練,而未結(jié)合任何額外的數(shù)據(jù)集。
基準(zhǔn)與評估指標(biāo)
在兩個流行的基準(zhǔn)上評估我們的方法:Emu Edit Test和 MagicBrush。這些標(biāo)準(zhǔn)基準(zhǔn)通過比較編輯結(jié)果與真實值來評估編輯模型。此外,從 AnyEdit 中手動選擇了每種編輯類型的 50 個高質(zhì)量編輯數(shù)據(jù),創(chuàng)建了更具挑戰(zhàn)性和綜合性的 AnyEdit-Test 進行評估。值得注意的是,AnyEdit-Test 在訓(xùn)練期間不可見。遵循先前的工作 [17, 64, 82],采用語義相似度(例如 CLIPim 和 CLIPout)和視覺相似度(例如 DINO 和 L1 距離)指標(biāo)來評估基于 AnyEdit 訓(xùn)練的 AnySD 在指令驅(qū)動圖像編輯中的效果。
基準(zhǔn)方法
使用以下基準(zhǔn)方法:
- 專門的圖像編輯方法:PnP, Null-Text;
- 基于指令的方法:它直接用自然語言編輯圖像,包括 InstructPix2Pix, MagicBrush, HIVE, EMU-Edit, UltraEdit;
- 視覺條件方法:它針對視覺編輯,包括 Uni-ControlNet。
標(biāo)準(zhǔn)圖像編輯的主要結(jié)果
在 EMU-Edit Test 和 MagicBrush 基準(zhǔn)上報告 AnyEdit 和其他基準(zhǔn)方法的標(biāo)準(zhǔn)圖像編輯結(jié)果,見表 4。
根據(jù)實驗結(jié)果,總結(jié)了以下結(jié)論:
- 使用 AnyEdit 的 SD-1.5,僅更改訓(xùn)練數(shù)據(jù)為 AnyEdit,在編輯對齊和內(nèi)容保留方面始終表現(xiàn)出優(yōu)越的語義性能,甚至沒有額外的掩碼監(jiān)督(在 EMU-Edit Test 上,CLIPim 為 0.872,CLIPout 為 0.285)。這突出了 AnyEdit 在掌握高質(zhì)量圖像編輯方面的有效性,驗證了其高質(zhì)量編輯數(shù)據(jù)在語義對齊和清晰的編輯結(jié)構(gòu)方面的顯著作用。
- 使用 AnySD 模型,在 AnyEdit 數(shù)據(jù)上訓(xùn)練并采用 AnySD 架構(gòu),進一步在語義和視覺相似度上超越了 SOTA 方法(在 EMU-Edit Test 上 CLIPim 為 0.872,在 MagicBrush Test 上 DINO 為 0.881),在 MagicBrush 和 Emu-Edit 基準(zhǔn)上創(chuàng)下新紀(jì)錄。這表明 AnySD 在遵循編輯指令的同時,能夠保持未修改圖像元素的完整性,得益于其任務(wù)感知架構(gòu),從 AnyEdit 中學(xué)習(xí)任務(wù)特定知識,提升了模型在跨任務(wù)編輯中的能力。
AnyEdit-Test 基準(zhǔn)對比
表 5 展示了 AnyEdit-Test 基準(zhǔn)的結(jié)果,其中每個指令旨在嚴(yán)格評估 AnyEdit 在更廣泛的挑戰(zhàn)性編輯場景中的適應(yīng)性。
從中可以觀察到:(i)大多數(shù)基準(zhǔn)方法在處理標(biāo)準(zhǔn)基準(zhǔn)中很少出現(xiàn)的復(fù)雜編輯任務(wù)時效果不佳(平均 L1 為 0.190 對比 0.121),尤其是在隱式編輯任務(wù)上,這些任務(wù)需要推理能力。這表明 AnyEdit-Test 對于評估編輯模型在復(fù)雜任務(wù)中的表現(xiàn)至關(guān)重要。(ii)即使是常見的編輯任務(wù),最先進的模型在 AnyEdit-Test 上的表現(xiàn)也出現(xiàn)了顯著下降(UltraEdit 在 CLIPim 上下降了 3.5%,在 DINO 上下降了 19.2%)。這突出了現(xiàn)有基準(zhǔn)在評估多場景編輯中的局限性。(iii)相比之下,AnyEdit 在所有編輯類別中顯著優(yōu)于最先進的方法,展示了其在處理復(fù)雜任務(wù)中的可擴展性和魯棒性。(iv)傳統(tǒng)方法在處理視覺編輯時常常難以有效應(yīng)對額外的視覺輸入。在這種情況下,即使與經(jīng)過多種視覺條件預(yù)訓(xùn)練的 Uni-ControlNet 相比,AnyEdit 在視覺編輯任務(wù)中也始終表現(xiàn)得更好。這顯示了 AnyEdit 在處理視覺條件編輯指令時的有效性。
定性評估
由于定量指標(biāo)在評估編輯任務(wù)中的局限性,進行了定性評估,以進一步評估我們方法的有效性,如圖 5 所示。
主要觀察結(jié)果如下:
- 大多數(shù)基準(zhǔn)模型,包括人工調(diào)優(yōu)的 HIVE-c和擁有大量訓(xùn)練數(shù)據(jù)的最先進方法 UltraEdit,在處理復(fù)雜的精細化指令(例如圖 5(ii) 中的“面部畸形”和“缺失眼鏡”)時,仍然會遭遇過度編輯或錯位的情況。
- 由于當(dāng)前數(shù)據(jù)集的多樣性和質(zhì)量有限,先前的方法(如 ip2p、MagicBrush 和 UltraEdit)在不同場景下難以推廣到新型編輯類型(例如,在旋轉(zhuǎn)變換和計數(shù)任務(wù)中未能遵循指令,或在外觀修改任務(wù)中粗略改變對象的外觀)。
- 相比之下,我們的方法可以有效確保目標(biāo)區(qū)域的編輯精度,并在不相關(guān)區(qū)域保持一致性,即使沒有任何掩膜指導(dǎo)(如圖 5(i)、(vii))。此外,方法能夠自動區(qū)分前景和背景,并修改背景(如圖 5(v))。我們的方案還成功執(zhí)行了更復(fù)雜的編輯指令(例如圖 5(vi) 中的風(fēng)格變換和圖 5(x) 中的修復(fù))。
此外,在圖 6 中可視化了 AnyEdit 在視覺編輯中的結(jié)果。在這個具有挑戰(zhàn)性的設(shè)置下,Uni-ControlNet 僅能反映視覺條件中的像素信息,或者保留原始圖像的語義而不執(zhí)行任何編輯。相比之下,對于各種視覺指令,AnyEdit 始終能夠理解視覺條件中的像素信息并實現(xiàn)可靠的編輯。這些有前景的可視化結(jié)果確認了 AnyEdit 在處理視覺條件編輯指令時的有效性和高質(zhì)量。
深入分析
AnySD 架構(gòu)
調(diào)查了每個組件的有效性,并在 EMU-Edit Test 基準(zhǔn)上進行了以下實驗:
- 我們移除了 AnySD 中的文本感知路由策略(參見表 6 的第 1 行),發(fā)現(xiàn)其導(dǎo)致了顯著的性能下降(CLIPim 從 0.838 降至 0.872,L1 從 0.154 降至 0.070),表明該策略對于適應(yīng)多樣的圖像編輯任務(wù)至關(guān)重要。
- 移除了 AnySD 中的任務(wù)嵌入,觀察到這對語義對齊的影響較小,但對視覺一致性有顯著影響(參見表 6 的第 2 行),這表明任務(wù)嵌入在跨注意力過程中控制了像素信息的感知粒度。
AnyEdit 中數(shù)據(jù)擴展的分析
在圖 4 中,分析了 AnyEdit 數(shù)據(jù)擴展對圖像編輯能力的影響。觀察到:
- 對于一致性指標(biāo)(例如 CLIPim 和 DINO),隨著數(shù)據(jù)規(guī)模的增加,性能逐步提升;
- 對于編輯準(zhǔn)確性指標(biāo)(例如 CLIPout),即使數(shù)據(jù)量較少,也能實現(xiàn)令人滿意的性能,表明 AnyEdit 在語義對齊方面表現(xiàn)優(yōu)異;
- 此外,移除了在反事實合成場景中的 AnyEdit-Composition 編輯數(shù)據(jù),如表 6 第 3 行所示,缺乏概念平衡會限制 AnySD 的泛化能力,導(dǎo)致語義性能下降(CLIPout 降低了 4.9%)。這證實了反事實合成場景在編輯任務(wù)泛化中的有效性。
結(jié)論
這項工作提出了一種新的編輯任務(wù)分類視角,并引入了一個統(tǒng)一框架,利用自適應(yīng)pipeline構(gòu)建低資源環(huán)境下適用于多樣編輯任務(wù)的高質(zhì)量數(shù)據(jù)。在此基礎(chǔ)上,提出了 AnyEdit,這是一個多類型、多場景的基于指令的編輯數(shù)據(jù)集,包含 250 萬個編輯樣本,覆蓋 25 種不同類型,并配套 AnyEdit-Test 基準(zhǔn),開啟了統(tǒng)一圖像編輯的更全面的范式。此外,開發(fā)了強大的 AnySD,充分釋放了 AnyEdit 的潛力。通過在標(biāo)準(zhǔn)基準(zhǔn)和具有挑戰(zhàn)性的 AnyEdit-Test 上的廣泛實驗,證明了我們的方法在多樣任務(wù)和場景下的高質(zhì)量圖像編輯能力,能夠準(zhǔn)確執(zhí)行復(fù)雜指令,同時保持未修改元素的圖像一致性。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
