自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

當(dāng)前 inpainting/outpainting 最優(yōu)解:PowerPaint + BrushNet

發(fā)布于 2024-5-10 09:55
瀏覽
0收藏

一、概述

PowerPaint 是一種圖像修復(fù)模型,它能夠?qū)崿F(xiàn)多種內(nèi)繪圖任務(wù),包括文本引導(dǎo)的對象內(nèi)繪圖、上下文感知圖像內(nèi)繪圖、可控形狀擬合的對象內(nèi)繪圖以及外繪圖。如果單純從這篇文章來看,并不能達(dá)到最好的效果,但是作者受 BrushNet 啟發(fā),重新訓(xùn)練了一版,也是 github 里面的 PowerPaint v2,效果應(yīng)該算是當(dāng)前的最優(yōu)解了。


項目地址:PowerPaint項目頁面(https://powerpaint.github.io/)

論文地址:A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting(https://arxiv.org/pdf/2312.03594)

代碼地址:https://github.com/open-mmlab/PowerPaint(https://github.com/open-mmlab/PowerPaint)

效果:

當(dāng)前 inpainting/outpainting 最優(yōu)解:PowerPaint + BrushNet-AI.x社區(qū)

當(dāng)前 inpainting/outpainting 最優(yōu)解:PowerPaint + BrushNet-AI.x社區(qū)

當(dāng)前 inpainting/outpainting 最優(yōu)解:PowerPaint + BrushNet-AI.x社區(qū)

二、原理

核心點:

  • 學(xué)習(xí)任務(wù)提示(Task Prompts):通過引入可學(xué)習(xí)的任務(wù)提示和針對性的微調(diào)策略,指導(dǎo)模型明確關(guān)注不同的內(nèi)繪圖目標(biāo)。
  • 負(fù)提示(Negative Prompt):展示任務(wù)提示在 PowerPaint 中的多功能性,作為負(fù)提示用于有效的對象移除。
  • 提示插值技術(shù)(Prompt Interpolation Techniques):利用該技術(shù)實現(xiàn)可控的形狀引導(dǎo)對象內(nèi)繪圖。

細(xì)節(jié)解釋:

當(dāng)前 inpainting/outpainting 最優(yōu)解:PowerPaint + BrushNet-AI.x社區(qū)

  • 問題設(shè)定:在圖像中填充用戶指定區(qū)域,根據(jù)用戶意圖填充合理的內(nèi)容。
  • PowerPaint架構(gòu)


1.任務(wù)提示 :引入可學(xué)習(xí)的任務(wù)提示,專門為上下文感知圖像內(nèi)繪圖(Context-aware Image Inpainting)設(shè)計的任務(wù)提示。它引導(dǎo)模型填充圖像中的缺失區(qū)域,同時保持與周圍圖像內(nèi)容的一致性。在訓(xùn)練中通常與隨機(jī)掩碼一起使用,目的是讓模型學(xué)會如何根據(jù)圖像的上下文信息來填充缺失的部分,而不是依賴于文本描述。

2.對象移除:通過結(jié)合分類器自由引導(dǎo)采樣策略,使用作為正提示,作為負(fù)提示,有效防止在區(qū)域內(nèi)生成對象,提高對象移除的成功率。

3.形狀引導(dǎo)對象內(nèi)繪圖:通過隨機(jī)擴(kuò)張對象分割掩碼,并使用和之間的插值作為訓(xùn)練的任務(wù)提示,建立兩種內(nèi)繪圖目標(biāo)之間的權(quán)衡。為了實現(xiàn)形狀引導(dǎo)的對象內(nèi)繪圖中的可控性,通過插值和來平衡形狀擬合和上下文感知。將和作為后綴添加到文本描述中,并將它們分別輸入到CLIP文本編碼器中,通過根據(jù)的值對兩個 Text Embedding 進(jìn)行線性插值,我們得到了最終的文本嵌入,記為:

當(dāng)前 inpainting/outpainting 最優(yōu)解:PowerPaint + BrushNet-AI.x社區(qū)

其中這里的值為了防止模型過度擬合掩模的形狀,而不考慮物體的整體形狀,做了如下設(shè)置:

當(dāng)前 inpainting/outpainting 最優(yōu)解:PowerPaint + BrushNet-AI.x社區(qū)

局限性:

  • 基礎(chǔ)模型限制:合成質(zhì)量可能受到底層文本到圖像擴(kuò)散模型能力的約束。
  • 小區(qū)域擬合挑戰(zhàn):在訓(xùn)練中,對象占據(jù)極小區(qū)域的實例稀疏,導(dǎo)致實現(xiàn)極小值擬合度有一定挑戰(zhàn)。

三、PowerPaint + BrushNet

主要重點說下PowerPaint + BrushNet,前面我寫過一篇 BrushNet 的文章 grooter:【AIGC圖像理論篇11】BrushNet —— 插件式圖像修復(fù)inpainting 模型(??https://zhuanlan.zhihu.com/p/695197835??) ,BrushNet 使用了一個分支來更好的提取遮

罩圖像特征的優(yōu)勢,但是因為其刪除了此分支的文本提示的交叉注意力,所以其內(nèi)容的控制依靠原擴(kuò)散模型的prompt。而PowerPaint主要創(chuàng)新點在于引入可學(xué)習(xí)的任務(wù)提示和針對性的微調(diào)策略,所以 PowerPaint 作者結(jié)合兩者的優(yōu)勢,保留被 BrushNet 刪除的交叉注意力層用于任務(wù)提示輸入,重新訓(xùn)練了新的 PowerPaint,得到了PowerPaint + BrushNet模型??偨Y(jié)下就是在BrushNet的單獨的分支上用PowerPaint 針對性微調(diào)的方式訓(xùn)練了一個新的BrushNet模型。


我實際部署后做了下對比,效果確實會好一些,尤其是outpainting,效果圖如下:

inpainting:

當(dāng)前 inpainting/outpainting 最優(yōu)解:PowerPaint + BrushNet-AI.x社區(qū)

outpainting:

當(dāng)前 inpainting/outpainting 最優(yōu)解:PowerPaint + BrushNet-AI.x社區(qū)

四、總結(jié)

PowerPaint作為一種多功能的圖像內(nèi)繪圖模型,通過學(xué)習(xí)任務(wù)提示和負(fù)提示,以及利用提示插值技術(shù),實現(xiàn)了在多種內(nèi)繪圖任務(wù)中的優(yōu)異性能。而 PowerPaint + BrushNet 更好的結(jié)合了兩者的優(yōu)點,也輸出了較好的效果,但是不能和sd webui結(jié)合是一個推廣瓶頸。


本文轉(zhuǎn)自 AI生成未來 ,作者:grooter


原文鏈接:??https://mp.weixin.qq.com/s/mHWlzR4cVqOQyXF0T1LX4w??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦