告別粗糙AI生成!BlobCtrl帶你玩轉(zhuǎn)元素級視覺編輯,效果炸裂!(北大&港中文&騰訊)
文章鏈接: https://arxiv.org/pdf/2503.13434
項目鏈接: https://liyaowei-stu.github.io/project/BlobCtrl/
亮點直擊
- BlobCtrl,一個新穎的統(tǒng)一框架,首次通過元素級生成和編輯實現(xiàn)了對視覺元素的精確和靈活操控,同時有效保留了其內(nèi)在特性。
- 設(shè)計了一種創(chuàng)新的雙分支架構(gòu),結(jié)合精心設(shè)計的訓(xùn)練范式和策略,在保持外觀保真度和實現(xiàn)視覺操控中的創(chuàng)意多樣性之間達(dá)到了最佳平衡。
- 引入了BlobData,這是一個專門為訓(xùn)練元素級視覺模型而策劃的大規(guī)模數(shù)據(jù)集,同時推出了BlobBench,一個嚴(yán)格的評估基準(zhǔn),用于評估元素級生成和編輯能力。
- 通過大量實驗,證明了BlobCtrl在元素級生成和編輯任務(wù)中相比現(xiàn)有方法具有更優(yōu)越的性能,同時保持了計算效率和實際應(yīng)用性。
總結(jié)速覽
解決的問題
- 精細(xì)控制不足:當(dāng)前基于擴(kuò)散模型的圖像生成方法缺乏對單個元素的精細(xì)控制,無法像傳統(tǒng)工具(如Adobe Photoshop)那樣進(jìn)行精確的元素級操作。
- 布局控制不連續(xù):現(xiàn)有方法在元素生成和編輯時,難以實現(xiàn)連續(xù)的布局控制,導(dǎo)致元素的位置、大小和方向調(diào)整不夠靈活。
- 外觀和身份保持困難:在元素級編輯過程中,現(xiàn)有方法難以保持元素的外觀和身份信息,導(dǎo)致編輯后的圖像不自然。
- 視覺和諧性不足:現(xiàn)有方法在處理多元素組合時,難以保持視覺和諧性,導(dǎo)致生成的圖像不協(xié)調(diào)。
- 訓(xùn)練數(shù)據(jù)稀缺:缺乏大規(guī)模成對的訓(xùn)練數(shù)據(jù),限制了端到端訓(xùn)練的模型性能。
提出的方案
- BlobCtrl框架:引入了一個基于概率blob表示的框架,用于統(tǒng)一元素級生成和編輯。Blob作為視覺原語,能夠有效解耦和表示空間位置、語義內(nèi)容和身份信息。
- 雙分支擴(kuò)散架構(gòu):提出了一個雙分支擴(kuò)散模型,分別處理前景和背景元素,并通過層次特征融合實現(xiàn)無縫的前景-背景整合。
- 自監(jiān)督訓(xùn)練范式:采用自監(jiān)督訓(xùn)練范式,結(jié)合定制化的數(shù)據(jù)增強(qiáng)和評分函數(shù),提高模型的泛化能力和效率。
- 可控丟棄策略:在推理過程中,通過隨機(jī)丟棄策略靈活平衡外觀保真度和創(chuàng)意多樣性。
應(yīng)用的技術(shù)
- 概率blob表示:使用二維高斯分布作為blob的幾何表示,確保布局控制的連續(xù)性和視覺和諧性。
- 可微分blob splatting:結(jié)合變分自編碼器(VAE)特征,通過可微分blob splatting技術(shù)保持元素的外觀和身份信息。
- 雙分支擴(kuò)散模型:設(shè)計了一個雙分支擴(kuò)散模型,分別處理前景和背景元素,并通過層次特征融合實現(xiàn)無縫整合。
- 自監(jiān)督訓(xùn)練:采用自監(jiān)督訓(xùn)練范式,結(jié)合隨機(jī)數(shù)據(jù)增強(qiáng)和ID保留評分函數(shù),提高模型的魯棒性和泛化能力。
- 隨機(jī)丟棄策略:在推理過程中,通過隨機(jī)丟棄策略靈活控制生成圖像的外觀保真度和多樣性。
達(dá)到的效果
- 精確的元素級操作:BlobCtrl在元素級生成和編輯任務(wù)中表現(xiàn)出色,能夠?qū)崿F(xiàn)精確的元素位置、大小和方向調(diào)整。
- 連續(xù)的布局控制:通過blob的平滑性,實現(xiàn)了連續(xù)的布局控制,使得元素調(diào)整更加靈活。
- 外觀和身份保持:結(jié)合可微分blob splatting和VAE特征,有效保持了元素的外觀和身份信息。
- 視覺和諧性:BlobCtrl在處理多元素組合時,能夠保持視覺和諧性,生成協(xié)調(diào)的圖像。
- 計算效率高:BlobCtrl在保持高效計算的同時,提供了精確和靈活的視覺內(nèi)容創(chuàng)建解決方案。
基于Blob的元素級表示
為什么blob是一種有效的元素級表示?作為基礎(chǔ)標(biāo)記,blob精確地表示對象的位置、大小和方向。作為高斯分布,它比具有強(qiáng)烈形狀約束的分割掩碼提供了更靈活和和諧的元素級表達(dá)。定義了blob并解釋了其作為元素級視覺表示的作用。
Blob公式
Blob不透明度
表示為高斯分布的blob能夠計算空間維度上的不透明度,從而引出了blob splatting和blob合成的概念。這些概念對于實現(xiàn)平滑渲染和視覺元素的無縫集成至關(guān)重要。
首先計算到blob中心的平方馬氏距離:
Blob合成與Splatting
Blob合成指的是通過深度感知的alpha合成將多個blob整合在一起的過程,這有效地解決了遮擋問題并建模了對象間的關(guān)系。數(shù)學(xué)上,blob合成的公式如下:
BlobCtrl的自監(jiān)督范式
基于blob的表示提供了連續(xù)的空間控制以實現(xiàn)靈活操作、無縫合成以實現(xiàn)和諧整合,以及空間感知的splatting以實現(xiàn)視覺語義。利用這些優(yōu)勢,本文引入了一種自監(jiān)督訓(xùn)練范式,以開發(fā)一個魯棒且多功能的模型,用于元素級視覺生成和編輯。
模型架構(gòu)
基于blob表示,本文提出了一種雙分支擴(kuò)散模型,分別處理前景和背景元素。如下圖3所示,本文的模型主要由兩個關(guān)鍵組件組成:
其中??[; axis = 0]?
??和??[; axis = 2]?
?分別表示沿通道和列的連接。
為了處理元素級前景輸入,我們使用了一個修改過的預(yù)訓(xùn)練擴(kuò)散主干網(wǎng)絡(luò),并移除了交叉注意力層。這種方法有兩個目的:預(yù)訓(xùn)練權(quán)重為有效的前景特征處理提供了強(qiáng)大的生成先驗,而移除交叉注意力層確保模型僅關(guān)注視覺內(nèi)容,而不受更廣泛上下文的影響。
其中背景分支缺少空間感知語義特征,因為它傾向于完全保留信息。
在元素級編輯中,背景是被掩碼的圖像,其中前景元素的原始區(qū)域和目標(biāo)區(qū)域都被掩碼。例如,當(dāng)移動一只鳥時,背景在鳥的初始位置和目標(biāo)位置都有掩碼。
背景分支使用完整的擴(kuò)散主干網(wǎng)絡(luò),包括交叉注意力層。為了無縫集成前景和背景元素,我們采用分層特征融合,逐步在背景分支的多個分辨率級別注入前景特征。還使用零初始化Z以確保訓(xùn)練穩(wěn)定。第個塊的特征融合公式如下:
自監(jiān)督訓(xùn)練
雖然不同位置對象的配對數(shù)據(jù)是理想的訓(xùn)練數(shù)據(jù),但這種數(shù)據(jù)稀缺。先前的方法依賴于視頻數(shù)據(jù),但這引入了不必要的復(fù)雜性,降低了模型性能。
相反,本文提出了一種自監(jiān)督訓(xùn)練策略,利用任何圖像都可以被視為元素操作過程的目標(biāo)結(jié)果的思路。對于每個訓(xùn)練圖像,識別目標(biāo)元素的位置,并在不同位置隨機(jī)生成一個blob以模擬源位置。這模擬了操作過程,如前面圖3所示,其中一個玩具似乎從隨機(jī)的左側(cè)位置移動到其實際的右側(cè)位置。我們在訓(xùn)練期間使用噪聲預(yù)測評分函數(shù)優(yōu)化模型。
身份保留與場景協(xié)調(diào)
隨機(jī)數(shù)據(jù)增強(qiáng):為了防止模型默認(rèn)采用簡單的復(fù)制粘貼解決方案,在訓(xùn)練期間對前景元素進(jìn)行廣泛的數(shù)據(jù)增強(qiáng)。這包括隨機(jī)變換,如顏色抖動、縮放、旋轉(zhuǎn)、擦除和透視變化。這些增強(qiáng)有兩個主要目的:它們迫使模型根據(jù)指定的布局和外觀和諧地放置前景元素,而隨機(jī)擦除則培養(yǎng)了處理不完整元素的強(qiáng)大修復(fù)能力。這種方法確保模型學(xué)會靈活且上下文相關(guān)地生成和操作元素,保持與背景的視覺一致性。
身份保留評分函數(shù):為了有效解耦前景和背景分支——確保前景分支注入元素級信息,而背景分支整合這些元素——本文提出了一個身份保留評分函數(shù)。在訓(xùn)練期間,保留前景分支中的擴(kuò)散模型輸出層(在推理期間丟棄),并應(yīng)用一個僅在前景元素區(qū)域內(nèi)操作的評分函數(shù)。
可控的保真度-多樣性權(quán)衡
為了實現(xiàn)外觀保真度和創(chuàng)意多樣性之間的靈活控制,在訓(xùn)練期間實施了隨機(jī)丟棄策略。首先隨機(jī)丟棄前景分支的權(quán)重,使模型能夠在基于全局文本信息自由生成前景元素和嚴(yán)格保留給定前景身份之間進(jìn)行調(diào)整。其次隨機(jī)丟棄要splat的語義特征和前景元素的VAE特征,從而靈活控制語義和外觀之間的平衡。應(yīng)用:
實驗
數(shù)據(jù)集、基準(zhǔn)和指標(biāo)
BlobData構(gòu)建:為了訓(xùn)練BlobCtrl,構(gòu)建了BlobData(1.86M樣本),數(shù)據(jù)來源于BrushData,包含圖像、分割掩碼、擬合的橢圓參數(shù)(以及導(dǎo)出的二維高斯分布)和描述性文本。數(shù)據(jù)集構(gòu)建過程包括:(1) 過濾源圖像,保留短邊超過480像素且具有有效實例分割掩碼的圖像。(2) 應(yīng)用掩碼過濾標(biāo)準(zhǔn),保留面積占圖像總面積比例在0.01到0.9之間的掩碼,并排除位于圖像邊界的掩碼。(3) 對過濾后的掩碼擬合橢圓參數(shù)并導(dǎo)出二維高斯分布。(4) 移除無效樣本,特別是協(xié)方差值低于1e-5的樣本。(5) 使用InternVL-2.5生成詳細(xì)的圖像描述。
BlobBench構(gòu)建:現(xiàn)有的評估基準(zhǔn)如DreamBooth、COCOE、COCO Val和CreatiLayout僅評估接地能力或身份保留,但無法同時評估兩者。它們還缺乏對完整元素級操作(如組合、移動、調(diào)整大小、刪除和替換)的覆蓋。本文引入了BlobBench,這是一個包含100張精選圖像的綜合基準(zhǔn),均勻分布在不同的元素級操作中。每張圖像都經(jīng)過專家標(biāo)注,包括橢圓參數(shù)、前景掩碼和詳細(xì)的文本描述。BlobBench涵蓋了真實世界和AI生成的圖像,涵蓋室內(nèi)外場景、動物和風(fēng)景等多種場景,確保評估的公平性和有效性。
評估指標(biāo):本文使用客觀指標(biāo)和人工評估來評估BlobCtrl,包括客觀評估(身份保留、接地準(zhǔn)確性、生成質(zhì)量和協(xié)調(diào)性)和主觀評估。
實現(xiàn)細(xì)節(jié)
評估細(xì)節(jié):在BlobBench基準(zhǔn)上評估BlobCtrl,并與三種最先進(jìn)的方法進(jìn)行比較:GliGen,一種基于邊界框的文本到圖像模型;Anydoor,一種基于分割掩碼的圖像到圖像模型;以及Magic Fixup,專門用于協(xié)調(diào)變換區(qū)域。為了系統(tǒng)評估五種基本元素級操作(組合、移動、調(diào)整大小、替換和刪除),我們?yōu)榛€方法設(shè)計了特定的工作流程。對于Anydoor,我們通過將背景傳送到前景區(qū)域來創(chuàng)建干凈的背景,然后通過將前景對象傳送到目標(biāo)位置進(jìn)行編輯。對于GliGen,使用BlobCtrl移除元素以生成干凈的背景,然后應(yīng)用邊界框約束以及文本和圖像條件。對于Magic Fixup,我們使用編輯操作的剛性變換對前景元素進(jìn)行變形,然后進(jìn)行場景協(xié)調(diào)。
定量評估
與最先進(jìn)方法的比較:如下表1和表2所示,BlobCtrl在所有評估指標(biāo)上均表現(xiàn)出顯著改進(jìn):
- 身份保留:對于需要身份保留的任務(wù)(組合、移動、調(diào)整大小、替換),BlobCtrl的平均CLIP-I(87.48 vs. 84.28)和DINO(87.45 vs. 81.70)得分顯著高于最佳基線。對于刪除任務(wù),本文的方法顯示出較低的身份得分(CLIP-I和DINO得分的平均值)(21.95 vs. 26.55),表明更徹底的元素消除。
- 布局控制:BlobCtrl表現(xiàn)出優(yōu)越的空間控制精度,相對于之前的最佳方法,布局MSE降低了8.11%。這驗證了基于概率blob表示在精確元素操作中的有效性。
- 生成質(zhì)量:本文的方法在標(biāo)準(zhǔn)質(zhì)量指標(biāo)上創(chuàng)造了新的最先進(jìn)性能基準(zhǔn):FID 102.8094,LPIPS 0.2196,PSNR 32.1571,SSIM 0.7507。這些結(jié)果證明了BlobCtrl在生成高保真輸出的同時保持全局視覺一致性的能力。
將這些顯著改進(jìn)歸功于兩項關(guān)鍵創(chuàng)新:(1) 基于概率blob的表示,能夠精確控制元素屬性;(2) 自監(jiān)督訓(xùn)練范式,有效解耦并重新組合視覺元素的身份、語義和布局信息,同時消除了由不必要的相機(jī)運(yùn)動和其他視頻特定偽影引起的性能下降,這些問題困擾了之前的方法。
人工評估:下表3中報告的主觀評估結(jié)果顯示了BlobCtrl在所有評估標(biāo)準(zhǔn)上的卓越表現(xiàn)。從數(shù)量上看,本文的方法以顯著優(yōu)勢超越了之前的最佳方法,建立了新的最先進(jìn)性能:在外觀保真度上,本文的方法獲得了87.2%的偏好率,而之前的最佳方法為82.5%;在布局準(zhǔn)確性上,偏好率為86.5%,而之前的最佳方法為81.7%;在視覺協(xié)調(diào)性上,偏好率為82.1%,而之前的最佳方法為80.3%。這些在人工評估指標(biāo)上的顯著改進(jìn)表明,BlobCtrl生成的結(jié)果對人類觀察者來說更具視覺吸引力和自然性,使其更適合實際應(yīng)用。
定性評估
下圖4展示了BlobCtrl與最先進(jìn)方法在各種元素級操作場景中的定性比較。結(jié)果展示了本文方法的幾個關(guān)鍵優(yōu)勢:
- Anydoor:在元素操作過程中難以準(zhǔn)確保留身份,并且在元素級刪除方面表現(xiàn)出局限性,通常會留下偽影或不完整的修改。
- GliGen:雖然提供了布局控制能力,但無法有效保留操作元素的視覺外觀和身份,導(dǎo)致輸出不一致。
- Magic Mixup:協(xié)調(diào)能力不足,導(dǎo)致修改元素與其周圍環(huán)境之間的視覺不一致。
相比之下,BlobCtrl在所有方面都表現(xiàn)出卓越的性能——更好地泛化到多樣化場景、更準(zhǔn)確的身份保留、精確的布局控制,同時保持視覺一致性。
消融實驗
身份保留評分函數(shù)的消融實驗:本文進(jìn)行了一項消融實驗,以分析身份保留評分函數(shù)的有效性。如下圖6所示,在相同的訓(xùn)練步驟下,使用身份保留評分函數(shù)的模型的噪聲預(yù)測損失(0.0235)顯著低于未使用該函數(shù)的模型(0.0399),表明其收斂速度更快。為了更好地理解該評分函數(shù)如何影響生成過程,我們使用前景分支預(yù)測的噪聲對去噪結(jié)果進(jìn)行了可視化。可視化結(jié)果表明,在身份保留評分函數(shù)的指導(dǎo)下,前景分支有效地專注于生成前景內(nèi)容,驗證了我們通過該機(jī)制解耦前景和背景元素生成的設(shè)計選擇。
討論
結(jié)論:本文介紹了BlobCtrl,一個基于概率blob表示的統(tǒng)一框架,集成了元素級生成和編輯功能。Blob作為視覺原語,用于編碼空間布局、語義和身份信息,從而實現(xiàn)精確的元素操作。通過自監(jiān)督訓(xùn)練的雙分支架構(gòu),BlobCtrl能夠保留前景身份并保持背景協(xié)調(diào)性。隨機(jī)數(shù)據(jù)增強(qiáng)和丟棄策略提供了在外觀保真度和創(chuàng)意多樣性之間的靈活控制。在BlobBench上的大量實驗表明,BlobCtrl在元素級操作任務(wù)中達(dá)到了最先進(jìn)的性能。
局限性與未來工作:盡管BlobCtrl在元素級操作中表現(xiàn)出強(qiáng)大的能力,但目前它僅支持在單次模型前向傳遞中迭代操作單個元素。幸運(yùn)的是,基于blob的表示天然支持深度感知的合成,為未來的工作開辟了有前景的方向。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
