騰訊&新加坡國(guó)立發(fā)布IFAdapter:即插即用,提升文生圖模型實(shí)例特征和位置生成準(zhǔn)確性 精華
文章鏈接:https://arxiv.org/pdf/2409.08240
項(xiàng)目鏈接:https://ifadapter.github.io/
亮點(diǎn)直擊
- 提出了實(shí)例特征生成任務(wù),旨在解決擴(kuò)散模型在多實(shí)例生成中面臨的定位和特征準(zhǔn)確性問(wèn)題。此外,引入了COCO IFG基準(zhǔn)和驗(yàn)證pipeline,用于評(píng)估和比較模型性能。
- 提出了IFAdapter,該模塊利用新的外觀tokens和實(shí)例語(yǔ)義圖來(lái)增強(qiáng)擴(kuò)散模型對(duì)實(shí)例的描繪,從而實(shí)現(xiàn)高保真度的實(shí)例特征生成。
- 全面的實(shí)驗(yàn)結(jié)果表明,本模型在定量和定性評(píng)估中均優(yōu)于基線模型。
- IFAdapter設(shè)計(jì)為即插即用的組件,能夠無(wú)縫增強(qiáng)各種社區(qū)模型的布局控制能力,無(wú)需重新訓(xùn)練。
總結(jié)速覽
解決的問(wèn)題:
傳統(tǒng)的文本生成圖像 (T2I) 擴(kuò)散模型在生成單個(gè)實(shí)例時(shí)效果很好,但在多個(gè)實(shí)例的特征生成和準(zhǔn)確定位上存在挑戰(zhàn)。盡管布局生成圖像 (L2I) 任務(wù)通過(guò)使用邊界框提供空間控制來(lái)解決定位問(wèn)題,但在實(shí)例特征的精確生成上仍然不足。
提出的方案:
為了解決這一問(wèn)題,提出了實(shí)例特征生成 (IFG) 任務(wù),旨在同時(shí)確保生成實(shí)例的準(zhǔn)確定位和特征保真度。為此,引入了實(shí)例特征適配器 (IFAdapter) ,作為一種模塊,能夠在不同模型中靈活應(yīng)用。該模塊通過(guò)額外的外觀tokens和實(shí)例語(yǔ)義圖對(duì)齊實(shí)例特征與空間位置,從而增強(qiáng)特征表現(xiàn)。
應(yīng)用的技術(shù):
IFAdapter 利用了外觀tokens來(lái)增強(qiáng)特征生成,并通過(guò)實(shí)例語(yǔ)義圖將實(shí)例特征與空間位置對(duì)齊。這種方法可作為擴(kuò)散過(guò)程中的模塊,適配不同的社區(qū)模型。
達(dá)到的效果:
實(shí)驗(yàn)結(jié)果表明,IFAdapter 在定量和定性評(píng)估中均優(yōu)于其他模型,有效提升了實(shí)例的定位準(zhǔn)確性和特征保真度。同時(shí),為此任務(wù)貢獻(xiàn)了IFG 基準(zhǔn),并開發(fā)了驗(yàn)證pipeline,客觀比較不同模型生成實(shí)例的能力。
方法
問(wèn)題定義
IFAdapter
在本工作中,IFAdapter 旨在控制實(shí)例特征和位置的生成。使用開源的Stable Diffusion 作為基礎(chǔ)模型。為了解決實(shí)例特征丟失的問(wèn)題,引入了外觀tokens,作為高頻信息的補(bǔ)充。此外,為了引入更強(qiáng)的空間先驗(yàn),確保對(duì)位置和特征的準(zhǔn)確控制,利用外觀tokens構(gòu)建了實(shí)例語(yǔ)義圖,以引導(dǎo)生成過(guò)程。
外觀tokens
L2I Stable Diffusion 通過(guò)引入局部描述和位置作為附加條件,具有豐富特征的實(shí)例?,F(xiàn)有的方法通常使用預(yù)訓(xùn)練的 CLIP 文本編碼器生成的上下文化token(即文本結(jié)束token,EoT token)來(lái)引導(dǎo)實(shí)例特征的生成。盡管 EoT token 在前景生成中起著關(guān)鍵作用,但主要用于生成粗略的結(jié)構(gòu)內(nèi)容,因此需要額外的標(biāo)記來(lái)補(bǔ)充高頻細(xì)節(jié)。因此,現(xiàn)有的 L2I 方法若丟棄其他所有標(biāo)記,則無(wú)法生成詳細(xì)的實(shí)例特征。
一種簡(jiǎn)單的緩解方法是使用 CLIP 文本編碼器生成的所有 77 個(gè) tokens作為實(shí)例級(jí)條件。然而,這種方法在推理和訓(xùn)練過(guò)程中都會(huì)顯著增加內(nèi)存需求。此外,這 77 個(gè) tokens中包含大量的填充token,它們對(duì)生成沒(méi)有貢獻(xiàn)。雖然移除填充 token可以降低計(jì)算成本,但由于描述長(zhǎng)度的不同,這種策略無(wú)法與批量訓(xùn)練兼容。為了解決這一問(wèn)題,本文提出將特征信息壓縮到一小組外觀tokens中,并利用這些tokens來(lái)補(bǔ)充 EoT token。
實(shí)例語(yǔ)義圖引導(dǎo)生成
除了確保生成詳細(xì)的實(shí)例特征外,IFG 任務(wù)還要求在指定位置生成實(shí)例。先前的方法使用順序錨定標(biāo)記作為條件,這種方法缺乏強(qiáng)健的空間對(duì)應(yīng)性,可能會(huì)導(dǎo)致特征錯(cuò)位或泄漏等問(wèn)題。因此,引入了一種名為實(shí)例語(yǔ)義圖 (ISM) 的地圖,作為更強(qiáng)的引導(dǎo)信號(hào)。由于所有實(shí)例的生成都由 ISM 引導(dǎo),在構(gòu)建該語(yǔ)義圖時(shí)必須考慮兩個(gè)主要問(wèn)題:
- 為每個(gè)實(shí)例生成詳細(xì)且準(zhǔn)確的特征,同時(shí)避免特征泄漏;
- 處理多個(gè)實(shí)例存在的重疊區(qū)域。
為了解決這些問(wèn)題,首先獨(dú)立生成每個(gè)實(shí)例,然后在重疊區(qū)域進(jìn)行聚合。以下部分將詳細(xì)解釋這些過(guò)程。
單實(shí)例特征生成
門控語(yǔ)義融合
學(xué)習(xí)過(guò)程
在訓(xùn)練過(guò)程中,凍結(jié)了 SD 的參數(shù),僅訓(xùn)練 IFAdapter。用于訓(xùn)練的損失函數(shù)是包含實(shí)例級(jí)條件的 LDM 損失:
為了使本文的方法在推理階段執(zhí)行無(wú)分類器引導(dǎo) (CFG),在訓(xùn)練期間將全局條件y和局部條件c隨機(jī)設(shè)置為 0。
實(shí)驗(yàn)
實(shí)施細(xì)節(jié)
訓(xùn)練數(shù)據(jù)集。使用 COCO2014數(shù)據(jù)集和 LAION 5B 的 100 萬(wàn)子集作為數(shù)據(jù)來(lái)源。利用 Grounding-DINO和 RAM對(duì)圖像中的實(shí)例位置進(jìn)行標(biāo)注。然后,我們使用最先進(jìn)的視覺(jué)語(yǔ)言模型 (VLMs) QWen和 InternVL為圖像和單個(gè)實(shí)例生成標(biāo)題。
訓(xùn)練細(xì)節(jié)。使用 SDXL,因其強(qiáng)大的細(xì)節(jié)生成能力,作為我們的基礎(chǔ)模型。IFAdapter 應(yīng)用于 SDXL 的中層和解碼器層的子集,這些層對(duì)前景生成貢獻(xiàn)顯著。使用 AdamW優(yōu)化器,以學(xué)習(xí)率 0.0001 訓(xùn)練 IFAdapter 100,000 步,批量大小為 160。在訓(xùn)練過(guò)程中,有 15% 的概率丟棄局部描述,30% 的概率丟棄全局標(biāo)題。
在推理階段,使用 EulerDiscreteScheduler進(jìn)行 30 次采樣步驟,并將無(wú)分類器引導(dǎo) (CFG) 比例設(shè)置為 7.5。
實(shí)驗(yàn)設(shè)置
Baselines
將本文的方法與先前的 SOTA L2I 方法進(jìn)行了比較,包括基于訓(xùn)練的方法 InstanceDiffusion、MIGC和 GLIGEN,以及無(wú)訓(xùn)練方法 DenseDiffusion和 MultiDiffusion。
評(píng)估數(shù)據(jù)集
按照先前的設(shè)置(Li et al., 2023; Zhou et al., 2024b; Wang et al., 2024c),在標(biāo)準(zhǔn)的 COCO2014 數(shù)據(jù)集上構(gòu)建了 COCO IFG 基準(zhǔn)。具體而言,使用與訓(xùn)練數(shù)據(jù)相同的方法對(duì)驗(yàn)證集中的位置和局部描述進(jìn)行標(biāo)注。每種方法都需要生成 1,000 張圖像進(jìn)行驗(yàn)證。
評(píng)估指標(biāo)
對(duì)于 IFG 任務(wù)的驗(yàn)證,模型必須生成具有準(zhǔn)確特征的實(shí)例,并在適當(dāng)?shù)奈恢蒙伞?/p>
- 實(shí)例特征成功率
- Frechet Inception Distance (FID)
- 全局 CLIP 分?jǐn)?shù)
比較
定量分析
下表 1 展示了在 IFG 基準(zhǔn)上的定性結(jié)果,包括 IFS 率、空間準(zhǔn)確性和圖像質(zhì)量的指標(biāo)。
IFS 率
為了計(jì)算 IFS 率,我們利用了三個(gè)最先進(jìn)的視覺(jué)-語(yǔ)言模型 (VLMs):QWenVL、InternVL 和 CogVL。這種多模型方法確保了更全面和嚴(yán)格的驗(yàn)證。如上表 1 所示,本文的模型在所有三個(gè) IFS 率指標(biāo)上均優(yōu)于基線模型。引入外觀tokens和在訓(xùn)練中納入密集實(shí)例描述顯著提升了我們模型生成準(zhǔn)確實(shí)例細(xì)節(jié)的能力。值得注意的是,InstanceDiffusion 在 IFS 率上表現(xiàn)優(yōu)于其他基線模型。這可能是因?yàn)槠溆?xùn)練數(shù)據(jù)集也包含了密集的實(shí)例級(jí)描述。這一觀察進(jìn)一步強(qiáng)調(diào)了高質(zhì)量實(shí)例級(jí)標(biāo)注的必要性。
空間準(zhǔn)確性
如上表 1 所示,IFAdapter 在 GroundingDINO AP 中取得了最佳結(jié)果。這一成功歸因于地圖引導(dǎo)生成設(shè)計(jì),該設(shè)計(jì)結(jié)合了額外的空間先驗(yàn),從而實(shí)現(xiàn)了更準(zhǔn)確的實(shí)例位置生成。
圖像質(zhì)量
如前面表 1 所示,本文的方法在 CLIP 評(píng)分上表現(xiàn)更高,表明增強(qiáng)局部細(xì)節(jié)有助于圖像與標(biāo)題一致性的同時(shí)提高。此外,本文的方法實(shí)現(xiàn)了更低的 FID,說(shuō)明本文的方法生成的圖像質(zhì)量高于基線模型。將這一改善歸因于本文模型的適配器設(shè)計(jì),該設(shè)計(jì)使得在不顯著妨礙圖像質(zhì)量的情況下實(shí)現(xiàn)空間控制。
定性分析
在下圖 1(a) 中,我們展示了生成的具有多個(gè)復(fù)雜實(shí)例的場(chǎng)景結(jié)果。研究者們進(jìn)一步在下圖 3 中評(píng)估了模型生成多樣化特征實(shí)例的能力。如所示,本文的方法在各種實(shí)例細(xì)節(jié)的保真度方面表現(xiàn)最佳。
用戶研究
盡管 VLMs 可以在一定程度上驗(yàn)證實(shí)例細(xì)節(jié),但與人類感知相比仍存在差距。因此,邀請(qǐng)了專業(yè)標(biāo)注員進(jìn)行進(jìn)一步驗(yàn)證。
設(shè)置
進(jìn)行了一個(gè)包含 270 個(gè)問(wèn)題的研究,每個(gè)問(wèn)題都關(guān)聯(lián)到一個(gè)隨機(jī)抽樣的生成圖像。評(píng)估者被要求對(duì)圖像質(zhì)量、實(shí)例位置準(zhǔn)確性和實(shí)例細(xì)節(jié)進(jìn)行評(píng)分??偣彩占?30 個(gè)有效響應(yīng),產(chǎn)生了 7,290 個(gè)評(píng)分。
結(jié)果
如下表 2 所示,本文的方法在所有三個(gè)維度上都達(dá)到了最高的分?jǐn)?shù)和用戶偏好率。值得注意的是,這些維度的趨勢(shì)與表 1 中的結(jié)果一致,進(jìn)一步證明了 VLM 驗(yàn)證的有效性。
與社區(qū)模型的集成
由于 IFAdapter 的即插即用設(shè)計(jì),它可以對(duì)預(yù)訓(xùn)練的擴(kuò)散模型施加空間控制,而不會(huì)顯著影響生成圖像的風(fēng)格或質(zhì)量。這使得 IFAdapter 能夠有效地與各種社區(qū)擴(kuò)散模型和 LoRAs集成。如下圖 4 所示,將 IFAdapter 應(yīng)用到幾個(gè)社區(qū)模型,包括 PixlArt、LeLo-LEGO、Claymation和 BluePencil。生成的圖像不僅符合指定的布局,而且準(zhǔn)確反映了各自的風(fēng)格。
消融研究
本文引入外觀tokens以解決 EoT tokens在生成高頻細(xì)節(jié)方面的不足。這個(gè)消融研究主要探討了這兩種標(biāo)記類型在實(shí)例生成中的作用。
appearance tokens. 如下表 3 所示,去除外觀tokens會(huì)導(dǎo)致模型的 IFS 率和 FID 下降,表明詳細(xì)特征的丟失。此外,如下圖 5 所示,沒(méi)有外觀tokens生成的圖像表現(xiàn)出實(shí)例特征的不匹配,進(jìn)一步證明了外觀tokens主要負(fù)責(zé)生成高頻外觀特征。
EoT token. 在沒(méi)有 EoT token的情況下生成圖像時(shí),IFS 率顯著下降。這主要是因?yàn)?EoT token負(fù)責(zé)生成實(shí)例的粗略語(yǔ)義。此外,上圖 5 指出,去除 EoT token會(huì)導(dǎo)致語(yǔ)義級(jí)別的問(wèn)題,如實(shí)例類別錯(cuò)誤和實(shí)例遺漏。
結(jié)論
本文提出了 IFAdapter,以對(duì)預(yù)訓(xùn)練的 Stable Diffusion 模型進(jìn)行細(xì)粒度的實(shí)例級(jí)控制。通過(guò)引入外觀tokens,增強(qiáng)了模型生成詳細(xì)實(shí)例特征的能力。利用外觀tokens構(gòu)建實(shí)例語(yǔ)義圖,將實(shí)例級(jí)特征與空間位置對(duì)齊,從而實(shí)現(xiàn)了強(qiáng)大的空間控制。定性和定量結(jié)果都表明本文的方法在生成詳細(xì)實(shí)例特征方面表現(xiàn)出色。此外,由于其即插即用的特性,IFAdapter 可以作為插件無(wú)縫集成到社區(qū)模型中,而無(wú)需重新訓(xùn)練。
本文轉(zhuǎn)自 AI生成未來(lái) ,作者: AI生成未來(lái)
