自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

組件可控個性化生成方法MagicTailor:生成過程可自由地定制ID

人工智能 新聞
在本文中,介紹了組件可控的個性化,這是一項(xiàng)新穎的任務(wù),它允許用戶在個性化視覺概念時重新配置特定組件,從而突破了 T2I 模型的界限。

本文經(jīng)AIGC Studio公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

文章提出了一種組件可控的個性化生成方法MagicTailor,旨在個性化生成過程中可以自由地定制ID的特定組件。

圖片圖片

相關(guān)鏈接

論文閱讀:https://arxiv.org/pdf/2410.13370

項(xiàng)目主頁:https://correr-zhou.github.io/MagicTailor/

論文介紹

圖片

文生圖(T2I)擴(kuò)散模型的最新進(jìn)展使得能夠根據(jù)文本提示創(chuàng)建高質(zhì)量圖像,但它們?nèi)匀浑y以生成對特定視覺概念進(jìn)行精確控制的圖像?,F(xiàn)有的方法可以通過學(xué)習(xí)參考圖像來復(fù)制給定的概念,但它們?nèi)狈Ω拍钪械母鱾€組件進(jìn)行細(xì)粒度定制的靈活性。

在本文中,介紹了組件可控的個性化,這是一項(xiàng)新穎的任務(wù),它允許用戶在個性化視覺概念時重新配置特定組件,從而突破了 T2I 模型的界限。由于兩個主要障礙,這項(xiàng)任務(wù)特別具有挑戰(zhàn)性:語義污染,即不需要的視覺元素破壞個性化概念;語義不平衡,導(dǎo)致概念和組件的學(xué)習(xí)不成比例。

為了克服這些挑戰(zhàn),本文設(shè)計了MagicTailor,這是一個創(chuàng)新框架,利用動態(tài)掩碼退化(DM-Deg)來動態(tài)擾亂不需要的視覺語義和雙流平衡(DS-Bal),為所需的視覺語義建立平衡的學(xué)習(xí)范例。廣泛的比較、消融和分析表明,MagicTailor 不僅在這項(xiàng)具有挑戰(zhàn)性的任務(wù)中表現(xiàn)出色,而且在實(shí)際應(yīng)用中也具有重大前景,為更細(xì)致和更具創(chuàng)意的圖像生成鋪平了道路。

方法介紹

圖片

MagicTailor 使用參考圖像作為輸入,通過低秩自適應(yīng) (LoRA) 微調(diào) T2I 擴(kuò)散模型,以學(xué)習(xí)目標(biāo)概念和組件,從而能夠生成將組件無縫集成到概念中的圖像。 我們引入了動態(tài)掩碼退化(DM-Deg),這是一種動態(tài)干擾不需要的視覺語義的新技術(shù)。這種方法有助于抑制模型對不相關(guān)視覺細(xì)節(jié)的敏感性,同時保留整體視覺上下文,從而有效減輕語義污染。 此外,我們采用雙流平衡(DS-Bal),一種旨在平衡視覺語義學(xué)習(xí)的雙流學(xué)習(xí)范式,來解決語義不平衡的問題。在線去噪 U-Net 執(zhí)行樣本最小-最大優(yōu)化,而動量去噪 U-Net 應(yīng)用選擇性保留正則化,確保更忠實(shí)的個性化。

組件可控的個性化

圖片

(a) 個性化插圖,展示文本到圖像 (T2I) 擴(kuò)散模型如何從給定的參考圖像中學(xué)習(xí)和再現(xiàn)視覺概念。 (b) 組件可控個性化的圖示,描繪了一項(xiàng)新制定的任務(wù),旨在在個性化過程中修改視覺概念的特定組件。 (c) MagicTailor 生成的示例圖像,展示了所提出的 MagicTailor 的有效性,MagicTailor 是一種新穎的框架,采用 T2I 擴(kuò)散模型來實(shí)現(xiàn)組件可控的個性化。

組件可控個性化的挑戰(zhàn)

語義污染

  1. 不受歡迎的視覺元素可能會無意中擾亂個性化概念。
  2. 簡單的屏蔽策略是無效的,會導(dǎo)致意外的合成;
  3. 我們的 DM-Deg 有效地抑制了不需要的視覺語義,防止了這種污染。

語義不平衡

圖片

  1. 同時學(xué)習(xí)概念和組件可能會導(dǎo)致不平衡,導(dǎo)致概念或組件扭曲(這里我們介紹前者的情況)。
  2. 我們的 DS-Bal 確保平衡學(xué)習(xí),提高個性化表現(xiàn)。

定性結(jié)果

圖片

我們展示了由 MagicTailor 生成的圖像以及針對各個領(lǐng)域的個性化的 SOTA 方法。 MagicTailor 總體上實(shí)現(xiàn)了良好的文本對齊、強(qiáng)大的身份保真度和高生成質(zhì)量。

圖片

定量結(jié)果

圖片

我們將 MagicTailor 與基于自動指標(biāo)(CLIP-T、CLIP-I、DINO 和 DreamSim)和用戶研究(人類對文本對齊、身份保真度和生成質(zhì)量的偏好)的 SOTA 個性化方法進(jìn)行比較。最佳結(jié)果以粗體標(biāo)記。 MagicTailor 可以在這項(xiàng)具有挑戰(zhàn)性的任務(wù)中取得卓越的性能。

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2024-06-19 12:54:26

2023-12-20 13:50:00

SpringBootJSON序列化

2016-11-29 09:12:21

數(shù)據(jù)庫分布式ID

2024-04-01 13:08:24

唯一IDC#后端

2009-06-16 11:13:38

Javadoc生成方法Javadoc

2012-05-18 12:45:58

2024-07-19 16:18:15

2009-06-22 14:57:09

2017-07-10 17:25:40

開發(fā)單號高可用

2009-09-28 11:01:48

2021-12-28 07:20:44

UA網(wǎng)絡(luò)協(xié)議

2011-05-07 16:27:04

網(wǎng)頁Web

2017-09-15 10:36:41

大數(shù)據(jù)貧困學(xué)生資助

2011-04-28 11:14:33

simpleframe

2025-03-28 10:27:29

2024-01-16 12:10:10

2023-03-09 07:51:23

性能提升數(shù)據(jù)庫

2009-12-29 10:32:24

WPF Listbox

2009-06-25 17:24:06

Hibernate主鍵

2025-01-20 10:23:00

圖像生成AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號