自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架! 精華

發(fā)布于 2024-11-6 10:15
瀏覽
0收藏

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2410.13370
項(xiàng)目鏈接:https://correr-zhou.github.io/MagicTailor

亮點(diǎn)直擊

  • 引入了一項(xiàng)名為組件可控個(gè)性化的新任務(wù),使T2I模型在個(gè)性化過(guò)程中能夠精確控制概念的各個(gè)組件。此外,語(yǔ)義污染和語(yǔ)義不平衡被確定為此任務(wù)中的關(guān)鍵挑戰(zhàn)。
  • 提出了MagicTailor,這是一個(gè)專門(mén)為組件可控個(gè)性化設(shè)計(jì)的新框架。該框架結(jié)合了動(dòng)態(tài)掩碼退化(DM-Deg),用于動(dòng)態(tài)擾動(dòng)不需要的視覺(jué)語(yǔ)義,以及雙流平衡(DS-Bal),以確保視覺(jué)語(yǔ)義的平衡學(xué)習(xí)。
  • 綜合對(duì)比表明,MagicTailor在該任務(wù)中取得了優(yōu)異的性能。此外,消融研究和進(jìn)一步的應(yīng)用展示了該方法的有效性和多功能性。

總結(jié)速覽

解決的問(wèn)題

傳統(tǒng)的文本到圖像(T2I)擴(kuò)散模型在生成高質(zhì)量圖像方面有了顯著進(jìn)展,但仍難以精細(xì)控制特定的視覺(jué)概念?,F(xiàn)有方法雖然可以通過(guò)學(xué)習(xí)參考圖像來(lái)復(fù)制給定的概念,但在個(gè)體組件的細(xì)粒度自定義方面存在局限性。這種細(xì)粒度的控制受限于語(yǔ)義污染(不需要的視覺(jué)元素會(huì)干擾個(gè)性化概念)和語(yǔ)義不平衡(概念與組件之間的學(xué)習(xí)不均衡)兩個(gè)主要挑戰(zhàn)。

提出的方案

為了解決這些問(wèn)題,提出了“組件可控個(gè)性化”的新任務(wù),并設(shè)計(jì)了創(chuàng)新框架MagicTailor。MagicTailor通過(guò)動(dòng)態(tài)掩碼退化(DM-Deg) 動(dòng)態(tài)干擾不需要的視覺(jué)語(yǔ)義,同時(shí)使用 雙流平衡(DS-Bal) 建立了平衡的學(xué)習(xí)方式,從而實(shí)現(xiàn)對(duì)目標(biāo)視覺(jué)語(yǔ)義的精細(xì)控制。

應(yīng)用的技術(shù)

  • 動(dòng)態(tài)掩碼退化(DM-Deg):動(dòng)態(tài)擾動(dòng)不需要的視覺(jué)語(yǔ)義,減少語(yǔ)義污染。
  • 雙流平衡(DS-Bal):建立平衡的學(xué)習(xí)模式,解決語(yǔ)義不平衡問(wèn)題。

達(dá)到的效果

通過(guò)廣泛的對(duì)比實(shí)驗(yàn)、消融分析和性能分析,MagicTailor在組件可控的個(gè)性化任務(wù)上表現(xiàn)優(yōu)異,展示出顯著的實(shí)用潛力,為更細(xì)致和富有創(chuàng)造力的圖像生成鋪平了道路。

組件可控的個(gè)性化

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

  • (a) 個(gè)性化插圖,展示文本到圖像 (T2I) 擴(kuò)散模型如何從給定的參考圖像中學(xué)習(xí)和再現(xiàn)視覺(jué)概念。
  • (b) 組件可控個(gè)性化的圖示,描繪了一項(xiàng)新制定的任務(wù),旨在在個(gè)性化過(guò)程中修改視覺(jué)概念的特定組件。
  • (c) MagicTailor 生成的示例圖像,展示了所提出的 MagicTailor 的有效性,MagicTailor 是一種新穎的框架,采用 T2I 擴(kuò)散模型來(lái)實(shí)現(xiàn)組件可控的個(gè)性化。

組件可控個(gè)性化的挑戰(zhàn)

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

  • (a) 語(yǔ)義污染:
  • (i) 不受歡迎的視覺(jué)元素可能會(huì)無(wú)意中擾亂個(gè)性化概念。
  • (ii) 簡(jiǎn)單的屏蔽策略是無(wú)效的,會(huì)導(dǎo)致意外的合成
  • (iii) DM-Deg 有效地抑制了不需要的視覺(jué)語(yǔ)義,防止了這種污染。
  • (b) 語(yǔ)義不平衡:
  • (i) 同時(shí)學(xué)習(xí)概念和組件可能會(huì)導(dǎo)致不平衡,導(dǎo)致概念或組件扭曲(這里介紹前者的情況)。
  • (ii) DS-Bal 確保平衡學(xué)習(xí),提高個(gè)性化表現(xiàn)。

MagicTailor Pipeline

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

MagicTailor 使用參考圖像作為輸入,通過(guò)低秩自適應(yīng) (LoRA) 微調(diào) T2I 擴(kuò)散模型,以學(xué)習(xí)目標(biāo)概念和組件,從而能夠生成將組件無(wú)縫集成到概念中的圖像。

本文引入了動(dòng)態(tài)掩碼退化(DM-Deg),這是一種動(dòng)態(tài)干擾不需要的視覺(jué)語(yǔ)義的新技術(shù)。這種方法有助于抑制模型對(duì)不相關(guān)視覺(jué)細(xì)節(jié)的敏感性,同時(shí)保留整體視覺(jué)上下文,從而有效減輕語(yǔ)義污染。


此外,采用雙流平衡(DS-Bal),一種旨在平衡視覺(jué)語(yǔ)義學(xué)習(xí)的雙流學(xué)習(xí)范式,來(lái)解決語(yǔ)義不平衡的問(wèn)題。在線去噪 U-Net 執(zhí)行樣本最小-最大優(yōu)化,而動(dòng)量去噪 U-Net 應(yīng)用選擇性保留正則化,確保更忠實(shí)的個(gè)性化。

算法總覽

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

動(dòng)態(tài)mask退化

在此任務(wù)中,主要挑戰(zhàn)之一是語(yǔ)義污染,其中不需要的視覺(jué)語(yǔ)義可能被 T2I 模型感知,從而“污染”個(gè)性化概念。如圖 2(a.i) 所示,目標(biāo)概念(即人)可能會(huì)受到目標(biāo)組件的所有者(即眼睛)的嚴(yán)重干擾,導(dǎo)致生成混合的人物。不幸的是,直接遮蔽目標(biāo)概念和組件以外的區(qū)域會(huì)破壞整體視覺(jué)上下文,從而導(dǎo)致過(guò)擬合和奇怪的組合,如圖 2(a.ii) 所示。因此,參考圖像中不需要的視覺(jué)語(yǔ)義應(yīng)當(dāng)妥善處理。因此,我們提出了動(dòng)態(tài)掩膜降解(Dynamic Masked Degradation,DM-Deg),旨在動(dòng)態(tài)擾動(dòng)不需要的視覺(jué)語(yǔ)義(見(jiàn)圖 3),以抑制 T2I 模型對(duì)這些語(yǔ)義的感知,同時(shí)保持整體視覺(jué)上下文(見(jiàn)圖 2(a.iii))。

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

雙流平衡

在此任務(wù)中,另一個(gè)主要挑戰(zhàn)是語(yǔ)義不平衡,這源于目標(biāo)概念與組件之間固有的視覺(jué)語(yǔ)義差異。一般而言,一個(gè)概念的視覺(jué)語(yǔ)義通常比組件更為豐富(例如,人物與頭發(fā)),而在某些情況下,組件的語(yǔ)義豐富性可能大于概念(例如,簡(jiǎn)單的塔與復(fù)雜的屋頂)。這種不平衡使得聯(lián)合學(xué)習(xí)過(guò)程變得復(fù)雜,可能會(huì)過(guò)度強(qiáng)調(diào)概念或組件中的某一方,導(dǎo)致生成的不連貫性(見(jiàn)圖 5(a))。為了解決這一挑戰(zhàn),設(shè)計(jì)了雙流平衡(Dual-Stream Balancing,DS-Bal),建立了一種在線和動(dòng)量去噪 U-Net 的雙流學(xué)習(xí)范式(見(jiàn)圖 3),以平衡概念和組件的視覺(jué)語(yǔ)義學(xué)習(xí),從而提高個(gè)性化的保真度(見(jiàn)圖 5(b))。

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

定性結(jié)果

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

展示了由 MagicTailor 生成的圖像以及針對(duì)各個(gè)領(lǐng)域的個(gè)性化的 SOTA 方法。 MagicTailor 總體上實(shí)現(xiàn)了良好的文本對(duì)齊、強(qiáng)大的身份保真度和高生成質(zhì)量。

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

定量結(jié)果

突破個(gè)性化圖像生成局限!MagicTailor:組件可控個(gè)性化圖像生成創(chuàng)新框架!-AI.x社區(qū)

將 MagicTailor 與基于自動(dòng)指標(biāo)(CLIP-T、CLIP-I、DINO 和 DreamSim)和用戶研究(人類對(duì)文本對(duì)齊、身份保真度和生成質(zhì)量的偏好)的 SOTA 個(gè)性化方法進(jìn)行比較。最佳結(jié)果以粗體標(biāo)記。


MagicTailor 可以在這項(xiàng)具有挑戰(zhàn)性的任務(wù)中取得卓越的性能。

結(jié)論

本文引入了組件可控個(gè)性化這一新任務(wù),允許在個(gè)性化概念中精確定制各個(gè)組件。解決了使該任務(wù)特別困難的兩個(gè)主要挑戰(zhàn):語(yǔ)義污染(不需要的視覺(jué)元素破壞概念的完整性)和語(yǔ)義不平衡(導(dǎo)致視覺(jué)語(yǔ)義學(xué)習(xí)過(guò)程偏差)。為應(yīng)對(duì)這些挑戰(zhàn),提出了MagicTailor這一創(chuàng)新框架,包含動(dòng)態(tài)掩碼退化(DM-Deg)以緩解不需要的視覺(jué)語(yǔ)義影響,以及雙流平衡(DS-Bal)以確保視覺(jué)組件的平衡學(xué)習(xí)。全面實(shí)驗(yàn)表明,MagicTailor不僅在這一具有挑戰(zhàn)性的任務(wù)中樹(shù)立了新的基準(zhǔn),還為廣泛的創(chuàng)意應(yīng)用開(kāi)辟了令人興奮的可能性。展望未來(lái),設(shè)想將該方法擴(kuò)展至圖像和視頻生成的其他領(lǐng)域,探索如何識(shí)別、控制和操控多層次視覺(jué)語(yǔ)義,以實(shí)現(xiàn)更復(fù)雜和富有想象力的生成能力。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)


原文鏈接:??https://mp.weixin.qq.com/s/4eWAs4_ST58cAoJxnWHEgA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦