解決文生圖質(zhì)量和美學(xué)問題，字節(jié)跳動(dòng)提出VMix：多維度美學(xué)控制方法，一鍵提升圖像美學(xué)

作者：AIGC Studio 2025-01-22 09:48:07

論文基于提出的方法訓(xùn)練了一個(gè)即插即用的模塊，無需再訓(xùn)練即可應(yīng)用于不同的開源模型，提升模型的生成美感。

本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

為了解決擴(kuò)散模型在文生圖的質(zhì)量和美學(xué)問題，字節(jié)跳動(dòng)&中科大研究團(tuán)隊(duì)提出VMix美學(xué)條件注入方法，通過將抽象的圖像美感拆分成不同維度的美學(xué)向量引入擴(kuò)散模型，從而實(shí)現(xiàn)細(xì)粒度美學(xué)圖像生成。論文基于提出的方法訓(xùn)練了一個(gè)即插即用的模塊，無需再訓(xùn)練即可應(yīng)用于不同的開源模型，提升模型的生成美感。

論文介紹

雖然擴(kuò)散模型在文本到圖像生成方面表現(xiàn)出色，但它們?nèi)钥赡軣o法生成高度美觀的圖像。更具體地說，在顏色、光照、構(gòu)圖等更細(xì)粒度的維度上，生成的圖像與現(xiàn)實(shí)世界的美學(xué)圖像之間仍然存在差距。

在本文中，我們提出了跨注意值混合控制（VMix）適配器，這是一種即插即用的美學(xué)適配器，通過（1）通過初始化美學(xué)嵌入將輸入文本提示解開為內(nèi)容描述和美學(xué)描述，以及（2）通過值混合交叉注意將美學(xué)條件整合到去噪過程中，網(wǎng)絡(luò)通過零初始化的線性層連接，來升級(jí)生成圖像的質(zhì)量，同時(shí)保持跨視覺概念的通用性。我們的關(guān)鍵見解是通過設(shè)計(jì)一種優(yōu)越的條件控制方法來增強(qiáng)現(xiàn)有擴(kuò)散模型的美學(xué)呈現(xiàn)，同時(shí)保持圖像-文本對(duì)齊。

通過我們精心的設(shè)計(jì)，VMix 足夠靈活，可以應(yīng)用于社區(qū)模型以獲得更好的視覺性能而無需重新訓(xùn)練。為了驗(yàn)證我們方法的有效性，我們進(jìn)行了大量實(shí)驗(yàn)，結(jié)果表明 VMix 優(yōu)于其他最先進(jìn)的方法，并且與其他社區(qū)模塊（例如 LoRA、ControlNet 和 IPAdapter）兼容以用于圖像生成。

現(xiàn)有的方法總是無法滿足人類對(duì)視覺生成內(nèi)容的細(xì)粒度偏好。人類喜愛的圖像應(yīng)該同時(shí)在各種細(xì)粒度的美學(xué)維度上表現(xiàn)出色，例如自然光、連貫的色彩和合理的構(gòu)圖。為了應(yīng)對(duì)這一挑戰(zhàn)，我們推出了VMix，這是一種新穎的即插即用適配器，旨在系統(tǒng)地彌合生成的圖像與現(xiàn)實(shí)世界圖像在各種美學(xué)維度上的美學(xué)質(zhì)量差距。

它是如何工作的？

VMix 示意圖：

（a）在初始化階段，通過 CLIP 將預(yù)定義的美學(xué)標(biāo)簽轉(zhuǎn)化為 [CLS] token，從而得到 AesEmb，只需要在訓(xùn)練開始時(shí)處理一次。

（b）在訓(xùn)練階段，項(xiàng)目層首先將輸入的美學(xué)描述 y aes映射到與內(nèi)容文本嵌入 f t具有相同 token 維度的嵌入 f a 。然后通過值混合交叉注意力將文本嵌入 f t集成到去噪網(wǎng)絡(luò)中。

美學(xué)細(xì)膩控制

VMix 可以通過調(diào)整美學(xué)嵌入來實(shí)現(xiàn)細(xì)粒度的美學(xué)控制。當(dāng)僅使用單維美學(xué)標(biāo)簽時(shí)，可以觀察到圖像質(zhì)量在特定維度上得到改善。當(dāng)使用全正美學(xué)標(biāo)簽時(shí)，圖像的視覺性能整體優(yōu)于基線。