自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定

發(fā)布于 2025-1-6 09:34
瀏覽
0收藏

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.20800  
代碼地址:https://github.com/fenfenfenfan/VMix
項(xiàng)目地址:https://vmix-diffusion.github.io/VMix/

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

亮點(diǎn)直擊

  • 分析并探索現(xiàn)有模型在光影、色彩等細(xì)粒度美學(xué)維度上生成圖像的差異,提出在文本提示中解耦這些屬性,并構(gòu)建一個(gè)細(xì)粒度的美學(xué)標(biāo)簽體系,提供清晰的模型優(yōu)化方向;
  • 提出VMix條件注入方法,它將輸入文本提示解耦為內(nèi)容描述和美學(xué)描述,通過(guò)值混合交叉注意力的條件控制方法,從不同維度提升模型生成的美感;
  • 提出的方法對(duì)于現(xiàn)有的擴(kuò)散模型具有普適效果,作者基于此訓(xùn)練了一個(gè)即插即用的美學(xué)適配器,與社區(qū)模塊高度兼容。
  • 實(shí)驗(yàn)表明,提出的方法能顯著提升現(xiàn)有模型生成美感,優(yōu)于FreeU、DPO、Textual Inversion等方法。

總結(jié)速覽

解決的問(wèn)題

  • 擴(kuò)散模型在文本到圖像生成方面表現(xiàn)出色,現(xiàn)有方法在提升圖像質(zhì)量以滿足人類(lèi)偏好方面做出了努力,但未能充分滿足人類(lèi)對(duì)視覺(jué)生成內(nèi)容的細(xì)粒度審美偏好,如自然光線、豐富色彩和合理構(gòu)圖等;
  • 現(xiàn)有方法在提升圖像質(zhì)量以滿足人類(lèi)偏好方面做出了努力,如FreeU、DPO等,盡管整體生成結(jié)果可能在文本對(duì)齊方面表現(xiàn)更好,但可能在視覺(jué)構(gòu)圖等方面表現(xiàn)較差,現(xiàn)有方法未能準(zhǔn)確對(duì)齊生成圖像與人類(lèi)偏好。

提出的方案

  • 通過(guò)對(duì)齊人類(lèi)設(shè)計(jì)師偏好,構(gòu)建包括光影、色彩、構(gòu)圖等不同美學(xué)標(biāo)簽,將文本條件解耦成內(nèi)容描述和美學(xué)描述;
  • 提出新的條件注入方法VMix,通過(guò)審美嵌入初始化模塊和跨注意力混合控制模塊,在保持原有模型圖文匹配能力同時(shí),提升美學(xué)表現(xiàn);
  • VMix設(shè)計(jì)靈活,能夠與社區(qū)模塊(如LoRA、ControlNet和IPAdapter)兼容,為圖像生成提供更大的創(chuàng)造能力。

應(yīng)用的技術(shù)

  • 擴(kuò)散模型架構(gòu):Stable Diffusion、SDXL被作為基礎(chǔ)圖像生成模型進(jìn)行實(shí)驗(yàn),通過(guò)凍結(jié)基模僅訓(xùn)練額外小參數(shù)網(wǎng)絡(luò)提升模型美感;
  • 美學(xué)向量初始化:通過(guò)初始化美學(xué)向量,將輸入文本提示分離為內(nèi)容描述和多維度美學(xué)描述,并通過(guò)映射網(wǎng)絡(luò)將審美標(biāo)簽作為額外條件整合到去噪模型中;
  • 值混合交叉注意力:引入交叉注意力混合控制網(wǎng)絡(luò),在不直接改變注意力圖的同時(shí),最小化對(duì)圖像-文本對(duì)齊的不利影響,從而更好的注入美學(xué)條件。

達(dá)到的效果

  • VMix能夠在不損害模型原有圖文匹配能力的同時(shí),提升模型在光影、色彩、構(gòu)圖等不同美學(xué)維度的表現(xiàn);在與其他方法,如FreeU、DPO、Textual Inversion的比較中表現(xiàn)更出色,證明了其在提升圖像美感方面的有效性。
  • 在MJHQ-30K和LAION-HQ10K基準(zhǔn)測(cè)試中,VMix在Aes分?jǐn)?shù)上取得了最高分,表明其在提升美感的重要性。用戶(hù)研究也表明,應(yīng)用VMix后,預(yù)訓(xùn)練和開(kāi)源模型更受用戶(hù)青睞。

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

方法

VMix框架的pipeline和實(shí)現(xiàn)細(xì)節(jié),如下圖所示,分為三個(gè)階段:
(1)美學(xué)向量初始化階段;(2)訓(xùn)練階段;(3)推理階段

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

美學(xué)向量初始化

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

其中d是維度,N表示美學(xué)標(biāo)簽對(duì)的數(shù)量。

交叉注意力混合控制

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

fa是從美學(xué)向量映射網(wǎng)絡(luò)出的最終文本特征。在訓(xùn)練開(kāi)始時(shí),作為連接層的零初始化線性層的權(quán)重和偏置被設(shè)置為零。這種初始化確保了微調(diào)模型不會(huì)引入有害噪聲,從而保留了原始預(yù)訓(xùn)練模型的能力。

值混合交叉注意力:交叉注意力層中的注意力圖決定了文本標(biāo)記在每個(gè)圖像塊的概率分布,為了盡可能保留預(yù)訓(xùn)練模型中固有的圖文匹配能力,通過(guò)內(nèi)容分支和美學(xué)分支雙分支的方式在擴(kuò)散模型中引入值混合交叉注意力網(wǎng)絡(luò),這兩個(gè)分支共享注意力圖,對(duì)于美學(xué)分支,僅讓網(wǎng)絡(luò)學(xué)習(xí)一個(gè)新的value,從而減少注入過(guò)程中對(duì)原始注意力圖的影響,這個(gè)過(guò)程可以表示為:

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

訓(xùn)練及推理細(xì)節(jié)

模型全參數(shù)訓(xùn)練雖然會(huì)有更高的上限,但會(huì)產(chǎn)生高昂的成本,并且高度定制化;訓(xùn)練過(guò)程中,基模參數(shù)被凍結(jié),只訓(xùn)練新增的映射網(wǎng)絡(luò)和值混合交叉注意力網(wǎng)絡(luò),基模通過(guò)掛載一個(gè)小參數(shù)的LoRA,從而使模型訓(xùn)練過(guò)程更加穩(wěn)定,并增強(qiáng)了其適用性。訓(xùn)練完成后,形成一個(gè)即插即用的模塊。在推理階段,默認(rèn)使用所有正面的審美標(biāo)簽,如上圖(c)所示,從而提升模型在所有審美維度上的生成質(zhì)量。盡管在訓(xùn)練階段使用了LoRA,在推理階段這不是必需的,后面有相關(guān)的消融實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)設(shè)置

訓(xùn)練數(shù)據(jù):從LAION等大型公開(kāi)英文數(shù)據(jù)集中提取了20萬(wàn)張圖片,采用自動(dòng)和人工過(guò)濾組合方式進(jìn)行清洗。這批圖除了內(nèi)容描述文本外,還會(huì)標(biāo)注不同美學(xué)維度(如色彩、光影、構(gòu)圖、重心等)的分類(lèi)標(biāo)簽,用來(lái)作為訓(xùn)練過(guò)程中的額外條件。

訓(xùn)練設(shè)置:SD1.5和SDXL的學(xué)習(xí)率分別設(shè)置為1e?4和1e?5。Batch size設(shè)置為256,實(shí)驗(yàn)中的總訓(xùn)練步數(shù)為50,000。在推理階段,使用DDIM采樣器進(jìn)行采樣25步,CFG為7.5,不使用反向提示詞。

評(píng)估細(xì)節(jié):除了使用MJHQ-30K數(shù)據(jù)集進(jìn)行評(píng)估外,額外構(gòu)建一個(gè)只包含高美學(xué)和高分辨率圖片的LAION-HQ10K數(shù)據(jù)集,使用FID、CLIP Score和Aes Score衡量生成圖像的整體質(zhì)量。

結(jié)果

定性比較:在視覺(jué)效果上,VMix顯著優(yōu)于其它方法,并且與使用同樣訓(xùn)練集的SFT方法比,VMix的效果更好,從而驗(yàn)證了條件注入的有效性,同時(shí)對(duì)高質(zhì)量數(shù)據(jù)進(jìn)行消融。此外,VMix作為插件可以直接應(yīng)用于開(kāi)源模型,提升它們的美學(xué)表現(xiàn)。

SD1.5上不同方法的比較

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

SDXL上不同方法的比較

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

應(yīng)用于開(kāi)源模型的效果

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

定量指標(biāo):VMix模型有著最高的Aes Score,并且可以看到基模的圖文匹配能力并沒(méi)有受到影響,甚至條件解耦后模型相較普通SFT方式更容易在高質(zhì)量數(shù)據(jù)集上收斂。推理階段隨著增大,圖片美感也會(huì)隨之提升。

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

消融實(shí)驗(yàn):文中進(jìn)一步分析了AesEmb不同維度對(duì)生成結(jié)果的影響,可以看到不同美學(xué)維度都能明顯改善圖片質(zhì)量,當(dāng)一起使用時(shí)效果最好;文中還對(duì)對(duì)LoRA的使用進(jìn)行了消融,從而驗(yàn)證模型性能的提升主要來(lái)自VMix本身。

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

即插即用,無(wú)痛增強(qiáng)模型生成美感!字節(jié)跳動(dòng)提出VMix:細(xì)粒度美學(xué)控制,光影、色彩全搞定-AI.x社區(qū)

結(jié)論

這項(xiàng)研究提出了VMix,它通過(guò)引入美學(xué)標(biāo)簽(光影、色彩、構(gòu)圖等)作為額外的條件,并采用交叉注意力混合控制方法來(lái)增強(qiáng)模型在各種美學(xué)維度上的表現(xiàn)。論文發(fā)現(xiàn),讓模型對(duì)齊人類(lèi)期望的最關(guān)鍵因素之一是使用適當(dāng)?shù)臈l件控制方法,在解耦的細(xì)粒度美學(xué)標(biāo)簽下進(jìn)行訓(xùn)練。受此啟發(fā),論文提出了一種有效的條件控制方法,顯著提高了模型的生成質(zhì)量。廣泛的實(shí)驗(yàn)驗(yàn)證了VMix在文本忠實(shí)度和視覺(jué)美學(xué)方面超越了其他最先進(jìn)的方法。作為一個(gè)即插即用的插件,VMix可以與開(kāi)源模型無(wú)縫集成,提升審美表現(xiàn),從而進(jìn)一步推動(dòng)社區(qū)的發(fā)展。


本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/nbAcxAyMlMHQWyWhIxAsHA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄