模型安全武裝,復(fù)旦新研究實現(xiàn)SOTA擴散模型風(fēng)險概念擦除效果,入選AAAI 2025
論文第一、第二作者為復(fù)旦大學(xué)視覺與學(xué)習(xí)實驗室的碩士生韓楓和博士生陳凱。通訊作者為陳靜靜副教授。研究團隊專注于 AI 安全的研究,近年來在 CVPR,ECCV,AAAI,ACM MM 等頂會上發(fā)表過多篇 AI 安全的研究成果。
文生圖模型生成圖片過于露骨?不妨直接給圖像穿上衣服。
復(fù)旦大學(xué)團隊設(shè)計的風(fēng)險概念移除網(wǎng)絡(luò) DuMo 不僅實現(xiàn)上述功能,同時盡可能保證人物以及其他屬性不受影響。達到現(xiàn)有最好的指哪擦哪效果。
同時,DuMo 也可避免文生圖模型模仿藝術(shù)家風(fēng)格,從而制作一些侵犯版權(quán)的照片。
隨著生成式人工智能技術(shù)的快速發(fā)展,擴散模型圖像生成能力已達到了令人驚嘆的高度。然而,這一技術(shù)也伴隨著安全隱患,例如生成含有敏感、不當(dāng)或侵犯版權(quán)的內(nèi)容。
現(xiàn)有方法一般通過一種名為概念擦除的微調(diào)方法以實現(xiàn)模型去毒。
復(fù)旦大學(xué)研究團隊提出了一種全新的雙編碼器調(diào)制網(wǎng)絡(luò)(DuMo),通過創(chuàng)新性的架構(gòu)和算法,實現(xiàn)了對擴散模型中特定風(fēng)險概念的精準(zhǔn)擦除,在擦除效果和精確度方面均達到 SOTA 水平,研究成果已被頂級會議 AAAI 2025 收錄。
- 論文:DuMo: Dual Encoder Modulation Network for Precise Concept Erasure
- 論文鏈接:https://arxiv.org/abs/2501.01125
DuMo:擦除風(fēng)險內(nèi)容,保護生成能力
當(dāng)前的概念擦除技術(shù)普遍面臨兩個挑戰(zhàn):一是難以有效擦除風(fēng)險概念,二是擦除過程中,微調(diào)后模型對其他安全概念的生成能力被破壞。DuMo 在這兩個方面取得了突破,成功地解決了「擦除」和「保護」之間的矛盾。
具體而言,U-Net 特征分為主干網(wǎng)絡(luò)特征,和跳躍連接特征。其他方法都對 U-Net 的主干特征進行了修改,會對安全概念的生成產(chǎn)生不良影響,破壞其結(jié)構(gòu)完整性 [1]。此外,跳躍連接特征的潛力沒有得到充分挖掘,這限制了模型在執(zhí)行概念擦除時的能力,同時也影響了模型的生成效果 [2]。
DuMo 通過對 EPR 擦除模塊和時間 - 層級調(diào)制機制(TLMO)的兩階段微調(diào)以實現(xiàn)上述效果:
1、基于跳躍連接的 EPR 擦除模塊
DuMo 采用了創(chuàng)新性的「基于先驗知識的擦除模塊」(EPR)。EPR 擦除模塊是由一份 U-Net Enoder 的副本和零卷積組拼接得到的。零卷積組的卷積層參數(shù)被初始化為零,而且原始 U-Net 主干的參數(shù)被凍結(jié),其包含的模型先驗知識被全部保留,只有跳躍連接特征被修改,從而最大程度避免對安全概念的結(jié)構(gòu)和生成質(zhì)量產(chǎn)生負(fù)面影響 [1]。第一階段微調(diào)過程中 DuMo 將不安全概念(例如「裸露」)對齊到目標(biāo)概念(例如,空文本 「 」)以達到概念擦除的效果
2、時間 - 層級調(diào)制(TLMO)機制
作者觀察到,EPR 模塊在不同的跳躍連接層和去噪時間步上,對圖像中的低頻結(jié)構(gòu)元素和高頻細(xì)節(jié)部分表現(xiàn)出不同的擦除偏好。通過將跳躍連接層和時間步分組,DuMo 發(fā)現(xiàn)不同層級和時間步對圖像的影響不同,因此采取了特定的調(diào)整策略。
DuMo 設(shè)計了一個獨特的時間 - 層級調(diào)制(TLMO)策略,針對擴散模型的生成過程中的不同時間步和網(wǎng)絡(luò)層級,使用微調(diào)得到的調(diào)制系數(shù),自動調(diào)整 EPR 模塊不同輸出的擦除強度。
同時在第二階段的微調(diào)過程中,除了損失函數(shù)中原有的項外,還添加了一個正則項,用于將微調(diào)后的模型噪聲(對應(yīng)空文本)與原始模型進行對齊。這些機制大幅減少對安全概念的影響,從而在擦除風(fēng)險概念的同時,保證安全概念的生成質(zhì)量和細(xì)節(jié)。
實驗驗證:擦除能力與生成保留的雙贏
DuMo 在裸露內(nèi)容擦除、卡通概念移除和藝術(shù)風(fēng)格擦除三個任務(wù)上進行了全面驗證,其表現(xiàn)優(yōu)于當(dāng)前所有主流方法。
裸露內(nèi)容擦除
在風(fēng)險性最高的「裸露內(nèi)容擦除」任務(wù)中,DuMo 在 I2P 基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)令人矚目:
- 裸體部位檢測數(shù)量僅為 34 個,是現(xiàn)有最佳方法。
- 生成圖像的質(zhì)量指標(biāo)(FID)與 CLIP Score 均達到頂尖水平,生成能力顯著優(yōu)于其他方法。
在擦除裸露概念后,DuMo 還能很好的保持圖像的結(jié)構(gòu)。如第一行人物的姿勢和第二行人物位置與背景。
卡通概念移除
針對「Snoopy」等流行卡通概念的擦除任務(wù),DuMo 實現(xiàn)了更好的平衡:
- 單概念擦除任務(wù)中,LPIPS_da(擦除效果 - 生成能力保留平衡性)提升了 0.096;
- 多概念擦除任務(wù)中,LPIPS_da 進一步提升了 0.142,證明其對復(fù)雜任務(wù)的優(yōu)異適應(yīng)性。
藝術(shù)風(fēng)格擦除
在藝術(shù)風(fēng)格移除任務(wù)中,DuMo 精準(zhǔn)擦除了「梵高」和「倫勃朗」等風(fēng)格特征,同時對其他藝術(shù)家風(fēng)格的破壞降到最低:
- 實現(xiàn)了 SOTA 級別的風(fēng)格擦除效果;
- 定量指標(biāo) LPIPS_da 表現(xiàn)顯著優(yōu)于對比方法。
在擦除梵高風(fēng)格的實驗中,其他藝術(shù)家風(fēng)格圖片的生成也不受影響。