零階優(yōu)化的擴散模型個性化方法;合成圖像檢測;舞蹈動作音樂同步生成
Efficient Personalization of Quantized Diffusion Model without Backpropagation
2025-03-19|SNU, INMC&IPAI|??18
???http://arxiv.org/abs/2503.14868v1????
????https://huggingface.co/papers/2503.14868????
????https://ignoww.github.io/ZOODiP_project/???
研究背景與意義
當前擴散模型在圖像生成領(lǐng)域表現(xiàn)出色,但其訓練、微調(diào)和推理過程需要大量的計算和內(nèi)存資源。盡管量化技術(shù)成功減少了推理時的內(nèi)存使用,但訓練和微調(diào)這些量化模型仍需大量內(nèi)存,這主要歸因于反量化以精確計算梯度及反向傳播所需的內(nèi)存。個性化任務通常需要在邊緣設備上用少量用戶提供的圖像對擴散模型進行微調(diào),這對內(nèi)存受限的設備提出了重大挑戰(zhàn)。本文提出了一種基于零階優(yōu)化的擴散模型個性化方法(ZOODiP),它通過量化模型、子空間梯度優(yōu)化和定制的時間步采樣策略,顯著降低了內(nèi)存需求。
研究方法與創(chuàng)新
ZOODiP的核心在于結(jié)合零階優(yōu)化與量化模型,從而避免了反向傳播及其相關(guān)的內(nèi)存開銷。具體而言,該方法利用以下三個關(guān)鍵觀察點:首先,零階優(yōu)化能夠有效處理不可微的目標函數(shù);其次,文本反轉(zhuǎn)中的標記主要在一個低維子空間內(nèi)變化,通過主成分分析發(fā)現(xiàn)初始和個性化標記主要更新在這個子空間內(nèi);最后,基于先前工作,不同時間步在擴散模型中扮演不同角色,因此可以識別出有效的個性化時間步區(qū)間?;谶@些觀察,ZOODiP引入了子空間梯度(SG)來加速訓練,并通過投影過去標記的歷史構(gòu)建子空間以消除噪聲梯度維度。此外,還提出了部分均勻時間步采樣(PUTS),專注于特定的有效時間步,進一步提升效率。
實驗設計方面,ZOODiP采用隨機梯度估計(RGE)來估算量化模型上的梯度,同時利用PCA分析標記軌跡以確定低方差特征向量,從而從估計的梯度中投影出噪聲維度。這種方法不僅顯著減少了內(nèi)存使用,還通過聚焦于低維子空間和有效時間步提升了訓練速度和性能。
實驗設計與結(jié)果分析
為了驗證ZOODiP的有效性,研究者進行了定量和定性的對比實驗。定量結(jié)果顯示,ZOODiP在CLIP-I和DINO等指標上取得了與現(xiàn)有方法相當甚至更優(yōu)的表現(xiàn),同時將訓練內(nèi)存需求降至2.37GB,比DreamBooth減少了87.8%的內(nèi)存消耗。定性結(jié)果表明,ZOODiP生成的圖像高度忠實于提示詞和參考圖像,展現(xiàn)出強大的文本-圖像對齊能力。此外,消融研究表明,子空間梯度和部分均勻時間步采樣對性能有顯著提升作用。
結(jié)論與展望
ZOODiP通過結(jié)合零階優(yōu)化、量化模型、子空間梯度和部分均勻時間步采樣,成功實現(xiàn)了在內(nèi)存受限環(huán)境下的擴散模型個性化。未來工作可進一步探索更高效的優(yōu)化策略和時間步采樣方法,以適應更多應用場景。此外,雖然ZOODiP在當前實驗中表現(xiàn)優(yōu)異,但在某些極端情況下仍可能存在性能波動,這需要后續(xù)研究加以改進。
LEGION: Learning to Ground and Explain for Synthetic Image Detection
2025-03-19|SJTU, Shanghai AI Lab, BUAA, SYSU, SenseTime|??8
???http://arxiv.org/abs/2503.15264v1????
????https://huggingface.co/papers/2503.15264????
????https://opendatalab.github.io/LEGION???
研究背景與意義
隨著生成技術(shù)的快速發(fā)展,合成圖像檢測成為一項兼具挑戰(zhàn)性和社會意義的任務。當前方法往往缺乏對圖像偽造細節(jié)的解釋能力,并且過于關(guān)注圖像操縱檢測,而忽略了全合成圖像中的復雜偽影分析。此外,現(xiàn)有數(shù)據(jù)集通常存在生成器過時、標注粗糙等問題,難以支持深入研究。
SynthScars 數(shù)據(jù)集的引入旨在解決這些問題。它包含 12,236 張高質(zhì)量全合成圖像,涵蓋多樣內(nèi)容類型和精細標注,包括像素級分割、詳細文本解釋及偽影類別標簽。LEGION 框架則進一步通過多模態(tài)大語言模型(MLLM)實現(xiàn)了偽影檢測、分割與解釋的集成,不僅作為防御者檢測偽造圖像,還作為控制器指導生成更高質(zhì)量的圖像。
這項研究的意義在于推動合成圖像檢測技術(shù)的發(fā)展,同時探索其在圖像生成領(lǐng)域的潛在應用價值,為生成式 AI 的可控發(fā)展提供了新思路。
研究方法與創(chuàng)新
LEGION 框架的核心在于結(jié)合 MLLM 的強大推理能力和視覺任務的具體需求,實現(xiàn)從偽影檢測到圖像優(yōu)化的全流程覆蓋。以下是其主要創(chuàng)新點:
- 雙層標注體系SynthScars 數(shù)據(jù)集采用像素級掩碼與文本解釋相結(jié)合的方式,提供更精確的偽影定位和語義理解。這種細粒度標注方式顯著提升了模型的學習效率和泛化能力。
- 多任務框架設計LEGION 集成了偽影檢測、分割和解釋三個子任務,通過全局圖像編碼器、LLM、接地圖像編碼器和像素解碼器四個核心組件協(xié)同工作。具體而言:
- 全局圖像編碼器提取輸入圖像特征。
- LLM 根據(jù)視覺信息生成自然語言解釋。
- 接地圖像編碼器用于偽影區(qū)域的精確定位。
- 像素解碼器輸出二值掩碼以標識偽影位置。
- 迭代優(yōu)化策略LEGION 不僅能檢測偽影,還能通過反饋機制指導圖像生成模型逐步消除偽影。例如,在圖像再生過程中,LEGION 提供的解釋被用于修訂初始提示詞;在圖像修復中,LEGION 輸出的掩碼和解釋引導逐區(qū)域選擇性優(yōu)化。
- 跨領(lǐng)域適配能力實驗表明,LEGION 在多個基準測試中表現(xiàn)出色,尤其在 SynthScars 數(shù)據(jù)集上超越了第二強的傳統(tǒng)專家模型 3.31% 的 mIoU 和 7.75% 的 F1 分數(shù)。這得益于其強大的泛化能力和對復雜偽影的理解深度。
這些創(chuàng)新點共同構(gòu)成了 LEGION 的獨特優(yōu)勢:既能精準定位偽影并提供可解釋結(jié)果,又能有效指導生成模型提升輸出質(zhì)量。
實驗設計與結(jié)果分析
實驗部分驗證了 LEGION 在偽影定位、解釋生成和圖像優(yōu)化方面的性能。以下是關(guān)鍵結(jié)果:
- 偽影定位評估使用 SynthScars 數(shù)據(jù)集的訓練集進行訓練,并在測試集上評估。此外,還測試了模型在 LOKI 和 RichHF-18K 等未見領(lǐng)域上的泛化能力。結(jié)果顯示,LEGION 在所有三個數(shù)據(jù)集上均達到 SOTA 性能,尤其在 SynthScars 上表現(xiàn)突出。
- 解釋生成評估通過 ROUGE-L 和 CSS 指標衡量生成文本與真實標注的一致性。LEGION 在這兩個指標上分別達到 39.50 和 72.60(歸一化后),顯著優(yōu)于其他多模態(tài)模型。
- 圖像優(yōu)化評估在圖像再生和修復任務中,LEGION 引導生成模型逐步改進輸出質(zhì)量。實驗使用 Human Preference Score (HPS) 衡量改進效果,結(jié)果顯示優(yōu)化后的圖像偏好得分平均增長 6.98%(再生)和 2.14%(修復)。
總體來看,LEGION 在各項任務中均展現(xiàn)出卓越性能,證明了其方法的有效性和魯棒性。
結(jié)論與展望
本研究提出 SynthScars 數(shù)據(jù)集和 LEGION 框架,解決了現(xiàn)有合成圖像檢測方法中存在的數(shù)據(jù)質(zhì)量和方法局限問題。LEGION 不僅能夠精準檢測偽影并提供可解釋結(jié)果,還能作為控制器指導生成模型優(yōu)化輸出質(zhì)量。
然而,該方法仍存在一些局限性。例如,全合成偽影的多樣性與靈活性使得完全自動化檢測仍具挑戰(zhàn);此外,LLM 的推理成本較高,可能限制實際應用范圍。未來工作可以圍繞以下幾個方向展開:
- 開發(fā)更高效的語言模型以降低計算開銷。
- 探索無監(jiān)督或弱監(jiān)督學習方法以減少人工標注依賴。
- 深入研究全球性推理能力以應對復雜偽影。
LEGION 的成功應用展示了合成圖像檢測與生成技術(shù)的雙向促進關(guān)系,為生成式 AI 的負責任發(fā)展開辟了新路徑。
MusicInfuser: Making Video Diffusion Listen and Dance
2025-03-18|U Washington, U Washington, U Washington, U Washington|??8
???http://arxiv.org/abs/2503.14505v1????
????https://huggingface.co/papers/2503.14505????
????https://susunghong.github.io/MusicInfuser???
研究背景與意義
MusicInfuser的提出旨在解決現(xiàn)有AI視頻生成工具(如Sora、Gen、Veo)僅能生成無聲視頻的問題。盡管事后可以添加音樂,但要生成與特定音樂節(jié)奏同步的動作卻十分困難。傳統(tǒng)方法依賴于昂貴的動作捕捉數(shù)據(jù)或重建動作,這些方法存在資源密集、浮動和抖動問題等局限性。MusicInfuser通過輕量級音樂-視頻交叉注意力和低秩適配器,無需動作捕捉或重建,直接利用舞蹈視頻進行訓練,成功實現(xiàn)了高質(zhì)量且自然響應音樂節(jié)奏和模式的舞蹈動作生成。這種方法不僅保留了基礎(chǔ)模型的豐富舞蹈風格知識,還為用戶提供了一個靈活的接口,可以通過文本提示控制舞蹈風格、場景和其他美學元素。
研究方法與創(chuàng)新
MusicInfuser的核心在于其獨特的適應架構(gòu)和策略。首先,它引入了一種零初始化交叉注意力(ZICA)適配器,用于在保持基礎(chǔ)模型原有能力的同時,逐步融入音樂條件信息。具體來說,音頻信號通過專用音頻編碼器提取時間與頻譜特征后,經(jīng)過可學習投影器映射到與視頻標記相同的嵌入空間,從而通過交叉注意力層建立音頻模式與視覺編舞之間的關(guān)聯(lián)。
此外,MusicInfuser采用了高秩低秩適配器(HR-LoRA),以有效建模運動適應性,特別是針對視頻標記中的時間信息。相較于圖像模型常用的8或16秩,視頻模型需要更高的秩來捕獲時空信息的復雜性。例如,適應齊次變換需要至少增加8個自由度,而一般視頻或復雜人體運動則需要更高秩。
為了優(yōu)化訓練過程,MusicInfuser提出了Beta-Uniform調(diào)度策略。該策略使訓練噪聲分布從Beta分布逐漸過渡到均勻分布,從而在早期階段專注于高頻成分,隨后擴展到所有頻率。這使得模型能夠先影響舞蹈的具體細部,再逐步調(diào)整到舞蹈動作的基本結(jié)構(gòu),最終生成更連貫的舞蹈序列。
實驗設計與結(jié)果分析
實驗部分驗證了MusicInfuser在多個維度上的優(yōu)越性能。定量評估顯示,MusicInfuser在風格對齊、節(jié)拍對齊、身體表現(xiàn)、動作真實性和編舞復雜性等方面均優(yōu)于基線模型。特別是在AIST測試數(shù)據(jù)中,MusicInfuser在節(jié)拍對齊、成像質(zhì)量和動作真實性等關(guān)鍵指標上表現(xiàn)出色。
此外,MusicInfuser展示了對未見音樂類別的良好泛化能力。通過使用SUNO AI生成的音樂軌道,模型成功生成了多種風格的舞蹈視頻,證明了其能夠?qū)⑿路f的音頻模式映射到適當?shù)奈璧竸幼?。速度控制實驗進一步表明,加速或減速音樂軌道會導致生成的舞蹈動作相應調(diào)整步伐,同時保持相似的編舞風格。
結(jié)論與展望
MusicInfuser通過充分利用預訓練文本到視頻擴散模型中嵌入的豐富編舞知識,成功實現(xiàn)了與音樂同步的舞蹈視頻生成。這一方法無需昂貴的動作捕捉數(shù)據(jù),能夠泛化到新的音樂軌道,并支持生成多樣化的編舞和群舞視頻。未來工作可以探索更多樣化的輸入模態(tài)組合,以及更復雜的舞蹈場景生成。
通過對MusicInfuser的研究,我們發(fā)現(xiàn)其在舞蹈質(zhì)量、視頻質(zhì)量和提示對齊等多個維度上顯著優(yōu)于現(xiàn)有方法。然而,模型仍存在一定的局限性,例如對某些復雜音樂模式的響應可能不夠精確。未來的改進方向包括進一步優(yōu)化音頻特征提取模塊,增強對多樣化音樂風格的適應能力,以及探索更高效的訓練策略以減少計算成本。
本文轉(zhuǎn)載自??AI研究前瞻??,作者:胡耀淇
