零樣本 | MusicMagus:基于擴(kuò)散模型的零樣本文本驅(qū)動(dòng)音樂(lè)編輯新方案
一眼概覽
MusicMagus 提出了一種基于擴(kuò)散模型的零樣本文本到音樂(lè)編輯方法,可在不額外訓(xùn)練的情況下,通過(guò)文本編輯修改音樂(lè)的風(fēng)格、音色和樂(lè)器,同時(shí)保持其他屬性不變。實(shí)驗(yàn)表明,該方法在風(fēng)格轉(zhuǎn)換和音色轉(zhuǎn)換方面優(yōu)于現(xiàn)有零樣本方法,并在某些任務(wù)上超越監(jiān)督學(xué)習(xí)方法。
核心問(wèn)題
當(dāng)前的文本到音樂(lè)生成模型已取得長(zhǎng)足進(jìn)展,但音樂(lè)創(chuàng)作往往需要反復(fù)修改,而如何在保持音樂(lè)整體結(jié)構(gòu)的同時(shí),精準(zhǔn)編輯特定屬性仍然是個(gè)挑戰(zhàn)?,F(xiàn)有方法依賴(lài)手工標(biāo)注數(shù)據(jù)集或特定任務(wù)訓(xùn)練,限制了編輯的靈活性和通用性。因此,本研究的核心問(wèn)題是:
如何在無(wú)需額外訓(xùn)練的情況下,實(shí)現(xiàn)靈活的文本驅(qū)動(dòng)音樂(lè)編輯?
技術(shù)亮點(diǎn)
1. 無(wú)監(jiān)督零樣本編輯:MusicMagus 不依賴(lài)成對(duì)訓(xùn)練數(shù)據(jù),而是利用預(yù)訓(xùn)練擴(kuò)散模型的潛在表示空間,直接進(jìn)行文本驅(qū)動(dòng)的音樂(lè)編輯。
2. 語(yǔ)義一致性約束:通過(guò)向量化的編輯方向和交叉注意力約束,確保編輯后的音樂(lè)在保持原有結(jié)構(gòu)的同時(shí),僅修改目標(biāo)屬性。
3. 兼容現(xiàn)有模型:無(wú)需重新訓(xùn)練,直接集成于現(xiàn)有的文本到音樂(lè)擴(kuò)散模型(如 AudioLDM 2),提升可用性。
方法框架
圖片
MusicMagus 的編輯過(guò)程包括以下步驟:
1. 文本變換:通過(guò)單詞替換(如“鋼琴”→“吉他”)來(lái)定義編輯目標(biāo),并計(jì)算語(yǔ)義變換向量,以捕捉文本變化的方向。
2. 擴(kuò)散模型編輯:
? 在潛在空間應(yīng)用編輯向量,調(diào)整擴(kuò)散模型的語(yǔ)義條件;
? 施加交叉注意力約束,確保非編輯部分保持不變。
3. 音樂(lè)重建:利用擴(kuò)散模型去噪生成新的音樂(lè)片段,實(shí)現(xiàn)零樣本風(fēng)格或音色轉(zhuǎn)換。
實(shí)驗(yàn)結(jié)果速覽
圖片
(1) 主觀實(shí)驗(yàn)
在音色轉(zhuǎn)換任務(wù)中(鋼琴 → 風(fēng)琴、鋼琴 → 中提琴等),MusicMagus 在相關(guān)性(REL)、整體質(zhì)量(OVL)和一致性(CON)方面均優(yōu)于AudioLDM 2 和 Transplayer。
(2) 客觀實(shí)驗(yàn)
MusicMagus 在語(yǔ)義一致性(CLAP 相似度)和旋律一致性(Chroma 相似度)方面均優(yōu)于基線。
實(shí)用價(jià)值與應(yīng)用
MusicMagus 適用于多種音樂(lè)編輯場(chǎng)景:
? 音樂(lè)制作:藝術(shù)家可通過(guò)文本指令快速調(diào)整風(fēng)格或替換樂(lè)器,提升音樂(lè)創(chuàng)作效率。
? 影視配樂(lè):可根據(jù)導(dǎo)演需求調(diào)整背景音樂(lè)風(fēng)格,而無(wú)需重新錄制。
? 游戲音效:允許游戲開(kāi)發(fā)者通過(guò)文本指令靈活調(diào)整游戲配樂(lè),增強(qiáng)互動(dòng)體驗(yàn)。
此外,該方法還可用于真實(shí)音樂(lè)編輯,通過(guò)DDIM 反演對(duì)真實(shí)音頻進(jìn)行修改,但目前仍受模型泛化能力的限制。
開(kāi)放問(wèn)題
? 長(zhǎng)音頻編輯:當(dāng)前方法主要針對(duì)短音樂(lè)片段,未來(lái)如何擴(kuò)展至完整歌曲或長(zhǎng)音頻編輯?
? 多樂(lè)器混合編輯:目前僅支持單個(gè)音色轉(zhuǎn)換,如何在不影響整體結(jié)構(gòu)的情況下修改多個(gè)樂(lè)器或風(fēng)格?
? 更高音質(zhì)生成:現(xiàn)有擴(kuò)散模型生成的音樂(lè)仍受16kHz 采樣率限制,如何提高音質(zhì)以滿足專(zhuān)業(yè)需求?