自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

零樣本 | MusicMagus:基于擴(kuò)散模型的零樣本文本驅(qū)動(dòng)音樂(lè)編輯新方案

人工智能
當(dāng)前的文本到音樂(lè)生成模型已取得長(zhǎng)足進(jìn)展,但音樂(lè)創(chuàng)作往往需要反復(fù)修改,而如何在保持音樂(lè)整體結(jié)構(gòu)的同時(shí),精準(zhǔn)編輯特定屬性仍然是個(gè)挑戰(zhàn)。

一眼概覽

MusicMagus 提出了一種基于擴(kuò)散模型的零樣本文本到音樂(lè)編輯方法,可在不額外訓(xùn)練的情況下,通過(guò)文本編輯修改音樂(lè)的風(fēng)格、音色和樂(lè)器,同時(shí)保持其他屬性不變。實(shí)驗(yàn)表明,該方法在風(fēng)格轉(zhuǎn)換和音色轉(zhuǎn)換方面優(yōu)于現(xiàn)有零樣本方法,并在某些任務(wù)上超越監(jiān)督學(xué)習(xí)方法。

核心問(wèn)題

當(dāng)前的文本到音樂(lè)生成模型已取得長(zhǎng)足進(jìn)展,但音樂(lè)創(chuàng)作往往需要反復(fù)修改,而如何在保持音樂(lè)整體結(jié)構(gòu)的同時(shí),精準(zhǔn)編輯特定屬性仍然是個(gè)挑戰(zhàn)?,F(xiàn)有方法依賴(lài)手工標(biāo)注數(shù)據(jù)集特定任務(wù)訓(xùn)練,限制了編輯的靈活性和通用性。因此,本研究的核心問(wèn)題是:

如何在無(wú)需額外訓(xùn)練的情況下,實(shí)現(xiàn)靈活的文本驅(qū)動(dòng)音樂(lè)編輯?

技術(shù)亮點(diǎn)

1. 無(wú)監(jiān)督零樣本編輯:MusicMagus 不依賴(lài)成對(duì)訓(xùn)練數(shù)據(jù),而是利用預(yù)訓(xùn)練擴(kuò)散模型的潛在表示空間,直接進(jìn)行文本驅(qū)動(dòng)的音樂(lè)編輯。

2. 語(yǔ)義一致性約束:通過(guò)向量化的編輯方向交叉注意力約束,確保編輯后的音樂(lè)在保持原有結(jié)構(gòu)的同時(shí),僅修改目標(biāo)屬性。

3. 兼容現(xiàn)有模型:無(wú)需重新訓(xùn)練,直接集成于現(xiàn)有的文本到音樂(lè)擴(kuò)散模型(如 AudioLDM 2),提升可用性。

方法框架

圖片圖片

MusicMagus 的編輯過(guò)程包括以下步驟:

1. 文本變換:通過(guò)單詞替換(如“鋼琴”→“吉他”)來(lái)定義編輯目標(biāo),并計(jì)算語(yǔ)義變換向量,以捕捉文本變化的方向。

2. 擴(kuò)散模型編輯

? 在潛在空間應(yīng)用編輯向量,調(diào)整擴(kuò)散模型的語(yǔ)義條件;

? 施加交叉注意力約束,確保非編輯部分保持不變。

3. 音樂(lè)重建:利用擴(kuò)散模型去噪生成新的音樂(lè)片段,實(shí)現(xiàn)零樣本風(fēng)格或音色轉(zhuǎn)換。

實(shí)驗(yàn)結(jié)果速覽

圖片圖片

(1) 主觀實(shí)驗(yàn)

音色轉(zhuǎn)換任務(wù)中(鋼琴 → 風(fēng)琴、鋼琴 → 中提琴等),MusicMagus 在相關(guān)性(REL)、整體質(zhì)量(OVL)和一致性(CON)方面均優(yōu)于AudioLDM 2 和 Transplayer。

(2) 客觀實(shí)驗(yàn)

MusicMagus 在語(yǔ)義一致性(CLAP 相似度)和旋律一致性(Chroma 相似度)方面均優(yōu)于基線。

實(shí)用價(jià)值與應(yīng)用

MusicMagus 適用于多種音樂(lè)編輯場(chǎng)景:

音樂(lè)制作:藝術(shù)家可通過(guò)文本指令快速調(diào)整風(fēng)格或替換樂(lè)器,提升音樂(lè)創(chuàng)作效率。

影視配樂(lè):可根據(jù)導(dǎo)演需求調(diào)整背景音樂(lè)風(fēng)格,而無(wú)需重新錄制。

游戲音效:允許游戲開(kāi)發(fā)者通過(guò)文本指令靈活調(diào)整游戲配樂(lè),增強(qiáng)互動(dòng)體驗(yàn)。

此外,該方法還可用于真實(shí)音樂(lè)編輯,通過(guò)DDIM 反演對(duì)真實(shí)音頻進(jìn)行修改,但目前仍受模型泛化能力的限制。

開(kāi)放問(wèn)題

長(zhǎng)音頻編輯:當(dāng)前方法主要針對(duì)短音樂(lè)片段,未來(lái)如何擴(kuò)展至完整歌曲或長(zhǎng)音頻編輯?

多樂(lè)器混合編輯:目前僅支持單個(gè)音色轉(zhuǎn)換,如何在不影響整體結(jié)構(gòu)的情況下修改多個(gè)樂(lè)器或風(fēng)格?

更高音質(zhì)生成:現(xiàn)有擴(kuò)散模型生成的音樂(lè)仍受16kHz 采樣率限制,如何提高音質(zhì)以滿足專(zhuān)業(yè)需求?

責(zé)任編輯:武曉燕 來(lái)源: 萍哥學(xué)AI
相關(guān)推薦

2025-02-06 11:25:50

2025-02-08 11:12:34

ZAPS影像模型

2024-06-25 09:35:04

模型訓(xùn)練

2023-02-24 10:22:15

2024-11-20 16:51:00

目標(biāo)檢測(cè)模型

2024-09-12 08:00:00

2023-07-12 09:00:00

自動(dòng)語(yǔ)音識(shí)別機(jī)器學(xué)習(xí)

2024-08-28 14:20:00

數(shù)據(jù)模型

2023-03-06 16:17:13

2024-11-18 08:40:00

2021-10-25 09:06:29

模型人工智能計(jì)算

2023-02-03 16:31:02

模型

2021-09-08 17:23:33

谷歌模型開(kāi)發(fā)

2025-01-26 10:50:00

模型視頻生成

2024-02-07 12:13:19

AI數(shù)據(jù)

2024-07-31 14:06:00

2024-03-15 12:49:40

AI訓(xùn)練

2021-07-24 10:19:14

AI 數(shù)據(jù)克隆

2024-11-06 16:00:00

AI訓(xùn)練

2024-12-26 16:30:00

AI設(shè)計(jì)數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)