人人都是音樂家!中科大&科大訊飛重磅開源OpenMusic:音樂生成更高質(zhì)量,更有樂感 精華
文章鏈接:https://arxiv.org/pdf/2405.15863
代碼鏈接:https://github.com/ivcylc/qa-mdt
Huggingface鏈接:https://huggingface.co/spaces/jadechoghari/OpenMusic
Demo鏈接:https://qa-mdt.github.io/ (chatgpt * 30, musiccaps * 30)
亮點直擊
- 提出了一種質(zhì)量感知訓(xùn)練范式,使模型在訓(xùn)練過程中能夠感知數(shù)據(jù)集的質(zhì)量,從而在音樂性(美學(xué)角度)和音頻質(zhì)量方面實現(xiàn)卓越的音樂生成效果。
- 創(chuàng)新性地將masked擴散Transformer引入到音樂信號中,展示了其在建模音樂潛在空間上的獨特效果,以及其在質(zhì)量控制感知方面的卓越能力,從而進(jìn)一步提升了生成音樂的質(zhì)量和音樂性。
- 解決了大型音樂數(shù)據(jù)集中文本與音頻低相關(guān)性的問題,有效提高了文本對齊度和生成的多樣性。
背景
近年來,基于擴散的文本到音樂(TTM)生成方法逐漸受到重視,提供了一種創(chuàng)新的方法,將文本描述合成音樂內(nèi)容。要在這一生成過程中實現(xiàn)高準(zhǔn)確性和多樣性,必須依賴大量高質(zhì)量的數(shù)據(jù),包括高保真音頻波形和詳細(xì)的文本描述,但這些通常僅占現(xiàn)有數(shù)據(jù)集中的一小部分。在開源數(shù)據(jù)集中,低質(zhì)量音樂波形、標(biāo)簽錯誤、弱標(biāo)簽和無標(biāo)簽數(shù)據(jù)等問題顯著阻礙了音樂生成模型的發(fā)展。為了解決這些挑戰(zhàn),今天和大家分享一種全新的高質(zhì)量音樂生成范式,該范式結(jié)合了質(zhì)量感知訓(xùn)練策略,使生成模型能夠在訓(xùn)練過程中辨別輸入音樂波形的質(zhì)量。利用音樂信號的獨特特性,首先針對TTM任務(wù)調(diào)整并實現(xiàn)了一個掩碼擴散Transformer(MDT)模型,展現(xiàn)出其在質(zhì)量控制和音樂性增強方面的獨特能力。此外,還通過字幕優(yōu)化數(shù)據(jù)處理方法解決了TTM中低質(zhì)量字幕的問題。實驗結(jié)果表明,在MusicCaps和Song-Describer數(shù)據(jù)集上取得了當(dāng)前最先進(jìn)的(SOTA)性能。
當(dāng)前音樂生成(音效生成)領(lǐng)域的問題為質(zhì)量低,具體來說分為三個方面:
- 大部分的開源數(shù)據(jù)集音質(zhì)低(FMA,AudioSet,MSD),旋律雜亂
- 音樂性(美學(xué)角度)差
- 文本對齊度低,大多數(shù)的音頻處于少標(biāo)簽,弱標(biāo)簽,錯標(biāo)簽。其中, 第1點可以由下圖藍(lán)色分布CLAP分?jǐn)?shù)表征,2,3點可以由數(shù)據(jù)集的平均MOS分布表征(顏色由 分割)
創(chuàng)新方法及思路
質(zhì)量信息注入
解決: 引入質(zhì)量感知訓(xùn)練策略。采用主觀數(shù)據(jù)集中的MOS分訓(xùn)練出的質(zhì)量評分模型,在訓(xùn)練過程中注入(偽MOS分)音頻質(zhì)量信息。
兩種注入方法:
- 利用text encoder對分級后的 low quality, medium quality, high quality 質(zhì)量文本進(jìn)行cross attn嵌入 【粗粒度,適配unet架構(gòu)和transformer類架構(gòu)】
- 參考U-ViT內(nèi) 時間信息和label信息的融入方式,以量化(閾值由 決定)后轉(zhuǎn)換為quality embedding, 以token 形式進(jìn)行控制注入,【細(xì)粒度,并且只適配transformer類架構(gòu)】
結(jié)論:質(zhì)量感知策略允許了在推理階段以高質(zhì)量文本和質(zhì)量token進(jìn)行引導(dǎo),從而生成顯著高于訓(xùn)練集平均質(zhì)量的音頻。
以類似解耦的方式在訓(xùn)練中感知音頻的質(zhì)量(類似TTS中分離出音色訓(xùn)練),從而更好地促進(jìn)了模型的訓(xùn)練(大幅降低FAD,KL,并提升IS,REL,CLAP等指標(biāo))。
我們還發(fā)現(xiàn),粗粒度文本控制和細(xì)粒度token控制相結(jié)合,更有助于模型訓(xùn)練中解耦,感知,并控制更高質(zhì)量音頻的生成,從而解決訓(xùn)練數(shù)據(jù)集影響的問題
質(zhì)量感知型 masked擴散Transformer
解決:從音樂性建模角度,我們發(fā)現(xiàn) U-ViT/DiT 類架構(gòu)對頻譜隱空間建模也具有圖像上表達(dá)的scale ability,并能更好建模諧波,音色等方面(反應(yīng)在主觀評分)
優(yōu)化:
- 對頻譜切片而言,此類結(jié)構(gòu)的收斂速度慢。消融數(shù)據(jù)集中,20w步時依然不能很好控制收斂,推測來源于時域/頻域相關(guān)性弱。故在預(yù)訓(xùn)練階段加入掩碼,加速訓(xùn)練速度和頻譜關(guān)聯(lián)性。微調(diào)階段以高質(zhì)量數(shù)據(jù)進(jìn)一步強化模型(5W步就有收斂跡象)。
- 相比于U-Net,transformer based架構(gòu)對text encoder的質(zhì)量信息感知能力增強,并且U-ViT 式 token 質(zhì)量融入策略顯著有效進(jìn)一步提升質(zhì)量并降低客觀指標(biāo)
- 圖像中切塊未考慮 overlap,探究了overlap策略在合成中的作用(大幅降低FAD,但在主觀聽感上有trade off)
優(yōu)化音樂標(biāo)注描述
解決:首次在音樂生成領(lǐng)域使用預(yù)訓(xùn)練標(biāo)注模型(LP-Musiccaps)進(jìn)行大規(guī)模標(biāo)注優(yōu)化:
- 考慮到標(biāo)注模型的不充分訓(xùn)練導(dǎo)致錯標(biāo),以CLAP文本-音頻分?jǐn)?shù)+閾值篩選低分?jǐn)?shù)據(jù)
- 考慮到原始標(biāo)注中有些詞(例如說American,R&B等標(biāo)注器不一定能標(biāo)注出的詞)。使用CLAP分?jǐn)?shù)過濾出生成的與原始的文本相似度低低數(shù)據(jù),利用語言模型 融合原始標(biāo)注中有用信息。
實驗
總體對比與,對比U-net架構(gòu)和transformer based架構(gòu)
對比overlap策略和patch size
質(zhì)量感知消融
此圖證明了相比于無質(zhì)量感知,大幅提升了生成質(zhì)量和客觀指標(biāo)。并且,MDT(我們的架構(gòu))比 U-Net 在文本質(zhì)量控制感知上的獨特優(yōu)勢(生成質(zhì)量更高,總體客觀指標(biāo)更好)
左圖展示了 token as control 的準(zhǔn)確感知控制生成能力,生成的高質(zhì)量數(shù)據(jù)(黃色區(qū)域)顯著高于訓(xùn)練集MOS分。
右圖展示了文本質(zhì)量控制和token質(zhì)量控制的結(jié)合效果與單純token和文本控制的對比。
主觀評測結(jié)果
- PO:產(chǎn)品運營
- PMP:專業(yè)音樂制作人
- VE:視頻編輯人
- BEGINNERS:不懂音樂的小白
各個人的評分下,均有優(yōu)勢。
結(jié)論與展望
本研究識別出大規(guī)模音頻質(zhì)量不均和文本標(biāo)注未對齊所帶來的挑戰(zhàn),這些挑戰(zhàn)阻礙了基于擴散的文本到音樂(TTM)生成的發(fā)展。通過采用基于p-MOS的新型質(zhì)量感知學(xué)習(xí)方法,以及以masked擴散Transformer作為擴散過程的主干,在音樂生成中實現(xiàn)了更高的生成質(zhì)量和音樂性。
本文轉(zhuǎn)自 AI生成未來 ,作者:AI生成未來
