10秒生成4分鐘音樂,8GB顯存就能跑!已登Hugging Face趨勢榜
音樂創(chuàng)作,尤其是完整歌曲的生成,一直是人工智能領(lǐng)域的一大挑戰(zhàn)。
Suno、Udio等商用音樂生成大模型展現(xiàn)出驚人的音樂生成能力。但現(xiàn)有開源的音樂生成模型要么只能生成人聲或伴奏,要么依賴復(fù)雜的多階段架構(gòu),難以擴展到長音頻生成。
而現(xiàn)在,AI音樂破局時刻到了!
近日,西北工業(yè)大學(xué)音頻語音與語言處理實驗室(ASLP@NPU)和香港中文大學(xué)(深圳)的研究團隊提出了一種名為DiffRhythm(中文名:諦韻)的新型音樂生成AI模型,全diffusion架構(gòu),它能夠在短短10秒內(nèi)生成長達(dá)4分45秒的不同風(fēng)格完整雙軌高保真歌曲,包含人聲和伴奏!
最低僅需8G顯存,可本地部署到消費級顯卡!
在線Demo: https://huggingface.co/spaces/ASLP-lab/DiffRhythm
Paper: https://arxiv.org/abs/2503.01183
Github: https://github.com/ASLP-lab/DiffRhythm
Hugging Face: https://huggingface.co/ASLP-lab/DiffRhythm-base
這一成果不僅刷新了音樂生成的速度,還大大簡化了生成流程,讓音樂創(chuàng)作變得更加高效和便捷。模型完全采用華為昇騰910B訓(xùn)練,同時支持N卡。
目前模型和推理代碼全部開源。開源短短幾天位列Hugging Face Space趨勢榜第一和總榜第五,受到眾多網(wǎng)友和音樂愛好者廣泛好評。
Hotel-California-as-performed-by-DiffRhythm,新智元,1分鐘
DiffRhythm:簡單、快速、高質(zhì)量
DiffRhythm 的核心優(yōu)勢在于它的簡潔性和高效性。在模型方面它摒棄了復(fù)雜的多階段架構(gòu),采用了一個簡單的基于LLaMA的DiT,只需要歌詞和風(fēng)格提示即可生成歌曲。
這種非自回歸結(jié)構(gòu)確保了快速的推理速度,相比現(xiàn)有的語言模型方法,DiffRhythm的速度提升顯著,更適合實時應(yīng)用和用戶交互。在數(shù)據(jù)方面,僅需音頻與對應(yīng)歌詞,無需復(fù)雜數(shù)據(jù)處理標(biāo)注流程,易于scale up到大數(shù)據(jù)。
DiffRhythm以歌詞和風(fēng)格提示輸入,生成44.1kHz采樣率全長立體聲音樂作品(最長4分45秒)。
DiffRhythm由兩個順序訓(xùn)練的模型組成:1) 變分自編碼器 (VAE),學(xué)習(xí)音頻波形的緊湊潛在表示,使得分鐘級長音頻建模成為可能;2) DiT 建模 VAE 的潛在空間,通過迭代去噪生成歌曲。
句級歌詞對齊
在歌曲生成中,歌詞與歌聲的對齊是一個極具挑戰(zhàn)性的問題,可以概括為以下兩個方面:
- 時間上的不連續(xù)性:歌詞中的句子之間往往存在較長的間隔,這些間隔可能是純音樂部分,導(dǎo)致歌詞與歌聲之間的時間對應(yīng)關(guān)系不連續(xù)。
- 伴奏的干擾:相同的一個字,在不同歌曲中的伴奏不同,唱法也不同,這使得歌聲的對齊更加復(fù)雜。
為了解決這些問題,DiffRhythm 提出了一種句子級對齊機制。具體來說,該機制僅依賴于句子起始時間的標(biāo)注,通過以下步驟實現(xiàn)歌詞與歌聲的對齊:
- 句子分割與音素轉(zhuǎn)換:首先,將歌詞按照句子分割,并通過 Grapheme-to-Phoneme (G2P) 轉(zhuǎn)換將每個句子轉(zhuǎn)換為音素序列。
- 初始化潛在序列:創(chuàng)建一個與潛在表示長度相同的序列,并用填充符號(<pad>)初始化。
- 對齊音素與潛在表示:根據(jù)歌詞句子的起始時間戳,將音素序列映射到潛在表示的對應(yīng)位置。例如,如果一個句子的起始時間是 10 秒,那么對應(yīng)的音素序列將被放置在潛在表示的第 10 秒位置。
通過這種方式,DiffRhythm 只需要句子起始時間的標(biāo)注,即可實現(xiàn)歌詞與歌聲的對齊。
壓縮魯棒VAE
考慮到大量歌曲數(shù)據(jù)都以壓縮后的MP3格式存在,而高頻細(xì)節(jié)在壓縮過程中會受到損害,我們采用數(shù)據(jù)增強來賦予VAE修復(fù)功能。
具體來說,VAE以無損FLAC格式數(shù)據(jù)進(jìn)行訓(xùn)練,其中輸入經(jīng)過MP3壓縮,而重建目標(biāo)仍然是原始無損數(shù)據(jù)。通過這種有損到無損的重建過程,VAE學(xué)會將從有損壓縮數(shù)據(jù)中得出的潛在表示解碼回?zé)o損音頻信號。
?? 實驗結(jié)果
DiffRhythm的表現(xiàn)令人印象深刻。在音頻重建方面,它在無損和有損壓縮條件下都優(yōu)于現(xiàn)有的基線模型。
在可視化分析中,可以看到DiffRhythm VAE可以有效修復(fù)MP3壓縮損失
在歌曲生成方面,DiffRhythm的生成歌曲在音質(zhì)、音樂性和歌詞可理解性上都表現(xiàn)出色,與現(xiàn)有的SongLM模型相比,DiffRhythm的歌詞清晰度更高,推理速度更快。
未來展望
盡管DiffRhythm已經(jīng)可以快速生成整首歌曲,但仍有進(jìn)一步優(yōu)化的空間。例如,未來可能會通過在訓(xùn)練中引入隨機掩碼來支持對生成歌曲的特定片段進(jìn)行編輯。
此外,DiffRhythm 未來可能會引入自然語言條件機制,以實現(xiàn)更精細(xì)的風(fēng)格控制,從而無需依賴音頻參考。