自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一文帶你全面了解Meta的開源人工智能音樂模型——MusicGen

譯文 精選
人工智能
本文將同你一起探索Meta公司研制的新的開源人工智能音樂模型MusicGen,尤其是分析此模型中一些往往被忽視但實(shí)際卻代表顯著進(jìn)步方面的內(nèi)容。

譯者 | 朱先忠

審校 | 重樓

音樂AI產(chǎn)品如何提升每個(gè)人的音樂制作水平的圖像通過與ChatGPT和DALL-E-3的對話生成的圖像

簡要回顧AI人工智能音樂模型歷史

2023年2月,谷歌公司憑借其生成式人工智能音樂模型MusicLM在業(yè)界掀起了軒然大波。在這一點(diǎn)上,有兩件事變得清晰起來:

  1. 2023年將是基于人工智能的音樂生成的突破性一年
  2. 一個(gè)新的模型很快就會讓MusicLM黯然失色

許多人預(yù)計(jì),就模型參數(shù)和訓(xùn)練數(shù)據(jù)而言,下一個(gè)突破性模型的規(guī)模將是MusicLM的十倍。當(dāng)然,它還將提出同樣的道德問題,包括限制訪問源代碼和使用受版權(quán)保護(hù)的訓(xùn)練材料。

不過,時(shí)至今天,我們知道只有部分是真的。

Meta公司的MusicGen模型于2023年6月發(fā)布,這個(gè)模型帶來了一些巨大的改進(jìn),包括以下幾個(gè)方面:

  1. 更高質(zhì)量的音樂輸出(24kHz→ 32kHz)
  2. 更自然的發(fā)聲樂器
  3. 以任何旋律為條件生成的選項(xiàng)(我已經(jīng)寫了一篇關(guān)于這一點(diǎn)的博客文章:https://medium.com/towards-data-science/how-metas-ai-generates-music-based-on-a-reference-melody-de34acd783

……同時(shí)使用更少的訓(xùn)練數(shù)據(jù),開源代碼和模型權(quán)重,并且只使用商業(yè)許可的訓(xùn)練材料。

六個(gè)月后,炒作已經(jīng)慢慢平息。然而,Meta公司的研究團(tuán)隊(duì)FAIR繼續(xù)發(fā)表有關(guān)論文并更新相應(yīng)代碼,以便逐步改進(jìn)MusicGen模型。

模型研究進(jìn)展

自MusicGen模型發(fā)布以來,Meta公司在兩個(gè)關(guān)鍵方面對MusicGen進(jìn)行了升級:

  1. 使用多波段擴(kuò)散實(shí)現(xiàn)更高質(zhì)量的生成
  2. 立體聲生成帶來更生動的輸出

雖然這聽起來像是兩個(gè)小的改進(jìn),但卻存在很大的不同。你自己聽聽!以下是使用原始MusicGen模型(3.3B參數(shù))生成的10秒作品:

MusicGen官方演示頁面生成的曲目

使用的提示內(nèi)容是:

earthy tones, environmentally conscious, ukulele-infused, harmonic, breezy, easygoing, organic instrumentation, gentle grooves.”

對應(yīng)的中文含義大致是:“鄉(xiāng)土色調(diào),環(huán)境氣氛融入尤克萊利琴,和諧、輕快、隨和的音調(diào),有機(jī)樂器、節(jié)奏柔和。

接下來,下面給出的是MusicGen模型在六個(gè)月后根據(jù)上面相同提示生成的輸出示例:

MusicGen模型生成了作者用MusicGen 3.3B立體聲創(chuàng)建的曲目MusicGen模型生成了作者用MusicGen 3.3B立體聲創(chuàng)建的曲目

如果你是通過智能手機(jī)揚(yáng)聲器收聽,差異可能不會很明顯。在其他設(shè)備上,你應(yīng)該能夠聽到整體聲音更加清晰自然,立體聲使作品更加生動和令人興奮。

在這篇博客文章中,我想展示MusicGen模型在上述這些方面的改進(jìn),解釋它們?yōu)槭裁粗匾约八鼈兪侨绾喂ぷ鞯?,并提供一?/span>音樂生成的例子。

多波段擴(kuò)散——這有什么作用?

為了理解什么是多波段擴(kuò)散以及為什么它會產(chǎn)生影響,讓我們首先來看最初的MusicGen模型([參考資料1])是如何產(chǎn)生其輸出的。

在一臺具有近100萬個(gè)數(shù)字的計(jì)算機(jī),以34kHz的采樣率生成30秒的音頻。如果一個(gè)樣本一個(gè)樣本地生成這樣的作品的話那么,其大小相當(dāng)于用ChatGPT生成10本完整的小說。

相反,Meta公司使用了神經(jīng)音頻壓縮技術(shù)。他們的壓縮模型EnCodec([參考資料2])可以將音樂從34kHz壓縮到大約0.05kHz,同時(shí)保持相關(guān)信息,將其重建為原始采樣率。EnCodec由一個(gè)編碼器和一個(gè)解碼器組成,前者壓縮音頻,后者再現(xiàn)原始聲音(見下圖)。

Encodec:Meta公司使用的神經(jīng)音頻壓縮模型(圖片由作者本人提供)Encodec:Meta公司使用的神經(jīng)音頻壓縮模型(圖片由作者本人提供)

現(xiàn)在,讓我們回到MusicGen模型。這個(gè)模型不是通過全采樣率生成音樂,而是以0.05kHz的頻率生成音樂,并讓EnCodec“重建”音樂,從而以最小的計(jì)算時(shí)間和成本獲得高保真度輸出(見下圖)。

MusicGen:用戶提示(文本)被轉(zhuǎn)換為編碼的音頻信號,然后對其進(jìn)行解碼以產(chǎn)生最終結(jié)果圖片由作者本人提供

雖然EnCodec是一項(xiàng)令人印象深刻的技術(shù),但它的壓縮并不是無損的。與原始音頻相比,重建的音頻中存在明顯的偽。你們自己聽聽就知道了!

原始音頻效果

EnCodec編碼生成的音樂示例(取自EnCodec官方演示頁面)EnCodec編碼生成的音樂示例(取自EnCodec官方演示頁面)

重建后的音頻效果

由于MusicGen模型完全依賴EnCodec編碼技術(shù),所以這是生成音樂質(zhì)量的主要瓶頸。這也正是Meta公司決定改進(jìn)EnCodec解碼器部分的原因。2023年8月,他們?yōu)镋nCodec開發(fā)了一種利用多頻帶擴(kuò)散的更新解碼器([參考資料3])

Meta公司在EnCodec的原始解碼器中發(fā)現(xiàn)的一個(gè)問題是,它傾向于先生成低頻,然后生成高頻。不幸的是,這意味著低頻中的任何誤差/偽也會使高頻失真,從而大幅降低輸出質(zhì)量。

多頻帶擴(kuò)散通過在組合頻譜之前獨(dú)立生成頻譜的不同部分來解決這個(gè)問題。研究人員發(fā)現(xiàn),這一程序顯著提高了生成的輸出。從我的角度來看,這些差異是顯而易見的。使用原始EnCodec解碼器和多頻帶擴(kuò)散解碼器收聽同一曲目效果對比如下

原始解碼器效果

生成的曲目取自多波段擴(kuò)散演示網(wǎng)頁(https://ai.honu.io/papers/mbd/)生成的曲目取自多波段擴(kuò)散演示網(wǎng)頁(https://ai.honu.io/papers/mbd/)

多頻帶擴(kuò)散解碼器效果

生成的曲目取自多波段擴(kuò)散演示網(wǎng)頁(https://ai.honu.io/papers/mbd/)生成的曲目取自多波段擴(kuò)散演示網(wǎng)頁(https://ai.honu.io/papers/mbd/)

當(dāng)前文本到音樂系統(tǒng)的核心問題之一是,它產(chǎn)生的聲音總是有一種不自然的品質(zhì),尤其是對于聲學(xué)樂器。多波段擴(kuò)散使輸出聲音更加清晰自然,并將MusicGen模型提升到一個(gè)新的水平。

為什么立體聲如此重要?

到目前為止,大多數(shù)生成音樂模型都是單聲道的。這意味著MusicGen模型不會將任何聲音或樂器放在左側(cè)或右側(cè),從而導(dǎo)致混音不那么生動和令人興奮。到目前為止,立體聲之所以被忽視,是因?yàn)樯闪Ⅲw聲不是一項(xiàng)微不足道的任務(wù)。

作為音樂家,當(dāng)我們產(chǎn)生立體聲信號時(shí),我們可以訪問混音中的各個(gè)樂器曲目,我們可以將它們放在任何我們想要的地方。MusicGen模型并不單獨(dú)生成所有樂器,而是生成一個(gè)組合音頻信號。如果沒有這些樂器來源,就很難產(chǎn)生立體聲。不幸的是,將音頻信號分解為單獨(dú)的來源是一個(gè)棘手的問題(我已經(jīng)發(fā)表了一篇關(guān)于這方面的博客文章:https://medium.com/towards-data-science/ai-music-source-separation-how-it-works-and-why-it-is-so-hard-187852e54752),而且這項(xiàng)技術(shù)還沒有100%準(zhǔn)備好。

因此,Meta公司決定將立體聲生成直接納入MusicGen模型。他們使用一個(gè)由立體聲音樂組成的新數(shù)據(jù)集,訓(xùn)練MusicGen產(chǎn)生立體聲輸出。研究人員聲稱,與單聲道相比,生成立體聲沒有額外的計(jì)算成本。

雖然我覺得論文中沒有很清楚地描述立體聲過程,但我的理解是這樣的(見下圖):MusicGen已經(jīng)學(xué)會了生成兩個(gè)壓縮音頻信號(左聲道和右聲道),而不是一個(gè)單聲道信號。這些壓縮信號在組合以構(gòu)建最終立體聲輸出之前必須單獨(dú)解碼。這個(gè)過程不需要兩倍的時(shí)間,是因?yàn)镸usicGen現(xiàn)在可以在與以前一個(gè)信號幾乎相同的時(shí)間產(chǎn)生兩個(gè)壓縮音頻信號。

MusicGen立體聲更新示意圖請注意,論文中沒有充分記錄這個(gè)過程,我無法100%確定,只是把它當(dāng)作一個(gè)有根據(jù)的猜測。此外,圖片由作者本人提供

能夠產(chǎn)生令人信服的立體聲確實(shí)使MusicGen模型與MusicLM模型或Stable Audio等其他最先進(jìn)的模型不同。在我看來,這種“小”的改進(jìn)對生成的音樂的生動性產(chǎn)生了巨大的影響。自己聽一聽(在智能手機(jī)揚(yáng)聲器上可能很難聽到):

單聲道效果

立體聲效果

結(jié)論

MusicGen模型自從發(fā)布之日起就給人留下了深刻印象。然而,從那時(shí)起,Meta公司的FAIR團(tuán)隊(duì)一直在不斷改進(jìn)他們的產(chǎn)品,實(shí)現(xiàn)更高質(zhì)量的結(jié)果,以便聽起來更真實(shí)。在生成音頻信號的文本到音樂模型(而不是MIDI等)方面,從我的角度來看,MusicGen模型領(lǐng)先于其競爭對手(截至2023年11月)。

此外,由于MusicGen模型及其所有相關(guān)產(chǎn)品(EnCodec、AudioGen)都是開源的,所以它們也必將構(gòu)成令人難以置信的新創(chuàng)作的靈感來源,也是有抱負(fù)的人工智能音頻工程師的首選框架。如果我們看看MusicGen模型在短短6個(gè)月內(nèi)取得的進(jìn)步,我只能想象2024年將是激動人心的一年。

另一個(gè)重要的觀點(diǎn)是,Meta公司通過其透明的方法,也在為那些希望將這項(xiàng)技術(shù)集成到音樂軟件中的開發(fā)人員做基礎(chǔ)工作。生成樣本、集思廣益的音樂創(chuàng)意或改變現(xiàn)有作品的風(fēng)格——這些都是我們已經(jīng)開始看到的一些令人興奮的應(yīng)用。有了足夠的透明度,我們可以確保我們正在建設(shè)一個(gè)未來讓人工智能讓音樂創(chuàng)作變得更加令人興奮,而不僅僅是對人類音樂才能出現(xiàn)的威脅。

注意:雖然MusicGen模型是開源的,但經(jīng)過預(yù)訓(xùn)練的模型可能不會在商業(yè)上使用!訪問audiocraftGitHub存儲庫(https://github.com/facebookresearch/audiocraft)將會了解有關(guān)其所有組件預(yù)期用途的更多詳細(xì)信息。

參考資料

1Copet et al. (2023)Simple and Controllable Music Generation,https://arxiv.org/pdf/2306.05284.pdf。

2Défossez et al. (2022)High Fidelity Neural Audio Compression,https://arxiv.org/pdf/2210.13438.pdf。

3Roman et al. (2023),From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion,https://arxiv.org/abs/2308.02560。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:MusicGen Reimagined: Meta’s Under-the-Radar Advances in AI Music,作者:Max Hilsdorf



責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2025-04-28 09:53:40

2024-05-29 12:13:50

2023-11-03 15:05:41

2024-04-15 09:09:54

TimeGPT人工智能算法

2023-11-20 08:18:49

Netty服務(wù)器

2023-11-06 08:16:19

APM系統(tǒng)運(yùn)維

2022-11-11 19:09:13

架構(gòu)

2024-04-09 14:04:38

人工智能機(jī)器學(xué)習(xí)

2024-05-22 09:45:49

2022-02-24 07:34:10

SSL協(xié)議加密

2023-11-08 08:15:48

服務(wù)監(jiān)控Zipkin

2023-10-27 08:15:45

2021-01-04 15:54:07

人工智能人工智能技術(shù)

2019-04-08 15:17:15

Windows操作系統(tǒng)功能

2018-05-21 10:20:22

人工智能機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

2024-02-04 09:44:41

量子計(jì)算量子量子物理

2020-02-02 15:14:24

HTTP黑科技前端

2024-03-01 19:21:01

KubernetesRBAC

2025-01-15 09:06:57

servlet服務(wù)器Java

2020-10-08 14:32:57

大數(shù)據(jù)工具技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號