自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌調(diào)優(yōu)MusicLM的秘密:用戶偏好數(shù)據(jù)

譯文 精選
人工智能
本文將探索谷歌公司如何通過網(wǎng)絡(luò)途徑來收集用戶偏好數(shù)據(jù)從而調(diào)優(yōu)其MusicLM音樂模型。MusicLM是谷歌公司開發(fā)的文本到音樂人工智能中的旗艦產(chǎn)品,最初發(fā)布于2023年初。

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

何謂MusicLM?

MusicLM是谷歌公司開發(fā)的文本到音樂人工智能中的旗艦產(chǎn)品,最初發(fā)布于2023年初。即使是在其基礎(chǔ)版本階段,它也代表著一個重大突破,并讓音樂行業(yè)大吃一驚。然而,幾周前,MusicLM進(jìn)行了一次重要的更新。以下給出的是針對兩個挑選的提示句子的并排比較情況:

Prompt: “Dance music with a melodic synth line and arpeggiation”:

中文意思:“帶有旋律合成并伴有琶音的舞曲”:

  • 老版本MusicLM:https://google-research.github.io/seanet/musiclm/rlhf/audio_samples/musiclm-7.wav
  • 新版本MusicLM:https://google-research.github.io/seanet/musiclm/rlhf/audio_samples/musicrlhf-ru-7.wav
Prompt: “a nostalgic tune played by accordion band”

復(fù)制

中文意思:“手風(fēng)琴樂隊演奏的懷舊曲調(diào)”

  • 老版本MusicLM:https://google-research.github.io/seanet/musiclm/rlhf/audio_samples/musiclm-27.wav
  • 新版本MusicLM:https://google-research.github.io/seanet/musiclm/rlhf/audio_samples/musicrlhf-ru-27.wav

上述音樂質(zhì)量的提高主要?dú)w因于谷歌研究公司的一篇新論文,題為《MusicRL: Aligning Music Generation to Human Preferenc\es》。顯然,這次升級被認(rèn)為意義重大;因此,他們決定重新命名該模型。然而,從底層實現(xiàn)來看,MusicRL在其關(guān)鍵架構(gòu)上與MusicLM完全相同。唯一的區(qū)別在于:微調(diào)方式不同。

何謂微調(diào)?

當(dāng)人們從頭開始構(gòu)建人工智能模型時,都是從零知識開始的,本質(zhì)上是進(jìn)行隨機(jī)猜測。然后,該模型通過對數(shù)據(jù)進(jìn)行訓(xùn)練來提取有用的模式,并隨著訓(xùn)練的進(jìn)行開始顯示越來越智能的行為。這種方法的一個缺點是,從頭開始訓(xùn)練需要大量數(shù)據(jù)。相比來說,微調(diào)則是使用現(xiàn)有模型并使其適應(yīng)新任務(wù),或者使其適應(yīng)以不同的方式處理同一任務(wù)。因為模型已經(jīng)學(xué)習(xí)了最重要的模式,所以所需的數(shù)據(jù)相對傳統(tǒng)方案要少得多。

例如,原則上,任何人都可以從頭開始訓(xùn)練像Mistral7B這樣強(qiáng)大的開源LLM。即使產(chǎn)生非常有用的輸出,也需要大量的數(shù)據(jù)。相反,如果公司使用現(xiàn)有的Mistral7B模型,并向其提供少量專有數(shù)據(jù),就可以使其解決新的任務(wù),無論是編寫SQL查詢這樣的任務(wù)還是對于像電子郵件進(jìn)行分類的任務(wù)。

關(guān)鍵是微調(diào)不會改變模型的基本結(jié)構(gòu)。它只是稍微調(diào)整其內(nèi)部邏輯,以便在特定任務(wù)上執(zhí)行得更好。現(xiàn)在,讓我們利用這些知識來了解谷歌是如何在用戶數(shù)據(jù)基礎(chǔ)上微調(diào)MusicLM的。

谷歌如何收集用戶數(shù)據(jù)

MusicLM論文發(fā)表幾個月后,作為谷歌人工智能Test Kitchen項目的一部分,發(fā)布了一個公開演示版本。此版本中,用戶可以免費(fèi)試用文本到音樂的模型。然而,你可能知道這樣一句話:如果產(chǎn)品是免費(fèi)的,你就成為產(chǎn)品本身。不出所料,谷歌也不例外。在使用MusicLM的公開演示版本時,您偶爾會遇到兩個生成的輸出結(jié)果,并被要求說明您喜歡哪一個。通過這種方法,谷歌能夠在幾個月內(nèi)收集到300000個用戶偏好。

MusicLM公共游樂場中捕獲的用戶偏好評級示例(圖片取自MusicRL論文:https://arxiv.org/pdf/2402.04229.pdf)

正如你從屏幕截圖中看到的,用戶沒有被明確告知他們的偏好將用于機(jī)器學(xué)習(xí)。雖然這可能感覺不公平,但重要的是要注意,我們在互聯(lián)網(wǎng)上的許多行為都被用于ML訓(xùn)練,無論是我們的谷歌搜索歷史、我們的Instagram點贊,還是我們的私人Spotify播放列表。與這些相當(dāng)私密和敏感的情況相比,MusicLM游樂場上的音樂偏好收集似乎微不足道。

Linkedin協(xié)作文章上的用戶數(shù)據(jù)收集示例

值得注意的是,機(jī)器學(xué)習(xí)的用戶數(shù)據(jù)收集一直在進(jìn)行,通常不需要明確的同意。如果你在Linkedin上,你可能會被邀請為所謂的“合作文章”投稿。從本質(zhì)上講,用戶被邀請就其專業(yè)領(lǐng)域的問題提供提示。下圖給出的是一篇關(guān)于如何寫一首成功的民歌(我不知道我需要什么)的合作文章(https://www.linkedin.com/advice/3/how-can-you-write-successful-folk-songs-skills-music-industry-w4i5e?trk=cah1)的例子。

一篇關(guān)于歌曲創(chuàng)作的合作文章的標(biāo)題(右邊是我被要求捐款以獲得“頂級聲音”徽章)

激勵用戶投稿,為他們贏得平臺上的“頂級聲音”徽章。然而,我的印象是,沒有人真正讀過這些文章。這讓我相信,微軟(Linkedin的所有者)正在使用這數(shù)千個問答對來訓(xùn)練這些數(shù)據(jù)的專家人工智能系統(tǒng)。如果我的懷疑是準(zhǔn)確的,那么我會發(fā)現(xiàn)這個例子比谷歌向用戶詢問他們最喜歡的曲目更有問題。

廢話少講,還是回到我們討論的MusicLM!

谷歌如何利用這些用戶數(shù)據(jù)

接下來的一個問題是,谷歌是如何利用這一龐大的用戶偏好集合來微調(diào)MusicLM的。其實,秘密在于一種名為“從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)”的技術(shù),這是ChatGPT在2022年的關(guān)鍵突破技術(shù)之一。在RLHF中,人類偏好被用來訓(xùn)練一個人工智能模型,該模型學(xué)習(xí)模仿人類偏好決策,從而產(chǎn)生一個人工評分器。一旦這個所謂的獎勵模型被訓(xùn)練出來,它就可以接受任何兩個曲目,并預(yù)測哪一個曲目最有可能被人類評分者所偏好。

通過建立獎勵模型,人們可以對MusicLM進(jìn)行微調(diào),以最大限度地提高其輸出的預(yù)測用戶偏好。這意味著,文本到音樂模型可以生成數(shù)千首曲目,而每首曲目都能夠從獎勵模型中獲得評級。通過對模型權(quán)重的迭代自適應(yīng),MusicLM可學(xué)會生成相當(dāng)于人工評分者“喜歡”的音樂。

從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)作出的解釋(圖片取自MusicRL論文:https://arxiv.org/abs/2402.04229)

除了對用戶偏好進(jìn)行微調(diào)外,MusicLM還對另外兩個標(biāo)準(zhǔn)進(jìn)行了微調(diào):

1.提示遵從

使用谷歌專有的文本到音頻嵌入模型MuLan(https://research.google/pubs/mulan-a-joint-embedding-of-music-audio-and-natural-language/)可以計算用戶提示和生成的音頻之間的相似性。在微調(diào)過程中,這種遵從性得分被最大化。

2.音頻質(zhì)量

谷歌在用戶數(shù)據(jù)上訓(xùn)練了另一個獎勵模型,以評估其生成輸出的主觀音頻的質(zhì)量。這些用戶數(shù)據(jù)似乎是在單獨(dú)的調(diào)查中收集的,而不是在MusicLM公開展示的版本中。

新的MusicLM有多好?

新出現(xiàn)的經(jīng)過微調(diào)的模型大概率優(yōu)于舊的MusicLM,有興趣的讀者可以聽一下其展示頁面(https://google-research.github.io/seanet/musiclm/rlhf/)上提供的示例聲音。當(dāng)然,一個挑選出的公開展示作品可能是騙人的,因為創(chuàng)作者會被加以激勵以便展示他們的新模型看起來盡可能好。真心希望我們大家能很快在公共場所測試使用MusicRL。

然而,論文中也提供了對于主觀質(zhì)量的定量評估。為此,谷歌進(jìn)行了一項研究,要求用戶為同一提示生成的兩首曲目加以比較,每條曲目的得分范圍是從1到5。將這個指標(biāo)與平均意見得分(MOS)結(jié)合使用,我們不僅可以比較每個模型的直接比較獲勝次數(shù),還可以計算平均意見得分(MOS)。

定量基準(zhǔn)指標(biāo)比較結(jié)果(圖片同樣取自上述MusicRL論文)

上述圖片中,MusicLM表示原始的MusicLM模型。MusicRL-R僅針對音頻質(zhì)量和提示遵從方面進(jìn)行了微調(diào)。MusicRL-U僅根據(jù)人類反饋(獎勵模型)進(jìn)行微調(diào)。最后,MusicRL RU在所有三個目標(biāo)上都進(jìn)行了微調(diào)。毫不奇怪,MusicRL RU在直接比較和平均收視率方面擊敗了所有其他模型。

該論文還報道稱,完全微調(diào)的MusicRL-RU模型在87%的直接比較中擊敗了MusicLM模型。通過分析MusicRL-R和MusicRL-RU之間的直接比較,可以看出RLHF的重要性。在這里,后者的勝率為66%,比較有把握地超過了競爭對手。

這意味著什么?

盡管輸出質(zhì)量的差異在質(zhì)量和數(shù)量上都很明顯,但在大多數(shù)情況下,新的MusicLM與人類水平的輸出仍然相距甚遠(yuǎn)。即使在公共演示頁面上,許多生成的輸出曲目聽起來也很奇怪,有節(jié)奏,無法捕捉到從提示中輸入的關(guān)鍵元素,或者聲音不自然。

在我看來,上面這篇論文仍然意義重大,因為它是第一次嘗試將RLHF用于音樂生成。RLHF在文本生成中已經(jīng)被廣泛使用了一年多。但為什么花了這么長時間?我懷疑收集用戶反饋和微調(diào)模型的成本相當(dāng)高。谷歌可能發(fā)布公開的MusicLM演示的主要目的是收集用戶反饋。顯然,這是一個明智的舉動,這會使他們比Meta公司有優(yōu)勢,因為Meta公司有同樣強(qiáng)大的模型,但沒有提供開放的平臺來收集用戶數(shù)據(jù)。

總的來說,谷歌利用了從ChatGPT借鑒來的經(jīng)過驗證的微調(diào)方法,使自己在競爭中領(lǐng)先。雖然借助于RLHF技術(shù)其改進(jìn)版本的新的MusicLM仍然沒有達(dá)到人類水平的質(zhì)量,但谷歌現(xiàn)在可以維護(hù)和更新其獎勵模型,通過相同的微調(diào)程序改進(jìn)未來幾代的文本到音樂模型。

看看Meta或Stability AI等其他競爭對手是否以及何時會迎頭趕上,這將是一件有趣的事情。對于我們這些用戶來說,這一切都是個好消息!我們會擁有免費(fèi)的公開演示版本和更強(qiáng)大的模型。

對于音樂家來說,AI目前的發(fā)展步伐可能會對他們有點威脅——這是有充分理由的。我希望在未來的1-3年里看到人類水平的文本到音樂的一代模型。我指的是文本到音樂人工智能方面的模型,它在制作音樂方面的能力至少與ChatGPT發(fā)布時編寫文本的能力一樣。音樂家必須了解人工智能,以及它如何在日常工作中為他們提供支持。隨著音樂行業(yè)再次被顛覆,好奇心和靈活性將是成功的首要關(guān)鍵。

對音樂AI感興趣?

如果你喜歡這篇文章,你可能想看看我撰寫的其他文章:

  • “3 Music AI Breakthroughs to Expect in 2024”,我的Medium博客(https://medium.com/towards-data-science/3-music-ai-breakthroughs-to-expect-in-2024-2d945ae6b5fd)。
  • “Where is Generative AI Music Now?”。YouTube采訪我的SyncMusic(https://www.youtube.com/watch?v=OLJi1b-B0i0)。
  • “MusicLM — Has Google Solved AI Music Generation?”,我的Medium博客(https://medium.com/towards-data-science/musiclm-has-google-solved-ai-music-generation-c6859e76bc3c)。

您也可以在Linkedin上關(guān)注我(https://www.linkedin.com/in/max-hilsdorf/),隨時了解音樂人工智能的最新論文和趨勢。

參考文獻(xiàn)

  • Agostinelli et al., 2023. MusicLM: Generating Music From Text. https://arxiv.org/abs/2301.11325。
  • Cideron et al., 2024. MusicRL: Aligning Music Generation to Human Preferences. https://arxiv.org/abs/2402.04229。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:How Google Used Your Data to Improve their Music AI,作者:Max Hilsdorf

鏈接:https://towardsdatascience.com/how-google-used-your-data-to-improve-their-music-ai-8948a1e85491。

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2013-07-10 10:54:33

隱私政策谷歌

2020-08-13 14:57:57

滲透測試隱私加密

2011-05-18 10:16:24

Oracle調(diào)優(yōu)

2020-06-07 10:58:57

谷歌數(shù)據(jù)隱私信息安全

2025-04-15 08:44:43

2011-03-25 15:21:43

2013-01-14 16:10:06

2021-11-05 21:54:36

網(wǎng)絡(luò)安全印尼數(shù)字

2012-01-04 10:04:24

谷歌絕密實驗室

2018-12-07 22:30:52

谷歌Android開發(fā)者

2015-08-03 13:52:52

2014-07-10 15:02:37

蘋果谷歌隱私安全

2021-12-05 22:29:37

蘋果隱私數(shù)據(jù)

2009-12-04 10:20:53

2020-04-29 13:45:42

機(jī)器學(xué)習(xí)ML數(shù)據(jù)科學(xué)家

2013-03-08 10:03:36

2022-06-27 17:40:14

大數(shù)據(jù)數(shù)據(jù)科學(xué)

2021-04-14 12:41:30

谷歌市場監(jiān)管Facebook

2009-11-26 10:57:27

2013-11-25 10:43:32

谷歌微軟
點贊
收藏

51CTO技術(shù)棧公眾號