自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌調(diào)優(yōu)MusicLM的秘密:用戶偏好數(shù)據(jù) 原創(chuàng)

發(fā)布于 2024-4-17 08:46
瀏覽
0收藏

何謂MusicLM?

MusicLM是谷歌公司開(kāi)發(fā)的文本到音樂(lè)人工智能中的旗艦產(chǎn)品,最初發(fā)布于2023年初。即使是在其基礎(chǔ)版本階段,它也代表著一個(gè)重大突破,并讓音樂(lè)行業(yè)大吃一驚。然而,幾周前,MusicLM進(jìn)行了一次重要的更新。以下給出的是針對(duì)兩個(gè)挑選的提示句子的并排比較情況:

Prompt: “Dance music with a melodic synth line and arpeggiation”:

中文意思:“帶有旋律合成并伴有琶音的舞曲”:

  • 老版本MusicLM:?https://google-research.github.io/seanet/musiclm/rlhf/audio_samples/musiclm-7.wav?
  • 新版本MusicLM:?https://google-research.github.io/seanet/musiclm/rlhf/audio_samples/musicrlhf-ru-7.wav?
Prompt: “a nostalgic tune played by accordion band”

中文意思:“手風(fēng)琴樂(lè)隊(duì)演奏的懷舊曲調(diào)”

  • 老版本MusicLM:?https://google-research.github.io/seanet/musiclm/rlhf/audio_samples/musiclm-27.wav?
  • 新版本MusicLM:?https://google-research.github.io/seanet/musiclm/rlhf/audio_samples/musicrlhf-ru-27.wav?

上述音樂(lè)質(zhì)量的提高主要?dú)w因于谷歌研究公司的一篇新論文,題為《MusicRL: Aligning Music Generation to Human Preferenc\es》。顯然,這次升級(jí)被認(rèn)為意義重大;因此,他們決定重新命名該模型。然而,從底層實(shí)現(xiàn)來(lái)看,MusicRL在其關(guān)鍵架構(gòu)上與MusicLM完全相同。唯一的區(qū)別在于:微調(diào)方式不同。

何謂微調(diào)?

當(dāng)人們從頭開(kāi)始構(gòu)建人工智能模型時(shí),都是從零知識(shí)開(kāi)始的,本質(zhì)上是進(jìn)行隨機(jī)猜測(cè)。然后,該模型通過(guò)對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練來(lái)提取有用的模式,并隨著訓(xùn)練的進(jìn)行開(kāi)始顯示越來(lái)越智能的行為。這種方法的一個(gè)缺點(diǎn)是,從頭開(kāi)始訓(xùn)練需要大量數(shù)據(jù)。相比來(lái)說(shuō),微調(diào)則是使用現(xiàn)有模型并使其適應(yīng)新任務(wù),或者使其適應(yīng)以不同的方式處理同一任務(wù)。因?yàn)槟P鸵呀?jīng)學(xué)習(xí)了最重要的模式,所以所需的數(shù)據(jù)相對(duì)傳統(tǒng)方案要少得多。

例如,原則上,任何人都可以從頭開(kāi)始訓(xùn)練像Mistral7B這樣強(qiáng)大的開(kāi)源LLM。即使產(chǎn)生非常有用的輸出,也需要大量的數(shù)據(jù)。相反,如果公司使用現(xiàn)有的Mistral7B模型,并向其提供少量專有數(shù)據(jù),就可以使其解決新的任務(wù),無(wú)論是編寫(xiě)SQL查詢這樣的任務(wù)還是對(duì)于像電子郵件進(jìn)行分類的任務(wù)。

關(guān)鍵是微調(diào)不會(huì)改變模型的基本結(jié)構(gòu)。它只是稍微調(diào)整其內(nèi)部邏輯,以便在特定任務(wù)上執(zhí)行得更好?,F(xiàn)在,讓我們利用這些知識(shí)來(lái)了解谷歌是如何在用戶數(shù)據(jù)基礎(chǔ)上微調(diào)MusicLM的。

谷歌如何收集用戶數(shù)據(jù)

MusicLM論文發(fā)表幾個(gè)月后,作為谷歌人工智能Test Kitchen項(xiàng)目的一部分,發(fā)布了一個(gè)公開(kāi)演示版本。此版本中,用戶可以免費(fèi)試用文本到音樂(lè)的模型。然而,你可能知道這樣一句話:如果產(chǎn)品是免費(fèi)的,你就成為產(chǎn)品本身。不出所料,谷歌也不例外。在使用MusicLM的公開(kāi)演示版本時(shí),您偶爾會(huì)遇到兩個(gè)生成的輸出結(jié)果,并被要求說(shuō)明您喜歡哪一個(gè)。通過(guò)這種方法,谷歌能夠在幾個(gè)月內(nèi)收集到300000個(gè)用戶偏好。

谷歌調(diào)優(yōu)MusicLM的秘密:用戶偏好數(shù)據(jù)-AI.x社區(qū)

MusicLM公共游樂(lè)場(chǎng)中捕獲的用戶偏好評(píng)級(jí)示例(圖片取自MusicRL論文:https://arxiv.org/pdf/2402.04229.pdf)

正如你從屏幕截圖中看到的,用戶沒(méi)有被明確告知他們的偏好將用于機(jī)器學(xué)習(xí)。雖然這可能感覺(jué)不公平,但重要的是要注意,我們?cè)诨ヂ?lián)網(wǎng)上的許多行為都被用于ML訓(xùn)練,無(wú)論是我們的谷歌搜索歷史、我們的Instagram點(diǎn)贊,還是我們的私人Spotify播放列表。與這些相當(dāng)私密和敏感的情況相比,MusicLM游樂(lè)場(chǎng)上的音樂(lè)偏好收集似乎微不足道。

Linkedin協(xié)作文章上的用戶數(shù)據(jù)收集示例

值得注意的是,機(jī)器學(xué)習(xí)的用戶數(shù)據(jù)收集一直在進(jìn)行,通常不需要明確的同意。如果你在Linkedin上,你可能會(huì)被邀請(qǐng)為所謂的“合作文章”投稿。從本質(zhì)上講,用戶被邀請(qǐng)就其專業(yè)領(lǐng)域的問(wèn)題提供提示。下圖給出的是一篇關(guān)于如何寫(xiě)一首成功的民歌(我不知道我需要什么)的合作文章(https://www.linkedin.com/advice/3/how-can-you-write-successful-folk-songs-skills-music-industry-w4i5e?trk=cah1)的例子。

谷歌調(diào)優(yōu)MusicLM的秘密:用戶偏好數(shù)據(jù)-AI.x社區(qū)

一篇關(guān)于歌曲創(chuàng)作的合作文章的標(biāo)題(右邊是我被要求捐款以獲得“頂級(jí)聲音”徽章)

激勵(lì)用戶投稿,為他們贏得平臺(tái)上的“頂級(jí)聲音”徽章。然而,我的印象是,沒(méi)有人真正讀過(guò)這些文章。這讓我相信,微軟(Linkedin的所有者)正在使用這數(shù)千個(gè)問(wèn)答對(duì)來(lái)訓(xùn)練這些數(shù)據(jù)的專家人工智能系統(tǒng)。如果我的懷疑是準(zhǔn)確的,那么我會(huì)發(fā)現(xiàn)這個(gè)例子比谷歌向用戶詢問(wèn)他們最喜歡的曲目更有問(wèn)題。

廢話少講,還是回到我們討論的MusicLM!

谷歌如何利用這些用戶數(shù)據(jù)

接下來(lái)的一個(gè)問(wèn)題是,谷歌是如何利用這一龐大的用戶偏好集合來(lái)微調(diào)MusicLM的。其實(shí),秘密在于一種名為“從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)”的技術(shù),這是ChatGPT在2022年的關(guān)鍵突破技術(shù)之一。在RLHF中,人類偏好被用來(lái)訓(xùn)練一個(gè)人工智能模型,該模型學(xué)習(xí)模仿人類偏好決策,從而產(chǎn)生一個(gè)人工評(píng)分器。一旦這個(gè)所謂的獎(jiǎng)勵(lì)模型被訓(xùn)練出來(lái),它就可以接受任何兩個(gè)曲目,并預(yù)測(cè)哪一個(gè)曲目最有可能被人類評(píng)分者所偏好。

通過(guò)建立獎(jiǎng)勵(lì)模型,人們可以對(duì)MusicLM進(jìn)行微調(diào),以最大限度地提高其輸出的預(yù)測(cè)用戶偏好。這意味著,文本到音樂(lè)模型可以生成數(shù)千首曲目,而每首曲目都能夠從獎(jiǎng)勵(lì)模型中獲得評(píng)級(jí)。通過(guò)對(duì)模型權(quán)重的迭代自適應(yīng),MusicLM可學(xué)會(huì)生成相當(dāng)于人工評(píng)分者“喜歡”的音樂(lè)。

谷歌調(diào)優(yōu)MusicLM的秘密:用戶偏好數(shù)據(jù)-AI.x社區(qū)

從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)作出的解釋(圖片取自MusicRL論文:https://arxiv.org/abs/2402.04229)

除了對(duì)用戶偏好進(jìn)行微調(diào)外,MusicLM還對(duì)另外兩個(gè)標(biāo)準(zhǔn)進(jìn)行了微調(diào):

1.提示遵從

使用谷歌專有的文本到音頻嵌入模型MuLan(https://research.google/pubs/mulan-a-joint-embedding-of-music-audio-and-natural-language/)可以計(jì)算用戶提示和生成的音頻之間的相似性。在微調(diào)過(guò)程中,這種遵從性得分被最大化。

2.音頻質(zhì)量

谷歌在用戶數(shù)據(jù)上訓(xùn)練了另一個(gè)獎(jiǎng)勵(lì)模型,以評(píng)估其生成輸出的主觀音頻的質(zhì)量。這些用戶數(shù)據(jù)似乎是在單獨(dú)的調(diào)查中收集的,而不是在MusicLM公開(kāi)展示的版本中。

新的MusicLM有多好?

新出現(xiàn)的經(jīng)過(guò)微調(diào)的模型大概率優(yōu)于舊的MusicLM,有興趣的讀者可以聽(tīng)一下其展示頁(yè)面(https://google-research.github.io/seanet/musiclm/rlhf/)上提供的示例聲音。當(dāng)然,一個(gè)挑選出的公開(kāi)展示作品可能是騙人的,因?yàn)閯?chuàng)作者會(huì)被加以激勵(lì)以便展示他們的新模型看起來(lái)盡可能好。真心希望我們大家能很快在公共場(chǎng)所測(cè)試使用MusicRL。

然而,論文中也提供了對(duì)于主觀質(zhì)量的定量評(píng)估。為此,谷歌進(jìn)行了一項(xiàng)研究,要求用戶為同一提示生成的兩首曲目加以比較,每條曲目的得分范圍是從1到5。將這個(gè)指標(biāo)與平均意見(jiàn)得分(MOS)結(jié)合使用,我們不僅可以比較每個(gè)模型的直接比較獲勝次數(shù),還可以計(jì)算平均意見(jiàn)得分(MOS)。

谷歌調(diào)優(yōu)MusicLM的秘密:用戶偏好數(shù)據(jù)-AI.x社區(qū)

定量基準(zhǔn)指標(biāo)比較結(jié)果(圖片同樣取自上述MusicRL論文)

上述圖片中,MusicLM表示原始的MusicLM模型。MusicRL-R僅針對(duì)音頻質(zhì)量和提示遵從方面進(jìn)行了微調(diào)。MusicRL-U僅根據(jù)人類反饋(獎(jiǎng)勵(lì)模型)進(jìn)行微調(diào)。最后,MusicRL RU在所有三個(gè)目標(biāo)上都進(jìn)行了微調(diào)。毫不奇怪,MusicRL RU在直接比較和平均收視率方面擊敗了所有其他模型。

該論文還報(bào)道稱,完全微調(diào)的MusicRL-RU模型在87%的直接比較中擊敗了MusicLM模型。通過(guò)分析MusicRL-R和MusicRL-RU之間的直接比較,可以看出RLHF的重要性。在這里,后者的勝率為66%,比較有把握地超過(guò)了競(jìng)爭(zhēng)對(duì)手。

這意味著什么?

盡管輸出質(zhì)量的差異在質(zhì)量和數(shù)量上都很明顯,但在大多數(shù)情況下,新的MusicLM與人類水平的輸出仍然相距甚遠(yuǎn)。即使在公共演示頁(yè)面上,許多生成的輸出曲目聽(tīng)起來(lái)也很奇怪,有節(jié)奏,無(wú)法捕捉到從提示中輸入的關(guān)鍵元素,或者聲音不自然。

在我看來(lái),上面這篇論文仍然意義重大,因?yàn)樗堑谝淮螄L試將RLHF用于音樂(lè)生成。RLHF在文本生成中已經(jīng)被廣泛使用了一年多。但為什么花了這么長(zhǎng)時(shí)間?我懷疑收集用戶反饋和微調(diào)模型的成本相當(dāng)高。谷歌可能發(fā)布公開(kāi)的MusicLM演示的主要目的是收集用戶反饋。顯然,這是一個(gè)明智的舉動(dòng),這會(huì)使他們比Meta公司有優(yōu)勢(shì),因?yàn)镸eta公司有同樣強(qiáng)大的模型,但沒(méi)有提供開(kāi)放的平臺(tái)來(lái)收集用戶數(shù)據(jù)。

總的來(lái)說(shuō),谷歌利用了從ChatGPT借鑒來(lái)的經(jīng)過(guò)驗(yàn)證的微調(diào)方法,使自己在競(jìng)爭(zhēng)中領(lǐng)先。雖然借助于RLHF技術(shù)其改進(jìn)版本的新的MusicLM仍然沒(méi)有達(dá)到人類水平的質(zhì)量,但谷歌現(xiàn)在可以維護(hù)和更新其獎(jiǎng)勵(lì)模型,通過(guò)相同的微調(diào)程序改進(jìn)未來(lái)幾代的文本到音樂(lè)模型。

看看Meta或Stability AI等其他競(jìng)爭(zhēng)對(duì)手是否以及何時(shí)會(huì)迎頭趕上,這將是一件有趣的事情。對(duì)于我們這些用戶來(lái)說(shuō),這一切都是個(gè)好消息!我們會(huì)擁有免費(fèi)的公開(kāi)演示版本和更強(qiáng)大的模型。

對(duì)于音樂(lè)家來(lái)說(shuō),AI目前的發(fā)展步伐可能會(huì)對(duì)他們有點(diǎn)威脅——這是有充分理由的。我希望在未來(lái)的1-3年里看到人類水平的文本到音樂(lè)的一代模型。我指的是文本到音樂(lè)人工智能方面的模型,它在制作音樂(lè)方面的能力至少與ChatGPT發(fā)布時(shí)編寫(xiě)文本的能力一樣。音樂(lè)家必須了解人工智能,以及它如何在日常工作中為他們提供支持。隨著音樂(lè)行業(yè)再次被顛覆,好奇心和靈活性將是成功的首要關(guān)鍵。

對(duì)音樂(lè)AI感興趣?

如果你喜歡這篇文章,你可能想看看我撰寫(xiě)的其他文章:

  • “3 Music AI Breakthroughs to Expect in 2024”,我的Medium博客(https://medium.com/towards-data-science/3-music-ai-breakthroughs-to-expect-in-2024-2d945ae6b5fd)。
  • “Where is Generative AI Music Now?”。YouTube采訪我的SyncMusic(https://www.youtube.com/watch?v=OLJi1b-B0i0)。
  • “MusicLM — Has Google Solved AI Music Generation?”,我的Medium博客(https://medium.com/towards-data-science/musiclm-has-google-solved-ai-music-generation-c6859e76bc3c)。

您也可以在Linkedin上關(guān)注我(https://www.linkedin.com/in/max-hilsdorf/),隨時(shí)了解音樂(lè)人工智能的最新論文和趨勢(shì)。

參考文獻(xiàn)

  • Agostinelli et al., 2023. MusicLM: Generating Music From Text. https://arxiv.org/abs/2301.11325。
  • Cideron et al., 2024. MusicRL: Aligning Music Generation to Human Preferences. https://arxiv.org/abs/2402.04229。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:How Google Used Your Data to Improve their Music AI,作者:Max Hilsdorf

鏈接:??https://towardsdatascience.com/how-google-used-your-data-to-improve-their-music-ai-8948a1e85491?。

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦