自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌AI歌手震撼來襲!AudioLM簡單聽幾秒,便能譜曲寫歌

人工智能
AudioLM是一個具有長期一致性的高質(zhì)量音頻生成框架,將輸入的音頻映射為一串離散的標(biāo)記,并將音頻生成任務(wù)轉(zhuǎn)化為語言建模任務(wù)。

圖像生成模型卷起來了!視頻生成模型卷起來了!

下一個,便是音頻生成模型。

近日,谷歌研究團(tuán)隊推出了一種語音生成的AI模型——AudioLM。

只需幾秒音頻提示,它不僅可以生成高質(zhì)量,連貫的語音,還可以生成鋼琴音樂。

圖片

論文地址:https://arxiv.org/pdf/2209.03143.pdf

AudioLM是一個具有長期一致性的高質(zhì)量音頻生成框架,將輸入的音頻映射為一串離散的標(biāo)記,并將音頻生成任務(wù)轉(zhuǎn)化為語言建模任務(wù)。

現(xiàn)有的音頻標(biāo)記器在音頻生成質(zhì)量和穩(wěn)定的長期結(jié)構(gòu)之間必須做出權(quán)衡,無法兼顧。

為了解決這個矛盾,谷歌采用「混合標(biāo)記化」方案,利用預(yù)訓(xùn)練好的掩膜語言模型的離散化激活,并利用神經(jīng)音頻編解碼器產(chǎn)生的離散代碼來實現(xiàn)高質(zhì)量的合成。

圖片

AudioLM模型可以基于簡短的提示,學(xué)習(xí)生成自然和連貫的連續(xù)詞,當(dāng)對語音進(jìn)行訓(xùn)練時,在沒有任何記錄或注釋的情況下,生成了語法上通順、語義上合理的連續(xù)語音,同時保持說話人的身份和語調(diào)。

除了語音之外,AudioLM還能生成連貫的鋼琴音樂,甚至不需要在任何音樂符號來進(jìn)行訓(xùn)練。

從文本到鋼琴曲:兩大問題

近年來,在海量的文本語料庫中訓(xùn)練出來的語言模型已經(jīng)顯示出其卓越的生成能力,實現(xiàn)了開放式對話、機(jī)器翻譯,甚至常識推理,還能對文本以外的其他信號進(jìn)行建模,比如自然圖像。

AudioLM的思路是,利用語言建模方面的這些進(jìn)展來生成音頻,而無需在注釋數(shù)據(jù)上進(jìn)行訓(xùn)練。

不過這需要面對兩個問題。

首先,音頻的數(shù)據(jù)率要高得多,單元序列也更長。比如一個句子包含幾十個字符表示,但轉(zhuǎn)換成音頻波形后,一般要包含數(shù)十萬個值。

另外,文本和音頻之間存在著一對多的關(guān)系。同一個句子可以由不同的說話人以不同的風(fēng)格、情感內(nèi)容和環(huán)境來呈現(xiàn)。

為了克服這兩個挑戰(zhàn),AudioLM利用了兩種音頻標(biāo)記。

首先,語義標(biāo)記是從w2v-BERT這個自監(jiān)督的音頻模型中提取的。

這些標(biāo)記既能捕捉到局部的依賴關(guān)系(如語音中的語音,鋼琴音樂中的局部旋律),又能捕捉到全局的長期結(jié)構(gòu)(如語音中的語言句法和語義內(nèi)容,鋼琴音樂中的和聲和節(jié)奏),同時對音頻信號進(jìn)行大量的降采樣,以便對長序列進(jìn)行建模。

不過,從這些token中重建的音頻的保真度不高。

為了提高音質(zhì),除了語義標(biāo)記外,AudioLM還利用了SoundStream神經(jīng)編解碼器產(chǎn)生的聲學(xué)標(biāo)記,捕捉音頻波形的細(xì)節(jié)(如揚聲器特征或錄音條件),進(jìn)行高質(zhì)量的合成。

如何訓(xùn)練?

AudioLM是一個純音頻模型,在沒有任何文本或音樂的符號表示下進(jìn)行訓(xùn)練。

它通過鏈接多個Transformer模型(每個階段一個)從語義標(biāo)記到精細(xì)的聲學(xué)標(biāo)記對音頻序列進(jìn)行分層建模。

每個階段都會根據(jù)上次的標(biāo)記為下一個標(biāo)記預(yù)測進(jìn)行訓(xùn)練,就像訓(xùn)練一個語言模型一樣。

第一階段在語義標(biāo)記上執(zhí)行此任務(wù),以對音頻序列的高級結(jié)構(gòu)進(jìn)行建模。

圖片

到了第二階段,通過將整個語義標(biāo)記序列與過去的粗聲標(biāo)記連接起來,并將兩者作為條件反饋給粗聲模型,然后預(yù)測未來的標(biāo)記。

這個步驟模擬了聲學(xué)特性,例如說話者特性或音樂中的音色。

圖片

在第三階段,使用精細(xì)的聲學(xué)模型來處理粗糙的聲學(xué)信號,從而為最終的音頻增加了更多的細(xì)節(jié)。

最后,將聲學(xué)標(biāo)記輸入SoundStream解碼器以重建波形。

圖片

訓(xùn)練完成后,可以在幾秒鐘音頻上調(diào)整AudioLM,這能夠讓其生成連續(xù)性的音頻。

為了展示AudioLM的普遍適用性,研究人員通過在不同音頻領(lǐng)域的2個任務(wù)對其進(jìn)行檢驗。

一是Speech continuation,該模型保留提示的說話人特征、韻律,同時還能輸出語法正確且語義一致的新內(nèi)容。

二是Piano continuation,該模型會生成在旋律、和聲和節(jié)奏方面與提示一致的鋼琴音樂。

如下所示,你聽到的所有灰色垂直線之后的聲音都是由AudioLM生成的。

為了驗證效果如何,研究人員讓人類評分者去聽簡短的音頻片段,去判斷是人類語音的原始錄音還是由 AudioLM生成的錄音。

根據(jù)收集到的評分,可以看到AudioLM有51.2%的成功率,意味著這一AI模型生成的語音對于普通聽眾來說很難與真正的語音區(qū)分開來。

在東北大學(xué)研究信息和語言科學(xué)的Rupal Patel表示,之前使用人工智能生成音頻的工作,只有在訓(xùn)練數(shù)據(jù)中明確注釋這些細(xì)微差別,才能捕捉到這些差別。

相比之下,AudioLM從輸入數(shù)據(jù)中自動學(xué)習(xí)這些特征,同樣達(dá)到了高保真效果。

隨著 GPT3 和 Bloom(文本生成)、 DALLE和Stable Diffusion(圖像生成)、RunwayML和Make-A-Video(視頻生成)等多模態(tài) ML 模型的出現(xiàn),關(guān)于內(nèi)容創(chuàng)建和創(chuàng)意工作正在發(fā)生變化。

未來的世界,便是人工智能生成的世界。

參考資料:

??https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/??

??https://arxiv.org/pdf/2209.03143.pdf??

??https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html??

??https://google-research.github.io/seanet/audiolm/examples/??

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2016-06-03 17:31:36

谷歌AI

2015-11-16 14:53:10

軟件IC網(wǎng)

2015-02-01 09:35:04

CyanogenAndroid

2024-08-15 17:11:26

曙光網(wǎng)絡(luò)睿智SugonRI2.0

2019-05-07 15:49:27

AI人工智能藝術(shù)

2025-03-27 00:04:33

AIChatGPT生成模型

2022-06-07 11:01:56

人工智能AI技術(shù)大會

2014-03-23 18:44:09

IMAX影院華為

2025-01-03 14:21:50

2015-03-30 10:20:11

GoogleAndroidCyanogen

2019-12-27 09:53:13

聯(lián)泰集群

2015-08-26 16:25:18

用友超客超客營銷移動CRM

2023-12-03 08:57:54

開源模型

2014-12-15 15:24:53

蘋果谷歌

2013-01-07 09:57:07

大數(shù)據(jù)數(shù)據(jù)分析智能對象

2015-10-22 12:36:36

惡意軟件eFast瀏覽器安全

2013-05-20 09:31:38

公有云谷歌微軟
點贊
收藏

51CTO技術(shù)棧公眾號