自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線? 原創(chuàng)

發(fā)布于 2025-4-25 08:14
瀏覽
0收藏

本文旨在探討新式Sesame語音模型運行原理,該模型通過殘差量化壓縮音頻并使用雙轉(zhuǎn)換器自回歸預(yù)測碼字以生成逼真的語音。

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

Sesame使用一種名為殘差向量量化的深度學(xué)習(xí)技術(shù)對語音進行編碼

最近,Sesame人工智能公司發(fā)布了他們最新的語音轉(zhuǎn)語音(Speech-to-Speech)模型的演示。這是一個非常擅長說話的對話式人工智能代理,它們能夠提供相關(guān)的答案,并帶有表情地說話,而且說實話,它們非常有趣,互動性很強。

請注意,有關(guān)這方面的系統(tǒng)的技術(shù)論文尚未發(fā)布,但他們確實發(fā)布了一篇簡短的??博客文章??,并提供了有關(guān)他們使用的技術(shù)和他們所構(gòu)建的先前算法的大量信息。?

謝天謝地,他們提供了足夠的信息,讓我能夠撰寫這篇文章并制作一個??YouTube視頻??。?

訓(xùn)練對話語音模型

Sesame是一個會話語音模型,簡稱CSM。它輸入文本和音頻,并將語音生成音頻。雖然他們沒有在文章中透露其訓(xùn)練數(shù)據(jù)來源,但我們?nèi)匀豢梢試L試進行可靠的猜測。上述博客文章大量引用了另一個CSM,即??2024年的Moshi???模型,幸運的是,Moshi模型的創(chuàng)建者在他們的??論文??中透露了他們的數(shù)據(jù)來源。Moshi模型使用了700萬小時的無監(jiān)督語音數(shù)據(jù)、170小時的自然和腳本對話(用于多流訓(xùn)練)以及2000多個小時的電話對話(Fischer數(shù)據(jù)集)。?

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

Sesame模型是建立在??Moshi模型論文??(2024)基礎(chǔ)上的?

生成音頻到底需要什么?

原始形式的音頻只是一長串振幅值 ——波形。例如,如果以24kHz的頻率采樣音頻,則每秒捕獲24,000個浮點值。

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

這里使用24000個值來表示1秒的語音?。▓D片由作者生成)

當然,處理一秒鐘的數(shù)據(jù)中的24000個浮點值是非常耗費資源的,尤其是因為Transformer的計算量會隨著序列長度的平方而增長。如果我們能夠壓縮這個信號并減少處理音頻所需的樣本數(shù)量,那就太好了。

后面,我們將深入探討Mimi編碼器,特別是殘差向量量化器(RVQ),它們是當今深度學(xué)習(xí)中音頻/語音建模的支柱。文章最后,我們將介紹Sesame模型如何使用其特殊的雙轉(zhuǎn)換器架構(gòu)生成音頻。

預(yù)處理音頻

卷積在壓縮和特征提取方面大有裨益。Sesame模型使用Mimi語音編碼器來處理音頻。Mimi也曾在前面提到的Moshi論文中被介紹過。Mimi是一個自監(jiān)督音頻編解碼器模型,它首先將音頻波形轉(zhuǎn)換為離散的“潛在”標記,然后重建原始信號。Sesame僅使用Mimi的編碼器部分來對輸入的音頻進行標記。讓我們來仔細了解一下這是如何操作的。

Mimi輸入24Khz的原始語音波形,并將其傳入多個步幅卷積層,對信號進行下采樣,步幅分別為4、5、6、8和2。這意味著,第一個CNN模塊將音頻下采樣4倍,然后是5倍,再是6倍,以此類推。最終,它以1920的倍數(shù)下采樣,將幀率降至每秒12.5幀。

卷積塊還將原始浮點值投影到512的嵌入維度。每個嵌入聚合原始1D波形的局部特征。1秒的音頻現(xiàn)在表示為大約12個大小為512的向量。這樣,Mimi將序列長度從24000減少到僅12,并將它們轉(zhuǎn)換為密集的連續(xù)向量。

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

在應(yīng)用任何量化之前,Mimi編碼器會將輸入的24KHz音頻下采樣1920倍,并將其嵌入到512維空間中。換句話說,每秒可以獲得12.5幀,每幀都是一個512維向量(圖片來自??作者視頻??)。?

什么是音頻量化?

給定卷積層之后獲得的連續(xù)嵌入,我們希望對輸入語音進行標記化。如果我們可以將語音表示為一系列標記,那么我們就可以應(yīng)用標準的語言學(xué)習(xí)Transformer來訓(xùn)練生成模型。

Mimi使用殘差向量量化器(RVQ分詞器)來實現(xiàn)這一點。我們很快會討論殘差部分,但首先,我們先來看看一個簡單的vanilla向量量化器是如何做的。

向量量化

向量量化背后的想法很簡單:訓(xùn)練一個碼本(codebook ),它是1000個隨機向量代碼的集合,大小均為512(與嵌入維度相同)。

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

一個Vanilla向量量化器。訓(xùn)練一個嵌入的碼本。給定一個輸入嵌入,我們將其映射/量化到最近的碼本條目(??作者視頻??截圖)?

然后,給定輸入向量,我們將其映射到碼本中最近的向量——本質(zhì)上就是將一個點映射到其最近的聚類中心。這意味著,我們有效地創(chuàng)建了一個固定的標記詞匯表來表示每個音頻幀,因為無論輸入幀的嵌入是什么,我們都將用最近的聚類質(zhì)心來表示它。

殘差向量量化

簡單的向量量化的問題在于,由于我們將每個向量映射到其聚類的質(zhì)心,信息損失可能過高。這種“映射”很少是完美的,因此原始嵌入和最近的碼本之間總是存在誤差。

殘差向量量化的核心思想是,它不僅僅局限于一個碼本。相反,它嘗試使用多個碼本來表示輸入向量。

  • 首先,使用第一個碼本量化原始向量。?
  • 然后,從原始向量中減去該質(zhì)心。剩下的就是殘差—— 即第一次量化中未捕獲的誤差。?
  • 現(xiàn)在取這個殘差,并使用充滿全新代碼向量的第二個代碼本 再次對其進行量化——再次將其捕捉到最近的質(zhì)心。?
  • 減去這個值,你會得到一個更小的殘差。用第三個碼本再次量化……你可以對任意數(shù)量的碼本重復(fù)此操作。?

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

殘差向量量化器(RVQ)使用新的碼本和VQ層對輸入嵌入進行分層編碼,以表示先前碼本的誤差

每一步都會逐層捕捉上一輪遺漏的細節(jié)。假設(shè)你對N個碼本重復(fù)此操作,那么你將從每個量化階段獲得一個由N個離散標記組成的集合,用來表示一個音頻幀。

RVQ最酷的地方在于,它們被設(shè)計成在第一個量化器中具有較高的歸納偏差,傾向于捕捉最重要的內(nèi)容。在后續(xù)的量化器中,它們會學(xué)習(xí)越來越細粒度的特征。

如果您熟悉PCA,可以認為第一個碼本包含主要主成分,用于捕獲最關(guān)鍵的信息。后續(xù)碼本代表高階成分,包含更多細節(jié)信息。

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

殘差向量量化器(RVQ)使用多個碼本對輸入向量進行編碼——每個碼本一個條目(??作者視頻??截圖)?

聲學(xué)與語義密碼本

由于Mimi是針對音頻重建任務(wù)進行訓(xùn)練的,因此編碼器會將信號壓縮到離散化的潛在空間,而解碼器則會從潛在空間將其重建回來。在針對此任務(wù)進行優(yōu)化時,RVQ碼本會學(xué)習(xí)在壓縮的潛在空間內(nèi)捕捉輸入音頻的基本聲學(xué)內(nèi)容。

Mimi還單獨訓(xùn)練了一個碼本(原始VQ),該碼本專注于嵌入音頻的語義內(nèi)容。正因如此,Mimi被稱為“分割RVQ分詞器”——它將量化過程劃分為兩個獨立的并行路徑:一個用于語義信息,另一個用于聲學(xué)信息。

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

Mimi架構(gòu)(來源:Moshi論文)許可證:免費

為了訓(xùn)練語義表征,Mimi使用知識蒸餾技術(shù),并使用現(xiàn)有的語音模型WavLM作為語義教師。Mimi引入了一個額外的損失函數(shù),用于減小語義RVQ代碼與WavLM生成的嵌入之間的余弦距離。

音頻解碼器

給定一個包含文本和音頻的對話,我們首先使用文本和音頻標記器將它們轉(zhuǎn)換為一個標記嵌入序列。然后,該標記序列作為時間序列輸入到轉(zhuǎn)換器模型中。在作者的博客文章中,該模型被稱為自回歸骨干轉(zhuǎn)換器(Autoregressive Backbone Transformer)。它的任務(wù)是處理該時間序列并輸出“第零個”碼本標記。

然后,一個稱為音頻解碼器的輕量級轉(zhuǎn)換器會根據(jù)主干轉(zhuǎn)換器生成的第零個代碼,重建下一個碼本標記。需要注意的是,由于主干轉(zhuǎn)換器能夠看到整個過去的序列,因此第零個代碼已經(jīng)包含了大量關(guān)于對話歷史的信息。輕量級音頻解碼器僅對第零個標記進行操作,并生成其余N-1個代碼。這些代碼由N-1個不同的線性層生成,這些線性層輸出從其對應(yīng)碼本中選擇每個代碼的概率。

你可以把這個過程想象成在純文本的LLM中根據(jù)詞匯表預(yù)測文本標記。只不過,基于文本的LLM只有一個詞匯表,而RVQ標記器則以N個碼本的形式擁有多個詞匯表,因此你需要訓(xùn)練一個單獨的線性層來為每個詞匯表建模碼本。

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

Sesame架構(gòu)

最后,所有碼字生成完成后,我們將它們聚合起來,形成組合的連續(xù)音頻嵌入。最后一步是將音頻轉(zhuǎn)換回波形。為此,我們應(yīng)用轉(zhuǎn)置卷積層將嵌入從12.5Hz升頻回kHz波形音頻。本質(zhì)上,這相當于逆轉(zhuǎn)了我們在音頻預(yù)處理過程中最初應(yīng)用的變換。

總結(jié)

AI語音革命新紀元:Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

觀看本文??附帶的視頻??!(作者視頻)?

以下是針對Sesame模型的一些要點的總結(jié):

  • Sesame建立在多模式對話語音模型或CSM之上。?
  • 文本和音頻一起被標記以形成標記序列,并輸入到主干轉(zhuǎn)換器中,該轉(zhuǎn)換器對該序列進行自回歸處理。?
  • 雖然文本的處理方式與其他基于文本的LLM類似,但音頻的處理則直接基于其波形表示。他們使用Mimi編碼器,通過分割RVQ標記器將波形轉(zhuǎn)換為潛在代碼。?
  • 多模態(tài)骨干變換器消耗一系列標記并預(yù)測下一個第零個碼字。?
  • 另一個稱為音頻解碼器的輕量級轉(zhuǎn)換器根據(jù)第零個代碼字預(yù)測下一個代碼字。?
  • 最終的音頻幀表示是通過組合所有生成的碼字并上采樣回波形表示而生成的。?

參考文獻和必讀論文

Moshi:??https://arxiv.org/abs/2410.00037???

SoundStream:??https://arxiv.org/abs/2107.03312???

HuBert:??https://arxiv.org/abs/2106.07447???

Speech Tokenizer:??https://arxiv.org/abs/2308.16692???

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:??Sesame Speech Model: How This Viral AI Model Generates Human-Like Speech??,作者:Avishek Biswas

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-4-25 08:19:38修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦