自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="u69yo"></blockquote>}

<cite id="u69yo"><track id="u69yo"></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線? 原創(chuàng)

51CTO內(nèi)容精選

發(fā)布于 2025-4-25 08:14

瀏覽

0收藏

本文旨在探討新式Sesame語音模型運行原理，該模型通過殘差量化壓縮音頻并使用雙轉(zhuǎn)換器自回歸預(yù)測碼字以生成逼真的語音。

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

Sesame使用一種名為殘差向量量化的深度學(xué)習(xí)技術(shù)對語音進行編碼

最近，Sesame人工智能公司發(fā)布了他們最新的語音轉(zhuǎn)語音（Speech-to-Speech）模型的演示。這是一個非常擅長說話的對話式人工智能代理，它們能夠提供相關(guān)的答案，并帶有表情地說話，而且說實話，它們非常有趣，互動性很強。

請注意，有關(guān)這方面的系統(tǒng)的技術(shù)論文尚未發(fā)布，但他們確實發(fā)布了一篇簡短的??博客文章??，并提供了有關(guān)他們使用的技術(shù)和他們所構(gòu)建的先前算法的大量信息。?

謝天謝地，他們提供了足夠的信息，讓我能夠撰寫這篇文章并制作一個??YouTube視頻??。?

訓(xùn)練對話語音模型

Sesame是一個會話語音模型，簡稱CSM。它輸入文本和音頻，并將語音生成音頻。雖然他們沒有在文章中透露其訓(xùn)練數(shù)據(jù)來源，但我們?nèi)匀豢梢試L試進行可靠的猜測。上述博客文章大量引用了另一個CSM，即??2024年的Moshi???模型，幸運的是，Moshi模型的創(chuàng)建者在他們的??論文??中透露了他們的數(shù)據(jù)來源。Moshi模型使用了700萬小時的無監(jiān)督語音數(shù)據(jù)、170小時的自然和腳本對話（用于多流訓(xùn)練）以及2000多個小時的電話對話（Fischer數(shù)據(jù)集）。?

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

Sesame模型是建立在??Moshi模型論文??（2024）基礎(chǔ)上的?

生成音頻到底需要什么？

原始形式的音頻只是一長串振幅值 ——波形。例如，如果以24kHz的頻率采樣音頻，則每秒捕獲24,000個浮點值。

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

這里使用24000個值來表示1秒的語音?。▓D片由作者生成）

當然，處理一秒鐘的數(shù)據(jù)中的24000個浮點值是非常耗費資源的，尤其是因為Transformer的計算量會隨著序列長度的平方而增長。如果我們能夠壓縮這個信號并減少處理音頻所需的樣本數(shù)量，那就太好了。

后面，我們將深入探討Mimi編碼器，特別是殘差向量量化器（RVQ），它們是當今深度學(xué)習(xí)中音頻/語音建模的支柱。文章最后，我們將介紹Sesame模型如何使用其特殊的雙轉(zhuǎn)換器架構(gòu)生成音頻。

預(yù)處理音頻

卷積在壓縮和特征提取方面大有裨益。Sesame模型使用Mimi語音編碼器來處理音頻。Mimi也曾在前面提到的Moshi論文中被介紹過。Mimi是一個自監(jiān)督音頻編解碼器模型，它首先將音頻波形轉(zhuǎn)換為離散的“潛在”標記，然后重建原始信號。Sesame僅使用Mimi的編碼器部分來對輸入的音頻進行標記。讓我們來仔細了解一下這是如何操作的。

Mimi輸入24Khz的原始語音波形，并將其傳入多個步幅卷積層，對信號進行下采樣，步幅分別為4、5、6、8和2。這意味著，第一個CNN模塊將音頻下采樣4倍，然后是5倍，再是6倍，以此類推。最終，它以1920的倍數(shù)下采樣，將幀率降至每秒12.5幀。

卷積塊還將原始浮點值投影到512的嵌入維度。每個嵌入聚合原始1D波形的局部特征。1秒的音頻現(xiàn)在表示為大約12個大小為512的向量。這樣，Mimi將序列長度從24000減少到僅12，并將它們轉(zhuǎn)換為密集的連續(xù)向量。

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

在應(yīng)用任何量化之前，Mimi編碼器會將輸入的24KHz音頻下采樣1920倍，并將其嵌入到512維空間中。換句話說，每秒可以獲得12.5幀，每幀都是一個512維向量（圖片來自??作者視頻??）。?

什么是音頻量化？

給定卷積層之后獲得的連續(xù)嵌入，我們希望對輸入語音進行標記化。如果我們可以將語音表示為一系列標記，那么我們就可以應(yīng)用標準的語言學(xué)習(xí)Transformer來訓(xùn)練生成模型。

Mimi使用殘差向量量化器（RVQ分詞器）來實現(xiàn)這一點。我們很快會討論殘差部分，但首先，我們先來看看一個簡單的vanilla向量量化器是如何做的。

向量量化

向量量化背后的想法很簡單：訓(xùn)練一個碼本（codebook ），它是1000個隨機向量代碼的集合，大小均為512（與嵌入維度相同）。

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

一個Vanilla向量量化器。訓(xùn)練一個嵌入的碼本。給定一個輸入嵌入，我們將其映射/量化到最近的碼本條目（??作者視頻??截圖）?

然后，給定輸入向量，我們將其映射到碼本中最近的向量——本質(zhì)上就是將一個點映射到其最近的聚類中心。這意味著，我們有效地創(chuàng)建了一個固定的標記詞匯表來表示每個音頻幀，因為無論輸入幀的嵌入是什么，我們都將用最近的聚類質(zhì)心來表示它。

殘差向量量化

簡單的向量量化的問題在于，由于我們將每個向量映射到其聚類的質(zhì)心，信息損失可能過高。這種“映射”很少是完美的，因此原始嵌入和最近的碼本之間總是存在誤差。

殘差向量量化的核心思想是，它不僅僅局限于一個碼本。相反，它嘗試使用多個碼本來表示輸入向量。

首先，使用第一個碼本量化原始向量。?
然后，從原始向量中減去該質(zhì)心。剩下的就是殘差—— 即第一次量化中未捕獲的誤差。?
現(xiàn)在取這個殘差，并使用充滿全新代碼向量的第二個代碼本再次對其進行量化——再次將其捕捉到最近的質(zhì)心。?
減去這個值，你會得到一個更小的殘差。用第三個碼本再次量化……你可以對任意數(shù)量的碼本重復(fù)此操作。?

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

殘差向量量化器（RVQ）使用新的碼本和VQ層對輸入嵌入進行分層編碼，以表示先前碼本的誤差

每一步都會逐層捕捉上一輪遺漏的細節(jié)。假設(shè)你對N個碼本重復(fù)此操作，那么你將從每個量化階段獲得一個由N個離散標記組成的集合，用來表示一個音頻幀。

RVQ最酷的地方在于，它們被設(shè)計成在第一個量化器中具有較高的歸納偏差，傾向于捕捉最重要的內(nèi)容。在后續(xù)的量化器中，它們會學(xué)習(xí)越來越細粒度的特征。

如果您熟悉PCA，可以認為第一個碼本包含主要主成分，用于捕獲最關(guān)鍵的信息。后續(xù)碼本代表高階成分，包含更多細節(jié)信息。

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

殘差向量量化器（RVQ）使用多個碼本對輸入向量進行編碼——每個碼本一個條目（??作者視頻??截圖）?

聲學(xué)與語義密碼本

由于Mimi是針對音頻重建任務(wù)進行訓(xùn)練的，因此編碼器會將信號壓縮到離散化的潛在空間，而解碼器則會從潛在空間將其重建回來。在針對此任務(wù)進行優(yōu)化時，RVQ碼本會學(xué)習(xí)在壓縮的潛在空間內(nèi)捕捉輸入音頻的基本聲學(xué)內(nèi)容。

Mimi還單獨訓(xùn)練了一個碼本（原始VQ），該碼本專注于嵌入音頻的語義內(nèi)容。正因如此，Mimi被稱為“分割RVQ分詞器”——它將量化過程劃分為兩個獨立的并行路徑：一個用于語義信息，另一個用于聲學(xué)信息。

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

Mimi架構(gòu)（來源：Moshi論文）許可證：免費

為了訓(xùn)練語義表征，Mimi使用知識蒸餾技術(shù)，并使用現(xiàn)有的語音模型WavLM作為語義教師。Mimi引入了一個額外的損失函數(shù)，用于減小語義RVQ代碼與WavLM生成的嵌入之間的余弦距離。

音頻解碼器

給定一個包含文本和音頻的對話，我們首先使用文本和音頻標記器將它們轉(zhuǎn)換為一個標記嵌入序列。然后，該標記序列作為時間序列輸入到轉(zhuǎn)換器模型中。在作者的博客文章中，該模型被稱為自回歸骨干轉(zhuǎn)換器（Autoregressive Backbone Transformer）。它的任務(wù)是處理該時間序列并輸出“第零個”碼本標記。

然后，一個稱為音頻解碼器的輕量級轉(zhuǎn)換器會根據(jù)主干轉(zhuǎn)換器生成的第零個代碼，重建下一個碼本標記。需要注意的是，由于主干轉(zhuǎn)換器能夠看到整個過去的序列，因此第零個代碼已經(jīng)包含了大量關(guān)于對話歷史的信息。輕量級音頻解碼器僅對第零個標記進行操作，并生成其余N-1個代碼。這些代碼由N-1個不同的線性層生成，這些線性層輸出從其對應(yīng)碼本中選擇每個代碼的概率。

你可以把這個過程想象成在純文本的LLM中根據(jù)詞匯表預(yù)測文本標記。只不過，基于文本的LLM只有一個詞匯表，而RVQ標記器則以N個碼本的形式擁有多個詞匯表，因此你需要訓(xùn)練一個單獨的線性層來為每個詞匯表建模碼本。

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

Sesame架構(gòu)

最后，所有碼字生成完成后，我們將它們聚合起來，形成組合的連續(xù)音頻嵌入。最后一步是將音頻轉(zhuǎn)換回波形。為此，我們應(yīng)用轉(zhuǎn)置卷積層將嵌入從12.5Hz升頻回kHz波形音頻。本質(zhì)上，這相當于逆轉(zhuǎn)了我們在音頻預(yù)處理過程中最初應(yīng)用的變換。

總結(jié)

AI語音革命新紀元：Sesame模型讓聊天AI“活”出表情包式情緒聲線?-AI.x社區(qū)

觀看本文??附帶的視頻??！（作者視頻）?

以下是針對Sesame模型的一些要點的總結(jié)：

Sesame建立在多模式對話語音模型或CSM之上。?
文本和音頻一起被標記以形成標記序列，并輸入到主干轉(zhuǎn)換器中，該轉(zhuǎn)換器對該序列進行自回歸處理。?
雖然文本的處理方式與其他基于文本的LLM類似，但音頻的處理則直接基于其波形表示。他們使用Mimi編碼器，通過分割RVQ標記器將波形轉(zhuǎn)換為潛在代碼。?
多模態(tài)骨干變換器消耗一系列標記并預(yù)測下一個第零個碼字。?
另一個稱為音頻解碼器的輕量級轉(zhuǎn)換器根據(jù)第零個代碼字預(yù)測下一個代碼字。?
最終的音頻幀表示是通過組合所有生成的碼字并上采樣回波形表示而生成的。?

參考文獻和必讀論文

??查看我的ML YouTube頻道???
??Sesame模型博客文章和演示???
相關(guān)論文：?

Moshi：??https://arxiv.org/abs/2410.00037???

SoundStream：??https://arxiv.org/abs/2107.03312???

HuBert：??https://arxiv.org/abs/2106.07447???

Speech Tokenizer：??https://arxiv.org/abs/2308.16692???

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。

原文標題：??Sesame Speech Model: How This Viral AI Model Generates Human-Like Speech??，作者：Avishek Biswas

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

深度學(xué)習(xí)

已于2025-4-25 08:19:38修改

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

【乘風(fēng)進階學(xué)習(xí)季】夏日初長，乘風(fēng)而上，碼出未來！

AI.x社區(qū)官方賬號 ? 52.9w瀏覽 ? 36回復(fù)
生成式AI是否正在讓私有云“復(fù)興”

51CTO技術(shù)棧 ? 2007瀏覽 ? 0回復(fù)
革新GUI自動化：V-Zen模型引領(lǐng)多模態(tài)語言模型新紀元

AI論文解讀 ? 2850瀏覽 ? 0回復(fù)
YOLO-NAS：開啟實時目標檢測新紀元

sword_hero ? 3034瀏覽 ? 0回復(fù)
Google推出開源代碼大模型CodeGemma：AI編程新紀元，代碼自動完成和生成技術(shù)再升級

AI論文解讀 ? 3062瀏覽 ? 0回復(fù)
曠視開源的AI人像視頻生成太炸了！輸入照片即可模仿任意表情包

輕薄滴假象 ? 2776瀏覽 ? 0回復(fù)
全新發(fā)布：LangGraph開啟認知架構(gòu)新紀元

ermulong ? 3458瀏覽 ? 0回復(fù)
AI首次實時生成視頻！尤洋團隊新作，網(wǎng)友：這是新紀元

angel ? 2634瀏覽 ? 0回復(fù)
徹底改變交互的九大基于語音的生成式AI助手

51CTO內(nèi)容精選 ? 2289瀏覽 ? 0回復(fù)
突破：美AI安全研究所與Anthropic和OpenAI簽署合作協(xié)議，推動AI安全新紀元

Syrupup ? 2227瀏覽 ? 0回復(fù)
mPLUG-DocOwl2:新模型無需OCR，多頁文檔理解邁入新紀元

AI論文解讀 ? 3040瀏覽 ? 0回復(fù)
多模態(tài)-故障診斷 | 大核卷積開啟視覺新紀元!

Tang_Lan ? 3530瀏覽 ? 0回復(fù)
AI助手Tutor CoPilot：讓每個教師都能成為優(yōu)秀導(dǎo)師 | Mamba模型：醫(yī)學(xué)影像分析的新紀元

sbf_2000 ? 2026瀏覽 ? 0回復(fù)
智能對話新紀元：大模型推理服務(wù)

AI論文解讀 ? 1765瀏覽 ? 0回復(fù)
游戲中的生成式 AI 革命

lintoms ? 2061瀏覽 ? 0回復(fù)
開啟AI短劇新紀元!SkyReels-V1/A1雙劍合璧!昆侖萬維開源首個面向AI短劇的視頻生成模型

angel ? 3058瀏覽 ? 0回復(fù)
秒懂Function Call：DeepSeek大模型的隱藏超能力，讓AI從"會聊天"變"會做事"

九歌AI大模型 ? 2143瀏覽 ? 0回復(fù)
DiT控制新紀元！"即插即控"，Tiamat AI重磅開源EasyControl：任意比例出圖+推理速度狂飆

angel ? 1013瀏覽 ? 0回復(fù)
三大AI超能力：分類式AI、預(yù)測式AI和生成式AI

51CTO內(nèi)容精選 ? 848瀏覽 ? 0回復(fù)

51CTO內(nèi)容精選

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

OpenUI：從構(gòu)思到UI僅需數(shù)秒 7h前發(fā)布
MCP安全噩夢終結(jié)者：Agent框架如何重構(gòu)AI防護新范式？? 1天前發(fā)布

熱門推薦

模型上下文協(xié)議（MCP）開發(fā)實戰(zhàn)——構(gòu)建LangChain代理客戶端 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：從入門到精通：如何在React中構(gòu)建人工智能驅(qū)動的梗圖生成器

下一篇：動態(tài)噪聲重塑：基于時間嵌入U-Net的PyTorch擴散模型實戰(zhàn)?

社區(qū)精華內(nèi)容

目錄