自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="tudkn"><p id="tudkn"></p></sub>

<s id="tudkn"><li id="tudkn"></li></s>

<big id="tudkn"><code id="tudkn"></code></big>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

月之暗面開源音頻模型Kimi-Audio，從「語音轉(zhuǎn)文字」到「讀心對話」，讓AI聽懂人類 “弦外之音”！

作者：AIGC Studio 2025-05-13 09:21:30

人工智能新聞

Kimi-Audio是一個在音頻理解、生成和對話方面表現(xiàn)卓越的開源音頻基礎(chǔ)模型。論文介紹了 Kimi-Audio 的構(gòu)建實(shí)踐，包括模型架構(gòu)、數(shù)據(jù)整理、訓(xùn)練方案、推理部署和評估。

近期，Kimi在語音交互領(lǐng)域發(fā)布了Kimi-Audio模型，這是一個開源音頻基礎(chǔ)模型，在音頻理解、生成和對話方面表現(xiàn)出色。

AI讓機(jī)器不僅 “聽到” 聲音，更能 “聽懂” 語言背后的情感、意圖和語境。Kimi-Audio 的核心突破，在于構(gòu)建了一個全流程端到端的實(shí)時語音對話系統(tǒng)。能夠在一個統(tǒng)一的框架內(nèi)處理各種音頻處理任務(wù)。主要功能包括：

通用功能：處理各種任務(wù)，如自動語音識別 (ASR)、音頻問答 (AQA)、自動音頻字幕 (AAC)、語音情感識別 (SER)、聲音事件/場景分類 (SEC/ASC) 和端到端語音對話。
最先進(jìn)的性能：在眾多音頻基準(zhǔn)測試中取得 SOTA 結(jié)果（參見評估和技術(shù)報告）。
大規(guī)模預(yù)訓(xùn)練：對超過 1300 萬小時的不同音頻數(shù)據(jù)（語音、音樂、聲音）和文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，實(shí)現(xiàn)強(qiáng)大的音頻推理和語言理解。
新穎的架構(gòu)：采用混合音頻輸入（連續(xù)聲學(xué)向量+離散語義標(biāo)記）和具有并行頭的 LLM 核心來生成文本和音頻標(biāo)記。
高效推理：采用基于流匹配的分塊流式去標(biāo)記器，實(shí)現(xiàn)低延遲音頻生成。
開源：發(fā)布預(yù)訓(xùn)練和指令微調(diào)的代碼和模型檢查點(diǎn)，并發(fā)布全面的評估工具包以促進(jìn)社區(qū)研究和開發(fā)。

相關(guān)鏈接

論文：
模型：https://huggingface.co/moonshotai/Kimi-Audio-7B
代碼：https://github.com/MoonshotAI/Kimi-Audio

論文介紹

Kimi-Audio是一個在音頻理解、生成和對話方面表現(xiàn)卓越的開源音頻基礎(chǔ)模型。論文介紹了 Kimi-Audio 的構(gòu)建實(shí)踐，包括模型架構(gòu)、數(shù)據(jù)整理、訓(xùn)練方案、推理部署和評估。

具體而言，我們利用 12.5Hz 音頻分詞器，設(shè)計了一種基于 LLM 的新型架構(gòu)，以連續(xù)特征作為輸入，以離散分詞作為輸出，并開發(fā)了一個基于流匹配的分塊式流式去分詞器。作者整理了一個包含超過 1300 萬小時音頻數(shù)據(jù)的預(yù)訓(xùn)練數(shù)據(jù)集，涵蓋語音、聲音和音樂等多種模態(tài)，并構(gòu)建了用于構(gòu)建高質(zhì)量且多樣化的訓(xùn)練后數(shù)據(jù)的流水線。Kimi-Audio 基于預(yù)訓(xùn)練的 LLM 進(jìn)行初始化，并通過多個精心設(shè)計的任務(wù)，在音頻和文本數(shù)據(jù)上進(jìn)行持續(xù)預(yù)訓(xùn)練，然后進(jìn)行微調(diào)以支持各種音頻相關(guān)任務(wù)。

廣泛的評估表明，Kimi-Audio 在一系列音頻基準(zhǔn)測試中均達(dá)到了最佳性能，包括語音識別、音頻理解、音頻問答和語音對話。

架構(gòu)概述

Kimi-Audio 由三個主要組件組成：

音頻標(biāo)記器：將輸入音頻轉(zhuǎn)換為：使用矢量量化的離散語義標(biāo)記（12.5Hz）。來自 Whisper 編碼器的連續(xù)聲學(xué)特征（下采樣至 12.5Hz）。
音頻 LLM：基于轉(zhuǎn)換器的模型（由預(yù)訓(xùn)練的文本 LLM（如 Qwen 2.5 7B）初始化），具有處理多模態(tài)輸入的共享層，然后是并行頭，用于自回歸生成文本標(biāo)記和離散音頻語義標(biāo)記。
音頻解析器：使用流匹配模型和聲碼器（BigVGAN）將預(yù)測的離散語義音頻標(biāo)記轉(zhuǎn)換回高保真波形，支持分塊流傳輸，并采用前瞻機(jī)制實(shí)現(xiàn)低延遲。

評估

Kimi-Audio 在廣泛的音頻基準(zhǔn)測試中實(shí)現(xiàn)了最先進(jìn)的 (SOTA) 性能。

以下是整體表現(xiàn)：

Kimi-Audio 與之前的音頻語言模型（包括 Qwen2-Audio、Baichuan Audio、Step-Audio 和 Qwen2.5-Omni）在各種基準(zhǔn)測試中的表現(xiàn)。

音頻預(yù)訓(xùn)練數(shù)據(jù)的處理流程

音頻預(yù)訓(xùn)練數(shù)據(jù)的處理流程

Kimi-Audio 中用于實(shí)時語音對話的客戶端-服務(wù)器通信。

Kimi-Audio 中用于實(shí)時語音對話的客戶端-服務(wù)器通信。Kimi-Audio 實(shí)時語音對話生產(chǎn)部署流程

責(zé)任編輯：張燕妮來源： AIGC Studio

視頻生成開源

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="0oeg4"><p id="0oeg4"></p></blockquote>