自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="g6z9x"></legend>

<sub id="g6z9x"><p id="g6z9x"></p></sub>

^{<blockquote id="g6z9x"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

昨天，國產(chǎn)大模型接管了人類的手機(jī)、電腦！

原創(chuàng) 精選

作者：言征 2024-10-28 09:47:53

GLM-4-Voice 是智譜 AI 推出的端到端語音模型。GLM-4-Voice 能夠直接理解和生成中英文語音，進(jìn)行實時語音對話，并且能夠遵循用戶的指令要求改變語音的情感、語調(diào)、語速、方言等屬性。

整理｜言征

國產(chǎn)多模態(tài)、智能體版本的GPT-4o終于來了！

10月25日，國內(nèi)大模型獨(dú)角獸智譜連發(fā)兩個大招，小編當(dāng)時差點(diǎn)愣住，不愧國產(chǎn)大模型之光！

廢話不多說，直接上干貨。這次智譜推出了一個模型GLM-4-Voice ，一款應(yīng)用AutoGLM。

圖片

開源地址：https://github.com/THUDM/GLM-4-Voice

GLM-4-Voice 是智譜 AI 推出的端到端語音模型。GLM-4-Voice 能夠直接理解和生成中英文語音，進(jìn)行實時語音對話，并且能夠遵循用戶的指令要求改變語音的情感、語調(diào)、語速、方言等屬性。

圖片

模型架構(gòu)

GLM-4-Voice 由三個部分組成：

GLM-4-Voice-Tokenizer: 通過在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 數(shù)據(jù)上有監(jiān)督訓(xùn)練，將連續(xù)的語音輸入轉(zhuǎn)化為離散的 token。每秒音頻平均只需要用 12.5 個離散 token 表示。

GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型結(jié)構(gòu)訓(xùn)練的支持流式推理的語音解碼器，將離散化的語音 token 轉(zhuǎn)化為連續(xù)的語音輸出。最少只需要 10 個語音 token 即可開始生成，降低端到端對話延遲。

GLM-4-Voice-9B: 在 GLM-4-9B 的基礎(chǔ)上進(jìn)行語音模態(tài)的預(yù)訓(xùn)練和對齊，從而能夠理解和生成離散化的語音 token。

預(yù)訓(xùn)練方面，為了攻克模型在語音模態(tài)下的智商和合成表現(xiàn)力兩個難關(guān)，我們將 Speech2Speech 任務(wù)解耦合為“根據(jù)用戶音頻做出文本回復(fù)”和“根據(jù)文本回復(fù)和用戶語音合成回復(fù)語音”兩個任務(wù)，并設(shè)計兩種預(yù)訓(xùn)練目標(biāo)，分別基于文本預(yù)訓(xùn)練數(shù)據(jù)和無監(jiān)督音頻數(shù)據(jù)合成語音-文本交錯數(shù)據(jù)以適配這兩種任務(wù)形式。

GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基礎(chǔ)之上，經(jīng)過了數(shù)百萬小時音頻和數(shù)千億 token 的音頻文本交錯數(shù)據(jù)預(yù)訓(xùn)練，擁有很強(qiáng)的音頻理解和建模能力。

GLM-4-Voice 預(yù)訓(xùn)練數(shù)據(jù)構(gòu)造

對齊方面，為了支持高質(zhì)量的語音對話，我們設(shè)計了一套流式思考架構(gòu)：根據(jù)用戶語音，GLM-4-Voice 可以流式交替輸出文本和語音兩個模態(tài)的內(nèi)容，其中語音模態(tài)以文本作為參照保證回復(fù)內(nèi)容的高質(zhì)量，并根據(jù)用戶的語音指令要求做出相應(yīng)的聲音變化，在最大程度保留語言模型智商的情況下仍然具有端到端建模的能力，同時具備低延遲性，最低只需要輸出 20 個 token 便可以合成語音。

電腦、手機(jī)聽從指令幫你操作AutoGLM 同步上線

在情感語音通話全面開放的同時，智譜也宣布了另一項前沿成果：AutoGLM。

一句話讓AutoGLM點(diǎn)喜茶視頻來源：數(shù)字生命卡茲克

讓 AI 像人類一樣操作電腦和手機(jī)，是近期領(lǐng)域內(nèi)的熱點(diǎn)話題。以往這是一項頗具挑戰(zhàn)性的任務(wù)，因為在此類場景下，AI 需要根據(jù)用戶的要求拆解指令背后蘊(yùn)含的步驟，感知環(huán)境、規(guī)劃任務(wù)、執(zhí)行動作，逐步完成任務(wù)。某種程度上說，這突破了大模型的常規(guī)能力邊界，更加注重其「工具」屬性。

很多大模型公司都在探索這一方向，錨定其為「下一個 AI 前沿」?；诖笳Z言模型（GLM 系列模型）、多模態(tài)模型和工具使用（CogAgent 模型）等方面的探索，智譜已經(jīng)在由自主智能體（Agent）驅(qū)動的人機(jī)交互新范式方面取得了一些階段性成果。

在智譜最新發(fā)布的 AutoGLM App 中，用戶可以憑借一句指令讓 AI 自動完成許多任務(wù)，比如閱讀網(wǎng)頁信息、電商產(chǎn)品購買、點(diǎn)外賣、訂酒店、評論和點(diǎn)贊微信朋友圈等。目前，AutoGLM 已開啟內(nèi)測（暫時僅支持 Android 系統(tǒng)）。

在 AutoGLM App 發(fā)布之前，AutoGLM-Web 已經(jīng)通過「智譜清言」插件對外開放使用。這是一個能模擬用戶訪問網(wǎng)頁、點(diǎn)擊網(wǎng)頁的瀏覽器助手，可以根據(jù)用戶指令在私域網(wǎng)站上完成高級檢索并總結(jié)信息、模擬用戶看網(wǎng)頁的過程進(jìn)行批量、快速的瀏覽并總結(jié)多個網(wǎng)頁，結(jié)合歷史郵件信息回復(fù)郵件。

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

國產(chǎn)大模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="rxzon"><p id="rxzon"></p></sub>

^{<center id="rxzon"></center>}

<ruby id="rxzon"><rt id="rxzon"></rt></ruby>