自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="320pd"><track id="320pd"></track></cite>

<blockquote id="320pd"><p id="320pd"><strong id="320pd"></strong></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

開源版《Her》來了，技術(shù)報(bào)告已公開！大神Karpathy：它很有個(gè)性

作者：量子位 2024-09-19 13:34:27

人工智能新聞

（Moshi）的性格非常有趣，它會(huì)突然斷斷續(xù)續(xù)，有時(shí)會(huì)無緣無故沉默……

大神Karpathy鼎力推薦，開源版「Her」Moshi再引關(guān)注！

（Moshi）的性格非常有趣，它會(huì)突然斷斷續(xù)續(xù)，有時(shí)會(huì)無緣無故沉默……

就像下面這樣，一位小哥在和Moshi聊天時(shí)，Moshi化身打工人，精神狀態(tài)十分美麗（doge）。

（一直向小哥抱怨壓力大，導(dǎo)致小哥完全插不進(jìn)話）

據(jù)了解，Moshi是一款端到端實(shí)時(shí)音頻模型，于今年7月初由一家法國(guó)創(chuàng)業(yè)團(tuán)隊(duì)Kyutai發(fā)布。

不僅發(fā)布后人人免費(fèi)可玩，而且就在剛剛，Kyutai將Moshi的代碼、技術(shù)報(bào)告來了個(gè)大公開。

這波屬實(shí)驚喜了，當(dāng)初搶先試玩的谷歌DeepMind研究員、ViT作者Lucas Beyer聞聲趕來：

（剛好）我最近就想知道這個(gè)問題

開源工程師Sebastian Rojo原地啟動(dòng)好學(xué)模式。

是時(shí)候?qū)W起來了！

當(dāng)然，一直慢騰騰的OpenAI再次被“當(dāng)眾處刑”。（其高級(jí)語言模式7月底上線后，仍只面向小部分人開放）

驚人的！當(dāng)我們?nèi)栽诘却齇penAI的高級(jí)語音模式時(shí)，人們可以開始使用Moshi并進(jìn)行構(gòu)建。

Moshi技術(shù)細(xì)節(jié)大公開

話不多說，先來開個(gè)箱，看看Kyutai這次放出了哪些東西。

一份長(zhǎng)篇技術(shù)報(bào)告。揭露Moshi模型背后細(xì)節(jié)、權(quán)重、代碼；
GitHub官方倉庫；
HuggingFace模型庫；

首先來看模型。Kyutai這次發(fā)布了3個(gè)模型，分別是Moshiko、Moshika，以及Mimi流語音編解碼器。

Moshi的參數(shù)大約為7.69B，Moshiko/ka是Moshi對(duì)合成數(shù)據(jù)進(jìn)行微調(diào)后的變體，分為男女兩個(gè)聲音。

讓它們自行對(duì)話， be like：

可以看出，它們都能在一臺(tái)MacBook上運(yùn)行，且據(jù)介紹，這些模型在L4 GPU上實(shí)現(xiàn)了約200毫秒的延遲。

至于變體的內(nèi)存需求，bf16、8位和4位精度，對(duì)應(yīng)的內(nèi)存分別為16GB、8GB和4GB VRAM。

另外，Moshi使用了一個(gè)名為Mimi的流式神經(jīng)音頻編解碼器，能夠處理24 kHz音頻（以1.1kbps的速度將24 kHz音頻壓縮至12.5Hz），并且支持多種預(yù)訓(xùn)練模型。

Mimi受SpeechTokenizer啟發(fā)，通過蒸餾技術(shù)聯(lián)合建模語義和聲學(xué)信息，并且通過對(duì)抗性訓(xùn)練提升了性能，專門用來和大語言模型協(xié)同工作。

其次，從官方公布的技術(shù)細(xì)節(jié)來看，Moshi項(xiàng)目主要由三個(gè)組件構(gòu)成：

Helium語言模型（擁有70億參數(shù)并在2.1萬億tokens上進(jìn)行訓(xùn)練）
Mimi神經(jīng)音頻編解碼器（能夠建模語義和聲學(xué)信息）
一種新的多流架構(gòu)（能夠在單獨(dú)的頻道上分別對(duì)用戶和Moshi的音頻進(jìn)行建模）

展開來說，Moshi團(tuán)隊(duì)對(duì)Helium進(jìn)行了增強(qiáng)，采用了RQ-Transformer變體架構(gòu)，這使得Helium能夠在不增加序列長(zhǎng)度的情況下建模語義和聲學(xué)標(biāo)記的層次結(jié)構(gòu)。

官方自稱，他們對(duì)生成音頻的主要貢獻(xiàn)是多流建模技術(shù)（multi-stream modeling）。

能夠在每個(gè)時(shí)間步中堆疊Moshi和用戶的tokens，以模擬全雙工對(duì)話的動(dòng)態(tài)，包括重疊、反向通道和中斷等。

還包括內(nèi)心獨(dú)白技術(shù)（Inner Monologue），它進(jìn)一步提高了生成語音的質(zhì)量，通過預(yù)測(cè)時(shí)間對(duì)齊的文本來增強(qiáng)Moshi的智能性，同時(shí)保持與流媒體的兼容性。

此外，“內(nèi)心獨(dú)白”的一個(gè)延伸是：通過調(diào)整音頻和文本標(biāo)記的延遲，Moshi能夠?qū)崿F(xiàn)流式TTS和ASR功能。

在大規(guī)模音頻預(yù)訓(xùn)練后，官方利用自己的模型創(chuàng)建了20k小時(shí)的合成對(duì)話數(shù)據(jù)，用于評(píng)估Moshi在質(zhì)量、音頻語言建模和口語問答方面的表現(xiàn)，以及進(jìn)行了安全和量化分析。

評(píng)估結(jié)果顯示，Moshi在性能上優(yōu)于之前發(fā)布的模型。

OpenAI版「Her」仍未開放

眼見Moshi這次來了個(gè)大公開，一眾網(wǎng)友又紛紛想起了OpenAI。

今年7月底，OpenAI高級(jí)語音模式面向部分plus用戶上線，一些試玩例子也隨之流出……

比如讓ChatGPT開口講中文，這濃濃的「歪果仁」口音是怎么回事。

再比如讓它來段繞口令，圍觀網(wǎng)友笑cry了。

一番試玩下來，網(wǎng)友們期待值拉滿。

然而，OpenAI的動(dòng)作實(shí)在有億點(diǎn)慢了，當(dāng)時(shí)曾計(jì)劃秋季時(shí)讓所有plus用戶都能用上高級(jí)語音模式。

然而至今沒有更多消息，相關(guān)話題的實(shí)時(shí)頁面下，隨處可見一片抱怨。

以至于Moshi發(fā)布后，再次有網(wǎng)友調(diào)侃：

開源總是勝利！

不過也有爆料稱，OpenAI可能會(huì)在9月24日發(fā)布高級(jí)語音模式。

一周之后咱們見分曉！

技術(shù)報(bào)告：https://kyutai.org/Moshi.pdfGitHub官方倉庫：
https://github.com/kyutai-labs/moshi
HuggingFace模型庫：
https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

責(zé)任編輯：張燕妮來源：量子位

AI 開源模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)