自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開源版《Her》來了,技術(shù)報(bào)告已公開!大神Karpathy:它很有個(gè)性

人工智能 新聞
(Moshi)的性格非常有趣,它會(huì)突然斷斷續(xù)續(xù),有時(shí)會(huì)無緣無故沉默……

大神Karpathy鼎力推薦,開源版「Her」Moshi再引關(guān)注!

(Moshi)的性格非常有趣,它會(huì)突然斷斷續(xù)續(xù),有時(shí)會(huì)無緣無故沉默……

圖片

就像下面這樣,一位小哥在和Moshi聊天時(shí),Moshi化身打工人,精神狀態(tài)十分美麗(doge)。

(一直向小哥抱怨壓力大,導(dǎo)致小哥完全插不進(jìn)話)

據(jù)了解,Moshi是一款端到端實(shí)時(shí)音頻模型,于今年7月初由一家法國(guó)創(chuàng)業(yè)團(tuán)隊(duì)Kyutai發(fā)布。

不僅發(fā)布后人人免費(fèi)可玩,而且就在剛剛,Kyutai將Moshi的代碼、技術(shù)報(bào)告來了個(gè)大公開。

圖片

這波屬實(shí)驚喜了,當(dāng)初搶先試玩的谷歌DeepMind研究員、ViT作者Lucas Beyer聞聲趕來:

(剛好)我最近就想知道這個(gè)問題

圖片

開源工程師Sebastian Rojo原地啟動(dòng)好學(xué)模式。

是時(shí)候?qū)W起來了!

圖片

當(dāng)然,一直慢騰騰的OpenAI再次被“當(dāng)眾處刑”。(其高級(jí)語言模式7月底上線后,仍只面向小部分人開放)

驚人的!當(dāng)我們?nèi)栽诘却齇penAI的高級(jí)語音模式時(shí),人們可以開始使用Moshi并進(jìn)行構(gòu)建。

圖片

Moshi技術(shù)細(xì)節(jié)大公開

話不多說,先來開個(gè)箱,看看Kyutai這次放出了哪些東西。

  • 一份長(zhǎng)篇技術(shù)報(bào)告。揭露Moshi模型背后細(xì)節(jié)、權(quán)重、代碼;
  • GitHub官方倉庫;
  • HuggingFace模型庫;

首先來看模型。Kyutai這次發(fā)布了3個(gè)模型,分別是Moshiko、Moshika,以及Mimi流語音編解碼器。

Moshi的參數(shù)大約為7.69B,Moshiko/ka是Moshi對(duì)合成數(shù)據(jù)進(jìn)行微調(diào)后的變體,分為男女兩個(gè)聲音。

讓它們自行對(duì)話, be like:

可以看出,它們都能在一臺(tái)MacBook上運(yùn)行,且據(jù)介紹,這些模型在L4 GPU上實(shí)現(xiàn)了約200毫秒的延遲。

圖片

至于變體的內(nèi)存需求,bf16、8位和4位精度,對(duì)應(yīng)的內(nèi)存分別為16GB、8GB和4GB VRAM。

圖片

另外,Moshi使用了一個(gè)名為Mimi的流式神經(jīng)音頻編解碼器,能夠處理24 kHz音頻(以1.1kbps的速度將24 kHz音頻壓縮至12.5Hz),并且支持多種預(yù)訓(xùn)練模型。

Mimi受SpeechTokenizer啟發(fā),通過蒸餾技術(shù)聯(lián)合建模語義和聲學(xué)信息,并且通過對(duì)抗性訓(xùn)練提升了性能,專門用來和大語言模型協(xié)同工作。

圖片

其次,從官方公布的技術(shù)細(xì)節(jié)來看,Moshi項(xiàng)目主要由三個(gè)組件構(gòu)成:

  • Helium語言模型(擁有70億參數(shù)并在2.1萬億tokens上進(jìn)行訓(xùn)練)
  • Mimi神經(jīng)音頻編解碼器(能夠建模語義和聲學(xué)信息)
  • 一種新的多流架構(gòu)(能夠在單獨(dú)的頻道上分別對(duì)用戶和Moshi的音頻進(jìn)行建模)

圖片

展開來說,Moshi團(tuán)隊(duì)對(duì)Helium進(jìn)行了增強(qiáng),采用了RQ-Transformer變體架構(gòu),這使得Helium能夠在不增加序列長(zhǎng)度的情況下建模語義和聲學(xué)標(biāo)記的層次結(jié)構(gòu)。

官方自稱,他們對(duì)生成音頻的主要貢獻(xiàn)是多流建模技術(shù)(multi-stream modeling)。

能夠在每個(gè)時(shí)間步中堆疊Moshi和用戶的tokens,以模擬全雙工對(duì)話的動(dòng)態(tài),包括重疊、反向通道和中斷等。

還包括內(nèi)心獨(dú)白技術(shù)(Inner Monologue),它進(jìn)一步提高了生成語音的質(zhì)量,通過預(yù)測(cè)時(shí)間對(duì)齊的文本來增強(qiáng)Moshi的智能性,同時(shí)保持與流媒體的兼容性。

圖片

此外,“內(nèi)心獨(dú)白”的一個(gè)延伸是:通過調(diào)整音頻和文本標(biāo)記的延遲,Moshi能夠?qū)崿F(xiàn)流式TTS和ASR功能。

圖片

在大規(guī)模音頻預(yù)訓(xùn)練后,官方利用自己的模型創(chuàng)建了20k小時(shí)的合成對(duì)話數(shù)據(jù),用于評(píng)估Moshi在質(zhì)量、音頻語言建模和口語問答方面的表現(xiàn),以及進(jìn)行了安全和量化分析。

評(píng)估結(jié)果顯示,Moshi在性能上優(yōu)于之前發(fā)布的模型。

圖片

OpenAI版「Her」仍未開放

眼見Moshi這次來了個(gè)大公開,一眾網(wǎng)友又紛紛想起了OpenAI。

今年7月底,OpenAI高級(jí)語音模式面向部分plus用戶上線,一些試玩例子也隨之流出……

比如讓ChatGPT開口講中文,這濃濃的「歪果仁」口音是怎么回事。

再比如讓它來段繞口令,圍觀網(wǎng)友笑cry了。

一番試玩下來,網(wǎng)友們期待值拉滿。

然而,OpenAI的動(dòng)作實(shí)在有億點(diǎn)慢了,當(dāng)時(shí)曾計(jì)劃秋季時(shí)讓所有plus用戶都能用上高級(jí)語音模式。

圖片

然而至今沒有更多消息,相關(guān)話題的實(shí)時(shí)頁面下,隨處可見一片抱怨。

圖片
圖片

以至于Moshi發(fā)布后,再次有網(wǎng)友調(diào)侃:

開源總是勝利!

圖片

不過也有爆料稱,OpenAI可能會(huì)在9月24日發(fā)布高級(jí)語音模式。

一周之后咱們見分曉!

圖片

技術(shù)報(bào)告:https://kyutai.org/Moshi.pdfGitHub官方倉庫:
https://github.com/kyutai-labs/moshi
HuggingFace模型庫:
https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-09-24 11:13:14

2020-09-27 14:28:21

AI 數(shù)據(jù)人工智能

2021-04-16 16:21:02

鴻蒙HarmonyOS應(yīng)用開發(fā)

2021-11-08 10:15:50

代碼Windows 11Windows

2024-07-31 13:20:14

2021-12-23 10:20:12

Windows 11代碼Windows

2024-12-09 08:21:49

2023-03-15 08:03:31

2009-06-24 10:53:38

2025-01-15 10:02:09

APIVueDOM

2021-03-24 10:48:32

谷歌開源代碼

2024-08-16 16:13:00

2024-12-04 09:25:00

2022-11-29 07:48:16

2023-10-04 07:27:33

WebPhotoshop

2021-07-29 17:37:37

微信安卓騰訊

2009-03-24 14:31:00

Linux開源AMD

2021-10-28 18:58:57

動(dòng)態(tài)規(guī)劃數(shù)據(jù)結(jié)構(gòu)算法

2023-09-22 11:07:01

Fastbot

2024-08-14 14:30:00

AI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)