開源版《Her》來了,技術(shù)報(bào)告已公開!大神Karpathy:它很有個(gè)性
大神Karpathy鼎力推薦,開源版「Her」Moshi再引關(guān)注!
(Moshi)的性格非常有趣,它會(huì)突然斷斷續(xù)續(xù),有時(shí)會(huì)無緣無故沉默……
就像下面這樣,一位小哥在和Moshi聊天時(shí),Moshi化身打工人,精神狀態(tài)十分美麗(doge)。
(一直向小哥抱怨壓力大,導(dǎo)致小哥完全插不進(jìn)話)
據(jù)了解,Moshi是一款端到端實(shí)時(shí)音頻模型,于今年7月初由一家法國(guó)創(chuàng)業(yè)團(tuán)隊(duì)Kyutai發(fā)布。
不僅發(fā)布后人人免費(fèi)可玩,而且就在剛剛,Kyutai將Moshi的代碼、技術(shù)報(bào)告來了個(gè)大公開。
這波屬實(shí)驚喜了,當(dāng)初搶先試玩的谷歌DeepMind研究員、ViT作者Lucas Beyer聞聲趕來:
(剛好)我最近就想知道這個(gè)問題
開源工程師Sebastian Rojo原地啟動(dòng)好學(xué)模式。
是時(shí)候?qū)W起來了!
當(dāng)然,一直慢騰騰的OpenAI再次被“當(dāng)眾處刑”。(其高級(jí)語言模式7月底上線后,仍只面向小部分人開放)
驚人的!當(dāng)我們?nèi)栽诘却齇penAI的高級(jí)語音模式時(shí),人們可以開始使用Moshi并進(jìn)行構(gòu)建。
Moshi技術(shù)細(xì)節(jié)大公開
話不多說,先來開個(gè)箱,看看Kyutai這次放出了哪些東西。
- 一份長(zhǎng)篇技術(shù)報(bào)告。揭露Moshi模型背后細(xì)節(jié)、權(quán)重、代碼;
- GitHub官方倉庫;
- HuggingFace模型庫;
首先來看模型。Kyutai這次發(fā)布了3個(gè)模型,分別是Moshiko、Moshika,以及Mimi流語音編解碼器。
Moshi的參數(shù)大約為7.69B,Moshiko/ka是Moshi對(duì)合成數(shù)據(jù)進(jìn)行微調(diào)后的變體,分為男女兩個(gè)聲音。
讓它們自行對(duì)話, be like:
可以看出,它們都能在一臺(tái)MacBook上運(yùn)行,且據(jù)介紹,這些模型在L4 GPU上實(shí)現(xiàn)了約200毫秒的延遲。
至于變體的內(nèi)存需求,bf16、8位和4位精度,對(duì)應(yīng)的內(nèi)存分別為16GB、8GB和4GB VRAM。
另外,Moshi使用了一個(gè)名為Mimi的流式神經(jīng)音頻編解碼器,能夠處理24 kHz音頻(以1.1kbps的速度將24 kHz音頻壓縮至12.5Hz),并且支持多種預(yù)訓(xùn)練模型。
Mimi受SpeechTokenizer啟發(fā),通過蒸餾技術(shù)聯(lián)合建模語義和聲學(xué)信息,并且通過對(duì)抗性訓(xùn)練提升了性能,專門用來和大語言模型協(xié)同工作。
其次,從官方公布的技術(shù)細(xì)節(jié)來看,Moshi項(xiàng)目主要由三個(gè)組件構(gòu)成:
- Helium語言模型(擁有70億參數(shù)并在2.1萬億tokens上進(jìn)行訓(xùn)練)
- Mimi神經(jīng)音頻編解碼器(能夠建模語義和聲學(xué)信息)
- 一種新的多流架構(gòu)(能夠在單獨(dú)的頻道上分別對(duì)用戶和Moshi的音頻進(jìn)行建模)
展開來說,Moshi團(tuán)隊(duì)對(duì)Helium進(jìn)行了增強(qiáng),采用了RQ-Transformer變體架構(gòu),這使得Helium能夠在不增加序列長(zhǎng)度的情況下建模語義和聲學(xué)標(biāo)記的層次結(jié)構(gòu)。
官方自稱,他們對(duì)生成音頻的主要貢獻(xiàn)是多流建模技術(shù)(multi-stream modeling)。
能夠在每個(gè)時(shí)間步中堆疊Moshi和用戶的tokens,以模擬全雙工對(duì)話的動(dòng)態(tài),包括重疊、反向通道和中斷等。
還包括內(nèi)心獨(dú)白技術(shù)(Inner Monologue),它進(jìn)一步提高了生成語音的質(zhì)量,通過預(yù)測(cè)時(shí)間對(duì)齊的文本來增強(qiáng)Moshi的智能性,同時(shí)保持與流媒體的兼容性。
此外,“內(nèi)心獨(dú)白”的一個(gè)延伸是:通過調(diào)整音頻和文本標(biāo)記的延遲,Moshi能夠?qū)崿F(xiàn)流式TTS和ASR功能。
在大規(guī)模音頻預(yù)訓(xùn)練后,官方利用自己的模型創(chuàng)建了20k小時(shí)的合成對(duì)話數(shù)據(jù),用于評(píng)估Moshi在質(zhì)量、音頻語言建模和口語問答方面的表現(xiàn),以及進(jìn)行了安全和量化分析。
評(píng)估結(jié)果顯示,Moshi在性能上優(yōu)于之前發(fā)布的模型。
OpenAI版「Her」仍未開放
眼見Moshi這次來了個(gè)大公開,一眾網(wǎng)友又紛紛想起了OpenAI。
今年7月底,OpenAI高級(jí)語音模式面向部分plus用戶上線,一些試玩例子也隨之流出……
比如讓ChatGPT開口講中文,這濃濃的「歪果仁」口音是怎么回事。
再比如讓它來段繞口令,圍觀網(wǎng)友笑cry了。
一番試玩下來,網(wǎng)友們期待值拉滿。
然而,OpenAI的動(dòng)作實(shí)在有億點(diǎn)慢了,當(dāng)時(shí)曾計(jì)劃秋季時(shí)讓所有plus用戶都能用上高級(jí)語音模式。
然而至今沒有更多消息,相關(guān)話題的實(shí)時(shí)頁面下,隨處可見一片抱怨。
以至于Moshi發(fā)布后,再次有網(wǎng)友調(diào)侃:
開源總是勝利!
不過也有爆料稱,OpenAI可能會(huì)在9月24日發(fā)布高級(jí)語音模式。
一周之后咱們見分曉!
技術(shù)報(bào)告:https://kyutai.org/Moshi.pdfGitHub官方倉庫:
https://github.com/kyutai-labs/moshi
HuggingFace模型庫:
https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd