一天拿下3.4k star,這個(gè)1.6B開源模型火了,合成對話超逼真
如果不提前告訴你,你可能很難相信這段視頻里的語音全部是 AI 生成的:
這些聲音來自 Dia-1.6B——一個(gè)剛剛在 ??、GitHub 等平臺(tái)上走紅的開源語音模型。它不僅能生成說話的聲音、對話,同時(shí)也能合成真實(shí)感非常強(qiáng)的笑聲、噴嚏聲和吸鼻子聲等表達(dá)情緒的聲音。
由于效果過于逼真,它在 GitHub 上線后不到 24 小時(shí)就收獲了超過 3.4k star,現(xiàn)在的 star 數(shù)更是已經(jīng)達(dá)到了 5.4k。同時(shí),Dia-1.6B 也是目前 Hugging Face 上熱度第二的模型,目前已經(jīng)被下載了超過 5600 次。
- GitHub:https://github.com/nari-labs/dia/
- Hugging Face: https://huggingface.co/nari-labs/Dia-1.6B
- 試用地址:https://huggingface.co/spaces/nari-labs/Dia-1.6B
在和 ElevenLabs Studio、Sesame CSM-1B 等之前以逼真著稱的模型對比之后,Dia-1.6B 依然有著明顯的優(yōu)勢,尤其是在情緒表達(dá)方面。
表現(xiàn)如此之好,自然也是收獲好評無數(shù):
機(jī)器之心也做了一些簡單的嘗試,下面是一個(gè)示例
整體來說,Dia-1.6B 在合成簡單英語對話方面確實(shí)表現(xiàn)卓越,但卻并不能很好地理解用戶通過括號標(biāo)注的指令,偶爾會(huì)出現(xiàn)類似電流的雜音。
Dia 模型細(xì)節(jié)
Dia 來自 Nari Labs,是一個(gè) 1.6B 參數(shù)量的文本轉(zhuǎn)語音模型。
Dia 可以直接基于文字生成高真實(shí)感的對話。用戶可以對輸出的音頻進(jìn)行調(diào)整,從而控制其情緒和語調(diào)。同時(shí),模型還可以生成非語言的交流聲音,例如笑聲、咳嗽聲、吸鼻子聲等。
并且 Nari Labs 開源發(fā)布了 Dia,使用了 Apache License 2.0 證書。該團(tuán)隊(duì)表示:「為了加速研究,我們提供了預(yù)訓(xùn)練模型檢查點(diǎn)和推理代碼的訪問權(quán)限。模型權(quán)重托管在 Hugging Face 上?!?/span>
不過遺憾的是,目前該模型僅支持英語生成。
硬件和推理加速
目前 Nari Labs 并未發(fā)布 Dia 模型的詳細(xì)技術(shù)報(bào)告,但我們可以在其 Hugging Face 頁面看到些許有關(guān)硬件和推理加速的技術(shù)細(xì)節(jié)。
該團(tuán)隊(duì)表示,Dia 目前僅在 GPU 上進(jìn)行過測試(Pytorch 2.0+,CUDA 12.6)。CPU 支持也即將添加。并且由于需要下載 Descript Audio Codec,初始運(yùn)行會(huì)需要更長時(shí)間。
在企業(yè)級 GPU 上,Dia 可以實(shí)時(shí)生成音頻。在較舊的 GPU 上,推理會(huì)更慢。作為參考,在 A4000 GPU 上,Dia 大約每秒生成 40 個(gè) token(86 個(gè) token 相當(dāng)于 1 秒的音頻)。torch.compile 將提高受支持 GPU 的速度。
Dia 的完整版本需要大約 10GB 的顯存才能運(yùn)行。不過該團(tuán)隊(duì)承諾未來會(huì)放出一些量化版本。
Dia 還有更大規(guī)模的版本。在 Nari Labs 的 Discord 中,開發(fā)者 Toby Kim 表示更大的模型還處于規(guī)劃階段。感興趣的用戶可以通過這個(gè)鏈接加入等待列表:https://tally.so/r/meokbo
另外,Toby Kim 還指出目前最長能穩(wěn)定生成大約 25 秒的音頻,但用戶也可以基于之前的生成結(jié)果來生成更長的音頻。
Nari Labs 簡介
Nari Labs 的 Hugging Face 頁面透露,Nari 是一個(gè)源自韓語的詞(??),意為百合。
據(jù)介紹,Nari Labs 是一個(gè)非常小的團(tuán)隊(duì),目前僅有一位全職研究工程師和一位兼職研究工程師。他們的 GitHub 賬戶也是四天前才剛注冊的。
其中一位開發(fā)者 Toby Kim 在 ?? 上表示,這兩位工程師目前都還是本科生。而他們的目標(biāo)是「構(gòu)建一個(gè)可以與 NotebookLM Podcast、ElevenLabs Studio 和 Sesame CSM 相媲美的 TTS 模型。」
目前看來,他們已經(jīng)取得了初步的成功。Toby Kim 表示這項(xiàng)成功耗時(shí)三個(gè)月時(shí)間,而這個(gè)過程中他們遇到的最大阻礙是計(jì)算不足。
接下來,他們計(jì)劃將 Dia 做成一個(gè) B2C 應(yīng)用,可以生成有趣的對話和混音內(nèi)容。