自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一天拿下3.4k star，這個(gè)1.6B開源模型火了，合成對話超逼真

作者：機(jī)器之心 2025-04-24 09:21:00

人工智能新聞

由于效果過于逼真，它在 GitHub 上線后不到 24 小時(shí)就收獲了超過?3.4k?star，現(xiàn)在的 star 數(shù)更是已經(jīng)達(dá)到了?5.4k。

如果不提前告訴你，你可能很難相信這段視頻里的語音全部是 AI 生成的：

這些聲音來自 Dia-1.6B——一個(gè)剛剛在 ??、GitHub 等平臺(tái)上走紅的開源語音模型。它不僅能生成說話的聲音、對話，同時(shí)也能合成真實(shí)感非常強(qiáng)的笑聲、噴嚏聲和吸鼻子聲等表達(dá)情緒的聲音。

由于效果過于逼真，它在 GitHub 上線后不到 24 小時(shí)就收獲了超過 3.4k star，現(xiàn)在的 star 數(shù)更是已經(jīng)達(dá)到了 5.4k。同時(shí)，Dia-1.6B 也是目前 Hugging Face 上熱度第二的模型，目前已經(jīng)被下載了超過 5600 次。

GitHub：https://github.com/nari-labs/dia/
Hugging Face: https://huggingface.co/nari-labs/Dia-1.6B
試用地址：https://huggingface.co/spaces/nari-labs/Dia-1.6B

在和 ElevenLabs Studio、Sesame CSM-1B 等之前以逼真著稱的模型對比之后，Dia-1.6B 依然有著明顯的優(yōu)勢，尤其是在情緒表達(dá)方面。

表現(xiàn)如此之好，自然也是收獲好評無數(shù)：

機(jī)器之心也做了一些簡單的嘗試，下面是一個(gè)示例

整體來說，Dia-1.6B 在合成簡單英語對話方面確實(shí)表現(xiàn)卓越，但卻并不能很好地理解用戶通過括號標(biāo)注的指令，偶爾會(huì)出現(xiàn)類似電流的雜音。

Dia 模型細(xì)節(jié)

Dia 來自 Nari Labs，是一個(gè) 1.6B 參數(shù)量的文本轉(zhuǎn)語音模型。

Dia 可以直接基于文字生成高真實(shí)感的對話。用戶可以對輸出的音頻進(jìn)行調(diào)整，從而控制其情緒和語調(diào)。同時(shí)，模型還可以生成非語言的交流聲音，例如笑聲、咳嗽聲、吸鼻子聲等。

并且 Nari Labs 開源發(fā)布了 Dia，使用了 Apache License 2.0 證書。該團(tuán)隊(duì)表示：「為了加速研究，我們提供了預(yù)訓(xùn)練模型檢查點(diǎn)和推理代碼的訪問權(quán)限。模型權(quán)重托管在 Hugging Face 上?！?/span>

不過遺憾的是，目前該模型僅支持英語生成。

硬件和推理加速

目前 Nari Labs 并未發(fā)布 Dia 模型的詳細(xì)技術(shù)報(bào)告，但我們可以在其 Hugging Face 頁面看到些許有關(guān)硬件和推理加速的技術(shù)細(xì)節(jié)。

該團(tuán)隊(duì)表示，Dia 目前僅在 GPU 上進(jìn)行過測試（Pytorch 2.0+，CUDA 12.6）。CPU 支持也即將添加。并且由于需要下載 Descript Audio Codec，初始運(yùn)行會(huì)需要更長時(shí)間。

在企業(yè)級 GPU 上，Dia 可以實(shí)時(shí)生成音頻。在較舊的 GPU 上，推理會(huì)更慢。作為參考，在 A4000 GPU 上，Dia 大約每秒生成 40 個(gè) token（86 個(gè) token 相當(dāng)于 1 秒的音頻）。torch.compile 將提高受支持 GPU 的速度。

Dia 的完整版本需要大約 10GB 的顯存才能運(yùn)行。不過該團(tuán)隊(duì)承諾未來會(huì)放出一些量化版本。

Dia 還有更大規(guī)模的版本。在 Nari Labs 的 Discord 中，開發(fā)者 Toby Kim 表示更大的模型還處于規(guī)劃階段。感興趣的用戶可以通過這個(gè)鏈接加入等待列表：https://tally.so/r/meokbo

另外，Toby Kim 還指出目前最長能穩(wěn)定生成大約 25 秒的音頻，但用戶也可以基于之前的生成結(jié)果來生成更長的音頻。

Nari Labs 簡介

Nari Labs 的 Hugging Face 頁面透露，Nari 是一個(gè)源自韓語的詞（??），意為百合。

據(jù)介紹，Nari Labs 是一個(gè)非常小的團(tuán)隊(duì)，目前僅有一位全職研究工程師和一位兼職研究工程師。他們的 GitHub 賬戶也是四天前才剛注冊的。

其中一位開發(fā)者 Toby Kim 在 ?? 上表示，這兩位工程師目前都還是本科生。而他們的目標(biāo)是「構(gòu)建一個(gè)可以與 NotebookLM Podcast、ElevenLabs Studio 和 Sesame CSM 相媲美的 TTS 模型。」

目前看來，他們已經(jīng)取得了初步的成功。Toby Kim 表示這項(xiàng)成功耗時(shí)三個(gè)月時(shí)間，而這個(gè)過程中他們遇到的最大阻礙是計(jì)算不足。

接下來，他們計(jì)劃將 Dia 做成一個(gè) B2C 應(yīng)用，可以生成有趣的對話和混音內(nèi)容。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型語音生成

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<thead id="kecwk"><rt id="kecwk"></rt></thead>

<sub id="kecwk"><i id="kecwk"></i></sub>

<blockquote id="kecwk"><p id="kecwk"><li id="kecwk"></li></p></blockquote>

<cite id="kecwk"><rp id="kecwk"></rp></cite>

<s id="kecwk"><kbd id="kecwk"></kbd></s>