自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<code id="igsvt"><abbr id="igsvt"></abbr></code>

^{<blockquote id="igsvt"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

擊敗擴(kuò)散模型，清華朱軍團(tuán)隊(duì)基于薛定諤橋的新語音合成系統(tǒng)來了

作者：機(jī)器之心 2023-12-23 23:08:21

人工智能新聞

本次語音合成領(lǐng)域的最新研究工作，Bridge-TTS，憑借其基于薛定諤橋的生成框架，實(shí)現(xiàn)了「數(shù)據(jù)到數(shù)據(jù)」的生成過程，首次將語音合成的先驗(yàn)信息由噪聲修改為干凈數(shù)據(jù)，由分布修改為確定性表征。

近日，由清華大學(xué)計(jì)算機(jī)系朱軍教授課題組發(fā)布的基于薛定諤橋的語音合成系統(tǒng) [1]，憑借其「數(shù)據(jù)到數(shù)據(jù)」的生成范式，在樣本質(zhì)量和采樣速度兩方面，均擊敗了擴(kuò)散模型的「噪聲到數(shù)據(jù)」范式。

論文鏈接：https://arxiv.org/abs/2312.03491

項(xiàng)目網(wǎng)站：https://bridge-tts.github.io/

代碼實(shí)現(xiàn)：https://github.com/thu-ml/Bridge-TTS

問題背景

自 2021 年起，擴(kuò)散模型（diffusion models）開始成為文本到語音合成（text-to-speech, TTS）領(lǐng)域的核心生成方法之一，如華為諾亞方舟實(shí)驗(yàn)室提出的 Grad-TTS [2]、浙江大學(xué)提出的 DiffSinger [3] 等方法均實(shí)現(xiàn)了較高的生成質(zhì)量。此后，又有眾多研究工作有效提升了擴(kuò)散模型的采樣速度，如通過先驗(yàn)優(yōu)化 [2,3,4]、模型蒸餾 [5,6]、殘差預(yù)測 [7] 等方法。然而，如此項(xiàng)研究所示，由于擴(kuò)散模型受限于「噪聲到數(shù)據(jù)」的生成范式，其先驗(yàn)分布對生成目標(biāo)提供的信息始終較為有限，對條件信息無法利用充分。

本次語音合成領(lǐng)域的最新研究工作，Bridge-TTS，憑借其基于薛定諤橋的生成框架，實(shí)現(xiàn)了「數(shù)據(jù)到數(shù)據(jù)」的生成過程，首次將語音合成的先驗(yàn)信息由噪聲修改為干凈數(shù)據(jù)，由分布修改為確定性表征。

該方法的主要架構(gòu)如上圖所示，輸入文本首先經(jīng)由文本編碼器提取出生成目標(biāo)（mel-spectrogram, 梅爾譜）的隱空間表征。此后，與擴(kuò)散模型將此信息并入噪聲分布或用作條件信息不同，Bridge-TTS 的方法支持直接將其作為先驗(yàn)信息，并支持通過隨機(jī)或確定性采樣的方式，高質(zhì)量、快速地生成目標(biāo)。

工作成果

在驗(yàn)證語音合成質(zhì)量的標(biāo)準(zhǔn)數(shù)據(jù)集 LJ-Speech 上，研究團(tuán)隊(duì)將 Bridge-TTS 與 9 項(xiàng)高質(zhì)量的語音合成系統(tǒng)和擴(kuò)散模型的加速采樣方法進(jìn)行了對比。如下所示，該方法在樣本質(zhì)量上（1000 步、50 步采樣）擊敗了基于擴(kuò)散模型的高質(zhì)量 TTS 系統(tǒng) [2,3,7]，并在采樣速度上，在無需任何后處理如額外模型蒸餾的條件下，超過了眾多加速方法，如殘差預(yù)測、漸進(jìn)式蒸餾、以及最新的一致性蒸餾等工作 [5,6,7]。

以下是 Bridge-TTS 與基于擴(kuò)散模型方法的生成效果示例，更多生成樣本對比可訪問項(xiàng)目網(wǎng)站：https://bridge-tts.github.io/

1000 步合成效果對比

輸入文本：「Printing, then, for our purpose, may be considered as the art of making books by means of movable types.」

真實(shí)樣本,機(jī)器之心,7秒

Bridge-TTS-1000,機(jī)器之心,6秒

Grad-TTS-1000,機(jī)器之心,6秒

4 步合成效果對比

輸入文本：「The first books were printed in black letter, i.e. the letter which was a Gothic development of the ancient Roman character，」

真實(shí)樣本,機(jī)器之心,7秒

Bridge-TTS-4,機(jī)器之心,7秒

Fast Grad-TTS-4,機(jī)器之心,7秒

ResGrad-4,機(jī)器之心,6秒

2 步合成效果對比

輸入文本：「The prison population fluctuated a great deal,」

真實(shí)樣本-2,機(jī)器之心,2秒

Bridge-TTS-2,機(jī)器之心,2秒

CoMoSpeech-2,機(jī)器之心,3秒

下面展示了 Bridge-TTS 一個(gè)在 2 步和 4 步的一個(gè)確定性合成（ODE sampling）案例。在 4 步合成中，該方法相較于擴(kuò)散模型顯著合成了更多樣本細(xì)節(jié)，并沒有噪聲殘留的問題。在 2 步合成中，該方法展示出了完全純凈的采樣軌跡，并在每一步采樣完善了更多的生成細(xì)節(jié)。

在頻域中，更多的生成樣本如下所示，在 1000 步合成中，該方法相較于擴(kuò)散模型生成了更高質(zhì)量的梅爾譜，當(dāng)采樣步數(shù)降到 50 步時(shí)，擴(kuò)散模型已經(jīng)犧牲了部分采樣細(xì)節(jié)，而基于薛定諤橋的該方法仍然保持著高質(zhì)量的生成效果。在 4 步和 2 步合成中，該方法不需蒸餾、多階段訓(xùn)練、和對抗損失函數(shù)，仍然實(shí)現(xiàn)了高質(zhì)量的生成效果。

在 1000 步合成中，Bridge-TTS與基于擴(kuò)散模型的方法的梅爾譜對比

在 50 步合成中，Bridge-TTS與基于擴(kuò)散模型的方法的梅爾譜對比

在 4 步合成中，Bridge-TTS與基于擴(kuò)散模型的方法的梅爾譜對比

在 2 步合成中，Bridge-TTS與基于擴(kuò)散模型的方法的梅爾譜對比

Bridge-TTS一經(jīng)發(fā)布，憑借其在語音合成上新穎的設(shè)計(jì)與高質(zhì)量的合成效果，在 Twitter 上引起了熱烈關(guān)注，獲得了百余次轉(zhuǎn)發(fā)和數(shù)百次點(diǎn)贊，入選了 Huggingface 在 12.7 的 Daily Paper 并在當(dāng)日獲得了支持率第一名，同時(shí)在 LinkedIn、微博、知乎、小紅書等多個(gè)國內(nèi)外平臺(tái)被關(guān)注與轉(zhuǎn)發(fā)報(bào)道。

多個(gè)外文網(wǎng)站也進(jìn)行了報(bào)道和討論：

方法介紹

薛定諤橋（Schrodinger Bridge）是一類繼擴(kuò)散模型之后，近期新興的深度生成模型，在圖像生成、圖像翻譯等領(lǐng)域都有了初步應(yīng)用 [8,9]。不同于擴(kuò)散模型在數(shù)據(jù)和高斯噪聲之間建立變換過程，薛定諤橋支持任意兩個(gè)邊界分布之間的轉(zhuǎn)換。在 Bridge-TTS 的研究中，作者們提出了基于成對數(shù)據(jù)間薛定諤橋的語音合成框架，靈活支持著多種前向過程、預(yù)測目標(biāo)、及采樣過程。其方法概覽如下圖所示：

前向過程：此研究在強(qiáng)信息先驗(yàn)和生成目標(biāo)之間搭建了一種完全可解的薛定諤橋，支持靈活的前向過程選擇，如對稱式噪聲策略：、常數(shù)，和非對稱噪聲策略: 、線性，以及直接與擴(kuò)散模型相對應(yīng)的方差保持（VP）噪聲策略。該方法發(fā)現(xiàn)在語音合成任務(wù)中非對稱噪聲策略：即線性（gmax）和 VP 過程，相較于對稱式噪聲策略有更好的生成效果。

模型訓(xùn)練：該方法保持了擴(kuò)散模型訓(xùn)練過程的多個(gè)優(yōu)點(diǎn)，如單階段、單模型、和單損失函數(shù)等。并且其對比了多種模型參數(shù)化（Model parameterization）的方式，即網(wǎng)絡(luò)訓(xùn)練目標(biāo)的選擇，包括噪聲預(yù)測（Noise）、生成目標(biāo)預(yù)測（Data）、和對應(yīng)于擴(kuò)散模型中流匹配技術(shù) [10,11] 的速度預(yù)測（Velocity）等。文章發(fā)現(xiàn)以生成目標(biāo)，即梅爾譜為網(wǎng)絡(luò)預(yù)測目標(biāo)時(shí)，可以取得相對更佳的生成效果。

采樣過程：得益于該研究中薛定諤橋完全可解的形式，對薛定諤橋?qū)?yīng)的前 - 后向 SDE 系統(tǒng)進(jìn)行變換，作者們得到了 Bridge SDE 和 Bridge ODE 用于推斷。同時(shí)，由于直接模擬 Bridge SDE/ODE 推斷速度較慢，為加快采樣，該研究借助了擴(kuò)散模型中常用的指數(shù)積分器 [12,13]，給出了薛定諤橋的一階 SDE 與 ODE 采樣形式：

在 1 步采樣時(shí)，其一階 SDE 與 ODE 的采樣形式共同退化為網(wǎng)絡(luò)的單步預(yù)測。同時(shí)，它們與后驗(yàn)采樣 / 擴(kuò)散模型 DDIM 采樣有著密切聯(lián)系，文章在附錄中給出了詳細(xì)分析。文章也同時(shí)給出了薛定諤橋的二階采樣 SDE 與 ODE 采樣算法。作者發(fā)現(xiàn)，在語音合成中，其生成質(zhì)量與一階采樣過程類似。

在其他任務(wù)如語音增強(qiáng)、語音分離、語音編輯等先驗(yàn)信息同樣較強(qiáng)的任務(wù)中，作者們期待此研究也會(huì)帶來較大的應(yīng)用價(jià)值。

作者簡介

此項(xiàng)研究有三位共同第一作者：陳澤華，何冠德，鄭凱文，均屬于清華大學(xué)計(jì)算機(jī)系朱軍課題組，文章通訊作者為朱軍教授，微軟亞洲研究院首席研究經(jīng)理譚旭為項(xiàng)目合作者。

朱軍教授

微軟亞洲研究院首席研究經(jīng)理譚旭

陳澤華是清華大學(xué)計(jì)算機(jī)系水木學(xué)者博士后，主要研究方向?yàn)楦怕噬赡Ｐ?，及其在語音、音效、生物電信號(hào)合成等方面的應(yīng)用。曾在微軟、京東、TikTok 等多家公司實(shí)習(xí)，在語音和機(jī)器學(xué)習(xí)領(lǐng)域重要國際會(huì)議 ICML/NeurIPS/ICASSP 等發(fā)表多篇論文。

何冠德是清華大學(xué)在讀的三年級(jí)碩士生，主要研究方向是不確定性估計(jì)與生成模型，此前在 ICLR 等會(huì)議以第一作者身份發(fā)表論文。

鄭凱文是清華大學(xué)在讀的二年級(jí)碩士生，主要研究方向是深度生成模型的理論與算法，及其在圖像、音頻和 3D 生成中的應(yīng)用。此前在 ICML/NeurIPS/CVPR 等頂級(jí)會(huì)議發(fā)表多篇論文，涉及了擴(kuò)散模型中的流匹配和指數(shù)積分器等技術(shù)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

語音數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<ol id="9otqe"></ol>

<tfoot id="9otqe"><fieldset id="9otqe"></fieldset></tfoot>