自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="49csl"></cite>

<blockquote id="49csl"></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

吉他搖滾、電子音樂都能搞定，Meta開源音頻生成新模型MAGNeT，非自回歸7倍提速

作者：機(jī)器之心 2024-02-07 12:37:23

人工智能新聞

前幾日，在論文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中，Meta FAIR 團(tuán)隊、Kyutai 和希伯來大學(xué)推出了 MAGNeT，一種在掩碼生成序列建模方法，可以直接在多個音頻 tokens 流上直接運行。

在文本生成音頻（或音樂）這個 AIGC 賽道，Meta 最近又有了新研究成果，而且開源了。

前幾日，在論文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中，Meta FAIR 團(tuán)隊、Kyutai 和希伯來大學(xué)推出了 MAGNeT，一種在掩碼生成序列建模方法，可以直接在多個音頻 tokens 流上直接運行。與以往工作最大的不同是，MAGNeT 是由單階段、非自回歸 transformer 生成音頻。

論文地址：https://arxiv.org/pdf/2401.04577.pdf
GitHub 地址：https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

具體來講，在訓(xùn)練期間，研究者預(yù)測從掩碼調(diào)度器獲得的掩碼 token 的范圍；在模型推理階段，則通過幾個解碼步驟逐漸構(gòu)建輸出序列。為了進(jìn)一步增強(qiáng)生成音頻質(zhì)量，他們提出一種新穎的重評分方法，利用外部預(yù)訓(xùn)練模型對來自 MAGNET 的預(yù)測進(jìn)行重評分和排名，然后用于后續(xù)的解碼步驟。

此外，研究者還探索了 MAGNET 的混合版本，融合自回歸和非自回歸模型，以自回歸的方式生成前幾秒，同時對剩余序列進(jìn)行并行解碼。

從生成結(jié)果來看，MAGNET 在文本到音頻和文本到音樂任務(wù)上取得了非常不錯的效果，質(zhì)量媲美 SOTA 自回歸基線模型的同時速度是它們的 7 倍。

大家可以聽一下生成的音樂效果。

MAGNeT 方法概覽

下圖 1 為 MAGNeT 原理圖，作為一個非自回歸的音頻生成掩碼語言模型，它以條件語義表示為條件，在從 EnCodec 中獲得的幾個離散音頻 token 流上運行。在建模策略上，研究者進(jìn)行了包括掩碼策略、受限上下文、采樣機(jī)制和模型重評分等幾個方面的核心建模修改。

首先來看掩碼策略，研究者評估了 20ms 到 200ms 之間的各種跨度長度，并發(fā)現(xiàn) 60ms 跨度長度可以提供最佳的整體性能。他們從調(diào)度器中采樣了掩碼率 γ(i)，并相應(yīng)地計算了進(jìn)行掩碼的平均跨度量。此外從計算效率方面考慮，研究者還使用了非重疊跨度。

接著是受限上下文。研究者使用到了 EnCodec 并相應(yīng)地限制了碼本的上下文。具體來講，音頻編碼器由多層卷積網(wǎng)絡(luò)和最終的 LSTM 塊組成。EnCodec 感受野的分析結(jié)果表明，卷積網(wǎng)絡(luò)的感受野約為 160ms，而包含 LSTM 塊的有效感受野約為 180ms。研究者使用隨時間推移的平移脈沖函數(shù)并測量了序列中間編碼向量的幅度，進(jìn)而對模型的感受野進(jìn)行了實證評估。

下圖 3 為過程展示，不過 LSTM 盡管在理論上具有無限記憶，但實際觀察來看是有限的。

最后是模態(tài)推理，包含采樣和無分類器指導(dǎo)退火。采樣如下公式（3）所示，使用均勻采樣從先前一組掩碼跨度中選擇跨度。在實踐中，研究者使用第 i 次迭代時的模型置信度作為評分函數(shù)，來對所有可能的跨度進(jìn)行排序，并相應(yīng)地選擇最不可能進(jìn)行掩碼的跨度。

對于 token 預(yù)測，研究者選擇使用無分類器指導(dǎo)來完成。在訓(xùn)練期間，他們有條件和無條件地對模型進(jìn)行優(yōu)化；在推理期間，他們從獲得自條件和無條件概率的線性組合的一個分布中進(jìn)行采樣。

實驗及結(jié)果

在實驗環(huán)節(jié)，研究者在文本到音樂生成和文本到音頻生成任務(wù)上對 MAGNeT 進(jìn)行評估。他們使用了與 Copet et al. (2023) 所用完全相同的音樂生成訓(xùn)練數(shù)據(jù)，與 Kreuk et al. (2022a) 所用完全相同的音頻生成訓(xùn)練數(shù)據(jù)。

下表 4 展示了用于訓(xùn)練 MAGNeT 以及其他基線方法（包括 MusicGen、MusicLM 和 AudioLDM2）的訓(xùn)練集細(xì)節(jié)。

下表 1 為 MAGNeT 在文本到音樂生成任務(wù)上與其他基線方法的比較結(jié)果，使用的評估數(shù)據(jù)集為 MusicCaps。我們可以看到，MAGNeT 的性能與使用自回歸建模方法的 MusicGen 相當(dāng)，但在生成速度（延遲）和解碼兩方面比后者快得多。

下圖 2a 表明，與自回歸基線模型（紅色曲線）相比，非自回歸模型（藍(lán)色虛線）得益于并行解碼在小批大小時表現(xiàn)尤為出色，單個生成樣本的延遲低至 600ms，是自回歸基線模型的 1/10?？梢灶A(yù)見，MAGNeT 在需要低延遲預(yù)處理的交互式應(yīng)用程序中應(yīng)用潛力很大。此外在批大小達(dá)到 64 之前，非自回歸模型生成速度都要比基線模型快。

下表 2 展示了跨度長度和受限上下文的消融實驗。研究者報告了使用域內(nèi)測試集時，MAGNeT 在不同跨度長度、有無時間受限上下文情況下的 FAD（Fréchet Audio Distance）分?jǐn)?shù)。

更多技術(shù)細(xì)節(jié)和實驗結(jié)果請參閱原論文。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="mm9h5"></sub>

<sub id="mm9h5"></sub>