自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

NVIDIA AI 推出 Fugatto：一個(gè) 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂(lè)、語(yǔ)音和聲音原創(chuàng) 精華

發(fā)布于 2024-12-11 09:45

瀏覽

0收藏

01、概述

在音樂(lè)和聲音的世界中，創(chuàng)作、編輯和轉(zhuǎn)換音樂(lè)和聲音一直是一項(xiàng)技術(shù)與創(chuàng)意并存的挑戰(zhàn)。當(dāng)前的AI模型往往在多樣性上掙扎，它們擅長(zhǎng)于狹窄的任務(wù)或缺乏有效泛化的能力。這限制了AI輔助制作的發(fā)展，并阻礙了創(chuàng)意的適應(yīng)性。為了讓AI真正為音樂(lè)和音頻制作做出貢獻(xiàn)，它必須具備多樣性、作曲能力，并能響應(yīng)創(chuàng)意提示，讓藝術(shù)家能夠創(chuàng)造出獨(dú)特的聲音。顯然，我們需要一個(gè)能夠駕馭音頻和文本交互細(xì)節(jié)、執(zhí)行創(chuàng)意轉(zhuǎn)換并提供高質(zhì)量輸出的通用模型。

02、NVIDIA Fugatto

NVIDIA推出了Fugatto，這是一個(gè)擁有25億參數(shù)的AI模型，專為生成和操控音樂(lè)、聲音和人聲而設(shè)計(jì)。Fugatto將文本提示與先進(jìn)的音頻合成能力相結(jié)合，使聲音輸入變得高度靈活，便于創(chuàng)意實(shí)驗(yàn)——比如將鋼琴線變成人聲歌唱，或者讓小號(hào)產(chǎn)生意想不到的聲音。

該模型支持文本和可選音頻輸入，使其能夠以超越傳統(tǒng)音頻生成模型的方式創(chuàng)造和操控聲音。這種多樣化的方法允許實(shí)時(shí)實(shí)驗(yàn)，使藝術(shù)家和開(kāi)發(fā)者能夠流暢地生成新類(lèi)型的聲音或修改現(xiàn)有音頻。NVIDIA強(qiáng)調(diào)靈活性，使Fugatto在涉及復(fù)雜作曲轉(zhuǎn)換的任務(wù)上表現(xiàn)出色，成為藝術(shù)家和音頻制作人的寶貴工具。

NVIDIA AI 推出 Fugatto：一個(gè) 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂(lè)、語(yǔ)音和聲音-AI.x社區(qū)

03、技術(shù)細(xì)節(jié)

從技術(shù)角度來(lái)看，F(xiàn)ugatto采用了一種創(chuàng)新的數(shù)據(jù)生成方法，超越了傳統(tǒng)的監(jiān)督學(xué)習(xí)。它的訓(xùn)練不僅涉及常規(guī)數(shù)據(jù)集，還采用了專門(mén)的數(shù)據(jù)集生成技術(shù)，以創(chuàng)建廣泛的音頻和轉(zhuǎn)換任務(wù)。它使用大型語(yǔ)言模型（LLMs）來(lái)增強(qiáng)指令生成，使其更好地理解和解釋音頻和文本提示之間的關(guān)系。這種數(shù)據(jù)集豐富策略使Fugatto能夠從多樣化的上下文中學(xué)習(xí)，為多任務(wù)學(xué)習(xí)打下了堅(jiān)實(shí)的基礎(chǔ)。

NVIDIA AI 推出 Fugatto：一個(gè) 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂(lè)、語(yǔ)音和聲音-AI.x社區(qū)

一個(gè)關(guān)鍵的創(chuàng)新是可組合音頻表示轉(zhuǎn)換（ComposableART），這是一種在推理時(shí)開(kāi)發(fā)的技術(shù)，旨在將無(wú)分類(lèi)器指導(dǎo)擴(kuò)展到作曲指令。這使得Fugatto能夠平滑地組合、插值或否定不同的音頻生成指令，為聲音創(chuàng)造開(kāi)辟了新的可能性。ComposableART提供了對(duì)合成的高級(jí)控制，允許用戶精確地導(dǎo)航Fugatto的聲音調(diào)色板，混合不同的聲音并生成獨(dú)特的聲音現(xiàn)象。

Fugatto的架構(gòu)利用了經(jīng)過(guò)特定修改的Transformer模型，如自適應(yīng)層歸一化，這有助于在多樣化的輸入中保持一致性，并比現(xiàn)有模型更好地支持作曲指令。這意味著Fugatto能夠執(zhí)行如歌唱合成、聲音轉(zhuǎn)換和效果操控等任務(wù)，使其適用于廣泛的音頻應(yīng)用。

04、Fugatto的多樣性

Fugatto的多樣性在于其能夠在創(chuàng)意和技術(shù)的交匯點(diǎn)上執(zhí)行任務(wù)。傳統(tǒng)的專業(yè)模型通常需要手動(dòng)干預(yù)或狹窄定義的任務(wù)，往往缺乏創(chuàng)意實(shí)驗(yàn)所需的靈活性。然而，F(xiàn)ugatto可以適應(yīng)多種用途，這使其在音頻創(chuàng)作領(lǐng)域的實(shí)用性脫穎而出。Fugatto的早期測(cè)試表明，它在常見(jiàn)基準(zhǔn)測(cè)試中與其他專業(yè)模型表現(xiàn)相當(dāng)，但其真正的優(yōu)勢(shì)在于新興能力。

NVIDIA AI 推出 Fugatto：一個(gè) 25 億參數(shù)的音頻模型，可從文本和音頻輸入生成音樂(lè)、語(yǔ)音和聲音-AI.x社區(qū)

Fugatto的評(píng)估表明，與專業(yè)模型相比，其在音頻合成和轉(zhuǎn)換方面的性能具有競(jìng)爭(zhēng)力或更優(yōu)越。當(dāng)任務(wù)是合成新聲音或遵循作曲指令時(shí)，F(xiàn)ugatto超越了幾個(gè)基準(zhǔn)。例如，它展示了創(chuàng)造新聲音的能力，如合成具有不尋常特征的薩克斯管或生成與背景音景平滑融合的語(yǔ)音——這些任務(wù)對(duì)其他模型來(lái)說(shuō)以前是具有挑戰(zhàn)性的。

此外，F(xiàn)ugatto生成新興聲音——超出典型訓(xùn)練數(shù)據(jù)的聲音現(xiàn)象——為創(chuàng)意聲音設(shè)計(jì)開(kāi)辟了新的可能性。其使用ComposableART進(jìn)行作曲合成意味著用戶可以動(dòng)態(tài)合并多個(gè)屬性，使其成為尋求創(chuàng)意控制的音頻制作人的寶貴工具。

05、結(jié)語(yǔ)

Fugatto是音頻生成AI的一個(gè)重要進(jìn)步，提供了挑戰(zhàn)傳統(tǒng)限制和增強(qiáng)創(chuàng)意聲音操控的能力。NVIDIA將大型語(yǔ)言模型與聲音和音樂(lè)的復(fù)雜性相結(jié)合，打造出一個(gè)強(qiáng)大且多功能的工具。Fugatto能夠處理細(xì)膩的音頻任務(wù)，從簡(jiǎn)單的聲動(dòng)生成到復(fù)雜的作曲修改，使其成為創(chuàng)意AI工具未來(lái)的寶貴貢獻(xiàn)。這一模型不僅對(duì)藝術(shù)家具有重要意義，對(duì)游戲、娛樂(lè)和教育等行業(yè)也具有重大影響，AI工具在這些領(lǐng)域越來(lái)越多地支持和激發(fā)人類(lèi)創(chuàng)造力。

參考：

??https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf??
??https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/??

本文轉(zhuǎn)載自公眾號(hào)Halo咯咯作者：基咯咯

原文鏈接：??https://mp.weixin.qq.com/s/l3P6_pxPr1o5Uhcw-1EkmQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

300億參數(shù)！蘋(píng)果推出多模態(tài)大模型MM1，能解釋圖像和文本數(shù)據(jù)

laojean ? 2450瀏覽 ? 0回復(fù)
OpenAI首次展示音頻模型Voice Engine，生成的聲音太逼真了！

Aceryt ? 3047瀏覽 ? 0回復(fù)
OpenAI 推出語(yǔ)音引擎，只需15秒樣本，即能重建任何人的聲音

pangguiyu ? 2458瀏覽 ? 0回復(fù)
音樂(lè)人值得嘗試的十大文本轉(zhuǎn)音樂(lè)AI平臺(tái)

51CTO內(nèi)容精選 ? 3405瀏覽 ? 0回復(fù)
DiT架構(gòu)大一統(tǒng)：一個(gè)框架集成圖像、視頻、音頻和3D生成，可編輯、能試玩

輕薄滴假象 ? 2652瀏覽 ? 0回復(fù)
開(kāi)源音頻模型Stable Audio Open，文本生成47秒高清音效

Aceryt ? 4104瀏覽 ? 0回復(fù)
Stability AI開(kāi)源47秒音頻生成模型，蟲(chóng)鳴鳥(niǎo)叫、搖滾、鼓點(diǎn)都能生成

輕薄滴假象 ? 2539瀏覽 ? 0回復(fù)
谷歌“另辟蹊徑”，展示AI視頻生音頻最新進(jìn)展，效果驚艷！網(wǎng)友：但有一個(gè)缺點(diǎn)

51CTO技術(shù)棧 ? 2407瀏覽 ? 0回復(fù)
基于Mamba架構(gòu)的，狀態(tài)空間音頻分類(lèi)模型AUM

Aceryt ? 2417瀏覽 ? 0回復(fù)
Lumina-T2X: 一款集成圖像、視頻、音頻和3D生成的多模態(tài)擴(kuò)散模型

sword_hero ? 2609瀏覽 ? 0回復(fù)
一種實(shí)現(xiàn)符號(hào)鋼琴音樂(lè)聲音和譜表分離的GNN新方法

51CTO內(nèi)容精選 ? 1904瀏覽 ? 0回復(fù)
25個(gè)生成式AI核心術(shù)語(yǔ)【值得收藏】

Halo咯咯 ? 3503瀏覽 ? 0回復(fù)
擊敗擴(kuò)散和非擴(kuò)散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型

angel ? 2114瀏覽 ? 0回復(fù)
從數(shù)據(jù)集到模型：視頻和音頻情緒分析的綜合研究

xuxiangda ? 3340瀏覽 ? 0回復(fù)
Hume AI 推出 OCTAVE：下一代語(yǔ)音語(yǔ)言模型，具有動(dòng)態(tài)語(yǔ)音和個(gè)性創(chuàng)建等新的新興功能

Halo咯咯 ? 1622瀏覽 ? 0回復(fù)
基于 Gemini AI 實(shí)現(xiàn)音頻和視頻解析

丟翅膀的魚(yú) ? 2475瀏覽 ? 0回復(fù)
構(gòu)建一個(gè)完全本地的語(yǔ)音激活的實(shí)用RAG系統(tǒng)

51CTO內(nèi)容精選 ? 1444瀏覽 ? 0回復(fù)
一個(gè)擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2132瀏覽 ? 0回復(fù)
音頻也能“對(duì)話”？用 AssemblyAI、Qdrant 和 DeepSeek-R1 構(gòu)建音頻 RAG 聊天機(jī)器人

Halo咯咯 ? 1077瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

數(shù)學(xué)推理的 AI 新突破：NVIDIA 的 OpenMath-Nemotron 系列震撼登場(chǎng)！ 6h前發(fā)布
從簡(jiǎn)單計(jì)數(shù)到多模態(tài)：嵌入技術(shù)的演變與應(yīng)用 6h前發(fā)布

熱門(mén)推薦

2025年最值得關(guān)注的十大多模態(tài)大語(yǔ)言模型！ 0回復(fù)

GPT-4.1系列深度解析：從代碼到動(dòng)畫(huà)，從理論到實(shí)戰(zhàn)，AI的多面手來(lái)了！ 0回復(fù)

清華發(fā)布GLM 4！32B參數(shù)模型硬剛GPT-4o，性能驚艷 0回復(fù)

Google介紹了Agent2Agent（A2A）：一種新的開(kāi)放協(xié)議，允許AI代理在生態(tài)系統(tǒng)中安全地合作 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

上一篇： Apple 發(fā)布 AIMv2：最先進(jìn)的開(kāi)放集視覺(jué)編碼器系列

下一篇： Claude的MCP（模型上下文協(xié)議）簡(jiǎn)介

社區(qū)精華內(nèi)容

目錄

<legend id="cfc6i"><abbr id="cfc6i"></abbr></legend>

<blockquote id="cfc6i"><p id="cfc6i"></p></blockquote>

<acronym id="cfc6i"></acronym>