自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NVIDIA AI 推出 Fugatto:一個(gè) 25 億參數(shù)的音頻模型,可從文本和音頻輸入生成音樂(lè)、語(yǔ)音和聲音 原創(chuàng) 精華

發(fā)布于 2024-12-11 09:45
瀏覽
0收藏

01、概述

在音樂(lè)和聲音的世界中,創(chuàng)作、編輯和轉(zhuǎn)換音樂(lè)和聲音一直是一項(xiàng)技術(shù)與創(chuàng)意并存的挑戰(zhàn)。當(dāng)前的AI模型往往在多樣性上掙扎,它們擅長(zhǎng)于狹窄的任務(wù)或缺乏有效泛化的能力。這限制了AI輔助制作的發(fā)展,并阻礙了創(chuàng)意的適應(yīng)性。為了讓AI真正為音樂(lè)和音頻制作做出貢獻(xiàn),它必須具備多樣性、作曲能力,并能響應(yīng)創(chuàng)意提示,讓藝術(shù)家能夠創(chuàng)造出獨(dú)特的聲音。顯然,我們需要一個(gè)能夠駕馭音頻和文本交互細(xì)節(jié)、執(zhí)行創(chuàng)意轉(zhuǎn)換并提供高質(zhì)量輸出的通用模型。

02、NVIDIA Fugatto

NVIDIA推出了Fugatto,這是一個(gè)擁有25億參數(shù)的AI模型,專為生成和操控音樂(lè)、聲音和人聲而設(shè)計(jì)。Fugatto將文本提示與先進(jìn)的音頻合成能力相結(jié)合,使聲音輸入變得高度靈活,便于創(chuàng)意實(shí)驗(yàn)——比如將鋼琴線變成人聲歌唱,或者讓小號(hào)產(chǎn)生意想不到的聲音。

該模型支持文本和可選音頻輸入,使其能夠以超越傳統(tǒng)音頻生成模型的方式創(chuàng)造和操控聲音。這種多樣化的方法允許實(shí)時(shí)實(shí)驗(yàn),使藝術(shù)家和開(kāi)發(fā)者能夠流暢地生成新類(lèi)型的聲音或修改現(xiàn)有音頻。NVIDIA強(qiáng)調(diào)靈活性,使Fugatto在涉及復(fù)雜作曲轉(zhuǎn)換的任務(wù)上表現(xiàn)出色,成為藝術(shù)家和音頻制作人的寶貴工具。

NVIDIA AI 推出 Fugatto:一個(gè) 25 億參數(shù)的音頻模型,可從文本和音頻輸入生成音樂(lè)、語(yǔ)音和聲音-AI.x社區(qū)

03、技術(shù)細(xì)節(jié)

從技術(shù)角度來(lái)看,F(xiàn)ugatto采用了一種創(chuàng)新的數(shù)據(jù)生成方法,超越了傳統(tǒng)的監(jiān)督學(xué)習(xí)。它的訓(xùn)練不僅涉及常規(guī)數(shù)據(jù)集,還采用了專門(mén)的數(shù)據(jù)集生成技術(shù),以創(chuàng)建廣泛的音頻和轉(zhuǎn)換任務(wù)。它使用大型語(yǔ)言模型(LLMs)來(lái)增強(qiáng)指令生成,使其更好地理解和解釋音頻和文本提示之間的關(guān)系。這種數(shù)據(jù)集豐富策略使Fugatto能夠從多樣化的上下文中學(xué)習(xí),為多任務(wù)學(xué)習(xí)打下了堅(jiān)實(shí)的基礎(chǔ)。

NVIDIA AI 推出 Fugatto:一個(gè) 25 億參數(shù)的音頻模型,可從文本和音頻輸入生成音樂(lè)、語(yǔ)音和聲音-AI.x社區(qū)

一個(gè)關(guān)鍵的創(chuàng)新是可組合音頻表示轉(zhuǎn)換(ComposableART),這是一種在推理時(shí)開(kāi)發(fā)的技術(shù),旨在將無(wú)分類(lèi)器指導(dǎo)擴(kuò)展到作曲指令。這使得Fugatto能夠平滑地組合、插值或否定不同的音頻生成指令,為聲音創(chuàng)造開(kāi)辟了新的可能性。ComposableART提供了對(duì)合成的高級(jí)控制,允許用戶精確地導(dǎo)航Fugatto的聲音調(diào)色板,混合不同的聲音并生成獨(dú)特的聲音現(xiàn)象。

Fugatto的架構(gòu)利用了經(jīng)過(guò)特定修改的Transformer模型,如自適應(yīng)層歸一化,這有助于在多樣化的輸入中保持一致性,并比現(xiàn)有模型更好地支持作曲指令。這意味著Fugatto能夠執(zhí)行如歌唱合成、聲音轉(zhuǎn)換和效果操控等任務(wù),使其適用于廣泛的音頻應(yīng)用。

04、Fugatto的多樣性

Fugatto的多樣性在于其能夠在創(chuàng)意和技術(shù)的交匯點(diǎn)上執(zhí)行任務(wù)。傳統(tǒng)的專業(yè)模型通常需要手動(dòng)干預(yù)或狹窄定義的任務(wù),往往缺乏創(chuàng)意實(shí)驗(yàn)所需的靈活性。然而,F(xiàn)ugatto可以適應(yīng)多種用途,這使其在音頻創(chuàng)作領(lǐng)域的實(shí)用性脫穎而出。Fugatto的早期測(cè)試表明,它在常見(jiàn)基準(zhǔn)測(cè)試中與其他專業(yè)模型表現(xiàn)相當(dāng),但其真正的優(yōu)勢(shì)在于新興能力。

NVIDIA AI 推出 Fugatto:一個(gè) 25 億參數(shù)的音頻模型,可從文本和音頻輸入生成音樂(lè)、語(yǔ)音和聲音-AI.x社區(qū)

Fugatto的評(píng)估表明,與專業(yè)模型相比,其在音頻合成和轉(zhuǎn)換方面的性能具有競(jìng)爭(zhēng)力或更優(yōu)越。當(dāng)任務(wù)是合成新聲音或遵循作曲指令時(shí),F(xiàn)ugatto超越了幾個(gè)基準(zhǔn)。例如,它展示了創(chuàng)造新聲音的能力,如合成具有不尋常特征的薩克斯管或生成與背景音景平滑融合的語(yǔ)音——這些任務(wù)對(duì)其他模型來(lái)說(shuō)以前是具有挑戰(zhàn)性的。

此外,F(xiàn)ugatto生成新興聲音——超出典型訓(xùn)練數(shù)據(jù)的聲音現(xiàn)象——為創(chuàng)意聲音設(shè)計(jì)開(kāi)辟了新的可能性。其使用ComposableART進(jìn)行作曲合成意味著用戶可以動(dòng)態(tài)合并多個(gè)屬性,使其成為尋求創(chuàng)意控制的音頻制作人的寶貴工具。

05、結(jié)語(yǔ)

Fugatto是音頻生成AI的一個(gè)重要進(jìn)步,提供了挑戰(zhàn)傳統(tǒng)限制和增強(qiáng)創(chuàng)意聲音操控的能力。NVIDIA將大型語(yǔ)言模型與聲音和音樂(lè)的復(fù)雜性相結(jié)合,打造出一個(gè)強(qiáng)大且多功能的工具。Fugatto能夠處理細(xì)膩的音頻任務(wù),從簡(jiǎn)單的聲動(dòng)生成到復(fù)雜的作曲修改,使其成為創(chuàng)意AI工具未來(lái)的寶貴貢獻(xiàn)。這一模型不僅對(duì)藝術(shù)家具有重要意義,對(duì)游戲、娛樂(lè)和教育等行業(yè)也具有重大影響,AI工具在這些領(lǐng)域越來(lái)越多地支持和激發(fā)人類(lèi)創(chuàng)造力。

參考:

  1. ??https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf??
  2. ??https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/??


本文轉(zhuǎn)載自公眾號(hào)Halo咯咯 作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/l3P6_pxPr1o5Uhcw-1EkmQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦