自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

有趣!英偉達(dá)新AI模型Fugatto可以生成從未有過的聲音

人工智能
英偉達(dá)開發(fā)的Fugatto模型曝光,它將最新的AI訓(xùn)練方案與技術(shù)融合,可以以之前未曾見過的方式處理音樂、語音及其它聲音,創(chuàng)造出從未有過的聲音。

英偉達(dá)已經(jīng)成為AI時代的領(lǐng)頭羊,除了賣GPU,它自己也在開發(fā)大語言模型。最近,英偉達(dá)開發(fā)的Fugatto模型曝光,它將最新的AI訓(xùn)練方案與技術(shù)融合,可以以之前未曾見過的方式處理音樂、語音及其它聲音,創(chuàng)造出從未有過的聲音。

語音生成AI模型沒有什么稀奇的,市場上已經(jīng)有很多,輸入文本提示詞就可以合成語音和音樂,但Fugatto似乎比之前的語音AI模型更進(jìn)一步。

目前Fugatto還沒有公測,英偉達(dá)只是通過網(wǎng)站公布一些語音生成樣本。從樣本看,F(xiàn)ugatto可以調(diào)節(jié)音頻特征,生成一些奇怪的聲音,比如讓薩克斯聲音像狗叫,讓人聲變得像水下發(fā)出的聲音。老實說,合成的聲音并不怎么動聽,但很有趣。

英偉達(dá)研究人員Rafael Valle說:“我們想創(chuàng)建一個模型,它可以像人一樣理解聲音、生成聲音。”

從技術(shù)角度看,F(xiàn)ugatto實際上是一個生成Transformer模型,它是基于英偉達(dá)之前研究的技術(shù)開發(fā)的,比如語音模型、聲音理解技術(shù)。Fugatto擁有25億個參數(shù),它是用英偉達(dá)DGX系統(tǒng)開發(fā)的。

英偉達(dá)在論文中談到Fugatto開發(fā)的難點。以當(dāng)前的技術(shù),根據(jù)音頻和語言之間有意義的聯(lián)系建立一個數(shù)據(jù)庫十分困難。現(xiàn)在的標(biāo)準(zhǔn)語言模型可以從文本數(shù)據(jù)中推斷出不同的指令,但如果沒有具體指引,模型很難從音頻中總結(jié)出特征。

最終,英偉達(dá)用LLM(大語言模型)生成一個Python腳本,它可以創(chuàng)建大量基于模板、格式自由的指令,這些指令可以描述不同的聲音“個性”,比如標(biāo)準(zhǔn)、年輕、30多歲、專業(yè)人士等特征,然后還可以給聲音的“個性”增加其它指令,比如絕對指令(合成一個快樂的聲音)和相對指令(增強(qiáng)聲音的快樂度)。

在訓(xùn)練數(shù)據(jù)中,AI會學(xué)著理解聲音的不同特征,然后將不同的特征結(jié)合起來,生成全新的聲音,也就是我們?nèi)祟愔皼]有聽過的聲音。

論文談到的技術(shù)相當(dāng)復(fù)雜??傊?,英偉達(dá)開發(fā)了所謂的ComposableART系統(tǒng),它合成的聲音讓小提琴聲音像孩子的笑聲,讓五弦琴的聲音像音樂家在風(fēng)雨中演奏,讓工廠機(jī)器發(fā)出金屬般的痛苦尖叫。

Fugatto混合聲音的能力給人留下深刻印象,要知道,聲音數(shù)據(jù)來自不同的開源平臺數(shù)據(jù)集,聲音之間有很大不同,將它們完美混合不是一件易事。

還有一點值得表揚(yáng),F(xiàn)ugatto將每個單獨的音頻特征視為可調(diào)諧的連續(xù)體。比如,F(xiàn)ugatto可以將吉它聲和流水聲混合,讓吉它聲權(quán)重高一些或者讓流水聲權(quán)重高一些,合成的聲音是完全不同的。又例如,F(xiàn)ugatto可以讓說話時的法語口音重一些或者輕一些,可以改變語音片斷中的悲傷程度。

Fugatto還有其它一些功能,這些功能之前的模型也有,比如改變語音中的情緒,從音樂中分離出人聲。

英偉達(dá)希望Fugatto能成為聲音藝術(shù)家的新工具,它的本意并不是取代創(chuàng)作者。NVIDIA初創(chuàng)加速計劃 ( NVIDIA Inception) 的參與者、作曲家、制作人Ido Zmishlany說:“音樂的歷史實際上就是科技的歷史。電吉它帶來了搖滾,當(dāng)采樣器出現(xiàn),嘻哈隨即誕生。有了AI,我們可以書寫音樂的下一篇章。我們有了一種新的樂器,一種制作音樂的新工具,這太令人興奮了。”

你覺得這樣的工具有趣嗎?(小刀)

責(zé)任編輯:龐桂玉 來源: 極客網(wǎng)
相關(guān)推薦

2024-05-08 10:03:50

2021-02-26 07:46:09

WebDAV文件管理

2020-10-12 08:02:04

開發(fā)人員開發(fā)編碼

2022-12-02 16:02:30

脊髓損傷者盲人Neuralink

2017-10-25 14:47:43

2013-12-11 09:41:24

大數(shù)據(jù)

2010-06-09 10:48:51

Linux用戶

2020-07-02 07:50:50

騰訊游戲老干媽

2024-08-22 18:58:27

英偉達(dá)微軟小語言模型

2009-03-12 08:50:33

OperaIE8Windows 7

2009-03-10 19:04:50

微軟IE8瀏覽器

2017-05-17 10:33:50

音頻

2017-04-18 11:58:06

DockerRancher企業(yè)級容器

2022-07-11 14:43:29

5G通信數(shù)字化轉(zhuǎn)型

2012-07-26 10:30:42

測試測試人員

2025-01-08 14:40:48

2019-04-18 08:56:33

互聯(lián)網(wǎng)996裁員

2011-08-24 15:21:41

保護(hù)Android谷歌

2024-08-29 14:48:42

2012-08-08 11:10:07

云計算惠普大數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號