自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="h1lrn"></sub>

<sub id="h1lrn"></sub>

<rt id="h1lrn"></rt>

<p id="h1lrn"></p>

<p id="h1lrn"><li id="h1lrn"><menuitem id="h1lrn"></menuitem></li></p>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

這段音頻火爆外網(wǎng)！文字、圖片一鍵生成逼真音效，音頻界AIGC來(lái)了

作者：機(jī)器之心 2023-02-09 15:37:04

人工智能新聞

如今的 AI 技術(shù)發(fā)展堪稱「神奇」，文字、圖片竟能一鍵直接生成逼真音效，這就是浙大、北大聯(lián)合火山語(yǔ)音推出的新模型 Make-An-Audio。

近期 AIGC 如同上了熱搜一般，火熱程度居高不下，當(dāng)然除了名頭格外響亮，突破也是絕對(duì)斐然：輸入自然語(yǔ)言就可自動(dòng)生成圖像、視頻甚至是 3D 模型，你說(shuō)意不意外？

但在音頻音效的領(lǐng)域，AIGC 的福利似乎還差了一些。主要由于高自由度音頻生成需要依靠大量文本 - 音頻對(duì)數(shù)據(jù)，同時(shí)長(zhǎng)時(shí)波形建模還有諸多困難。為了解決上述困難，浙江大學(xué)與北京大學(xué)聯(lián)合火山語(yǔ)音，共同提出了一款創(chuàng)新的、文本到音頻的生成系統(tǒng)，即 Make-An-Audio。其可以將自然語(yǔ)言描述作為輸入，而且是任意模態(tài)（例如文本、音頻、圖像、視頻等）均可，同時(shí)輸出符合描述的音頻音效，廣大網(wǎng)友很難不為其可控性以及泛化性點(diǎn)贊。

論文鏈接：https://arxiv.org/abs/2301.12661
項(xiàng)目鏈接：https://text-to-audio.github.io

短短兩天，Demo 視頻在 Twitter 上獲得了 45K 的播放量。

2023 年除夕后，以 Make-An-Audio、 MusicLM 等大量音頻合成文章涌現(xiàn)，48 小時(shí)內(nèi)已經(jīng)有 4 篇突破性的進(jìn)展。

網(wǎng)友評(píng)論 1

廣大網(wǎng)友們紛紛表示，AIGC 音效合成將會(huì)改變電影、短視頻制作的未來(lái)。

網(wǎng)友評(píng)論 2

網(wǎng)友評(píng)論 3

更有網(wǎng)友發(fā)出這樣的感嘆：「audio is all you need……」

網(wǎng)友評(píng)論 4

聽覺效果展示

話不多說(shuō)直接看效果，根據(jù)文本生成音效原來(lái)也可以如此便捷順暢。

文本 1：a speedboat running as wind blows into a microphone

轉(zhuǎn)化音頻1音頻：00:0000:09?

文本 2：fireworks pop and explode

轉(zhuǎn)化音頻2音頻：00:0000:09?

是不是也一度因破損音頻修復(fù)而大傷腦筋？Make-An-Audio 模型一出，這事兒就變得簡(jiǎn)單多了。

修復(fù)前

修復(fù)前音頻

修復(fù)前音頻音頻：00:0000:09?

修復(fù)后

修復(fù)后音頻

修復(fù)后音頻音頻：00:0000:09?

通過(guò)理解圖片生成音效，也不是不可以。

圖片 1

轉(zhuǎn)化音頻

圖片轉(zhuǎn)化音頻音頻：00:0000:09?

圖片 2

轉(zhuǎn)化音頻

圖片轉(zhuǎn)化音頻2音頻：00:0000:09?

根據(jù)視頻內(nèi)容生成對(duì)應(yīng)音效，這款模型也可以輕松做到。

視頻 1

轉(zhuǎn)化音頻

視頻1音頻：00:0000:09?

視頻 2

轉(zhuǎn)化音頻

視頻2音頻：00:0000:09?

模型內(nèi)在技術(shù)原理

深度解析「網(wǎng)紅」模型的神奇內(nèi)在，還要回到音頻 - 自然語(yǔ)言對(duì)數(shù)據(jù)稀少的客觀問題上，對(duì)此浙大北大聯(lián)合火山語(yǔ)音團(tuán)隊(duì)協(xié)同兩大高校共同提出了Distill-then-Reprogram 文本增強(qiáng)策略，即使用教師模型獲得音頻的自然語(yǔ)言描述，再通過(guò)隨機(jī)重組獲得具有動(dòng)態(tài)性的訓(xùn)練樣本。

具體來(lái)說(shuō)，在 Distill 環(huán)節(jié)中，使用音頻轉(zhuǎn)文本與音頻 - 文本檢索模型，找到語(yǔ)言缺失 (Language-Free) 音頻的自然語(yǔ)言描述候選 (Candidate)，通過(guò)計(jì)算候選文本與音頻的匹配相似度，在閾值下取得最佳結(jié)果作為音頻的描述。該方法具有強(qiáng)泛化性，且真實(shí)自然語(yǔ)言避免了測(cè)試階段的域外文本。「在 Reprogram 環(huán)節(jié)中，團(tuán)隊(duì)從額外的事件數(shù)據(jù)集中隨機(jī)采樣，并與當(dāng)前訓(xùn)練樣本相結(jié)合，得到全新的概念組合與描述，以擴(kuò)增模型對(duì)不同事件組合的魯棒性?！?nbsp;研究團(tuán)隊(duì)表示。

Distill-then-Reprogram 文本增強(qiáng)策略框架圖

如上圖所示，自監(jiān)督學(xué)習(xí)已經(jīng)成功將圖片遷移到音頻頻譜，利用了頻譜自編碼器以解決長(zhǎng)音頻序列問題，并基于 Latent Diffusion 生成模型完成對(duì)自監(jiān)督表征的預(yù)測(cè)，避免了直接預(yù)測(cè)長(zhǎng)時(shí)波形。

Make-An-Audio 模型系統(tǒng)框架圖

此外在研究中團(tuán)隊(duì)還探索了強(qiáng)大的文本條件策略，包括對(duì)比式 Contrastive Language-Audio Pretraining (CLAP) 以及語(yǔ)言模型 (LLM) T5， BERT 等，驗(yàn)證了 CLAP 文本表征的有效與計(jì)算友好性。同時(shí)還首次使用 CLAP Score 來(lái)評(píng)估生成的音頻，可以用于衡量文本和生成場(chǎng)景之間的一致性；使用主、客觀相結(jié)合的評(píng)估方式，在 benchmark 數(shù)據(jù)集測(cè)試中驗(yàn)證了模型的有效性，展示了模型出色的零樣本學(xué)習(xí) (Zero-Shot) 泛化性等。

Make-An-Audio 與基線模型主客觀評(píng)測(cè)實(shí)驗(yàn)結(jié)果

神奇模型的應(yīng)用前景知多少？

總體來(lái)看，Make-An-Audio 模型實(shí)現(xiàn)了高質(zhì)量、高可控性的音頻合成，并提出了「No Modality Left Behind」，對(duì)文本條件音頻模型進(jìn)行微調(diào) (finetune)，即能解鎖對(duì)任意模態(tài)輸入的音頻合成 (audio/image/video)。

Make-An-Audio 首次實(shí)現(xiàn)高可控 X - 音頻的 AIGC 合成，X 可以是文本 / 音頻 / 圖像 / 視頻

在視覺指導(dǎo)的音頻合成上，Make-An-Audio 以 CLIP 文本編碼器為條件，利用其圖像 - 文本聯(lián)合空間，能夠直接以圖像編碼為條件合成音頻。

Make-An-Audio 視覺 - 音頻合成框架圖

可以預(yù)見的是，音頻合成 AIGC 將會(huì)在未來(lái)電影配音、短視頻創(chuàng)作等領(lǐng)域發(fā)揮重要作用，而借助 Make-An-Audio 等模型，或許在未來(lái)人人都有可能成為專業(yè)的音效師，都可以憑借文字、視頻、圖像在任意時(shí)間、任意地點(diǎn)，合成出栩栩如生的音頻、音效。但現(xiàn)階段 Make-An-Audio 也并不是完美無(wú)缺的，可能由于豐富的數(shù)據(jù)來(lái)源以及不可避免的樣本質(zhì)量問題，訓(xùn)練過(guò)程中難免會(huì)產(chǎn)生副作用，例如生成不符合文字內(nèi)容的音頻，Make-An-Audio 在技術(shù)上被定位是 “輔助藝術(shù)家生成”，可以肯定的一點(diǎn)，AIGC 領(lǐng)域的進(jìn)展確實(shí)令人驚喜。

火山語(yǔ)音，長(zhǎng)期以來(lái)面向字節(jié)跳動(dòng)各大業(yè)務(wù)線提供全球優(yōu)勢(shì)的 AI 語(yǔ)音技術(shù)能力以及全棧語(yǔ)音產(chǎn)品解決方案，包括音頻理解、音頻合成、虛擬數(shù)字人、對(duì)話交互、音樂檢索、智能硬件等。自 2017 年成立以來(lái)，團(tuán)隊(duì)專注研發(fā)行業(yè)領(lǐng)先的 AI 智能語(yǔ)音技術(shù)，不斷探索 AI 與業(yè)務(wù)場(chǎng)景的高效結(jié)合，以實(shí)現(xiàn)更大的用戶價(jià)值。目前其語(yǔ)音識(shí)別和語(yǔ)音合成已經(jīng)覆蓋了多種語(yǔ)言和方言，多篇技術(shù)論文入選各類 AI 頂級(jí)會(huì)議，為抖音、剪映、飛書、番茄小說(shuō)、Pico 等業(yè)務(wù)提供了領(lǐng)先的語(yǔ)音能力，并適用于短視頻、直播、視頻創(chuàng)作、辦公以及穿戴設(shè)備等多樣化場(chǎng)景，通過(guò)火山引擎開放給外部企業(yè)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="m1sax"></sub>