自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌推出全能扒譜AI:只要聽一遍歌曲,鋼琴小提琴的樂譜全有了

新聞 人工智能
谷歌推出“多任務(wù)多音軌”音樂轉(zhuǎn)音符模型MT3。 聽一遍曲子,就能知道樂譜,還能馬上演奏。

 

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

聽一遍曲子,就能知道樂譜,還能馬上演奏,而且還掌握“十八般樂器”,鋼琴、小提琴、吉他等都不在話下。

這就不是人類音樂大師,而是谷歌推出的“多任務(wù)多音軌”音樂轉(zhuǎn)音符模型MT3。

谷歌推出全能扒譜AI:只要聽一遍歌曲,鋼琴小提琴的樂譜全有了

首先需要解釋一下什么是多任務(wù)多音軌。

通常一首曲子是有多種樂器合奏而來,每個樂曲就是一個音軌,而多任務(wù)就是同時將不同音軌的樂譜同時還原出來。

谷歌已將該論文投給ICLR 2022。

還原多音軌樂譜

相比于自動語音識別 (ASR) ,自動音樂轉(zhuǎn)錄 (AMT) 的難度要大得多,因?yàn)楹笳呒纫瑫r轉(zhuǎn)錄多個樂器,還要保留精細(xì)的音高和時間信息。

多音軌的自動音樂轉(zhuǎn)錄數(shù)據(jù)集更是“低資源”的?,F(xiàn)有的開源音樂轉(zhuǎn)錄數(shù)據(jù)集一般只包含一到幾百小時的音頻,相比語音數(shù)據(jù)集動輒幾千上萬小時的市場,算是很少了。

谷歌推出全能扒譜AI:只要聽一遍歌曲,鋼琴小提琴的樂譜全有了

先前的音樂轉(zhuǎn)錄主要集中在特定于任務(wù)的架構(gòu)上,針對每個任務(wù)的各種樂器量身定制。

因此,作者受到低資源NLP任務(wù)遷移學(xué)習(xí)的啟發(fā),證明了通用Transformer模型可以執(zhí)行多任務(wù) AMT,并顯著提高了低資源樂器的性能。

作者使用單一的通用Transformer架構(gòu)T5,而且是T5“小”模型,其中包含大約6000萬個參數(shù)。

該模型在編碼器和解碼器中使用了一系列標(biāo)準(zhǔn)的Transformer自注意力“塊”。為了產(chǎn)生輸出標(biāo)記序列,該模型使用貪婪自回歸解碼:輸入一個輸入序列,將預(yù)測出下一個出現(xiàn)概率最高的輸出標(biāo)記附加到該序列中,并重復(fù)該過程直到結(jié)束 。

MT3使用梅爾頻譜圖作為輸入。對于輸出,作者構(gòu)建了一個受MIDI規(guī)范啟發(fā)的token詞匯,稱為“類MIDI”。

谷歌推出全能扒譜AI:只要聽一遍歌曲,鋼琴小提琴的樂譜全有了

生成的樂譜通過開源軟件FluidSynth渲染成音頻。

此外,還要解決不同樂曲數(shù)據(jù)集不平衡和架構(gòu)不同問題。

作者定義的通用輸出token還允許模型同時在多個數(shù)據(jù)集的混合上進(jìn)行訓(xùn)練,類似于用多語言翻譯模型同時訓(xùn)練幾種語言。

這種方法不僅簡化了模型設(shè)計和訓(xùn)練,而且增加了模型可用訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。

實(shí)際效果

在所有指標(biāo)和所有數(shù)據(jù)集上,MT3始終優(yōu)于基線。

訓(xùn)練期間的數(shù)據(jù)集混合,相比單個數(shù)據(jù)集訓(xùn)練有很大的性能提升,特別是對于 GuitarSet、MusicNet 和 URMP 等“低資源”數(shù)據(jù)集。

谷歌推出全能扒譜AI:只要聽一遍歌曲,鋼琴小提琴的樂譜全有了

最近,谷歌團(tuán)隊也放出了MT3的源代碼,并在Hugging Face上放出了試玩Demo。

谷歌推出全能扒譜AI:只要聽一遍歌曲,鋼琴小提琴的樂譜全有了

不過由于轉(zhuǎn)換音頻需要GPU資源,在Hugging Face上,建議各位將在Colab上運(yùn)行Jupyter Notebook。

論文地址:
https://arxiv.org/abs/2111.03017

源代碼:
https://github.com/magenta/mt3

Demo地址:
https://huggingface.co/spaces/akhaliq/MT3

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-03-11 07:14:01

Epoll原理線程

2020-07-29 10:27:08

人工智能語音識別技術(shù)

2017-12-26 14:17:24

潤乾報表

2021-03-04 08:06:13

Java代理機(jī)制

2021-08-12 10:36:18

order byMySQL數(shù)據(jù)庫

2023-01-10 19:47:47

Redis原理多線程

2021-06-15 07:15:15

Oracle底層explain

2022-01-17 20:59:37

開發(fā)group by思路

2021-12-01 07:26:13

IO模型異步

2025-02-13 09:06:27

2024-05-21 08:40:21

分庫分表源碼

2019-09-19 08:04:40

網(wǎng)絡(luò)七層模型TCPUDP

2023-03-17 08:35:11

AI

2021-10-07 20:12:03

MVCC事務(wù)原理

2023-09-12 07:31:45

HashMap線程

2024-03-26 07:59:32

IO模型多路復(fù)用

2015-10-10 11:10:24

重敲代碼拷貝粘貼

2024-03-12 08:20:57

零拷貝存儲開發(fā)

2023-08-14 07:49:42

AI訓(xùn)練

2020-02-09 17:30:54

反轉(zhuǎn)鏈表程序員節(jié)點(diǎn)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號