自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一種實(shí)現(xiàn)符號(hào)鋼琴音樂聲音和譜表分離的GNN新方法

譯文 精選
人工智能
本文介紹了一種基于圖形的方法,用于符號(hào)鋼琴音樂中的同音分離和譜線預(yù)測。新方法比現(xiàn)有的深度學(xué)習(xí)或基于啟發(fā)式的系統(tǒng)表現(xiàn)更好。最后,還提供了一個(gè)后處理步驟,可以從模型中刪除可能導(dǎo)致分?jǐn)?shù)不正確的問題預(yù)測。

譯者 | 朱先忠

審校 | 重樓

本文涵蓋了我最近在ISMIR 2024上發(fā)表的論文《聚類和分離:一種用于樂譜雕刻的聲音和譜表預(yù)測的GNN方法》的主要內(nèi)容。

簡介

以MIDI等格式編碼的音樂,即使包含量化音符、拍號(hào)或小節(jié)信息,通常也缺少可視化的重要元素,例如語音和五線譜信息。這種限制也適用于音樂生成、轉(zhuǎn)錄或編曲系統(tǒng)的輸出。因此,這種音樂無法輕易轉(zhuǎn)換成人類音樂家可以解讀和演奏的可讀樂譜。

值得注意的是,語音和五線譜分離只是樂譜雕刻系統(tǒng)可能解決的眾多方面中的兩個(gè)——其他方面包括音高拼寫、節(jié)奏分組和連音創(chuàng)建等。

在音樂術(shù)語中,“聲部(voice)”通常是指一系列不重疊的音符,通常稱為單聲道聲音。然而,在處理復(fù)調(diào)樂器時(shí),這個(gè)定義并不充分。例如,聲部還可以包括和弦,和弦是同時(shí)演奏的音符組,被視為一個(gè)單元。在這種情況下,我們將這種能夠包含和弦的聲音稱為諧音。

問題

將量化的符號(hào)音樂作品(例如MIDI文件)中的音符分離成多個(gè)聲部和五線譜是一項(xiàng)重要且不簡單的任務(wù)。它是樂譜雕刻(或樂譜排版)這一更大任務(wù)的基本組成部分,旨在為人類表演者制作可讀的樂譜。

樂譜是音樂家的重要工具,因?yàn)樗軌蛞跃o湊的圖形形式傳達(dá)音樂信息。與其他可能更容易為機(jī)器定義和處理的音樂表示形式(例如MIDI文件)相比,樂譜的特點(diǎn)是訓(xùn)練有素的音樂家能夠高效地閱讀它。

給定一個(gè)量化的MIDI,有很多方法可以將其轉(zhuǎn)換為可讀格式,其中主要包括將音符分離成聲部和五線譜。

請參見以下兩種可能性。它們展示了雕刻系統(tǒng)通常如何工作。

最大的問題是我們?nèi)绾问棺詣?dòng)轉(zhuǎn)錄模型更好

動(dòng)機(jī)

為了開發(fā)一種更有效的系統(tǒng)來將音符分離為聲部和五線譜,特別是對于復(fù)雜的鋼琴音樂,我們需要從不同的角度重新思考這個(gè)問題。我們的目標(biāo)是從量化的MIDI開始提高轉(zhuǎn)錄音樂的可讀性,這對于制作出好的樂譜和讓音樂家更好地演奏非常重要。

為了獲得良好的樂譜可讀性,兩個(gè)元素可能是最重要的:

  • 五線譜的分離,將音符組織在頂部和底部五線譜之間;
  • 以及聲部的分離,在這張圖中用不同顏色的線條突出顯示。

鋼琴樂譜中的聲音流

如前所述,在鋼琴樂譜中,聲音不是嚴(yán)格意義上的單音,而是諧音。這意味著,一個(gè)聲音可以包含一個(gè)或多個(gè)同時(shí)演奏的音符。從現(xiàn)在開始,我們稱之為和弦。你可以在上圖底部的標(biāo)尺中看到一些以紫色突出顯示的和弦示例。

從機(jī)器學(xué)習(xí)的角度來看,我們有兩個(gè)任務(wù)需要解決:

  • 第一個(gè)是五線譜分離,這很簡單,我們只需要為每個(gè)音符預(yù)測一個(gè)二進(jìn)制標(biāo)簽,特別是鋼琴樂譜的頂部或底部五線譜。
  • 語音分離任務(wù)可能看起來很相似,畢竟,如果我們可以使用多類分類器預(yù)測每個(gè)語音的語音數(shù)量,問題就解決了!

但是,直接預(yù)測語音標(biāo)簽是有問題的。我們需要確定系統(tǒng)可以接受的最大語音數(shù)量,但這會(huì)在系統(tǒng)靈活性和數(shù)據(jù)中的類別不平衡之間產(chǎn)生權(quán)衡。

例如,如果我們將最大聲音數(shù)設(shè)置為8,以表示每個(gè)五線譜中有4個(gè)聲音,就像在音樂符號(hào)軟件中通常做的那樣,那么我們可以預(yù)期在我們的數(shù)據(jù)集中標(biāo)簽8和4的出現(xiàn)次數(shù)會(huì)非常少。

帶絕對標(biāo)簽的語音分離

特別查看此處的樂譜摘錄,語音3、4和8完全缺失。高度不平衡的數(shù)據(jù)會(huì)降低多標(biāo)簽分類器的性能,如果我們設(shè)置較少的語音數(shù)量,我們將失去系統(tǒng)靈活性。

方法論

解決這些問題的辦法是能夠?qū)⑾到y(tǒng)在某些聲音上學(xué)到的知識(shí)翻譯成其他聲音。為此,我們放棄了多類分類器的想法,并將語音預(yù)測構(gòu)建為鏈接預(yù)測問題。如果兩個(gè)音符在同一聲音中是連續(xù)的,我們想將它們聯(lián)系起來。這樣做的好處是將一個(gè)復(fù)雜的問題分解為一組非常簡單的問題。對于每對音符,我們再次預(yù)測一個(gè)二進(jìn)制標(biāo)簽,告訴這兩個(gè)音符是否鏈接。這種方法也適用于和弦,正如你在這張圖片的低音中所看到的那樣。

這個(gè)過程將創(chuàng)建一個(gè)我們稱之為輸出圖的圖。為了找到聲音,我們可以簡單地計(jì)算輸出圖的連通分量!

重申一下,我們將語音和譜表分離問題表述為兩個(gè)二元預(yù)測任務(wù)。

  • 對于譜表分離,我們預(yù)測每個(gè)音符的譜表編號(hào);
  • 而對于分離語音,我們預(yù)測每對音符之間的鏈接。
  • 雖然不是絕對必要的,但我們發(fā)現(xiàn)添加一項(xiàng)額外任務(wù)對系統(tǒng)的性能很有用:
  • 和弦預(yù)測,與語音類似,如果每對音符屬于同一和弦,我們會(huì)將它們鏈接起來。

讓我們回顧一下到目前為止我們的系統(tǒng)是什么樣子的:我們有三個(gè)二元分類器,一個(gè)輸入單個(gè)音符,兩個(gè)輸入成對的音符。我們現(xiàn)在需要的是好的輸入特征,這樣我們的分類器就可以在預(yù)測中使用上下文信息。使用深度學(xué)習(xí)詞匯表,我們需要一個(gè)好的音符編碼器!

我們選擇使用圖神經(jīng)網(wǎng)絡(luò)(GNN)作為音符編碼器,因?yàn)樗ǔT诜?hào)音樂處理方面表現(xiàn)出色。因此,我們需要從音樂輸入中創(chuàng)建一個(gè)圖。

為此,我們確定性地從量化MIDI構(gòu)建一個(gè)新的圖,我們稱之為輸入圖。

使用GraphMuse等工具可以輕松創(chuàng)建這些輸入圖

現(xiàn)在,把所有內(nèi)容放在一起,我們的模型看起來像這樣:

  • 它從一些量化的MIDI開始,這些MIDI被預(yù)處理為一個(gè)圖,以創(chuàng)建輸入圖。
  • 輸入圖通過圖神經(jīng)網(wǎng)絡(luò)(GNN)為每個(gè)音符創(chuàng)建中間潛在表示。我們對每個(gè)音符進(jìn)行編碼,因此我們稱之為GNN編碼器。
  •  然后,我們將其輸入到一個(gè)淺層MLP分類器中,用于我們的三個(gè)任務(wù),即語音、譜表和和弦預(yù)測。我們也可以將這部分稱為解碼器。
  • 預(yù)測后,我們得到一個(gè)輸出圖。
  • 到目前為止,這種方法可以看作是一種圖對圖的方法,我們從MIDI構(gòu)建的輸入圖開始,預(yù)測包含語音和和弦鏈接以及譜表標(biāo)簽的輸出圖。
  • 在最后一步,我們的輸出圖經(jīng)過后處理程序,以創(chuàng)建一個(gè)美觀易讀的樂譜。

后處理的目標(biāo)是刪除可能導(dǎo)致無效輸出的配置,例如將語音拆分為兩個(gè)語音。為了緩解這些問題:

  • 我們根據(jù)和弦預(yù)測頭對屬于同一和弦的音符進(jìn)行聚類。
  • 我們通過應(yīng)用線性分配解決方案來確保每個(gè)節(jié)點(diǎn)最多有一個(gè)傳入和傳出邊。
  • 最后,將信息傳播回原始節(jié)點(diǎn)。

我們系統(tǒng)的后處理程序

我們系統(tǒng)的一個(gè)突出特點(diǎn)是,它在音樂分析和樂譜雕刻方面能夠超越其他現(xiàn)有系統(tǒng)。與依賴音樂啟發(fā)式的傳統(tǒng)方法(有時(shí)可能不可靠)不同,我們的系統(tǒng)通過保持簡單但穩(wěn)健的方法來避免這些問題。此外,由于內(nèi)存和計(jì)算要求低,我們的系統(tǒng)能夠計(jì)算出整個(gè)片段的全局解,而無需進(jìn)行分割。此外,它能夠處理無限數(shù)量的聲音,使其成為復(fù)雜音樂作品中更靈活、更強(qiáng)大的工具。這些優(yōu)點(diǎn)突出了該系統(tǒng)的穩(wěn)健設(shè)計(jì)及其以更高的精度和效率應(yīng)對音樂處理挑戰(zhàn)的能力。

數(shù)據(jù)集

為了訓(xùn)練和評估我們的系統(tǒng),我們使用了兩個(gè)數(shù)據(jù)集。J-pop數(shù)據(jù)集包含811首流行鋼琴樂譜,DCML浪漫語料庫包含393首浪漫音樂鋼琴樂譜。相比之下,DCML語料庫要復(fù)雜得多,因?yàn)樗臉纷V存在許多困難,如大量的聲音、聲音交叉和五線譜交叉。使用復(fù)雜和簡單數(shù)據(jù)的組合,我們可以訓(xùn)練一個(gè)對不同類型的輸入保持魯棒性和靈活性的系統(tǒng)。

可視化預(yù)測

為了配合我們的系統(tǒng),我們還開發(fā)了一個(gè)Web界面,可以可視化和探索輸入和輸出圖形,調(diào)試復(fù)雜的案例,或者只是更好地理解圖形創(chuàng)建過程。請查看鏈接https://github.com/fosfrancesco/musgviz/。

我們的網(wǎng)絡(luò)界面,MusGViz!

為了對我們的模型如何工作以及預(yù)測如何變化進(jìn)行公平的比較和更深入的理解,我們仔細(xì)研究了一些。

我們將基本事實(shí)邊緣(鏈接)與我們預(yù)測的邊緣進(jìn)行比較,以進(jìn)行和弦和語音預(yù)測。請注意,在你正在查看的示例中,在我們的可視化工具的幫助下,輸出圖直接繪制在樂譜的頂部。

前兩個(gè)小節(jié)做得很好,但我們可以在第三個(gè)小節(jié)看到我們系統(tǒng)的一些局限性。在接近音高范圍內(nèi)但聲音排列不同的同步音符可能會(huì)有問題。

我們的模型預(yù)測了一個(gè)包含所有同步切分四分之一音符的單個(gè)和弦(而不是跨和弦),并且還預(yù)測了第一個(gè)D#4音符的和弦。對為什么會(huì)發(fā)生這種情況進(jìn)行更深入的研究并非易事,因?yàn)樯窠?jīng)網(wǎng)絡(luò)不能直接解釋。

開放式挑戰(zhàn)

盡管我們的系統(tǒng)具有諸多優(yōu)勢,但未來發(fā)展仍面臨一些挑戰(zhàn)。目前,此版本未考慮裝飾音,并且必須在輸入中明確復(fù)制重疊音符,這可能會(huì)很麻煩。此外,雖然我們已經(jīng)開發(fā)了用于可視化結(jié)果的初始MEI導(dǎo)出功能,但這仍然需要進(jìn)一步更新才能完全支持符號(hào)樂譜中發(fā)現(xiàn)的各種例外和復(fù)雜性。解決這些問題將是增強(qiáng)系統(tǒng)多功能性并使其更適應(yīng)各種音樂作品的關(guān)鍵。

結(jié)論

本文介紹了一種基于圖形的方法,用于符號(hào)鋼琴音樂中的同音分離和譜線預(yù)測。新方法比現(xiàn)有的深度學(xué)習(xí)或基于啟發(fā)式的系統(tǒng)表現(xiàn)更好。最后,還提供了一個(gè)后處理步驟,可以從模型中刪除可能導(dǎo)致分?jǐn)?shù)不正確的問題預(yù)測。

注1:論文《聚類與分離:一種用于樂譜雕刻的語音和五線譜預(yù)測的GNN方法》的GitHub代碼庫地址是:https://github.com/CPJKU/piano_svsep/?source=post_page-----0cab100629cf--------------------------------。

注2:本文中所有圖片皆由作者本人提供。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:Voice and Staff Separation in Symbolic Piano Music with GNNs,作者:Emmanouil Karystinaios

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2022-04-20 08:00:00

深度學(xué)習(xí)數(shù)據(jù)集Hub

2022-11-22 11:18:38

Java虛擬線程

2022-03-10 12:16:14

側(cè)信道內(nèi)存攻擊網(wǎng)絡(luò)攻擊

2016-12-26 18:39:32

Android應(yīng)用進(jìn)程存活率

2021-02-18 18:13:34

LinuxARM樹莓派

2016-12-26 18:25:29

Android應(yīng)用進(jìn)程存活率

2018-10-07 07:00:59

2023-08-08 11:28:06

企業(yè)首席執(zhí)行官

2021-09-26 10:49:27

計(jì)算機(jī)互聯(lián)網(wǎng) 技術(shù)

2010-06-18 09:48:22

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2015-08-21 09:14:40

大數(shù)據(jù)

2022-05-26 10:57:51

機(jī)器人人工智能

2019-07-12 13:50:36

物聯(lián)網(wǎng)大數(shù)據(jù)安全

2022-07-07 10:47:16

IngressKubernetes

2023-09-11 15:20:19

2010-04-01 09:30:57

2024-01-23 17:33:36

2024-10-23 19:47:54

2022-01-14 09:36:47

云彈性混沌測試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)