自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法 原創(chuàng)

發(fā)布于 2024-11-5 08:14
瀏覽
0收藏

本文涵蓋了我最近在ISMIR 2024上發(fā)表的論文《聚類和分離:一種用于樂譜雕刻的聲音和譜表預測的GNN方法》的主要內(nèi)容。

簡介

以MIDI等格式編碼的音樂,即使包含量化音符、拍號或小節(jié)信息,通常也缺少可視化的重要元素,例如語音和五線譜信息。這種限制也適用于音樂生成、轉錄或編曲系統(tǒng)的輸出。因此,這種音樂無法輕易轉換成人類音樂家可以解讀和演奏的可讀樂譜。

值得注意的是,語音和五線譜分離只是樂譜雕刻系統(tǒng)可能解決的眾多方面中的兩個——其他方面包括音高拼寫、節(jié)奏分組和連音創(chuàng)建等。

在音樂術語中,“聲部(voice)”通常是指一系列不重疊的音符,通常稱為單聲道聲音。然而,在處理復調(diào)樂器時,這個定義并不充分。例如,聲部還可以包括和弦,和弦是同時演奏的音符組,被視為一個單元。在這種情況下,我們將這種能夠包含和弦的聲音稱為諧音。

問題

將量化的符號音樂作品(例如MIDI文件)中的音符分離成多個聲部和五線譜是一項重要且不簡單的任務。它是樂譜雕刻(或樂譜排版)這一更大任務的基本組成部分,旨在為人類表演者制作可讀的樂譜。

樂譜是音樂家的重要工具,因為它能夠以緊湊的圖形形式傳達音樂信息。與其他可能更容易為機器定義和處理的音樂表示形式(例如MIDI文件)相比,樂譜的特點是訓練有素的音樂家能夠高效地閱讀它。

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區(qū)

給定一個量化的MIDI,有很多方法可以將其轉換為可讀格式,其中主要包括將音符分離成聲部和五線譜。

請參見以下兩種可能性。它們展示了雕刻系統(tǒng)通常如何工作。

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區(qū)

最大的問題是我們?nèi)绾问棺詣愚D錄模型更好

動機

為了開發(fā)一種更有效的系統(tǒng)來將音符分離為聲部和五線譜,特別是對于復雜的鋼琴音樂,我們需要從不同的角度重新思考這個問題。我們的目標是從量化的MIDI開始提高轉錄音樂的可讀性,這對于制作出好的樂譜和讓音樂家更好地演奏非常重要。

為了獲得良好的樂譜可讀性,兩個元素可能是最重要的:

  • 五線譜的分離,將音符組織在頂部和底部五線譜之間;
  • 以及聲部的分離,在這張圖中用不同顏色的線條突出顯示。

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區(qū)

鋼琴樂譜中的聲音流

如前所述,在鋼琴樂譜中,聲音不是嚴格意義上的單音,而是諧音。這意味著,一個聲音可以包含一個或多個同時演奏的音符。從現(xiàn)在開始,我們稱之為和弦。你可以在上圖底部的標尺中看到一些以紫色突出顯示的和弦示例。

從機器學習的角度來看,我們有兩個任務需要解決:

  • 第一個是五線譜分離,這很簡單,我們只需要為每個音符預測一個二進制標簽,特別是鋼琴樂譜的頂部或底部五線譜。
  • 語音分離任務可能看起來很相似,畢竟,如果我們可以使用多類分類器預測每個語音的語音數(shù)量,問題就解決了!

但是,直接預測語音標簽是有問題的。我們需要確定系統(tǒng)可以接受的最大語音數(shù)量,但這會在系統(tǒng)靈活性和數(shù)據(jù)中的類別不平衡之間產(chǎn)生權衡。

例如,如果我們將最大聲音數(shù)設置為8,以表示每個五線譜中有4個聲音,就像在音樂符號軟件中通常做的那樣,那么我們可以預期在我們的數(shù)據(jù)集中標簽8和4的出現(xiàn)次數(shù)會非常少。

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區(qū)

帶絕對標簽的語音分離

特別查看此處的樂譜摘錄,語音3、4和8完全缺失。高度不平衡的數(shù)據(jù)會降低多標簽分類器的性能,如果我們設置較少的語音數(shù)量,我們將失去系統(tǒng)靈活性。

方法論

解決這些問題的辦法是能夠將系統(tǒng)在某些聲音上學到的知識翻譯成其他聲音。為此,我們放棄了多類分類器的想法,并將語音預測構建為鏈接預測問題。如果兩個音符在同一聲音中是連續(xù)的,我們想將它們聯(lián)系起來。這樣做的好處是將一個復雜的問題分解為一組非常簡單的問題。對于每對音符,我們再次預測一個二進制標簽,告訴這兩個音符是否鏈接。這種方法也適用于和弦,正如你在這張圖片的低音中所看到的那樣。

這個過程將創(chuàng)建一個我們稱之為輸出圖的圖。為了找到聲音,我們可以簡單地計算輸出圖的連通分量!

重申一下,我們將語音和譜表分離問題表述為兩個二元預測任務。

  • 對于譜表分離,我們預測每個音符的譜表編號;
  • 而對于分離語音,我們預測每對音符之間的鏈接。
  • 雖然不是絕對必要的,但我們發(fā)現(xiàn)添加一項額外任務對系統(tǒng)的性能很有用:
  • 和弦預測,與語音類似,如果每對音符屬于同一和弦,我們會將它們鏈接起來。

讓我們回顧一下到目前為止我們的系統(tǒng)是什么樣子的:我們有三個二元分類器,一個輸入單個音符,兩個輸入成對的音符。我們現(xiàn)在需要的是好的輸入特征,這樣我們的分類器就可以在預測中使用上下文信息。使用深度學習詞匯表,我們需要一個好的音符編碼器!

我們選擇使用圖神經(jīng)網(wǎng)絡(GNN)作為音符編碼器,因為它通常在符號音樂處理方面表現(xiàn)出色。因此,我們需要從音樂輸入中創(chuàng)建一個圖。

為此,我們確定性地從量化MIDI構建一個新的圖,我們稱之為輸入圖。

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區(qū)

使用GraphMuse等工具可以輕松創(chuàng)建這些輸入圖

現(xiàn)在,把所有內(nèi)容放在一起,我們的模型看起來像這樣:

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區(qū)

  • 它從一些量化的MIDI開始,這些MIDI被預處理為一個圖,以創(chuàng)建輸入圖。
  • 輸入圖通過圖神經(jīng)網(wǎng)絡(GNN)為每個音符創(chuàng)建中間潛在表示。我們對每個音符進行編碼,因此我們稱之為GNN編碼器。
  • 然后,我們將其輸入到一個淺層MLP分類器中,用于我們的三個任務,即語音、譜表和和弦預測。我們也可以將這部分稱為解碼器。
  • 預測后,我們得到一個輸出圖。
  • 到目前為止,這種方法可以看作是一種圖對圖的方法,我們從MIDI構建的輸入圖開始,預測包含語音和和弦鏈接以及譜表標簽的輸出圖。

在最后一步,我們的輸出圖經(jīng)過后處理程序,以創(chuàng)建一個美觀易讀的樂譜。

后處理的目標是刪除可能導致無效輸出的配置,例如將語音拆分為兩個語音。為了緩解這些問題:

  • 我們根據(jù)和弦預測頭對屬于同一和弦的音符進行聚類。
  • 我們通過應用線性分配解決方案來確保每個節(jié)點最多有一個傳入和傳出邊。
  • 最后,將信息傳播回原始節(jié)點。

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區(qū)

我們系統(tǒng)的后處理程序

我們系統(tǒng)的一個突出特點是,它在音樂分析和樂譜雕刻方面能夠超越其他現(xiàn)有系統(tǒng)。與依賴音樂啟發(fā)式的傳統(tǒng)方法(有時可能不可靠)不同,我們的系統(tǒng)通過保持簡單但穩(wěn)健的方法來避免這些問題。此外,由于內(nèi)存和計算要求低,我們的系統(tǒng)能夠計算出整個片段的全局解,而無需進行分割。此外,它能夠處理無限數(shù)量的聲音,使其成為復雜音樂作品中更靈活、更強大的工具。這些優(yōu)點突出了該系統(tǒng)的穩(wěn)健設計及其以更高的精度和效率應對音樂處理挑戰(zhàn)的能力。

數(shù)據(jù)集

為了訓練和評估我們的系統(tǒng),我們使用了兩個數(shù)據(jù)集。J-pop數(shù)據(jù)集包含811首流行鋼琴樂譜,DCML浪漫語料庫包含393首浪漫音樂鋼琴樂譜。相比之下,DCML語料庫要復雜得多,因為它包含的樂譜存在許多困難,如大量的聲音、聲音交叉和五線譜交叉。使用復雜和簡單數(shù)據(jù)的組合,我們可以訓練一個對不同類型的輸入保持魯棒性和靈活性的系統(tǒng)。

可視化預測

為了配合我們的系統(tǒng),我們還開發(fā)了一個Web界面,可以可視化和探索輸入和輸出圖形,調(diào)試復雜的案例,或者只是更好地理解圖形創(chuàng)建過程。請查看鏈接https://github.com/fosfrancesco/musgviz/。

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區(qū)

我們的網(wǎng)絡界面,MusGViz!

為了對我們的模型如何工作以及預測如何變化進行公平的比較和更深入的理解,我們仔細研究了一些。

我們將基本事實邊緣(鏈接)與我們預測的邊緣進行比較,以進行和弦和語音預測。請注意,在你正在查看的示例中,在我們的可視化工具的幫助下,輸出圖直接繪制在樂譜的頂部。

一種實現(xiàn)符號鋼琴音樂聲音和譜表分離的GNN新方法-AI.x社區(qū)

前兩個小節(jié)做得很好,但我們可以在第三個小節(jié)看到我們系統(tǒng)的一些局限性。在接近音高范圍內(nèi)但聲音排列不同的同步音符可能會有問題。

我們的模型預測了一個包含所有同步切分四分之一音符的單個和弦(而不是跨和弦),并且還預測了第一個D#4音符的和弦。對為什么會發(fā)生這種情況進行更深入的研究并非易事,因為神經(jīng)網(wǎng)絡不能直接解釋。

開放式挑戰(zhàn)

盡管我們的系統(tǒng)具有諸多優(yōu)勢,但未來發(fā)展仍面臨一些挑戰(zhàn)。目前,此版本未考慮裝飾音,并且必須在輸入中明確復制重疊音符,這可能會很麻煩。此外,雖然我們已經(jīng)開發(fā)了用于可視化結果的初始MEI導出功能,但這仍然需要進一步更新才能完全支持符號樂譜中發(fā)現(xiàn)的各種例外和復雜性。解決這些問題將是增強系統(tǒng)多功能性并使其更適應各種音樂作品的關鍵。

結論

本文介紹了一種基于圖形的方法,用于符號鋼琴音樂中的同音分離和譜線預測。新方法比現(xiàn)有的深度學習或基于啟發(fā)式的系統(tǒng)表現(xiàn)更好。最后,還提供了一個后處理步驟,可以從模型中刪除可能導致分數(shù)不正確的問題預測。

注1:論文《聚類與分離:一種用于樂譜雕刻的語音和五線譜預測的GNN方法》的GitHub代碼庫地址是:??https://github.com/CPJKU/piano_svsep/?source=post_page-----0cab100629cf--------------------------------。??

注2:本文中所有圖片皆由作者本人提供。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:??Voice and Staff Separation in Symbolic Piano Music with GNNs??,作者:Emmanouil Karystinaios

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-11-5 08:19:59修改
收藏
回復
舉報
回復
相關推薦