自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="wm3yg"><track id="wm3yg"></track></cite>

<style id="wm3yg"></style><sub id="wm3yg"><p id="wm3yg"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

一種實(shí)現(xiàn)符號(hào)鋼琴音樂聲音和譜表分離的GNN新方法

作者：朱先忠 2024-11-05 08:19:11

本文介紹了一種基于圖形的方法，用于符號(hào)鋼琴音樂中的同音分離和譜線預(yù)測。新方法比現(xiàn)有的深度學(xué)習(xí)或基于啟發(fā)式的系統(tǒng)表現(xiàn)更好。最后，還提供了一個(gè)后處理步驟，可以從模型中刪除可能導(dǎo)致分?jǐn)?shù)不正確的問題預(yù)測。

譯者 | 朱先忠

審校 | 重樓

本文涵蓋了我最近在ISMIR 2024上發(fā)表的論文《聚類和分離：一種用于樂譜雕刻的聲音和譜表預(yù)測的GNN方法》的主要內(nèi)容。

簡介

以MIDI等格式編碼的音樂，即使包含量化音符、拍號(hào)或小節(jié)信息，通常也缺少可視化的重要元素，例如語音和五線譜信息。這種限制也適用于音樂生成、轉(zhuǎn)錄或編曲系統(tǒng)的輸出。因此，這種音樂無法輕易轉(zhuǎn)換成人類音樂家可以解讀和演奏的可讀樂譜。

值得注意的是，語音和五線譜分離只是樂譜雕刻系統(tǒng)可能解決的眾多方面中的兩個(gè)——其他方面包括音高拼寫、節(jié)奏分組和連音創(chuàng)建等。

在音樂術(shù)語中，“聲部（voice）”通常是指一系列不重疊的音符，通常稱為單聲道聲音。然而，在處理復(fù)調(diào)樂器時(shí)，這個(gè)定義并不充分。例如，聲部還可以包括和弦，和弦是同時(shí)演奏的音符組，被視為一個(gè)單元。在這種情況下，我們將這種能夠包含和弦的聲音稱為諧音。

問題

將量化的符號(hào)音樂作品（例如MIDI文件）中的音符分離成多個(gè)聲部和五線譜是一項(xiàng)重要且不簡單的任務(wù)。它是樂譜雕刻（或樂譜排版）這一更大任務(wù)的基本組成部分，旨在為人類表演者制作可讀的樂譜。

樂譜是音樂家的重要工具，因?yàn)樗軌蛞跃o湊的圖形形式傳達(dá)音樂信息。與其他可能更容易為機(jī)器定義和處理的音樂表示形式（例如MIDI文件）相比，樂譜的特點(diǎn)是訓(xùn)練有素的音樂家能夠高效地閱讀它。

給定一個(gè)量化的MIDI，有很多方法可以將其轉(zhuǎn)換為可讀格式，其中主要包括將音符分離成聲部和五線譜。

請參見以下兩種可能性。它們展示了雕刻系統(tǒng)通常如何工作。

最大的問題是我們?nèi)绾问棺詣?dòng)轉(zhuǎn)錄模型更好

動(dòng)機(jī)

為了開發(fā)一種更有效的系統(tǒng)來將音符分離為聲部和五線譜，特別是對于復(fù)雜的鋼琴音樂，我們需要從不同的角度重新思考這個(gè)問題。我們的目標(biāo)是從量化的MIDI開始提高轉(zhuǎn)錄音樂的可讀性，這對于制作出好的樂譜和讓音樂家更好地演奏非常重要。

為了獲得良好的樂譜可讀性，兩個(gè)元素可能是最重要的：

五線譜的分離，將音符組織在頂部和底部五線譜之間；
以及聲部的分離，在這張圖中用不同顏色的線條突出顯示。

鋼琴樂譜中的聲音流

如前所述，在鋼琴樂譜中，聲音不是嚴(yán)格意義上的單音，而是諧音。這意味著，一個(gè)聲音可以包含一個(gè)或多個(gè)同時(shí)演奏的音符。從現(xiàn)在開始，我們稱之為和弦。你可以在上圖底部的標(biāo)尺中看到一些以紫色突出顯示的和弦示例。

從機(jī)器學(xué)習(xí)的角度來看，我們有兩個(gè)任務(wù)需要解決：

第一個(gè)是五線譜分離，這很簡單，我們只需要為每個(gè)音符預(yù)測一個(gè)二進(jìn)制標(biāo)簽，特別是鋼琴樂譜的頂部或底部五線譜。
語音分離任務(wù)可能看起來很相似，畢竟，如果我們可以使用多類分類器預(yù)測每個(gè)語音的語音數(shù)量，問題就解決了！

但是，直接預(yù)測語音標(biāo)簽是有問題的。我們需要確定系統(tǒng)可以接受的最大語音數(shù)量，但這會(huì)在系統(tǒng)靈活性和數(shù)據(jù)中的類別不平衡之間產(chǎn)生權(quán)衡。

例如，如果我們將最大聲音數(shù)設(shè)置為8，以表示每個(gè)五線譜中有4個(gè)聲音，就像在音樂符號(hào)軟件中通常做的那樣，那么我們可以預(yù)期在我們的數(shù)據(jù)集中標(biāo)簽8和4的出現(xiàn)次數(shù)會(huì)非常少。

帶絕對標(biāo)簽的語音分離

特別查看此處的樂譜摘錄，語音3、4和8完全缺失。高度不平衡的數(shù)據(jù)會(huì)降低多標(biāo)簽分類器的性能，如果我們設(shè)置較少的語音數(shù)量，我們將失去系統(tǒng)靈活性。

方法論

解決這些問題的辦法是能夠?qū)⑾到y(tǒng)在某些聲音上學(xué)到的知識(shí)翻譯成其他聲音。為此，我們放棄了多類分類器的想法，并將語音預(yù)測構(gòu)建為鏈接預(yù)測問題。如果兩個(gè)音符在同一聲音中是連續(xù)的，我們想將它們聯(lián)系起來。這樣做的好處是將一個(gè)復(fù)雜的問題分解為一組非常簡單的問題。對于每對音符，我們再次預(yù)測一個(gè)二進(jìn)制標(biāo)簽，告訴這兩個(gè)音符是否鏈接。這種方法也適用于和弦，正如你在這張圖片的低音中所看到的那樣。

這個(gè)過程將創(chuàng)建一個(gè)我們稱之為輸出圖的圖。為了找到聲音，我們可以簡單地計(jì)算輸出圖的連通分量！

重申一下，我們將語音和譜表分離問題表述為兩個(gè)二元預(yù)測任務(wù)。

對于譜表分離，我們預(yù)測每個(gè)音符的譜表編號(hào)；
而對于分離語音，我們預(yù)測每對音符之間的鏈接。
雖然不是絕對必要的，但我們發(fā)現(xiàn)添加一項(xiàng)額外任務(wù)對系統(tǒng)的性能很有用：
和弦預(yù)測，與語音類似，如果每對音符屬于同一和弦，我們會(huì)將它們鏈接起來。

讓我們回顧一下到目前為止我們的系統(tǒng)是什么樣子的：我們有三個(gè)二元分類器，一個(gè)輸入單個(gè)音符，兩個(gè)輸入成對的音符。我們現(xiàn)在需要的是好的輸入特征，這樣我們的分類器就可以在預(yù)測中使用上下文信息。使用深度學(xué)習(xí)詞匯表，我們需要一個(gè)好的音符編碼器！

我們選擇使用圖神經(jīng)網(wǎng)絡(luò)（GNN）作為音符編碼器，因?yàn)樗ǔＴ诜?hào)音樂處理方面表現(xiàn)出色。因此，我們需要從音樂輸入中創(chuàng)建一個(gè)圖。

為此，我們確定性地從量化MIDI構(gòu)建一個(gè)新的圖，我們稱之為輸入圖。

使用GraphMuse等工具可以輕松創(chuàng)建這些輸入圖

現(xiàn)在，把所有內(nèi)容放在一起，我們的模型看起來像這樣：

它從一些量化的MIDI開始，這些MIDI被預(yù)處理為一個(gè)圖，以創(chuàng)建輸入圖。
輸入圖通過圖神經(jīng)網(wǎng)絡(luò)（GNN）為每個(gè)音符創(chuàng)建中間潛在表示。我們對每個(gè)音符進(jìn)行編碼，因此我們稱之為GNN編碼器。
然后，我們將其輸入到一個(gè)淺層MLP分類器中，用于我們的三個(gè)任務(wù)，即語音、譜表和和弦預(yù)測。我們也可以將這部分稱為解碼器。
預(yù)測后，我們得到一個(gè)輸出圖。
到目前為止，這種方法可以看作是一種圖對圖的方法，我們從MIDI構(gòu)建的輸入圖開始，預(yù)測包含語音和和弦鏈接以及譜表標(biāo)簽的輸出圖。
在最后一步，我們的輸出圖經(jīng)過后處理程序，以創(chuàng)建一個(gè)美觀易讀的樂譜。

后處理的目標(biāo)是刪除可能導(dǎo)致無效輸出的配置，例如將語音拆分為兩個(gè)語音。為了緩解這些問題：

我們根據(jù)和弦預(yù)測頭對屬于同一和弦的音符進(jìn)行聚類。
我們通過應(yīng)用線性分配解決方案來確保每個(gè)節(jié)點(diǎn)最多有一個(gè)傳入和傳出邊。
最后，將信息傳播回原始節(jié)點(diǎn)。

我們系統(tǒng)的后處理程序

我們系統(tǒng)的一個(gè)突出特點(diǎn)是，它在音樂分析和樂譜雕刻方面能夠超越其他現(xiàn)有系統(tǒng)。與依賴音樂啟發(fā)式的傳統(tǒng)方法（有時(shí)可能不可靠）不同，我們的系統(tǒng)通過保持簡單但穩(wěn)健的方法來避免這些問題。此外，由于內(nèi)存和計(jì)算要求低，我們的系統(tǒng)能夠計(jì)算出整個(gè)片段的全局解，而無需進(jìn)行分割。此外，它能夠處理無限數(shù)量的聲音，使其成為復(fù)雜音樂作品中更靈活、更強(qiáng)大的工具。這些優(yōu)點(diǎn)突出了該系統(tǒng)的穩(wěn)健設(shè)計(jì)及其以更高的精度和效率應(yīng)對音樂處理挑戰(zhàn)的能力。

數(shù)據(jù)集

為了訓(xùn)練和評估我們的系統(tǒng)，我們使用了兩個(gè)數(shù)據(jù)集。J-pop數(shù)據(jù)集包含811首流行鋼琴樂譜，DCML浪漫語料庫包含393首浪漫音樂鋼琴樂譜。相比之下，DCML語料庫要復(fù)雜得多，因?yàn)樗臉纷V存在許多困難，如大量的聲音、聲音交叉和五線譜交叉。使用復(fù)雜和簡單數(shù)據(jù)的組合，我們可以訓(xùn)練一個(gè)對不同類型的輸入保持魯棒性和靈活性的系統(tǒng)。

可視化預(yù)測

為了配合我們的系統(tǒng)，我們還開發(fā)了一個(gè)Web界面，可以可視化和探索輸入和輸出圖形，調(diào)試復(fù)雜的案例，或者只是更好地理解圖形創(chuàng)建過程。請查看鏈接https://github.com/fosfrancesco/musgviz/。

我們的網(wǎng)絡(luò)界面，MusGViz！

為了對我們的模型如何工作以及預(yù)測如何變化進(jìn)行公平的比較和更深入的理解，我們仔細(xì)研究了一些。

我們將基本事實(shí)邊緣（鏈接）與我們預(yù)測的邊緣進(jìn)行比較，以進(jìn)行和弦和語音預(yù)測。請注意，在你正在查看的示例中，在我們的可視化工具的幫助下，輸出圖直接繪制在樂譜的頂部。

前兩個(gè)小節(jié)做得很好，但我們可以在第三個(gè)小節(jié)看到我們系統(tǒng)的一些局限性。在接近音高范圍內(nèi)但聲音排列不同的同步音符可能會(huì)有問題。

我們的模型預(yù)測了一個(gè)包含所有同步切分四分之一音符的單個(gè)和弦（而不是跨和弦），并且還預(yù)測了第一個(gè)D#4音符的和弦。對為什么會(huì)發(fā)生這種情況進(jìn)行更深入的研究并非易事，因?yàn)樯窠?jīng)網(wǎng)絡(luò)不能直接解釋。

開放式挑戰(zhàn)

盡管我們的系統(tǒng)具有諸多優(yōu)勢，但未來發(fā)展仍面臨一些挑戰(zhàn)。目前，此版本未考慮裝飾音，并且必須在輸入中明確復(fù)制重疊音符，這可能會(huì)很麻煩。此外，雖然我們已經(jīng)開發(fā)了用于可視化結(jié)果的初始MEI導(dǎo)出功能，但這仍然需要進(jìn)一步更新才能完全支持符號(hào)樂譜中發(fā)現(xiàn)的各種例外和復(fù)雜性。解決這些問題將是增強(qiáng)系統(tǒng)多功能性并使其更適應(yīng)各種音樂作品的關(guān)鍵。

結(jié)論

本文介紹了一種基于圖形的方法，用于符號(hào)鋼琴音樂中的同音分離和譜線預(yù)測。新方法比現(xiàn)有的深度學(xué)習(xí)或基于啟發(fā)式的系統(tǒng)表現(xiàn)更好。最后，還提供了一個(gè)后處理步驟，可以從模型中刪除可能導(dǎo)致分?jǐn)?shù)不正確的問題預(yù)測。

注1：論文《聚類與分離：一種用于樂譜雕刻的語音和五線譜預(yù)測的GNN方法》的GitHub代碼庫地址是：https://github.com/CPJKU/piano_svsep/?source=post_page-----0cab100629cf--------------------------------。

注2：本文中所有圖片皆由作者本人提供。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計(jì)算機(jī)教師，自由編程界老兵一枚。

原文標(biāo)題：Voice and Staff Separation in Symbolic Piano Music with GNNs，作者：Emmanouil Karystinaios

責(zé)任編輯：姜華來源： 51CTO內(nèi)容精選

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="sdv9x"><button id="sdv9x"></button></cite>