基于Mamba架構(gòu)的,狀態(tài)空間音頻分類模型AUM
Transformer憑借強(qiáng)大的自注意力機(jī)制,成為文本、音頻、視頻等模型的基礎(chǔ)架構(gòu)之一。但其計(jì)算復(fù)雜度隨著序列長(zhǎng)度的增加而呈指數(shù)級(jí)增長(zhǎng),這在處理長(zhǎng)序列數(shù)據(jù)時(shí)會(huì)出現(xiàn)嚴(yán)重的效率問題。
韓國(guó)高等科學(xué)技術(shù)院的研究人員受最新的Mamba架構(gòu)啟發(fā),開發(fā)了首個(gè)沒有自注意力機(jī)制純粹狀態(tài)空間的音頻分類模型Audio Mamba(下面簡(jiǎn)稱“AUM”)。
狀態(tài)空間是Mamba架構(gòu)的核心功能之一,這是一種用于描述和預(yù)測(cè)系統(tǒng)狀態(tài)隨時(shí)間變化的數(shù)學(xué)模型,通過維護(hù)一個(gè)隱藏狀態(tài)來(lái)映射輸入序列到輸出,可幫助模型能夠以線性時(shí)間復(fù)雜度高效處理數(shù)據(jù),無(wú)論序列多長(zhǎng)都沒有問題。
論文地址:https://arxiv.org/abs/2406.03344
AUM架構(gòu)簡(jiǎn)單介紹
在AUM架構(gòu)中,先通過傅里葉變換方法,將原始的音頻波形首先被轉(zhuǎn)換成頻譜圖。把得到的頻譜圖隨后被劃分成一系列規(guī)則的 “patches”塊。每個(gè)patch都是一個(gè)正方形矩陣,代表了音頻信號(hào)的一個(gè)局部特征區(qū)域。通過這種方式,將音頻信號(hào)被分解為一系列的局部特征,為后續(xù)的數(shù)據(jù)處理奠定了基礎(chǔ)。
接著,每個(gè)patch通過一個(gè)線性投影層被嵌入到一個(gè)高維空間中。在這個(gè)嵌入過程不僅將原始的音頻特征轉(zhuǎn)換為模型可以處理的形式,而且還通過引入一個(gè)特殊的分類標(biāo)記來(lái)增強(qiáng)模型的分類能力。
這個(gè)分類標(biāo)記被放置在嵌入序列的中間位置,將作為模型訓(xùn)練和推理過程中的關(guān)鍵元素,幫助模型集中注意力于音頻數(shù)據(jù)中最重要的部分。
再?gòu)男蛄械哪┪查_始,通過反向卷積層和狀態(tài)空間模型來(lái)提取特征,幫助AUM模型能從不同的角度理解音頻數(shù)據(jù),增強(qiáng)了模型對(duì)音頻信號(hào)全局上下文的理解能力。
此外,AUM還采用了一種現(xiàn)代化的硬件優(yōu)化掃描方法,能夠從輸入序列的開始到結(jié)束進(jìn)行單向掃描,同時(shí)更新模型的隱藏狀態(tài)。不僅提高了模型的處理效率,還使得模型能夠選擇性地更新其隱藏狀態(tài),從而更有效地捕捉輸入序列中的相關(guān)信息。
實(shí)驗(yàn)測(cè)試與數(shù)據(jù)集
為了測(cè)試AUM的性能,研究人員使用了AudioSet、VGGSound、VoxCeleb、Speech Commands V2和EPIC-SOUNDS等多個(gè)知名音頻數(shù)據(jù)集進(jìn)行了綜合評(píng)估。
這些數(shù)據(jù)集不僅在規(guī)模上有所不同,在音頻樣本的多樣性和復(fù)雜性上也各有特點(diǎn)。例如,AudioSet數(shù)據(jù)集包含了超過200萬(wàn)個(gè)10秒長(zhǎng)的音頻剪輯,涵蓋了527個(gè)不同的標(biāo)簽;而VGGSound則包含了近20萬(wàn)個(gè)視頻剪輯,每個(gè)剪輯都有10秒長(zhǎng),標(biāo)注了309種不同的聲音類別。
結(jié)果顯示,AuM在AudioSet上的平均精準(zhǔn)度達(dá)到了32.43%,比知名的Audio Spectrogram Transformers(簡(jiǎn)稱“AST”)模型高出3.33%;在VGGSound上,準(zhǔn)確率提高到42.58%,比AST提升了5.33%。
在VoxCeleb、Epic-Sounds和Speech Commands V2,AuM也顯示出了卓越的數(shù)據(jù)序列處理性能。
除了性能優(yōu)秀,AuM對(duì)計(jì)算效率和內(nèi)存消耗也比AST強(qiáng)很多。在處理長(zhǎng)序列音頻數(shù)據(jù)時(shí),AuM顯示出了顯著的內(nèi)存效率,這得益于其基于狀態(tài)空間模型的架構(gòu),能夠在保持性能的同時(shí)減少內(nèi)存使用。
此外,AuM在推理階段的效率也比AST快,這意味著在實(shí)際應(yīng)用中,AuM能夠提供更快的推理響應(yīng),對(duì)于需要實(shí)時(shí)音頻處理的業(yè)務(wù)場(chǎng)景尤為重要。
本文轉(zhuǎn)自AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
