自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<output id="svhtl"><p id="svhtl"><table id="svhtl"></table></p></output>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

基于Mamba架構(gòu)的，狀態(tài)空間音頻分類模型AUM

發(fā)布于 2024-7-19 12:21

瀏覽

0收藏

Transformer憑借強(qiáng)大的自注意力機(jī)制，成為文本、音頻、視頻等模型的基礎(chǔ)架構(gòu)之一。但其計(jì)算復(fù)雜度隨著序列長(zhǎng)度的增加而呈指數(shù)級(jí)增長(zhǎng)，這在處理長(zhǎng)序列數(shù)據(jù)時(shí)會(huì)出現(xiàn)嚴(yán)重的效率問題。

韓國(guó)高等科學(xué)技術(shù)院的研究人員受最新的Mamba架構(gòu)啟發(fā)，開發(fā)了首個(gè)沒有自注意力機(jī)制純粹狀態(tài)空間的音頻分類模型Audio Mamba（下面簡(jiǎn)稱“AUM”）。

狀態(tài)空間是Mamba架構(gòu)的核心功能之一，這是一種用于描述和預(yù)測(cè)系統(tǒng)狀態(tài)隨時(shí)間變化的數(shù)學(xué)模型，通過維護(hù)一個(gè)隱藏狀態(tài)來(lái)映射輸入序列到輸出，可幫助模型能夠以線性時(shí)間復(fù)雜度高效處理數(shù)據(jù)，無(wú)論序列多長(zhǎng)都沒有問題。

論文地址：https://arxiv.org/abs/2406.03344

基于Mamba架構(gòu)的，狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

AUM架構(gòu)簡(jiǎn)單介紹

在AUM架構(gòu)中，先通過傅里葉變換方法，將原始的音頻波形首先被轉(zhuǎn)換成頻譜圖。把得到的頻譜圖隨后被劃分成一系列規(guī)則的 “patches”塊。每個(gè)patch都是一個(gè)正方形矩陣，代表了音頻信號(hào)的一個(gè)局部特征區(qū)域。通過這種方式，將音頻信號(hào)被分解為一系列的局部特征，為后續(xù)的數(shù)據(jù)處理奠定了基礎(chǔ)。

基于Mamba架構(gòu)的，狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

接著，每個(gè)patch通過一個(gè)線性投影層被嵌入到一個(gè)高維空間中。在這個(gè)嵌入過程不僅將原始的音頻特征轉(zhuǎn)換為模型可以處理的形式，而且還通過引入一個(gè)特殊的分類標(biāo)記來(lái)增強(qiáng)模型的分類能力。

這個(gè)分類標(biāo)記被放置在嵌入序列的中間位置，將作為模型訓(xùn)練和推理過程中的關(guān)鍵元素，幫助模型集中注意力于音頻數(shù)據(jù)中最重要的部分。

再?gòu)男蛄械哪┪查_始，通過反向卷積層和狀態(tài)空間模型來(lái)提取特征，幫助AUM模型能從不同的角度理解音頻數(shù)據(jù)，增強(qiáng)了模型對(duì)音頻信號(hào)全局上下文的理解能力。

基于Mamba架構(gòu)的，狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

此外，AUM還采用了一種現(xiàn)代化的硬件優(yōu)化掃描方法，能夠從輸入序列的開始到結(jié)束進(jìn)行單向掃描，同時(shí)更新模型的隱藏狀態(tài)。不僅提高了模型的處理效率，還使得模型能夠選擇性地更新其隱藏狀態(tài)，從而更有效地捕捉輸入序列中的相關(guān)信息。

實(shí)驗(yàn)測(cè)試與數(shù)據(jù)集

為了測(cè)試AUM的性能，研究人員使用了AudioSet、VGGSound、VoxCeleb、Speech Commands V2和EPIC-SOUNDS等多個(gè)知名音頻數(shù)據(jù)集進(jìn)行了綜合評(píng)估。

這些數(shù)據(jù)集不僅在規(guī)模上有所不同，在音頻樣本的多樣性和復(fù)雜性上也各有特點(diǎn)。例如，AudioSet數(shù)據(jù)集包含了超過200萬(wàn)個(gè)10秒長(zhǎng)的音頻剪輯，涵蓋了527個(gè)不同的標(biāo)簽；而VGGSound則包含了近20萬(wàn)個(gè)視頻剪輯，每個(gè)剪輯都有10秒長(zhǎng)，標(biāo)注了309種不同的聲音類別。

基于Mamba架構(gòu)的，狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

結(jié)果顯示，AuM在AudioSet上的平均精準(zhǔn)度達(dá)到了32.43%，比知名的Audio Spectrogram Transformers（簡(jiǎn)稱“AST”）模型高出3.33%；在VGGSound上，準(zhǔn)確率提高到42.58%，比AST提升了5.33%。

在VoxCeleb、Epic-Sounds和Speech Commands V2，AuM也顯示出了卓越的數(shù)據(jù)序列處理性能。

基于Mamba架構(gòu)的，狀態(tài)空間音頻分類模型AUM-AI.x社區(qū)

除了性能優(yōu)秀，AuM對(duì)計(jì)算效率和內(nèi)存消耗也比AST強(qiáng)很多。在處理長(zhǎng)序列音頻數(shù)據(jù)時(shí)，AuM顯示出了顯著的內(nèi)存效率，這得益于其基于狀態(tài)空間模型的架構(gòu)，能夠在保持性能的同時(shí)減少內(nèi)存使用。

此外，AuM在推理階段的效率也比AST快，這意味著在實(shí)際應(yīng)用中，AuM能夠提供更快的推理響應(yīng)，對(duì)于需要實(shí)時(shí)音頻處理的業(yè)務(wù)場(chǎng)景尤為重要。

本文轉(zhuǎn)自AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/r-03S5PW3l89zphf2IsbyQ??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

VideoMamba：用于高效視頻理解的狀態(tài)空間模型

爛漫樹林 ? 3646瀏覽 ? 0回復(fù)
首個(gè)基于Mamba的MLLM來(lái)了！模型權(quán)重、訓(xùn)練代碼等已全部開源

輕薄滴假象 ? 3263瀏覽 ? 0回復(fù)
原作者帶隊(duì)的Mamba 2來(lái)了，新架構(gòu)訓(xùn)練效率大幅提升

輕薄滴假象 ? 2508瀏覽 ? 0回復(fù)
力壓Transformer，詳解Mamba和狀態(tài)空間模型

小虎哦哦 ? 3273瀏覽 ? 0回復(fù)
FLOAT：基于流匹配的音頻驅(qū)動(dòng)說(shuō)話者頭像生成模型

angel ? 2121瀏覽 ? 0回復(fù)
基于CNN＋PyTorch實(shí)現(xiàn)視覺檢測(cè)分類

51CTO內(nèi)容精選 ? 1970瀏覽 ? 0回復(fù)
基于時(shí)頻特征融合的高創(chuàng)新時(shí)間序列分類模型

Tang_Lan ? 2122瀏覽 ? 0回復(fù)
基于 Gemini AI 實(shí)現(xiàn)音頻和視頻解析

丟翅膀的魚 ? 2486瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來(lái)趨勢(shì)報(bào)告

歐米伽未來(lái)研究所 ? 6064瀏覽 ? 0回復(fù)
xLSTM：拳打Transformer，腳踢Mamba？！

魯班模錘1 ? 1814瀏覽 ? 0回復(fù)
Phi-4-multimodal：圖、文、音頻統(tǒng)一的多模態(tài)大模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語(yǔ)言處理 ? 1794瀏覽 ? 0回復(fù)
基于1D-GRU+2D-MTF-ResNet-CBAM的分類模型

Tang_Lan ? 1677瀏覽 ? 0回復(fù)
基于LangGraph的智能文章生成Agent架構(gòu)設(shè)計(jì)思路

九歌AI大模型 ? 1624瀏覽 ? 0回復(fù)
大模型除了聊天還能做什么？關(guān)于大模型的分類和應(yīng)用

AI探索時(shí)代 ? 1484瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計(jì)演進(jìn)：從 Local MCP Server 到 Remote MCP Server 開源架構(gòu)設(shè)計(jì)實(shí)現(xiàn)

玄姐聊AGI ? 3557瀏覽 ? 0回復(fù)
騰訊Hunyuan-T1來(lái)襲：Mamba架構(gòu)重塑語(yǔ)言模型推理能力

Halo咯咯 ? 908瀏覽 ? 0回復(fù)
萬(wàn)字長(zhǎng)文深度剖析基于 MCP 實(shí)現(xiàn) AI 應(yīng)用架構(gòu)設(shè)計(jì)新范式的落地實(shí)踐

玄姐聊AGI ? 2627瀏覽 ? 0回復(fù)
PixelFlow：基于流的像素空間生成模型

AIRoobt ? 380瀏覽 ? 0回復(fù)
MCP 實(shí)踐：基于 MCP 架構(gòu)實(shí)現(xiàn)知識(shí)庫(kù)系統(tǒng)

玄姐聊AGI ? 227瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強(qiáng)吉卜力版本來(lái)啦 6天前發(fā)布
字節(jié)跳動(dòng)開源多模態(tài)AI Agent—UI-TARS-1.5 7天前發(fā)布

熱門推薦

微軟開源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險(xiǎn)降50% 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： OpenAI發(fā)布PVG：用小模型驗(yàn)證大模型輸出，解決“黑盒”難題

下一篇：提升5.69倍，高效RAG上下文壓縮方法COCOM

社區(qū)精華內(nèi)容

目錄

<cite id="5im1i"></cite>