自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

小紅書語音識別新突破!開源FireRedASR,中文效果新SOTA

人工智能 新聞
近日,小紅書 FireRed 團(tuán)隊(duì)正式發(fā)布并開源了基于大模型的語音識別模型 ——FireRedASR,在語音識別領(lǐng)域帶來新突破。

語音識別(ASR,Automatic Speech Recognition)是一種將語音轉(zhuǎn)化為文字的技術(shù),被廣泛應(yīng)用于智能語音交互和多媒體內(nèi)容理解領(lǐng)域,例如語音助手、語音輸入、視頻字幕等場景。衡量中文 ASR 性能的主要指標(biāo)是字錯誤率(CER,Character Error Rate),該值越低,表示模型的識別效果越好。

近日,小紅書 FireRed 團(tuán)隊(duì)正式發(fā)布并開源了基于大模型的語音識別模型 ——FireRedASR,在語音識別領(lǐng)域帶來新突破。在業(yè)界廣泛采用的中文普通話公開測試集上,F(xiàn)ireRedASR 憑借卓越的性能取得了新 SOTA!FireRedASR 在字錯誤率(CER)這一核心技術(shù)指標(biāo)上,對比此前的 SOTA Seed-ASR,錯誤率相對降低 8.4%,充分體現(xiàn)了團(tuán)隊(duì)在語音識別技術(shù)領(lǐng)域的創(chuàng)新能力與技術(shù)突破。

  • 論文標(biāo)題:FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
  • 論文地址:http://arxiv.org/abs/2501.14350
  • 項(xiàng)目地址:https://github.com/FireRedTeam/FireRedASR

FireRedASR 介紹

FireRedASR 系列模型包含兩種核心結(jié)構(gòu):FireRedASR-LLM 和 FireRedASR-AED,分別針對語音識別的極致精度和高效推理需求量身打造。團(tuán)隊(duì)開源了不同規(guī)模的模型和推理代碼,旨在滿足全面覆蓋多樣化的應(yīng)用場景。

FireRedASR-LLM 和 FireRedASR-AED 的結(jié)構(gòu)如下圖所示: 

  • FireRedASR-LLM(左):結(jié)合了文本預(yù)訓(xùn)練 LLM 的能力,為極致的 ASR 準(zhǔn)確率而生,適用于對準(zhǔn)確率要求極高的應(yīng)用場景。
  • FireRedASR-AED(右下):基于經(jīng)典的 Attention-based Encoder-Decoder 架構(gòu),F(xiàn)ireRedASR-AED 通過擴(kuò)展參數(shù)至 1.1B,成功平衡了 ASR 語音識別的高準(zhǔn)確率與推理效率。

實(shí)驗(yàn)及結(jié)果

下圖是 FireRedASR 和其他 ASR 大模型的對比,在業(yè)界常用的中文普通話公開測試集上,F(xiàn)ireRedASR-LLM(8.3B 參數(shù)量)取得了最優(yōu) CER 3.05%、成為新 SOTA!FireRedASR-AED (1.1B 參數(shù)量)緊隨其后取得 3.18%,兩者均比 Seed-ASR(12+B 參數(shù)量)的 3.33% 低、并且參數(shù)量更小。FireRedASR 也比 Qwen-Audio、SenseVoice、Whisper、Paraformer 取得了更優(yōu)的 CER。

(aishell1 表示 AISHELL-1 測試集,aishell2 表示 AISHELL-2 iOS 測試集,ws_net 和 ws_meeting 分別表示 WenetSpeech 的 Internet 和 Meeting 測試集)

FireRedASR 不僅在公開測試集上表現(xiàn)優(yōu)異,在多種日常場景下,也展現(xiàn)了卓越的語音識別效果。

如下圖所示,在由短視頻、直播、語音輸入和智能助手等多種來源組成的 Speech 測試集上,與業(yè)內(nèi)領(lǐng)先的 ASR 服務(wù)提供商(ProviderA)和 Paraformer-Large 相比, FireRedASR-LLM 的 CER 相對降低 23.7%~40.0%,優(yōu)勢十分明顯。

值得一提的是,在需要歌詞識別能力的場景中,F(xiàn)ireRedASR-LLM 也表現(xiàn)出極強(qiáng)的適配能力,CER 實(shí)現(xiàn)了 50.2%~66.7% 的相對降低,這一成果進(jìn)一步拓寬了 FireRedASR 的應(yīng)用范圍,使其不僅能勝任傳統(tǒng)語音識別需求,還能在創(chuàng)新性的多媒體場景中大放異彩。

值得一提的是,F(xiàn)ireRedASR 在中文方言和英語場景中同樣表現(xiàn)不俗。在 KeSpeech(中文方言)和 LibriSpeech(英語)測試集上,F(xiàn)ireRedASR 的 CER 顯著優(yōu)于此前的開源 SOTA 模型,使其在支持好普通話 ASR 的前提下,在中文方言和英語上也足夠通用,進(jìn)一步凸顯了其魯棒的語言適配能力。

好奇為什么 FireRedASR 能取得如此好的效果嗎?可以參考 FireRed 團(tuán)隊(duì)公開的技術(shù)報(bào)告一探究竟,并且模型和代碼已經(jīng)全部開源(鏈接見上文)。

FireRed 團(tuán)隊(duì)希望通過開源能為語音社區(qū)做出貢獻(xiàn),促進(jìn) ASR 的應(yīng)用和端到端語音交互的發(fā)展。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2019-11-15 11:17:37

ASRU2019

2025-02-17 07:00:00

蘋果模型

2024-08-19 08:45:00

開源模型

2024-10-12 10:57:39

2010-05-19 15:23:51

Linux 2.6.3Ceph分布式文件系統(tǒng)

2025-02-25 10:04:10

2011-11-25 15:01:26

LFR交換機(jī)大型二層網(wǎng)絡(luò)

2022-02-16 22:09:24

WiFi 7WiFi技術(shù)

2022-11-03 16:31:08

語音智能語音識別

2025-03-04 09:00:00

2024-12-26 11:48:27

2024-02-01 13:02:00

AI模型

2024-05-27 12:17:58

AI目標(biāo)檢測

2020-02-25 17:30:12

谷歌Android開發(fā)者

2009-08-21 15:28:23

C#英文

2023-09-25 14:53:55

3D檢測

2023-09-12 11:30:44

自動駕駛技術(shù)

2025-02-13 09:40:00

2023-12-23 23:35:13

語言視覺
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號