自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里「殺手锏」級語音識別模型來了!推理效率較傳統(tǒng)模型提升10倍,已開源

人工智能 新聞
達(dá)摩院本次推出的Paraformer,首次在工業(yè)級應(yīng)用層面解決了端到端識別效果與效率兼顧的難題。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

阿里達(dá)摩院,又搞事兒了。

這兩天,它們發(fā)布了一個全新的語音識別模型:

Paraformer。

開發(fā)人員直言不諱:這是我們“殺手锏”級的作品。

——不僅識別準(zhǔn)確率“屠榜”幾大權(quán)威數(shù)據(jù)集,一路SOTA,推理效率上相比傳統(tǒng)模型,也最高可提升10倍。

值得一提的是,Paraformer剛宣布就已經(jīng)開源了。

語音輸入法、智能客服、車載導(dǎo)航、會議紀(jì)要等場景,它都可以hold住。

怎么做到的?

Paraformer:從自回歸到非自回歸

我們知道語音一直是人機(jī)交互重要研究領(lǐng)域。

而當(dāng)前語音識別基礎(chǔ)框架已從最初復(fù)雜的混合語音識別系統(tǒng),演變?yōu)楦咝П憬莸亩说蕉苏Z音識別系統(tǒng)。

其中最具代表性的模型當(dāng)屬自回歸端到端模型Transformer,它可以在識別過程中需逐個生成目標(biāo)文字,實現(xiàn)了較高準(zhǔn)確率。

不過Transformer計算并行度低,無法高效結(jié)合GPU進(jìn)行推理。

針對該問題,學(xué)術(shù)界近年曾提出并行輸出目標(biāo)文字的非自回歸模型。

然而這種模型也存在著建模難度和計算復(fù)雜度高,準(zhǔn)確率有待提升的問題。

達(dá)摩院本次推出的Paraformer,首次在工業(yè)級應(yīng)用層面解決了端到端識別效果與效率兼顧的難題。

它屬于單輪非自回歸模型。

對于這一類模型,現(xiàn)有工作往往聚焦于如何更加準(zhǔn)確地預(yù)測目標(biāo)文字個數(shù),如較為典型的Mask CTC,采用CTC預(yù)測輸出文字個數(shù)。

但考慮到現(xiàn)實應(yīng)用中,語速、口音、靜音以及噪聲等因素的影響,如何準(zhǔn)確的預(yù)測目標(biāo)文字個數(shù)以及抽取目標(biāo)文字對應(yīng)的聲學(xué)隱變量仍然是一個比較大的挑戰(zhàn)。

另外一方面,通過對比自回歸模型與單輪非自回歸模型在工業(yè)大數(shù)據(jù)上的錯誤類型(如下圖所示,AR與vanilla NAR),大家發(fā)現(xiàn)相比于自回歸模型,非自回歸模型在預(yù)測目標(biāo)文字個數(shù)(插入錯誤+刪除錯誤)方面差距較小,但是替換錯誤顯著的增加。

圖片

阿里達(dá)摩院認(rèn)為這是由于單輪非自回歸模型中條件獨立假設(shè)導(dǎo)致的語義信息丟失。與此同時,目前非自回歸模型主要停留在學(xué)術(shù)驗證階段,還沒有工業(yè)大數(shù)據(jù)上的相關(guān)實驗與結(jié)論。

Paraformer是如何做的呢?

針對第一個問題,阿里達(dá)摩院采用一個預(yù)測器(Predictor)來預(yù)測文字個數(shù)并通過Continuous integrate-and-fire (CIF)機(jī)制來抽取文字對應(yīng)的聲學(xué)隱變量。

針對第二個問題,受啟發(fā)于機(jī)器翻譯領(lǐng)域中的Glancing language model(GLM),他們設(shè)計了一個基于GLM的 Sampler模塊來增強(qiáng)模型對上下文語義的建模。

除此之外,團(tuán)隊還設(shè)計了一種生成負(fù)樣本策略來引入MWER區(qū)分性訓(xùn)練。

最終,Paraformer由Encoder、Predictor、Sampler、Decoder與Loss function五部分組成。

圖片

核心點主要包含以下幾點:

  • Predictor模塊:基于CIF 的Predictor 預(yù)測語音中目標(biāo)文字個數(shù)以及抽取目標(biāo)文字對應(yīng)的聲學(xué)特征向量;
  • Sampler:通過采樣,將聲學(xué)特征向量與目標(biāo)文字向量變換成含有語義信息的特征向量,配合雙向的Decoder來增強(qiáng)模型對于上下文的建模能力;
  • 基于負(fù)樣本采樣的MWER訓(xùn)練準(zhǔn)則。

效果SOTA,推理效率最高提10倍

最終,在學(xué)術(shù)界常用的中文識別評測任務(wù)AISHELL-1、AISHELL-2及WenetSpeech等測試集上, Paraformer-large模型均獲得了最優(yōu)效果。

在AISHELL-1上,Paraformer在目前公開發(fā)表論文中,為性能(識別效果&計算復(fù)雜度)最優(yōu)的非自回歸模型,且Paraformer-large模型的識別準(zhǔn)確率遠(yuǎn)遠(yuǎn)超于目前公開發(fā)表論文中的結(jié)果(dev/test:1.75/1.95)。

圖片

圖片圖片

在專業(yè)的第三方全網(wǎng)公共云中文語音識別評測SpeechIO TIOBE白盒測試中,Paraformer-large識別準(zhǔn)確率超過98%,是目前公開測評中準(zhǔn)確率最高的中文語音識別模型。

圖片

配合GPU推理,不同版本的Paraformer可將推理效率提升5~10倍。

同時,Paraformer使用了6倍下采樣的低幀率建模方案,可將計算量降低近6倍,支持大模型的高效推理。

體驗地址:?https://www.modelscope.cn/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary?

論文地址:??https://arxiv.org/abs/2206.08317

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2019-06-10 00:45:01

谷歌開源圖像識別

2019-08-29 10:46:42

2019-04-22 08:07:31

MySQL數(shù)據(jù)庫索引

2023-12-03 08:49:38

微軟開源

2022-02-25 08:55:19

BitMapRedis面試題

2023-12-11 19:08:59

AI模型

2010-01-15 09:43:49

Windows 7殺手

2022-02-10 09:04:18

RediSDS數(shù)據(jù)結(jié)構(gòu)

2018-04-19 09:10:17

數(shù)據(jù)分析列式存儲

2010-03-23 17:06:01

2015-06-15 14:48:21

蘋果iOS9軟實力

2011-06-27 22:08:42

臺式機(jī)評測

2019-02-23 06:32:33

網(wǎng)絡(luò)SD-WAN廣域網(wǎng)

2011-07-04 10:00:02

虛擬化

2013-08-13 09:07:20

大數(shù)據(jù)

2014-12-01 15:20:36

微信點評商家

2022-12-13 08:45:01

3F傾聽模型

2015-08-11 14:38:34

2021-06-17 13:10:47

數(shù)據(jù)分析自助式分析數(shù)據(jù)

2018-06-07 16:00:28

阿里巴巴語音識別開源
點贊
收藏

51CTO技術(shù)棧公眾號