自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

新聞
快手研究團(tuán)隊(duì)聯(lián)合清華大學(xué)研究人員提出了一種基于音頻信號的語種識別新方法。

  [[420599]]

快手研究團(tuán)隊(duì) MMU(Multimedia understanding)聯(lián)合清華大學(xué)研究人員提出了一種基于音頻信號的語種識別新方法。該方法自研一種動態(tài)多尺度卷積的新型網(wǎng)絡(luò)結(jié)構(gòu),通過動態(tài)卷積核、局部多尺度學(xué)習(xí)和全局多尺度池化技術(shù)來捕獲全局和局部上下文的語種 / 方言信息。目前該論文已經(jīng)被國際頂級語音會議 Interspeech2021 所接收。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

論文鏈接:https://www.researchgate.net/publication/353652910_Dynamic_Multi-scale_Convolution_for_Dialect_Identification

語種識別是指從一段說話語音中識別出語種(或方言)的類別,如日語、韓語、普通話、粵語等。語種識別技術(shù)的應(yīng)用非常廣泛,不僅可以作為多語言語音識別(ASR)和多語言翻譯系統(tǒng)的前端預(yù)處理模塊,也可以用于定向廣告和生物特征驗(yàn)證。近年來,隨著深度學(xué)習(xí)技術(shù)的興起,語種識別在工業(yè)界和學(xué)術(shù)界都得到廣泛的關(guān)注。幾年前,x-vector 是語種(或方言)識別的主流方法。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于 DNN 的語種識別網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了快速的迭代,從最初的 TDNN 到 D-TDNN,再到 Ecapa-TDNN 以及 ResNet 網(wǎng)絡(luò)結(jié)構(gòu),語種(或方言)識別性能獲得顯著提升。

為了有效捕獲音頻中的上下文語種信息,進(jìn)一步提升語種識別性能,快手研究團(tuán)隊(duì) MMU(Multimedia understanding)聯(lián)合清華大學(xué)研究人員提出了一種基于音頻信號的語種識別新方法。該方法自研一種動態(tài)多尺度卷積的新型網(wǎng)絡(luò)結(jié)構(gòu),通過動態(tài)卷積核、局部多尺度學(xué)習(xí)和全局多尺度池化技術(shù)來捕獲全局和局部上下文的語種 / 方言信息。具體來說,引入動態(tài)卷積核的方法,模型能夠自適應(yīng)地捕獲短期和長期上下文之間的特征;局部多尺度學(xué)習(xí)在細(xì)粒度級別表示多尺度特征,能夠增加卷積運(yùn)算的感受野范圍,同時使模型參數(shù)量大幅下降;全局多尺度池化用于聚合來自模型不同瓶頸層的語種 / 方表征。文章的貢獻(xiàn)包括如下 3 點(diǎn):

1. 第一次將動態(tài)卷積核引入語種 / 方言識別領(lǐng)域。

2. 局部多尺度學(xué)習(xí),在更細(xì)粒度層面上對多尺度特征進(jìn)行表征學(xué)習(xí)。

3. 全局多尺度池化,能夠聚合模型多個層次的特征。

針對 2020 年東方語種識別 (OLR2020) 挑戰(zhàn)賽的 AP20-OLR 語種識別任務(wù),所提語種識別新方法取得了平均代價損失 (Cavg) 為 0.067,等誤差率 (EER) 為 6.52% 的成績。相比 OLR2020 挑戰(zhàn)賽中的最優(yōu)(SOTA,state-of-the-art)識別系統(tǒng),所提語種識別新方法獲得了 9% 的 Cavg 和 45% 的 EER 相對提升,而且模型參數(shù)減少了 91%,性能顯著優(yōu)于 SOTA 系統(tǒng)。目前該論文已經(jīng)被國際頂級語音會議 Interspeech2021 所接收。

方法介紹

快手 MMU 和清華自研的動態(tài)多尺度卷積的新型網(wǎng)絡(luò)結(jié)構(gòu)框圖如圖 1 所示,為了簡化,批歸一化層 BatchNormalization (BN) 和 ReLU 激活函數(shù)已省略。從圖中可以看出,動態(tài)多尺度卷積的新型網(wǎng)絡(luò)結(jié)構(gòu)采用 D-TDNN 網(wǎng)絡(luò)作為基本骨架,將第一個 D-TDNN 層修改為動態(tài)多尺度卷積塊,它在粒度級別上表示局部多尺度特征,并增加了卷積運(yùn)算的感受野范圍。此外,全局多尺度池化方法聚合了不同的瓶頸層特征,以便從多個方面收集信息。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

圖 1: 動態(tài)多尺度卷積結(jié)構(gòu)。在圖中,"Multi-scale Dk Block" 指的是全局和局部多尺度動態(tài)卷積核模塊,"Multi-scale Dk Conv" 指的是局部多尺度動態(tài)卷積核操作。綠色的 "C" 定義了 "拼接" 操作。

1. 動態(tài)卷積核

動態(tài)卷積核(Dk Conv)是一種基于 Softmax 注意力的動態(tài)通道選擇機(jī)制,具體結(jié)構(gòu)如圖 2 所示。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

圖 2:動態(tài)卷積核 (Dk Conv) 模塊。

從圖中看出,網(wǎng)絡(luò)結(jié)構(gòu)具體描述為:高階統(tǒng)計(jì)池化層(HOSP)- 線性層 - 線性層 - Softmax,其中 HOSP 目的是從空間維度收集通道信息,其它神經(jīng)網(wǎng)絡(luò)模塊是為了評估不同分支的重要性。卷積的多分支擴(kuò)展能夠使模型自適應(yīng)地捕獲短期和長期上下文之間不同的方言表征。

2. 局部多尺度學(xué)習(xí)

受 Res2Net 中層內(nèi)殘差連接的啟發(fā),該團(tuán)隊(duì)采用局部多尺度學(xué)習(xí)來提高卷積操作的表征能力。局部多尺度學(xué)習(xí)是指在卷積中實(shí)現(xiàn)更細(xì)粒度的多個可用感受野。如圖 3 所示,作者將特征平均分成 s 個特征子集,用 Xi 表示,其中 i∈[1,2,...,s]。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

圖 3: 局部多尺度學(xué)習(xí)。在圖中,"Dk Conv" 表示動態(tài)卷積核操作,⊕表示逐元素相加

一組過濾器首先從相應(yīng)的特征子集中提取特征。然后將前一組的輸出特征與另一組輸入特征一起發(fā)送到下一組過濾器:

其中 F 表示 Dk Conv 的操作。在 Multi-scale Dk Block 中,Dk Conv 過濾器的數(shù)量是 D-TDNN 層通道數(shù)的 1/s 倍。所有的 F 操作完結(jié)后,可以得到 Outi 的串聯(lián)作為當(dāng)前模塊的輸出:

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

最后,在處理完這些特征集合后,將所有組的特征按照通道數(shù)連接起來并發(fā)送到下一個操作以融合信息。通過引入超參數(shù) s,局部多尺度學(xué)習(xí)(在粒度級別表示多尺度特征)被證明可以有效地增加卷積運(yùn)算的感受野范圍。此外,隨著每一個尺度卷積濾波器數(shù)量的減少,模型參數(shù)量也得到了顯著下降。

3. 全局多尺度池化

前人的工作得出結(jié)論:不同層的特征聚合可以提高聲紋識別任務(wù)中說話人表征的區(qū)分性。瓶頸特征是一種高層次的信息聚合。因此在通道維度上聚合不同的瓶頸特征并將它們送入統(tǒng)計(jì)池層,以增強(qiáng)語種 / 方言分類能力是十分必要的。全局多尺度池化方法的結(jié)構(gòu)如圖 4 所示。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

圖 4: 全局多尺度池化

該團(tuán)隊(duì)重新定義了幀級特征 h_t,在通道維度上聚合了不同層的瓶頸特征 h_bi (i = 1, · · · , n),其中 n 是瓶頸層的數(shù)量。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

全局多尺度池化層在幀級特征 h_t(t = 1,... ,T) 上以標(biāo)準(zhǔn)差向量 σ 的形式計(jì)算均值向量 μ 以及二階統(tǒng)計(jì)量。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

該團(tuán)隊(duì)在實(shí)驗(yàn)中使用兩個瓶頸層用于全局多尺度池化。實(shí)驗(yàn)表明,使用全局多尺度池化方法可以產(chǎn)生更加具有區(qū)分力的語種 / 方言表征。

實(shí)驗(yàn)結(jié)果

為了證明所提模型在語種 / 方言識別任務(wù)上的有效性,該團(tuán)隊(duì)研究人員在東方語種 OLR2020 挑戰(zhàn)賽識別任務(wù) 2 的方言識別任務(wù)上面進(jìn)行了測試實(shí)驗(yàn),采用了兩個評價指標(biāo):平均損失性能 Cavg 和等錯誤率 EER 進(jìn)行性能評估,并且和主流的語種 / 方言識別技術(shù)進(jìn)行了性能和參數(shù)量的對比。

1. 東方語種識別大賽數(shù)據(jù)介紹

在 2020 年東方語言識別 (OLR) 挑戰(zhàn)賽中,該團(tuán)隊(duì)使用 AP17-OL3、AP17-OLR-test、AP18-OLR-test、AP19-OLR-dev、AP19-OLR-test 和 AP20-OLR-dialect 作為語種 / 方言任務(wù)的訓(xùn)練集。所有訓(xùn)練數(shù)據(jù)包括 16 種語言,包括日語、韓語、閩南話、上海話、四川話等語種 / 方言。組合數(shù)據(jù)集的詳細(xì)信息如表 1 所示。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

表 1: 訓(xùn)練集和評估集的數(shù)據(jù)。

2. 橫向?qū)Ρ?/strong>

從表 2 中,我們可以觀察到,在相同的語種 / 方言識別任務(wù)中,動態(tài)多尺度卷積方法的性能明顯優(yōu)于東方語種識別 2020 任務(wù) 2 中 top2 的模型。與 OLR Challenge 2020 排行榜 No.1 (SOTA,state-of-the-art)識別系統(tǒng)相比,我們的模型僅使用 290 萬個參數(shù)即可分別實(shí)現(xiàn) 9.2% 的 Cavg 和 45% 的 EER 相對改進(jìn)。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

表 2: 與 top2 系統(tǒng)的比較。在這張表中,Royal Flush 和 Phonexia 分別是 2020 年 OLR 挑戰(zhàn)賽排行榜的第 2 名和第 1 名。該系統(tǒng)相比 top1 分別實(shí)現(xiàn)了 9% 的 Cavg 和 45% 的 EER 相對改進(jìn)。

3. 縱向?qū)Ρ?/strong>

表 3 顯示在東方語種識別中語種 / 方言識別任務(wù)上的消融研究的性能。測評分析了福建話、四川話和上海話的 Softmax-output 分?jǐn)?shù)。該方案所有提出的模型在 EER 方面都要優(yōu)于 OLR2020 挑戰(zhàn)賽中 最先進(jìn)系統(tǒng)。值得注意的是,該團(tuán)隊(duì)所提出的動態(tài)多尺度卷積方法在包括 Cavg 在內(nèi)的所有指標(biāo)中都取得了最佳性能,這表明該方法對于語種 / 方言識別任務(wù)是非常有效的。

動態(tài)多尺度卷積網(wǎng)絡(luò)結(jié)構(gòu),清華、快手聯(lián)合提出語種識別新方法

表 3: 東方語種 2020 比賽賽道二語種 / 方言識別任務(wù)上的消融實(shí)驗(yàn)

實(shí)驗(yàn)結(jié)果表明,與使用 Softmax 損失函數(shù)的模型相比,使用 AAM-Softmax 的模型可以獲得更優(yōu)異的性能。與基線系統(tǒng) D-TDNN 的方法相比,動態(tài)卷積核的操作是非常有助于進(jìn)行語種 / 方言識別的。局部多尺度動態(tài)卷積核將多尺度學(xué)習(xí)與動態(tài)卷積核相結(jié)合,通過引入多尺度學(xué)習(xí),進(jìn)一步提高了性能,相對減少了 36% 的參數(shù),而模型參數(shù)量僅有 250 萬。此外卷積內(nèi)的局部多尺度學(xué)習(xí)方法可以有效地通過超參數(shù) s 減少模型參數(shù)量。全局和局部多尺度動態(tài)卷積核方法采用了全局多尺度池化方法,是局部多尺度動態(tài)卷積核的變體。將全局和局部多尺度動態(tài)卷積核的結(jié)果與局部多尺度動態(tài)卷積核結(jié)果進(jìn)行比較,可以看出全局多尺度池化對于提高語種 / 方言識別的性能是大有幫助的。

目前,語種 / 方言識別已應(yīng)用于快手視頻審核、同城直播、推薦、素材挖掘等多個業(yè)務(wù)場景,為各個業(yè)務(wù)帶來顯著收益。

  • 在同城直播業(yè)務(wù),利用方言直播識別技術(shù)為同城直播打上方言標(biāo)簽,助力同城主播的消費(fèi)指標(biāo)提升。
  • 在推薦業(yè)務(wù)場景,為視頻打上語種(或方言)標(biāo)簽,助力推薦將作品進(jìn)行區(qū)域分發(fā),提升視頻的消費(fèi)效果。

 

 

責(zé)任編輯:張燕妮 來源: 機(jī)器之心Pro
相關(guān)推薦

2022-07-25 15:34:01

量化仿真數(shù)據(jù)誤差內(nèi)存占用

2024-02-06 13:31:55

語義分割損失函數(shù)指標(biāo)

2021-05-17 10:05:08

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2021-11-26 18:37:39

技術(shù)人工智能計(jì)算機(jī)

2015-07-20 11:49:56

Wi-Fi

2021-09-27 10:12:42

欺騙防御rMTD網(wǎng)絡(luò)攻擊

2025-01-06 09:30:00

2019-12-30 09:41:59

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2025-01-23 10:08:00

虛擬數(shù)字AI

2020-05-14 14:21:50

谷歌AI數(shù)據(jù)

2025-04-24 09:38:00

3D模型AI

2022-12-08 13:00:10

AI性別偏見

2024-08-30 12:58:43

AI多模態(tài)技術(shù)

2021-02-18 14:55:06

FuchsiaAndroidLinux

2023-08-16 15:25:43

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)

2010-04-01 09:30:57

2015-08-21 09:14:40

大數(shù)據(jù)

2024-07-26 09:19:41

2025-02-25 10:04:10

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號