自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全抖音都在說(shuō)家鄉(xiāng)話,兩項(xiàng)關(guān)鍵技術(shù)助你“聽(tīng)懂”各地方言

人工智能
眾所周知,語(yǔ)音識(shí)別和機(jī)器翻譯的模型訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù),但方言作為口語(yǔ)流傳,可用于模型訓(xùn)練的方言語(yǔ)料數(shù)據(jù)很少,那么,為這項(xiàng)功能提供技術(shù)支持的火山引擎技術(shù)團(tuán)隊(duì)是如何突破的呢?

國(guó)慶期間,抖音上“一句方言證明你是地道家鄉(xiāng)人”的活動(dòng)在吸引了全國(guó)各地的網(wǎng)友熱情參與,話題最高登上抖音挑戰(zhàn)榜第一位,播放量已超過(guò)5000萬(wàn)。

這場(chǎng)“各地方言大賞”之所以能火出圈,抖音新上線的地方方言自動(dòng)翻譯功能功不可沒(méi)。創(chuàng)作者們?cè)谟眉亦l(xiāng)話錄制短視頻時(shí),使用“自動(dòng)字幕”功能,選擇“轉(zhuǎn)為普通話字幕”,即可完成對(duì)視頻內(nèi)容方言語(yǔ)音的自動(dòng)識(shí)別,并將視頻里的方言內(nèi)容轉(zhuǎn)化為普通話字幕,讓其他地區(qū)的網(wǎng)友也能無(wú)痛聽(tīng)懂各種“加密型國(guó)語(yǔ)”。有來(lái)自福建網(wǎng)友親測(cè)表示,連“十里不同音”的閩南語(yǔ)也能翻譯得分毫不差,大呼“閩南語(yǔ)在抖音上為所欲為的日子一去不復(fù)返了”。

眾所周知,語(yǔ)音識(shí)別和機(jī)器翻譯的模型訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù),但方言作為口語(yǔ)流傳,可用于模型訓(xùn)練的方言語(yǔ)料數(shù)據(jù)很少,那么,為這項(xiàng)功能提供技術(shù)支持的火山引擎技術(shù)團(tuán)隊(duì)是如何突破的呢?

方言識(shí)別階段

一直以來(lái),火山語(yǔ)音團(tuán)隊(duì)都為時(shí)下風(fēng)靡的視頻平臺(tái)提供基于語(yǔ)音識(shí)別技術(shù)的智能視頻字幕解決方案,簡(jiǎn)單來(lái)說(shuō)就是可以自動(dòng)將視頻中的語(yǔ)音和歌詞轉(zhuǎn)化成文字,來(lái)輔助視頻創(chuàng)作的功能。

在這個(gè)過(guò)程中,技術(shù)團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的有監(jiān)督學(xué)習(xí)會(huì)對(duì)人工標(biāo)注的有監(jiān)督數(shù)據(jù)產(chǎn)生嚴(yán)重依賴,尤其在大語(yǔ)種的持續(xù)優(yōu)化以及小語(yǔ)種的冷啟動(dòng)方面。以中文普通話和英語(yǔ)這樣的大語(yǔ)種為例,盡管視頻平臺(tái)提供了充足的業(yè)務(wù)場(chǎng)景語(yǔ)音數(shù)據(jù),但有監(jiān)督數(shù)據(jù)達(dá)到一定規(guī)模之后,繼續(xù)標(biāo)注的ROI將非常低,必然需要技術(shù)人員考慮如何有效利用百萬(wàn)小時(shí)級(jí)別的無(wú)標(biāo)注數(shù)據(jù),來(lái)進(jìn)一步改善大語(yǔ)種語(yǔ)音識(shí)別的效果。

相對(duì)小眾的語(yǔ)言或者方言,由于資源、人力等原因,數(shù)據(jù)的標(biāo)注成本高昂。在標(biāo)注數(shù)據(jù)極少的情況下(10小時(shí)量級(jí)),有監(jiān)督訓(xùn)練的效果非常差,甚至可能無(wú)法正常收斂;而采購(gòu)的數(shù)據(jù)往往和目標(biāo)場(chǎng)景不匹配,無(wú)法滿足業(yè)務(wù)的需要。

對(duì)此,團(tuán)隊(duì)采用了以下方案:

  1. 低資源方言自監(jiān)督

基于Wav2vec 2.0自監(jiān)督學(xué)習(xí)技術(shù),團(tuán)隊(duì)提出了Efficient Wav2vec,實(shí)現(xiàn)了極少量標(biāo)注數(shù)據(jù)條件下的方言ASR能力。為解決Wav2vec2.0訓(xùn)練慢、效果不穩(wěn)定的問(wèn)題,一方面,用filterbank特征取代waveform降低計(jì)算量、縮短序列長(zhǎng)度,同時(shí)降低幀率,實(shí)現(xiàn)訓(xùn)練效率翻倍;另一方面,通過(guò)等長(zhǎng)數(shù)據(jù)流和自適應(yīng)連續(xù)mask,大幅改善了訓(xùn)練的穩(wěn)定性和效果。

該實(shí)驗(yàn)在粵語(yǔ)上進(jìn)行,使用了5萬(wàn)小時(shí)無(wú)標(biāo)注語(yǔ)音和10小時(shí)標(biāo)注語(yǔ)音。結(jié)果如下表所示,Efficient Wav2vec (w2v-e)在100M和300M參數(shù)量的模型下,相比Wav2vec 2.0,CER相對(duì)下降5%,訓(xùn)練開(kāi)銷減半。

進(jìn)一步,團(tuán)隊(duì)以自監(jiān)督預(yù)訓(xùn)練模型微調(diào)得到的CTC模型作為種子模型,對(duì)無(wú)標(biāo)注數(shù)據(jù)打偽標(biāo)簽,然后提供給一個(gè)參數(shù)量較小的端到端LAS模型做訓(xùn)練,同步實(shí)現(xiàn)了模型結(jié)構(gòu)的遷移和推理計(jì)算量的壓縮,可以直接基于成熟的端到端推理引擎部署上線。該技術(shù)已成功應(yīng)用于兩個(gè)低資源方言,用10小時(shí)量級(jí)的標(biāo)注數(shù)據(jù)實(shí)現(xiàn)了低于20%的字錯(cuò)誤率。

圖說(shuō):模型參數(shù)量和CER對(duì)比

圖說(shuō):基于無(wú)監(jiān)督訓(xùn)練ASR的落地流程

  1. 方言大規(guī)模pretrain+finetune訓(xùn)練模式

當(dāng)有監(jiān)督數(shù)據(jù)標(biāo)注結(jié)束后,ASR模型的持續(xù)優(yōu)化是一個(gè)很重要的研究方向。過(guò)去很長(zhǎng)一段時(shí)間,半/無(wú)監(jiān)督學(xué)習(xí)一直很火熱,無(wú)監(jiān)督pretrain主要思想是,充分利用用未標(biāo)記的數(shù)據(jù)集來(lái)擴(kuò)充已標(biāo)記的數(shù)據(jù)集,能夠?qū)崿F(xiàn)小數(shù)據(jù)量的平行語(yǔ)料取得比較好的識(shí)別效果。算法流程如下:

(1)首先,利用人工標(biāo)注的有監(jiān)督數(shù)據(jù)訓(xùn)練出種子模型,然后利用該模型對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行偽標(biāo)簽標(biāo)記。

(2)在偽標(biāo)簽生成過(guò)程中,由于種子模型對(duì)未標(biāo)記數(shù)據(jù)的所有預(yù)測(cè)都不可能都是準(zhǔn)確的,因此需要利用一些策略過(guò)率訓(xùn)練價(jià)值低的數(shù)據(jù)。

(3)其次,將生成的偽標(biāo)簽與原始的標(biāo)記數(shù)據(jù)相結(jié)合,并在合并后數(shù)據(jù)上進(jìn)行聯(lián)合訓(xùn)練。

(4)由于在訓(xùn)練過(guò)程加入了大量的無(wú)監(jiān)督數(shù)據(jù),即使無(wú)監(jiān)督數(shù)據(jù)偽標(biāo)簽質(zhì)量不及有監(jiān)督數(shù)據(jù),但是,往往能夠得到比較通用的表征。我們基于大數(shù)據(jù)訓(xùn)練出的pretrain模型,用人工精標(biāo)的方言數(shù)據(jù)進(jìn)行finetune。這樣可以保留pretrain帶來(lái)的優(yōu)秀的泛化性,同時(shí)提升模型對(duì)方言的識(shí)別效果。

5個(gè)方言的平均CER(字錯(cuò)誤率)從35.3%優(yōu)化到17.21%。


平均字錯(cuò)誤率

粵語(yǔ)

閩南

上海

中原官話

西南官話

單方言

35.3

14.05

48.87

41.29

61.56

10.7

100wh pretrain+方言混合finetune

17.21

13.14

22.84

19.60

19.50

10.95

方言翻譯階段

通常情況下,機(jī)器翻譯模型的訓(xùn)練離不開(kāi)大量語(yǔ)料的支持,然而方言常以口語(yǔ)形式流傳,現(xiàn)今方言使用者的數(shù)量也逐年減少,這些現(xiàn)象都提升了方言語(yǔ)料數(shù)據(jù)收集的難度,方言的機(jī)器翻譯效果也難以提升。

為了解決方言語(yǔ)料不足的問(wèn)題,火山翻譯團(tuán)隊(duì)提出多語(yǔ)言翻譯模型 mRASP (multilingual Random Aligned Substitution Pre-training)和 mRASP2,通過(guò)引入對(duì)比學(xué)習(xí),輔以對(duì)齊增強(qiáng)方法,將單語(yǔ)語(yǔ)料和雙語(yǔ)語(yǔ)料囊括在統(tǒng)一的訓(xùn)練框架之下,充分利用語(yǔ)料,來(lái)學(xué)習(xí)更好的語(yǔ)言無(wú)關(guān)表示,由此提升多語(yǔ)言翻譯性能。

論文地址:https://arxiv.org/abs/2105.09501

加入對(duì)比學(xué)習(xí)任務(wù)的設(shè)計(jì)是基于一個(gè)經(jīng)典的假設(shè):不同語(yǔ)言中同義句的編碼后的表示應(yīng)當(dāng)在高維空間的相鄰位置。因?yàn)椴煌Z(yǔ)言中的同義句對(duì)應(yīng)的句意是相同的,也就是“編碼”過(guò)程的輸出是相同的。比如“早上好”和“Good morning”這兩句話對(duì)于懂中文和英文的人來(lái)說(shuō),理解到的意思是一樣的,這也就對(duì)應(yīng)了“編碼后的表示在高維空間的相鄰位置”。

訓(xùn)練目標(biāo)設(shè)計(jì)

mRASP2在傳統(tǒng)的交叉熵?fù)p失 (cross entropy loss) 的基礎(chǔ)上,加入了對(duì)比損失 (contrastive loss) ,以多任務(wù)形式進(jìn)行訓(xùn)練。圖中橙色的箭頭指示的是傳統(tǒng)使用交叉熵?fù)p失 (Cross Entropy Loss, CE loss) 訓(xùn)練機(jī)器翻譯的部分;黑色的部分指示的是對(duì)比損失 (Contrastive Loss, CTR loss) 對(duì)應(yīng)的部分。

詞對(duì)齊數(shù)據(jù)增強(qiáng)方法又稱對(duì)齊增強(qiáng)(Aligned Augmentation, AA),是從mRASP的隨機(jī)對(duì)齊變換(Random Aligned Substitution, RAS)方法發(fā)展而來(lái)的。

如圖所示,圖(a)表示了對(duì)平行語(yǔ)料的增強(qiáng)過(guò)程,圖(b)表示了對(duì)單語(yǔ)語(yǔ)料的增強(qiáng)過(guò)程。其中,圖(a)中原本的英語(yǔ)單詞被替換成中文對(duì)應(yīng)的單詞;而圖(b)中原本的中文單詞被分別替換成英文、法語(yǔ)、阿拉伯語(yǔ)、德語(yǔ)。mRASP的RAS等價(jià)于第一種替換方式,它只要求提供雙語(yǔ)的同義詞詞典;而第二種替換方式需要提供包含多種語(yǔ)言的同義詞詞典。值得提一句,最終使用對(duì)齊增強(qiáng)方法的時(shí)候,可以只采用(a)的做法或者只采用(b)的做法。

實(shí)驗(yàn)結(jié)果表明mRASP2在有監(jiān)督、無(wú)監(jiān)督、零資源的場(chǎng)景下均取得翻譯效果的提升。其中有監(jiān)督場(chǎng)景平均提升 1.98 BLEU,無(wú)監(jiān)督場(chǎng)景平均提升 14.13 BLEU,零資源場(chǎng)景平均提升 10.26 BLEU。該方法在廣泛場(chǎng)景下取得了明顯的性能提升,可以大大緩解低資源語(yǔ)種訓(xùn)練數(shù)據(jù)不足的問(wèn)題。

寫在最后

方言與普通話相輔相成,都是中華傳統(tǒng)文化的重要載體,以方言為載體的“鄉(xiāng)音”更是中國(guó)人故鄉(xiāng)的情感符號(hào)和情感紐帶,借助短視頻和方言翻譯,有助于廣大用戶無(wú)障礙欣賞天南海北不同區(qū)域的文化。

當(dāng)前,抖音「方言翻譯」功能現(xiàn)已支持粵語(yǔ)、閩語(yǔ)、吳語(yǔ)(上海)、西南官話(四川)、中原官話(陜西、河南)等,據(jù)說(shuō)未來(lái)還將支持更多方言,一起拭目以待吧。

責(zé)任編輯:鳶瑋 來(lái)源: 火山引擎
相關(guān)推薦

2010-06-23 09:56:30

亞馬遜

2021-06-29 16:12:21

詞: 云架構(gòu)混合云云計(jì)算

2009-04-20 23:29:35

收購(gòu)Sun甲骨文

2025-02-17 09:00:00

DeepSeek人工智能AI

2020-04-03 15:29:26

5G4G網(wǎng)絡(luò)

2023-09-20 20:11:07

Java

2018-07-22 14:43:39

物聯(lián)網(wǎng)IOTIT

2017-04-20 11:40:25

云計(jì)算

2020-10-12 07:00:00

基礎(chǔ)架構(gòu)云鎖定

2011-03-21 15:29:46

2011-03-01 14:08:51

Fedora 15

2022-02-18 14:07:48

移動(dòng)開(kāi)發(fā)技術(shù)

2010-06-28 09:58:47

連續(xù)ARQ協(xié)議

2021-02-06 06:05:51

抖音APP瓜分紅包

2022-03-30 16:02:46

風(fēng)險(xiǎn)分析網(wǎng)絡(luò)風(fēng)險(xiǎn)行為風(fēng)險(xiǎn)

2023-01-04 10:35:48

2017-12-15 15:00:45

2018-01-03 00:38:20

大數(shù)據(jù)Hadoop分布式文件系統(tǒng)

2015-09-11 13:54:51

大數(shù)據(jù)關(guān)鍵技術(shù)

2021-05-17 14:57:22

NFV虛擬化數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)