自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

作業(yè)幫語(yǔ)音技術(shù)實(shí)踐

原創(chuàng) 精選
人工智能
在此前由51CTO主辦的AISummit全球人工智能技術(shù)大會(huì)中,作業(yè)幫的語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人王強(qiáng)強(qiáng)老師為廣大聽(tīng)眾帶來(lái)了《作業(yè)幫語(yǔ)音技術(shù)實(shí)踐》的主題演講,從語(yǔ)音合成、語(yǔ)音評(píng)測(cè)、語(yǔ)音識(shí)別三個(gè)方面解讀了作業(yè)幫的語(yǔ)音技術(shù)實(shí)踐,內(nèi)容覆蓋語(yǔ)音識(shí)別中的端到端實(shí)現(xiàn)與數(shù)據(jù)高效利用、高并發(fā)場(chǎng)景中的語(yǔ)音發(fā)音糾錯(cuò),以及模型的因素區(qū)分與抗干擾能力提升。

嘉賓 | 王強(qiáng)強(qiáng)

整理 | 劉雨瑤

在此前由51CTO主辦的AISummit全球人工智能技術(shù)大會(huì)中,作業(yè)幫的語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人王強(qiáng)強(qiáng)老師為廣大聽(tīng)眾帶來(lái)了《作業(yè)幫語(yǔ)音技術(shù)實(shí)踐》的主題演講,從語(yǔ)音合成、語(yǔ)音評(píng)測(cè)、語(yǔ)音識(shí)別三個(gè)方面解讀了作業(yè)幫的語(yǔ)音技術(shù)實(shí)踐,內(nèi)容覆蓋語(yǔ)音識(shí)別中的端到端實(shí)現(xiàn)與數(shù)據(jù)高效利用、高并發(fā)場(chǎng)景中的語(yǔ)音發(fā)音糾錯(cuò),以及模型的因素區(qū)分與抗干擾能力提升。

為了能讓更多對(duì)語(yǔ)音技術(shù)感興趣的同學(xué)了解到目前語(yǔ)音技術(shù)的發(fā)展態(tài)勢(shì)與前沿優(yōu)秀技術(shù)實(shí)踐,現(xiàn)將王強(qiáng)強(qiáng)老師的演講內(nèi)容整理如下,希望能為諸君帶來(lái)一些啟發(fā)。

一、語(yǔ)音合成

小數(shù)據(jù)量語(yǔ)音合成

對(duì)于傳統(tǒng)的語(yǔ)音合成技術(shù)而言,想要完整合成一個(gè)人的聲音,需要十小時(shí)甚至更長(zhǎng)時(shí)間的錄音。這對(duì)于錄音者而言是一個(gè)不小的挑戰(zhàn),很少有人能夠在如此長(zhǎng)的時(shí)間中始終保持良好的發(fā)音狀態(tài)。而通過(guò)小數(shù)據(jù)量語(yǔ)音合成技術(shù),我們僅需要使用錄音者所說(shuō)的幾十句話、幾分鐘的語(yǔ)音,便能達(dá)到完整的語(yǔ)音合成效果。

小數(shù)據(jù)量語(yǔ)音合成技術(shù)大體分為兩類。一類是對(duì)于標(biāo)注和語(yǔ)音不匹配的情況,處理方式主要分為兩種:一是自監(jiān)督學(xué)習(xí),通過(guò)自監(jiān)督的算法學(xué)習(xí)得到建模單元和音頻之間的對(duì)應(yīng)關(guān)系,再通過(guò)特定人的標(biāo)注語(yǔ)料進(jìn)行Finetune,以達(dá)到比較好的合成效果;二是通過(guò)ASR識(shí)別未標(biāo)注的語(yǔ)料,并利用TTS合成對(duì)偶函數(shù)、對(duì)偶學(xué)習(xí)的方式,逐步提升TTS的合成效果。

而對(duì)于文本和音頻匹配的情況,主要的處理方式也分為兩種:一是構(gòu)建有標(biāo)注語(yǔ)料的多語(yǔ)種預(yù)訓(xùn)練模型。另一種則是基于這種方案之上,同語(yǔ)種內(nèi)的多個(gè)說(shuō)話人有標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練,利用目標(biāo)說(shuō)話的人的數(shù)據(jù)進(jìn)行Finetune,以達(dá)到預(yù)期的效果。

語(yǔ)音合成技術(shù)框架

作業(yè)幫的語(yǔ)音合成技術(shù)框架,在聲素部分使用了FastSpeech2。FastSpeech2擁有著合成速度快的主要優(yōu)勢(shì),與此同時(shí)FastSpeech2還融合了Duration、Pitch、Energy Predictor,能夠?yàn)槲覀兲峁└蟮目刹僮餍钥臻g;而在聲碼器的選擇上,作業(yè)幫語(yǔ)音團(tuán)隊(duì)選用了Multi-Band MelGAN,這是由于Multi-Band MelGAN擁有良好的合成效果,且合成速度非??臁?/p>

多說(shuō)話人語(yǔ)音合成

在確定基礎(chǔ)框架后,接下來(lái)要做的便是多說(shuō)話人的語(yǔ)音合成。多說(shuō)話人語(yǔ)音合成常見(jiàn)的思路是將Speaker Embedding信息加入到Encoder中,學(xué)習(xí)特定說(shuō)話人的信息,而后利用模型訓(xùn)練多說(shuō)話人的語(yǔ)音合成模型。最后再利用特定的說(shuō)話人進(jìn)行一些簡(jiǎn)單的Finetune。這套方案能夠?qū)⑹r(shí)的錄音需求壓縮到一小時(shí)左右,但在實(shí)際中,采集一小時(shí)時(shí)長(zhǎng)的、能夠達(dá)到模型訓(xùn)練標(biāo)準(zhǔn)的錄音還是存在一定難度。而小數(shù)據(jù)量語(yǔ)音合成的目標(biāo)本質(zhì)上是利用更少的聲音,合成一個(gè)相對(duì)不錯(cuò)的聲音。

因此,作業(yè)幫語(yǔ)音團(tuán)隊(duì)借鑒了M2VOC競(jìng)賽的冠軍方案,最終選擇了D-Vector和基于ECAPA的Speaker Embedding的組合,并進(jìn)行了三重升級(jí),包括Speaker Embedding的升級(jí);將FastSpeech2使用的Transformer升級(jí)到Conformer;以及將Speaker的信息加入LayerNorm之中。

二、語(yǔ)音評(píng)測(cè)

語(yǔ)音測(cè)評(píng)技術(shù)框架

作業(yè)幫的語(yǔ)音評(píng)測(cè)基礎(chǔ)技術(shù)框架,本質(zhì)上還是用GOP打分判斷用戶單詞或者句子發(fā)音的好壞。但在模型方面已經(jīng)升級(jí)到了Conformer以及CGC+attention-based這種完全端到端的模型訓(xùn)練流程。GOP非常依賴聲音和音素,也就是建模單元對(duì)齊的程度,所以在訓(xùn)練模型時(shí),我們加入了通過(guò)GMM模型獲得的語(yǔ)料的對(duì)齊信息。通過(guò)完全的認(rèn)證模型,加之對(duì)齊的相應(yīng)信息,能夠訓(xùn)練出一個(gè)效果非常不錯(cuò)的模型,結(jié)合兩者的長(zhǎng)處,保障GOP的得分相對(duì)準(zhǔn)確。

測(cè)評(píng)系統(tǒng)的問(wèn)題&痛點(diǎn)

測(cè)評(píng)場(chǎng)景天然對(duì)時(shí)延比較敏感,因此時(shí)延和網(wǎng)絡(luò)是GOP評(píng)測(cè)系統(tǒng)落地過(guò)程中的兩大問(wèn)題。如果時(shí)延很高,實(shí)時(shí)性很差,整體的用戶體驗(yàn)感就會(huì)受到很大的影響。此外,如果網(wǎng)絡(luò)出現(xiàn)問(wèn)題,用戶的網(wǎng)絡(luò)環(huán)境發(fā)生波動(dòng),再加上網(wǎng)絡(luò)時(shí)延,很容易使用戶感知的染色時(shí)間超過(guò)一秒,這會(huì)帶來(lái)非常明顯的感覺(jué)凝滯,使得整個(gè)的課程效果受到嚴(yán)重影響。

解決方向-算法

對(duì)于上述問(wèn)題,從算法上可以通過(guò)Chunk Mask的方式解決時(shí)延以及內(nèi)存過(guò)大的問(wèn)題。Chunk向前最多看兩幀向后最多看五幀,時(shí)延的問(wèn)題就解決掉了。

在實(shí)際中真正算法去測(cè)試的時(shí)候,它的硬時(shí)延只有50毫秒左右,就是基本50毫秒就會(huì)激活這個(gè)詞,50毫秒在人的感知上是很快的。所以至少在算法層面,解決了硬延遲的問(wèn)題。這是我們做的第一個(gè)層面的工作。

解決方向-端云一體平臺(tái)

一套端云一體平臺(tái)可以解決高并發(fā)以及由于網(wǎng)絡(luò)傳輸而造成的問(wèn)題。這個(gè)平臺(tái)能夠自動(dòng)地判斷用戶的手機(jī)算力是否足夠。如果足夠的話,就會(huì)優(yōu)先進(jìn)行本地評(píng)測(cè)。如果算力不太夠的話,就將這個(gè)請(qǐng)求發(fā)到云端,由云端來(lái)進(jìn)行評(píng)測(cè)。若本地出了任何問(wèn)題,對(duì)它的生命周期也是有把控的。

通過(guò)這套方案,我們解決了瞬間高并發(fā)所帶來(lái)的問(wèn)題,由于部分算力被轉(zhuǎn)移到端上,云端只需要保留原來(lái)20%的機(jī)器就可以實(shí)現(xiàn)正常的運(yùn)作,這大大的節(jié)省了資源。此外,在將算法做到本地化后,延遲的問(wèn)題也得到了解決,對(duì)于大段的測(cè)評(píng)任務(wù),能夠?qū)崿F(xiàn)良好的支撐,給用戶帶來(lái)更為優(yōu)質(zhì)的視聽(tīng)體驗(yàn)。

發(fā)音糾錯(cuò)

發(fā)音糾錯(cuò)的需求背景是語(yǔ)境問(wèn)題和教育資源的稀缺,同樣的,這個(gè)痛點(diǎn)可以利用測(cè)評(píng)技術(shù)解決。通過(guò)對(duì)測(cè)評(píng)技術(shù)的優(yōu)化,可以判定發(fā)音正確與否,識(shí)別發(fā)音哪里存在問(wèn)題。

在技術(shù)選型方面,雖然評(píng)測(cè)系統(tǒng)是基于GOP的穩(wěn)定評(píng)測(cè)方案,但是GOP方案非常依賴音頻和建模單元的對(duì)齊,如果起始時(shí)間不準(zhǔn)確,其偏差就會(huì)比較大,區(qū)分性就會(huì)變差。因此原先的方案便不太適合這種糾音的場(chǎng)景。并且GOP的思路是通過(guò)一些專家知識(shí),對(duì)讀音進(jìn)行糾正與指導(dǎo),糾音中的漏讀和增讀GOP處理起來(lái)會(huì)非常痛,需要太多的人工支持。這便需要一個(gè)更靈活的方案,因此我們最后選擇了ASR的方案來(lái)做發(fā)音糾錯(cuò)。

ASR方案很大的優(yōu)勢(shì)就是訓(xùn)練過(guò)程簡(jiǎn)單,不需要太多的對(duì)齊信息。即使讀音錯(cuò)誤,對(duì)上下文音素的判別也不會(huì)有太大的影響。ASR處理增讀、漏讀,有天然的理論上、技術(shù)上的優(yōu)勢(shì)。所以我們最終選了純端到端的ASR模型來(lái)作為我們發(fā)音糾錯(cuò)的技術(shù)底座。

同時(shí),作業(yè)幫也在此基礎(chǔ)上做了一些優(yōu)化及創(chuàng)新工作。第一,將先驗(yàn)的文本信息通過(guò)Attention模塊加入到模型訓(xùn)練中;第二,通過(guò)隨機(jī)替換的方式模擬出錯(cuò)以訓(xùn)練模型,使其有糾錯(cuò)能力;第三,由于模型區(qū)分度不夠,我們對(duì)錯(cuò)誤做了分層,有些細(xì)微的錯(cuò)誤就不判錯(cuò)。通過(guò)以上方案,最終實(shí)現(xiàn)了虛警率的大幅下降,同時(shí)保障召回率損失不是特別大,診斷正確率也有提升。

三、語(yǔ)音識(shí)別

語(yǔ)音識(shí)別技術(shù)框架

作業(yè)幫的語(yǔ)音識(shí)別技術(shù)框架是端到端的語(yǔ)音識(shí)別框架,相對(duì)于原始的HMM-GMM/DNN方案有非常明顯的優(yōu)勢(shì):第一,避免了很多復(fù)雜地聚類操作以及對(duì)齊操作;第二,訓(xùn)練流程稍微簡(jiǎn)單;第三,端到端的框架不需要人工生成發(fā)音詞典;第四,能夠同時(shí)學(xué)習(xí)到音素信息和序列信息,相當(dāng)于一起學(xué)習(xí)聲學(xué)模型、語(yǔ)言模型。

當(dāng)然其劣勢(shì)也比較明顯,端到端模型剛開(kāi)始難以利用更多的語(yǔ)音或文本數(shù)據(jù),而標(biāo)注語(yǔ)料成本是很高的。我們的要求是內(nèi)部選型一定要達(dá)到的目的是必須有端到端的生成模型,必須跟上最新的算法,還能夠?qū)⒄Z(yǔ)料模型信息融合。

語(yǔ)音識(shí)別系統(tǒng)算法

提到CTC-CRF,需要先認(rèn)識(shí)CTC。CTC是為整句建模而生的,CTC出現(xiàn)后,訓(xùn)練整句的聲學(xué)模型就不再需要做音素和音頻之間的對(duì)齊。CTC的拓?fù)?,一方面引入了一個(gè)Blank來(lái)吸收靜音,能夠把真正的有效的建模單元之外的靜音給吸收掉。另一方面它算整句概率的時(shí)候,是按照π,使用了動(dòng)態(tài)規(guī)劃的算法,讓整句的路徑在一個(gè)相對(duì)合理的規(guī)模范圍內(nèi),這樣便能夠大大減輕計(jì)算量。這是CTC非常具有開(kāi)創(chuàng)性的工作。

作業(yè)幫內(nèi)部用的CTC-CRF語(yǔ)音識(shí)別系統(tǒng)。通過(guò)CRF的方式理解公式并擬合整句概率。整句概率是輸入為X的一個(gè)序列,輸出為π(π是用上文CTC的拓?fù)鋪?lái)表示),所以稱之為CTC-CRF。

其中CRF很重要的是勢(shì)函數(shù)以及勢(shì)函數(shù)整個(gè)規(guī)劃。勢(shì)函數(shù)是輸入為X,輸出為πt的條件概率,再加上一個(gè)整句的概率,它們其實(shí)就對(duì)應(yīng)CRF中的節(jié)點(diǎn)和邊。

CTC-CRF與常用的聲學(xué)模型思路存在一定區(qū)別。常用的聲學(xué)模型有下面四個(gè)DNN-HMM、CTC、RNNT、AED。

RNNT基本的條件概率模型,是輸入X、輸出Y的概率,擬合的目標(biāo)就是maxθ它的參數(shù),讓這個(gè)概率最大化。

CTC如圖,CTC的一個(gè)假設(shè)很明顯,就是條件無(wú)關(guān)假設(shè),它的狀態(tài)和狀態(tài)之間是沒(méi)有聯(lián)系的,沒(méi)有考慮它們之間的條件概率關(guān)系。

RNNT考慮了當(dāng)前狀態(tài)跟所有歷史狀態(tài)的條件概率,如圖能明顯看出。AED也是這樣,是考慮當(dāng)前狀態(tài)跟歷史狀態(tài)的條件概率。

但CTC-CRF其實(shí)不是基于條件概率的局部歸一化模型,它是一個(gè)整句歸一化的模型,是全局歸一化的模型。所以我們看到它不僅依賴于歷史,還依賴于未來(lái),它其實(shí)是能夠考慮整句的概率信息的。這是它們?cè)诶碚撋系囊粋€(gè)最大的不同。

我們對(duì)于CTC-CRF的利用,首先在Loss層,這是一個(gè)標(biāo)準(zhǔn)現(xiàn)階段用的Encoder、Decoder,然后加CTC-CRF、Loss,訓(xùn)練聲學(xué)模型,端到端聲學(xué)模型的流程。Loss層上用的是CTC-CRF Loss,而不是原來(lái)的CTC Loss。CTC-CRF是Phone級(jí)別建模的,但是Attention這里,我們的Attention做的時(shí)候考慮了Word級(jí)別的建模。使用了Phone和Word級(jí)別兩重特征去訓(xùn)練模型。

最后,關(guān)于具體效果方面,這是幾個(gè)開(kāi)源工具在Aishell1測(cè)試集上效果,同時(shí)標(biāo)出了參數(shù)數(shù)量。能看到基于CTC-CRF的相對(duì)來(lái)說(shuō)還是比較有優(yōu)勢(shì)的。

有了算法,理論上的效果也非常不錯(cuò),結(jié)合業(yè)務(wù)方看,業(yè)務(wù)方還是有不同的,但是所有的業(yè)務(wù)方有一個(gè)共同的訴求,就是效率上要達(dá)到最優(yōu)。為了解決這個(gè)問(wèn)題,有了熱詞方案。熱詞方案能夠完美的解決這個(gè)問(wèn)題、快速地識(shí)別出業(yè)務(wù)方想要識(shí)別出的詞。

常見(jiàn)的熱詞方案是向TLG加入熱詞展開(kāi)后的有向圖。上圖是常見(jiàn)的三級(jí)Ngram的WFST解碼圖,實(shí)線表示條件概率,虛線是回退概率。

作業(yè)幫的方案是基于前綴自動(dòng)機(jī)的熱詞方案,這是因?yàn)闊嵩~的規(guī)模大到會(huì)產(chǎn)生效率瓶頸。用前綴自動(dòng)機(jī)解多模式字符串的匹配的問(wèn)題就很合適,尤其是對(duì)一個(gè)串中、命中了、覆蓋了熱詞表中的某個(gè)熱詞。如sher這樣一個(gè)序列,它覆蓋了兩個(gè)熱詞,就是she和her,在這個(gè)前綴自動(dòng)機(jī)方案中,檢索完she之后,可以直接跳到her,能夠快速的找到字符串中包含的多個(gè)熱詞。結(jié)論是,這個(gè)方案夠快,還能夠節(jié)省一部分的存儲(chǔ)空間。

這個(gè)方案實(shí)際使用的時(shí)候也出現(xiàn)了一些問(wèn)題。構(gòu)建前綴樹(shù)還是需要遍歷整個(gè)前綴樹(shù),代價(jià)比較大。因?yàn)橐獙?shí)時(shí)添加熱詞,隨時(shí)添加,隨時(shí)生效。為了解決這個(gè)問(wèn)題,最后也做了一兩個(gè)樹(shù),一個(gè)是普通前綴樹(shù),一個(gè)是前綴自動(dòng)機(jī),就是用戶熱詞是加在普通前綴樹(shù)里的,普通前綴樹(shù)會(huì)馬上生效,相當(dāng)于是隨時(shí)上線,可以激活熱詞了。超過(guò)一個(gè)閾值之后,前綴自動(dòng)機(jī)會(huì)自動(dòng)構(gòu)建,這樣就基本上滿足了一批用戶的訴求。

四、總結(jié)

上文主要是通過(guò)三個(gè)方向,每個(gè)方向一到兩個(gè)點(diǎn),這種技術(shù)解密的方式梳理了作業(yè)幫語(yǔ)音技術(shù)的落地以及落地中執(zhí)行過(guò)程中遇到的問(wèn)題,以及最后怎么輸出一套相對(duì)能夠滿足業(yè)務(wù)方訴求的方案。

但是除了這三個(gè)點(diǎn),語(yǔ)音組還積累了很多語(yǔ)音的原子能力。評(píng)測(cè)層面做得非常細(xì),甚至增讀、漏讀、連讀、濁化、重音、升降調(diào)都做了,識(shí)別還增加了中英文混合識(shí)別、聲紋、降噪,以及年齡判別。

有了這些原子能力,算法層面對(duì)于業(yè)務(wù)面的支撐和服務(wù)就更加得心應(yīng)手了。

嘉賓介紹:

王強(qiáng)強(qiáng),作業(yè)幫語(yǔ)音技術(shù)團(tuán)隊(duì)負(fù)責(zé)人。在加入作業(yè)幫之前,曾任職于清華大學(xué)電子工程系語(yǔ)音處理與機(jī)器智能實(shí)驗(yàn)室,負(fù)責(zé)語(yǔ)音識(shí)別算法落地,搭建工業(yè)級(jí)解決方案。 2018 年加入作業(yè)幫,負(fù)責(zé)語(yǔ)音相關(guān)算法研究和落地,主導(dǎo)了語(yǔ)音識(shí)別、評(píng)測(cè)、合成等算法在作業(yè)幫的落地實(shí)踐, 為公司提供整套語(yǔ)音技術(shù)解決方案。

責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2021-11-05 15:55:35

作業(yè)幫Kubernetes調(diào)度器

2024-01-02 18:41:23

2022-11-29 08:00:00

Soul智能語(yǔ)音人工智能

2023-03-30 21:29:57

2023-02-28 12:12:21

語(yǔ)音識(shí)別技術(shù)解碼器

2024-11-11 08:50:24

2022-11-03 16:31:08

語(yǔ)音智能語(yǔ)音識(shí)別

2012-07-18 10:41:35

語(yǔ)音功能

2021-11-05 16:08:57

作業(yè)幫Kubernetesserverless

2014-08-26 17:12:31

聯(lián)絡(luò)中心Aspect

2009-08-21 15:28:23

C#英文

2024-07-30 14:30:30

2022-12-01 07:03:22

語(yǔ)音識(shí)別人工智能技術(shù)

2009-12-18 09:55:17

車(chē)載應(yīng)用

2016-09-29 17:56:51

騰訊云微信智能語(yǔ)音

2022-12-05 07:17:14

人工智能語(yǔ)音合成

2012-01-09 15:56:55

H3C3G

2021-11-17 10:37:39

語(yǔ)音識(shí)別技術(shù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)