自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="sfypu"></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

作業(yè)幫語(yǔ)音技術(shù)實(shí)踐

原創(chuàng) 精選

作者：劉雨瑤 2023-01-06 11:05:36

在此前由51CTO主辦的AISummit全球人工智能技術(shù)大會(huì)中，作業(yè)幫的語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人王強(qiáng)強(qiáng)老師為廣大聽(tīng)眾帶來(lái)了《作業(yè)幫語(yǔ)音技術(shù)實(shí)踐》的主題演講，從語(yǔ)音合成、語(yǔ)音評(píng)測(cè)、語(yǔ)音識(shí)別三個(gè)方面解讀了作業(yè)幫的語(yǔ)音技術(shù)實(shí)踐，內(nèi)容覆蓋語(yǔ)音識(shí)別中的端到端實(shí)現(xiàn)與數(shù)據(jù)高效利用、高并發(fā)場(chǎng)景中的語(yǔ)音發(fā)音糾錯(cuò)，以及模型的因素區(qū)分與抗干擾能力提升。

嘉賓 | 王強(qiáng)強(qiáng)

整理 | 劉雨瑤

在此前由51CTO主辦的AISummit全球人工智能技術(shù)大會(huì)中，作業(yè)幫的語(yǔ)音團(tuán)隊(duì)負(fù)責(zé)人王強(qiáng)強(qiáng)老師為廣大聽(tīng)眾帶來(lái)了《作業(yè)幫語(yǔ)音技術(shù)實(shí)踐》的主題演講，從語(yǔ)音合成、語(yǔ)音評(píng)測(cè)、語(yǔ)音識(shí)別三個(gè)方面解讀了作業(yè)幫的語(yǔ)音技術(shù)實(shí)踐，內(nèi)容覆蓋語(yǔ)音識(shí)別中的端到端實(shí)現(xiàn)與數(shù)據(jù)高效利用、高并發(fā)場(chǎng)景中的語(yǔ)音發(fā)音糾錯(cuò)，以及模型的因素區(qū)分與抗干擾能力提升。

為了能讓更多對(duì)語(yǔ)音技術(shù)感興趣的同學(xué)了解到目前語(yǔ)音技術(shù)的發(fā)展態(tài)勢(shì)與前沿優(yōu)秀技術(shù)實(shí)踐，現(xiàn)將王強(qiáng)強(qiáng)老師的演講內(nèi)容整理如下，希望能為諸君帶來(lái)一些啟發(fā)。

一、語(yǔ)音合成

小數(shù)據(jù)量語(yǔ)音合成

對(duì)于傳統(tǒng)的語(yǔ)音合成技術(shù)而言，想要完整合成一個(gè)人的聲音，需要十小時(shí)甚至更長(zhǎng)時(shí)間的錄音。這對(duì)于錄音者而言是一個(gè)不小的挑戰(zhàn)，很少有人能夠在如此長(zhǎng)的時(shí)間中始終保持良好的發(fā)音狀態(tài)。而通過(guò)小數(shù)據(jù)量語(yǔ)音合成技術(shù)，我們僅需要使用錄音者所說(shuō)的幾十句話、幾分鐘的語(yǔ)音，便能達(dá)到完整的語(yǔ)音合成效果。

小數(shù)據(jù)量語(yǔ)音合成技術(shù)大體分為兩類。一類是對(duì)于標(biāo)注和語(yǔ)音不匹配的情況，處理方式主要分為兩種：一是自監(jiān)督學(xué)習(xí)，通過(guò)自監(jiān)督的算法學(xué)習(xí)得到建模單元和音頻之間的對(duì)應(yīng)關(guān)系，再通過(guò)特定人的標(biāo)注語(yǔ)料進(jìn)行Finetune，以達(dá)到比較好的合成效果;二是通過(guò)ASR識(shí)別未標(biāo)注的語(yǔ)料，并利用TTS合成對(duì)偶函數(shù)、對(duì)偶學(xué)習(xí)的方式，逐步提升TTS的合成效果。

而對(duì)于文本和音頻匹配的情況，主要的處理方式也分為兩種：一是構(gòu)建有標(biāo)注語(yǔ)料的多語(yǔ)種預(yù)訓(xùn)練模型。另一種則是基于這種方案之上，同語(yǔ)種內(nèi)的多個(gè)說(shuō)話人有標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練，利用目標(biāo)說(shuō)話的人的數(shù)據(jù)進(jìn)行Finetune，以達(dá)到預(yù)期的效果。

語(yǔ)音合成技術(shù)框架

作業(yè)幫的語(yǔ)音合成技術(shù)框架，在聲素部分使用了FastSpeech2。FastSpeech2擁有著合成速度快的主要優(yōu)勢(shì)，與此同時(shí)FastSpeech2還融合了Duration、Pitch、Energy Predictor，能夠?yàn)槲覀兲峁└蟮目刹僮餍钥臻g;而在聲碼器的選擇上，作業(yè)幫語(yǔ)音團(tuán)隊(duì)選用了Multi-Band MelGAN，這是由于Multi-Band MelGAN擁有良好的合成效果，且合成速度非?？臁?/p>

多說(shuō)話人語(yǔ)音合成

在確定基礎(chǔ)框架后，接下來(lái)要做的便是多說(shuō)話人的語(yǔ)音合成。多說(shuō)話人語(yǔ)音合成常見(jiàn)的思路是將Speaker Embedding信息加入到Encoder中，學(xué)習(xí)特定說(shuō)話人的信息，而后利用模型訓(xùn)練多說(shuō)話人的語(yǔ)音合成模型。最后再利用特定的說(shuō)話人進(jìn)行一些簡(jiǎn)單的Finetune。這套方案能夠?qū)⑹r(shí)的錄音需求壓縮到一小時(shí)左右，但在實(shí)際中，采集一小時(shí)時(shí)長(zhǎng)的、能夠達(dá)到模型訓(xùn)練標(biāo)準(zhǔn)的錄音還是存在一定難度。而小數(shù)據(jù)量語(yǔ)音合成的目標(biāo)本質(zhì)上是利用更少的聲音，合成一個(gè)相對(duì)不錯(cuò)的聲音。

因此，作業(yè)幫語(yǔ)音團(tuán)隊(duì)借鑒了M2VOC競(jìng)賽的冠軍方案，最終選擇了D-Vector和基于ECAPA的Speaker Embedding的組合，并進(jìn)行了三重升級(jí)，包括Speaker Embedding的升級(jí);將FastSpeech2使用的Transformer升級(jí)到Conformer;以及將Speaker的信息加入LayerNorm之中。

二、語(yǔ)音評(píng)測(cè)

語(yǔ)音測(cè)評(píng)技術(shù)框架

作業(yè)幫的語(yǔ)音評(píng)測(cè)基礎(chǔ)技術(shù)框架，本質(zhì)上還是用GOP打分判斷用戶單詞或者句子發(fā)音的好壞。但在模型方面已經(jīng)升級(jí)到了Conformer以及CGC+attention-based這種完全端到端的模型訓(xùn)練流程。GOP非常依賴聲音和音素，也就是建模單元對(duì)齊的程度，所以在訓(xùn)練模型時(shí)，我們加入了通過(guò)GMM模型獲得的語(yǔ)料的對(duì)齊信息。通過(guò)完全的認(rèn)證模型，加之對(duì)齊的相應(yīng)信息，能夠訓(xùn)練出一個(gè)效果非常不錯(cuò)的模型，結(jié)合兩者的長(zhǎng)處，保障GOP的得分相對(duì)準(zhǔn)確。

測(cè)評(píng)系統(tǒng)的問(wèn)題&痛點(diǎn)

測(cè)評(píng)場(chǎng)景天然對(duì)時(shí)延比較敏感，因此時(shí)延和網(wǎng)絡(luò)是GOP評(píng)測(cè)系統(tǒng)落地過(guò)程中的兩大問(wèn)題。如果時(shí)延很高，實(shí)時(shí)性很差，整體的用戶體驗(yàn)感就會(huì)受到很大的影響。此外，如果網(wǎng)絡(luò)出現(xiàn)問(wèn)題，用戶的網(wǎng)絡(luò)環(huán)境發(fā)生波動(dòng)，再加上網(wǎng)絡(luò)時(shí)延，很容易使用戶感知的染色時(shí)間超過(guò)一秒，這會(huì)帶來(lái)非常明顯的感覺(jué)凝滯，使得整個(gè)的課程效果受到嚴(yán)重影響。

解決方向-算法

對(duì)于上述問(wèn)題，從算法上可以通過(guò)Chunk Mask的方式解決時(shí)延以及內(nèi)存過(guò)大的問(wèn)題。Chunk向前最多看兩幀向后最多看五幀，時(shí)延的問(wèn)題就解決掉了。

在實(shí)際中真正算法去測(cè)試的時(shí)候，它的硬時(shí)延只有50毫秒左右，就是基本50毫秒就會(huì)激活這個(gè)詞，50毫秒在人的感知上是很快的。所以至少在算法層面，解決了硬延遲的問(wèn)題。這是我們做的第一個(gè)層面的工作。

解決方向-端云一體平臺(tái)

一套端云一體平臺(tái)可以解決高并發(fā)以及由于網(wǎng)絡(luò)傳輸而造成的問(wèn)題。這個(gè)平臺(tái)能夠自動(dòng)地判斷用戶的手機(jī)算力是否足夠。如果足夠的話，就會(huì)優(yōu)先進(jìn)行本地評(píng)測(cè)。如果算力不太夠的話，就將這個(gè)請(qǐng)求發(fā)到云端，由云端來(lái)進(jìn)行評(píng)測(cè)。若本地出了任何問(wèn)題，對(duì)它的生命周期也是有把控的。

通過(guò)這套方案，我們解決了瞬間高并發(fā)所帶來(lái)的問(wèn)題，由于部分算力被轉(zhuǎn)移到端上，云端只需要保留原來(lái)20%的機(jī)器就可以實(shí)現(xiàn)正常的運(yùn)作，這大大的節(jié)省了資源。此外，在將算法做到本地化后，延遲的問(wèn)題也得到了解決，對(duì)于大段的測(cè)評(píng)任務(wù)，能夠?qū)崿F(xiàn)良好的支撐，給用戶帶來(lái)更為優(yōu)質(zhì)的視聽(tīng)體驗(yàn)。

發(fā)音糾錯(cuò)

發(fā)音糾錯(cuò)的需求背景是語(yǔ)境問(wèn)題和教育資源的稀缺，同樣的，這個(gè)痛點(diǎn)可以利用測(cè)評(píng)技術(shù)解決。通過(guò)對(duì)測(cè)評(píng)技術(shù)的優(yōu)化，可以判定發(fā)音正確與否，識(shí)別發(fā)音哪里存在問(wèn)題。

在技術(shù)選型方面，雖然評(píng)測(cè)系統(tǒng)是基于GOP的穩(wěn)定評(píng)測(cè)方案，但是GOP方案非常依賴音頻和建模單元的對(duì)齊，如果起始時(shí)間不準(zhǔn)確，其偏差就會(huì)比較大，區(qū)分性就會(huì)變差。因此原先的方案便不太適合這種糾音的場(chǎng)景。并且GOP的思路是通過(guò)一些專家知識(shí)，對(duì)讀音進(jìn)行糾正與指導(dǎo)，糾音中的漏讀和增讀GOP處理起來(lái)會(huì)非常痛，需要太多的人工支持。這便需要一個(gè)更靈活的方案，因此我們最后選擇了ASR的方案來(lái)做發(fā)音糾錯(cuò)。

ASR方案很大的優(yōu)勢(shì)就是訓(xùn)練過(guò)程簡(jiǎn)單，不需要太多的對(duì)齊信息。即使讀音錯(cuò)誤，對(duì)上下文音素的判別也不會(huì)有太大的影響。ASR處理增讀、漏讀，有天然的理論上、技術(shù)上的優(yōu)勢(shì)。所以我們最終選了純端到端的ASR模型來(lái)作為我們發(fā)音糾錯(cuò)的技術(shù)底座。

同時(shí)，作業(yè)幫也在此基礎(chǔ)上做了一些優(yōu)化及創(chuàng)新工作。第一，將先驗(yàn)的文本信息通過(guò)Attention模塊加入到模型訓(xùn)練中;第二，通過(guò)隨機(jī)替換的方式模擬出錯(cuò)以訓(xùn)練模型，使其有糾錯(cuò)能力;第三，由于模型區(qū)分度不夠，我們對(duì)錯(cuò)誤做了分層，有些細(xì)微的錯(cuò)誤就不判錯(cuò)。通過(guò)以上方案，最終實(shí)現(xiàn)了虛警率的大幅下降，同時(shí)保障召回率損失不是特別大，診斷正確率也有提升。

三、語(yǔ)音識(shí)別

語(yǔ)音識(shí)別技術(shù)框架

作業(yè)幫的語(yǔ)音識(shí)別技術(shù)框架是端到端的語(yǔ)音識(shí)別框架，相對(duì)于原始的HMM-GMM/DNN方案有非常明顯的優(yōu)勢(shì)：第一，避免了很多復(fù)雜地聚類操作以及對(duì)齊操作;第二，訓(xùn)練流程稍微簡(jiǎn)單;第三，端到端的框架不需要人工生成發(fā)音詞典;第四，能夠同時(shí)學(xué)習(xí)到音素信息和序列信息,相當(dāng)于一起學(xué)習(xí)聲學(xué)模型、語(yǔ)言模型。

當(dāng)然其劣勢(shì)也比較明顯，端到端模型剛開(kāi)始難以利用更多的語(yǔ)音或文本數(shù)據(jù)，而標(biāo)注語(yǔ)料成本是很高的。我們的要求是內(nèi)部選型一定要達(dá)到的目的是必須有端到端的生成模型，必須跟上最新的算法，還能夠?qū)⒄Z(yǔ)料模型信息融合。

語(yǔ)音識(shí)別系統(tǒng)算法

提到CTC-CRF，需要先認(rèn)識(shí)CTC。CTC是為整句建模而生的，CTC出現(xiàn)后，訓(xùn)練整句的聲學(xué)模型就不再需要做音素和音頻之間的對(duì)齊。CTC的拓?fù)?，一方面引入了一個(gè)Blank來(lái)吸收靜音，能夠把真正的有效的建模單元之外的靜音給吸收掉。另一方面它算整句概率的時(shí)候，是按照π，使用了動(dòng)態(tài)規(guī)劃的算法，讓整句的路徑在一個(gè)相對(duì)合理的規(guī)模范圍內(nèi)，這樣便能夠大大減輕計(jì)算量。這是CTC非常具有開(kāi)創(chuàng)性的工作。

作業(yè)幫內(nèi)部用的CTC-CRF語(yǔ)音識(shí)別系統(tǒng)。通過(guò)CRF的方式理解公式并擬合整句概率。整句概率是輸入為X的一個(gè)序列，輸出為π(π是用上文CTC的拓?fù)鋪?lái)表示)，所以稱之為CTC-CRF。

其中CRF很重要的是勢(shì)函數(shù)以及勢(shì)函數(shù)整個(gè)規(guī)劃。勢(shì)函數(shù)是輸入為X，輸出為πt的條件概率，再加上一個(gè)整句的概率，它們其實(shí)就對(duì)應(yīng)CRF中的節(jié)點(diǎn)和邊。

CTC-CRF與常用的聲學(xué)模型思路存在一定區(qū)別。常用的聲學(xué)模型有下面四個(gè)DNN-HMM、CTC、RNNT、AED。

RNNT基本的條件概率模型，是輸入X、輸出Y的概率，擬合的目標(biāo)就是maxθ它的參數(shù)，讓這個(gè)概率最大化。

CTC如圖，CTC的一個(gè)假設(shè)很明顯，就是條件無(wú)關(guān)假設(shè)，它的狀態(tài)和狀態(tài)之間是沒(méi)有聯(lián)系的，沒(méi)有考慮它們之間的條件概率關(guān)系。

RNNT考慮了當(dāng)前狀態(tài)跟所有歷史狀態(tài)的條件概率，如圖能明顯看出。AED也是這樣，是考慮當(dāng)前狀態(tài)跟歷史狀態(tài)的條件概率。

但CTC-CRF其實(shí)不是基于條件概率的局部歸一化模型，它是一個(gè)整句歸一化的模型，是全局歸一化的模型。所以我們看到它不僅依賴于歷史，還依賴于未來(lái)，它其實(shí)是能夠考慮整句的概率信息的。這是它們?cè)诶碚撋系囊粋€(gè)最大的不同。

我們對(duì)于CTC-CRF的利用，首先在Loss層，這是一個(gè)標(biāo)準(zhǔn)現(xiàn)階段用的Encoder、Decoder，然后加CTC-CRF、Loss，訓(xùn)練聲學(xué)模型，端到端聲學(xué)模型的流程。Loss層上用的是CTC-CRF Loss，而不是原來(lái)的CTC Loss。CTC-CRF是Phone級(jí)別建模的，但是Attention這里，我們的Attention做的時(shí)候考慮了Word級(jí)別的建模。使用了Phone和Word級(jí)別兩重特征去訓(xùn)練模型。

最后，關(guān)于具體效果方面，這是幾個(gè)開(kāi)源工具在Aishell1測(cè)試集上效果，同時(shí)標(biāo)出了參數(shù)數(shù)量。能看到基于CTC-CRF的相對(duì)來(lái)說(shuō)還是比較有優(yōu)勢(shì)的。

有了算法，理論上的效果也非常不錯(cuò)，結(jié)合業(yè)務(wù)方看，業(yè)務(wù)方還是有不同的，但是所有的業(yè)務(wù)方有一個(gè)共同的訴求，就是效率上要達(dá)到最優(yōu)。為了解決這個(gè)問(wèn)題，有了熱詞方案。熱詞方案能夠完美的解決這個(gè)問(wèn)題、快速地識(shí)別出業(yè)務(wù)方想要識(shí)別出的詞。

常見(jiàn)的熱詞方案是向TLG加入熱詞展開(kāi)后的有向圖。上圖是常見(jiàn)的三級(jí)Ngram的WFST解碼圖，實(shí)線表示條件概率，虛線是回退概率。

作業(yè)幫的方案是基于前綴自動(dòng)機(jī)的熱詞方案，這是因?yàn)闊嵩~的規(guī)模大到會(huì)產(chǎn)生效率瓶頸。用前綴自動(dòng)機(jī)解多模式字符串的匹配的問(wèn)題就很合適，尤其是對(duì)一個(gè)串中、命中了、覆蓋了熱詞表中的某個(gè)熱詞。如sher這樣一個(gè)序列，它覆蓋了兩個(gè)熱詞，就是she和her，在這個(gè)前綴自動(dòng)機(jī)方案中，檢索完she之后，可以直接跳到her，能夠快速的找到字符串中包含的多個(gè)熱詞。結(jié)論是，這個(gè)方案夠快，還能夠節(jié)省一部分的存儲(chǔ)空間。

這個(gè)方案實(shí)際使用的時(shí)候也出現(xiàn)了一些問(wèn)題。構(gòu)建前綴樹(shù)還是需要遍歷整個(gè)前綴樹(shù)，代價(jià)比較大。因?yàn)橐獙?shí)時(shí)添加熱詞，隨時(shí)添加，隨時(shí)生效。為了解決這個(gè)問(wèn)題，最后也做了一兩個(gè)樹(shù)，一個(gè)是普通前綴樹(shù)，一個(gè)是前綴自動(dòng)機(jī)，就是用戶熱詞是加在普通前綴樹(shù)里的，普通前綴樹(shù)會(huì)馬上生效，相當(dāng)于是隨時(shí)上線，可以激活熱詞了。超過(guò)一個(gè)閾值之后，前綴自動(dòng)機(jī)會(huì)自動(dòng)構(gòu)建，這樣就基本上滿足了一批用戶的訴求。

四、總結(jié)

上文主要是通過(guò)三個(gè)方向，每個(gè)方向一到兩個(gè)點(diǎn)，這種技術(shù)解密的方式梳理了作業(yè)幫語(yǔ)音技術(shù)的落地以及落地中執(zhí)行過(guò)程中遇到的問(wèn)題，以及最后怎么輸出一套相對(duì)能夠滿足業(yè)務(wù)方訴求的方案。

但是除了這三個(gè)點(diǎn)，語(yǔ)音組還積累了很多語(yǔ)音的原子能力。評(píng)測(cè)層面做得非常細(xì)，甚至增讀、漏讀、連讀、濁化、重音、升降調(diào)都做了，識(shí)別還增加了中英文混合識(shí)別、聲紋、降噪，以及年齡判別。

有了這些原子能力，算法層面對(duì)于業(yè)務(wù)面的支撐和服務(wù)就更加得心應(yīng)手了。

嘉賓介紹：

王強(qiáng)強(qiáng)，作業(yè)幫語(yǔ)音技術(shù)團(tuán)隊(duì)負(fù)責(zé)人。在加入作業(yè)幫之前，曾任職于清華大學(xué)電子工程系語(yǔ)音處理與機(jī)器智能實(shí)驗(yàn)室，負(fù)責(zé)語(yǔ)音識(shí)別算法落地，搭建工業(yè)級(jí)解決方案。 2018 年加入作業(yè)幫，負(fù)責(zé)語(yǔ)音相關(guān)算法研究和落地，主導(dǎo)了語(yǔ)音識(shí)別、評(píng)測(cè)、合成等算法在作業(yè)幫的落地實(shí)踐，為公司提供整套語(yǔ)音技術(shù)解決方案。

責(zé)任編輯：華軒來(lái)源： 51CTO

人工智能作業(yè)幫語(yǔ)音技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="tx192"></style>

<cite id="tx192"></cite>

<cite id="tx192"></cite>