自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

百度新論文提出Gram-CTC:?jiǎn)蜗到y(tǒng)語(yǔ)音轉(zhuǎn)錄達(dá)到最高水平

人工智能 語(yǔ)音識(shí)別
大多數(shù)已有的序列標(biāo)注模型(sequence labelling model)都依賴一種目標(biāo)序列到基本單元序列的固定分解。

[[188128]]

近日,百度硅谷 AI 實(shí)驗(yàn)室劉海容、李先剛等人發(fā)表論文提出了一種新的語(yǔ)音識(shí)別模型 Gram-CTC,將語(yǔ)音識(shí)別的速度和準(zhǔn)確率大大提高。據(jù)研究人員介紹,這一新方法可以顯著減少模型訓(xùn)練與推理時(shí)間。在相同任務(wù)中,新模型的表現(xiàn)在單一模型對(duì)比中超過(guò)了微軟等公司的研究。點(diǎn)擊閱讀原文下載此論文。

在百度的研究發(fā)表之前,微軟曾在 2016 年 10 月宣布他們的多系統(tǒng)方法在 2000 小時(shí)的口語(yǔ)數(shù)據(jù)庫(kù) switchboard 上測(cè)得 5.9% 的誤差率。后者被認(rèn)為是對(duì)多系統(tǒng)方法潛力的探索,而百度的此次提出的單系統(tǒng)方法則更易于實(shí)用化。

CTC 端到端學(xué)習(xí)使用一個(gè)算法將輸入和輸出聯(lián)系起來(lái),通常采用深層神經(jīng)網(wǎng)絡(luò)。這種方式推崇更少的人工特征設(shè)計(jì),更少的中間單元。端到端學(xué)習(xí)的系統(tǒng)包括:基于 CTC 的語(yǔ)音識(shí)別,基于注意機(jī)制的機(jī)器翻譯,目前業(yè)界的很多產(chǎn)品中都能找到 CTC 的身影。

在 Fisher-Switchboard 基準(zhǔn)測(cè)試上,百度的研究者使用域內(nèi)數(shù)據(jù)和此前已發(fā)表過(guò)的結(jié)果進(jìn)行了比較,表中只列出了單一模型的結(jié)果。

在多種語(yǔ)言的語(yǔ)音識(shí)別中,Deep Speech 利用 CTC 損失呈現(xiàn)出一種端到端的神經(jīng)架構(gòu)。百度展示的 Gram CTC 能夠擴(kuò)展 CTC 損失函數(shù),讓它自動(dòng)發(fā)現(xiàn)并預(yù)測(cè)字段,而不是字符。

使用 Gram CTC 的模型可以用單一模型在 Fisher-Swbd 基準(zhǔn)上實(shí)現(xiàn)超過(guò)以往任何其他模型的表現(xiàn),這說(shuō)明使用 Gram-CTC 端到端的學(xué)習(xí)優(yōu)于基于上下文和相關(guān)音素的系統(tǒng),使用相同的訓(xùn)練數(shù)據(jù)也能讓訓(xùn)練速度加快兩倍。

針對(duì)同一段音頻,思考下文中可能出現(xiàn)的轉(zhuǎn)錄,它們對(duì)于語(yǔ)音轉(zhuǎn)錄來(lái)說(shuō)都是可行的。

  • recognize speech using common sense
  • wreck a nice beach you sing calm incense

CTC 一次只能預(yù)測(cè)一個(gè)字符,假設(shè)輸入的對(duì)象之間相互獨(dú)立。為了讓兩種轉(zhuǎn)錄相似,CTC 必須要選擇兩個(gè)字符來(lái)補(bǔ)全空白,如下圖。

只使用 Option 2 的候選填補(bǔ)空白,我們即可達(dá)成***個(gè)目標(biāo),即「recognize speech …」;使用 Option 1 中的候選,我們會(huì)得到「wreck a nice beach …」。另外,從 Option 1 和 2 中共同選擇我們會(huì)得到很多種無(wú)意義的語(yǔ)句。

字段是介于字符和單詞之間的單元,如「ing」,「euax」,「sch」等(包含但不限于詞綴),雖然相同的字段可能會(huì)因?yàn)椴煌瑔卧~或上下文情況出現(xiàn)不同的讀音,但字段在英語(yǔ)中通常傾向于同一個(gè)發(fā)音。在我們的例子中,我們也可以使用字段進(jìn)行預(yù)測(cè):

正如上圖所示,這種方法可以大量減少無(wú)意義的預(yù)測(cè)組合,此外,預(yù)測(cè)詞綴還具有以下優(yōu)點(diǎn):

  • 更易建模,因?yàn)樽侄伪葐蝹€(gè)字母相對(duì)發(fā)音更進(jìn)一步。
  • 因?yàn)樽侄蜗鄬?duì)于字母反映了更長(zhǎng)一段聲音,這種方法可以大大減少算法預(yù)測(cè)的步數(shù)。我們的模型減少了一半的時(shí)間步,訓(xùn)練和推理速度大大加快。在同樣的硬件環(huán)境下,訓(xùn)練 2000 小時(shí)數(shù)據(jù)集的時(shí)間從 9 小時(shí)縮短至 5 小時(shí)。
  • 該模型可以學(xué)會(huì)識(shí)別相同發(fā)音的常見(jiàn)拼寫。在上面的例子中,「alm」和「omm」有非常接近的發(fā)音。在 CTC 中,這種識(shí)別很難;但在 Gram-CTC 中容易很多。

論文:Gram-CTC:用于序列標(biāo)注的自動(dòng)單元選擇和目標(biāo)分解(Gram-CTC: Automatic Unit Selection and Target Decomposition for Sequence Labelling)

大多數(shù)已有的序列標(biāo)注模型(sequence labelling model)都依賴一種目標(biāo)序列到基本單元序列的固定分解。而這些方法都有兩個(gè)主要的缺點(diǎn):1)基本單元的集合是固定的,比如語(yǔ)音識(shí)別中的單詞、字符與音素集合。2)目標(biāo)序列的分解是固定的。這些缺點(diǎn)通常會(huì)導(dǎo)致建模序列時(shí)的次優(yōu)表現(xiàn)。在本論文中,我們拓展了流行的 CTC 損失標(biāo)準(zhǔn)來(lái)減緩這些限制,并提出了一種名為 Gram-CTC 的新型損失函數(shù)。在保留 CTC 的優(yōu)勢(shì)的同時(shí),Gram-CTC 能自動(dòng)地學(xué)習(xí)基礎(chǔ)單元(gram)的***集合,也能自動(dòng)學(xué)習(xí)分解目標(biāo)序列的最合適的方式。不像 CTC,Gram-CTC 使得該模型能在每個(gè)時(shí)間步驟上輸出字符的變量值,使得模型能捕捉到更長(zhǎng)期的依存關(guān)系(dependency),并提升計(jì)算效率。我們證明此次提出的 Gram-CTC 在多種數(shù)據(jù)規(guī)模的大型詞匯語(yǔ)音識(shí)別任務(wù)上,既提升了 CTC 的表現(xiàn)又改進(jìn)了 CTC 的效率。而且我們使用 Gram-CTC 也在標(biāo)準(zhǔn)的語(yǔ)音基準(zhǔn)上得到了超越當(dāng)前***的結(jié)果。

責(zé)任編輯:武曉燕 來(lái)源: 機(jī)器之心
相關(guān)推薦

2011-10-28 16:19:21

百度搜索

2018-10-10 10:08:30

百度大腦AI傳統(tǒng)行業(yè)

2015-06-02 15:25:22

2013-06-27 10:23:30

百度云百度開(kāi)放云

2014-07-25 17:12:39

數(shù)據(jù)庫(kù)WOT2014MongoDB

2013-08-22 17:08:50

2015-12-09 16:27:48

ZD至頂網(wǎng)軟件頻道

2024-05-31 08:12:19

2015-08-11 17:06:08

百度云計(jì)算

2022-06-06 10:22:29

IT技能非認(rèn)證技能

2022-12-12 16:07:08

騰訊百度智慧出行

2012-05-28 22:51:53

百度

2012-11-13 17:07:22

百度云ScreenX

2018-09-06 18:37:45

百度云

2014-09-04 02:25:24

百度世界大會(huì)2014直達(dá)號(hào)BaiduEye

2011-10-21 09:28:25

百度地圖API

2012-10-19 09:47:30

百度云百度音樂(lè)云計(jì)算

2016-03-25 11:18:23

中華網(wǎng)

2020-12-03 06:13:46

iOS

2010-12-23 16:55:43

tangram百度開(kāi)源框架
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)