自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

語(yǔ)音識(shí)別技術(shù)是如何發(fā)展的?

人工智能 語(yǔ)音識(shí)別
語(yǔ)音識(shí)別技術(shù)是從20世紀(jì)50年代開(kāi)始發(fā)展的?,F(xiàn)在讓我們看看這些年來(lái)這項(xiàng)技術(shù)是如何發(fā)展的,以及我們使用的語(yǔ)音識(shí)別和語(yǔ)音轉(zhuǎn)文本功能的方式是如何隨著技術(shù)的發(fā)展而發(fā)展的。

語(yǔ)音識(shí)別技術(shù)是從20世紀(jì)50年代開(kāi)始發(fā)展的?,F(xiàn)在讓我們看看這些年來(lái)這項(xiàng)技術(shù)是如何發(fā)展的,以及我們使用的語(yǔ)音識(shí)別和語(yǔ)音轉(zhuǎn)文本功能的方式是如何隨著技術(shù)的發(fā)展而發(fā)展的。

[[435457]] 

20世紀(jì)50-80年代:第一臺(tái)能聽(tīng)聲音的電腦誕生

自動(dòng)語(yǔ)音識(shí)別(ASR)的強(qiáng)大力量意味著它的發(fā)展總是與大公司聯(lián)系在一起。

貝爾實(shí)驗(yàn)室在1952年率先研制出語(yǔ)音號(hào)碼識(shí)別系統(tǒng)——AUDERY。在嚴(yán)格控制的條件下,AUDERY系統(tǒng)識(shí)別語(yǔ)音號(hào)碼的準(zhǔn)確率為97-99%。然而,根據(jù)科學(xué)家、前貝爾實(shí)驗(yàn)室電氣工程師James Flanagan的說(shuō)法,AUDERY坐在“一個(gè)六英尺高的繼電器架上,消耗了大量的電力,并表現(xiàn)出與復(fù)雜的真空管電路相關(guān)的無(wú)數(shù)維護(hù)問(wèn)題。”即使對(duì)于特定的用途而言,AUDREY太昂貴且不方便。

1962年,IBM推出了能夠識(shí)別數(shù)字和簡(jiǎn)單數(shù)學(xué)術(shù)語(yǔ)的Shoebox。與此同時(shí),日本的實(shí)驗(yàn)室正在開(kāi)發(fā)元音和音素識(shí)別器以及第一個(gè)語(yǔ)音分詞器。對(duì)于計(jì)算機(jī)來(lái)說(shuō),理解一小部分?jǐn)?shù)字(比如0-9)是一回事,但京都大學(xué)的突破是“分割”一段語(yǔ)音,這樣這項(xiàng)技術(shù)就可以用于語(yǔ)音的范圍。 

在20世紀(jì)70年代,美國(guó)國(guó)防部(DARPA)資助了語(yǔ)音理解研究(SUR)項(xiàng)目。該研究的成果包括卡耐基梅隆大學(xué)的HARPY語(yǔ)音識(shí)別系統(tǒng)。HARPY從1011個(gè)單詞的詞匯表中識(shí)別出句子,使這套系統(tǒng)的語(yǔ)音能力相當(dāng)于三歲兒童的平均水平。

HARPY是最早使用HMM的語(yǔ)音識(shí)別模型之一。這種概率方法推動(dòng)了20世紀(jì)80年代ASR的發(fā)展。事實(shí)上,在20世紀(jì)80年代,隨著IBM的實(shí)驗(yàn)轉(zhuǎn)錄系統(tǒng)Tangora,語(yǔ)音到文本工具的第一個(gè)可行使用案例出現(xiàn)了。經(jīng)過(guò)適當(dāng)?shù)挠?xùn)練,Tangora可以識(shí)別并輸入2萬(wàn)個(gè)英語(yǔ)單詞。然而,對(duì)于商業(yè)用途來(lái)說(shuō),該系統(tǒng)仍然過(guò)于笨重。

20世紀(jì)90年代到2010年代:消費(fèi)級(jí)ASR

“我們認(rèn)為讓機(jī)器模仿人是錯(cuò)誤的,”IBM的語(yǔ)音識(shí)別創(chuàng)新者Fred Jelinek回憶道。“畢竟,如果一臺(tái)機(jī)器必須移動(dòng),它是通過(guò)輪子而不是步行來(lái)移動(dòng)的。我們不是竭盡全力地研究人們是如何聽(tīng)和理解語(yǔ)言的,而是希望找到讓機(jī)器來(lái)做這件事的自然方式。”

1990年,Dragon Dictate作為第一款商用語(yǔ)音識(shí)別軟件推出。當(dāng)時(shí)它的成本約為9000美元。在1997年推出Dragon Naturally Speaking之前,用戶仍然需要在每個(gè)單詞之間停頓。

1992年,AT&T推出了貝爾實(shí)驗(yàn)室的語(yǔ)音識(shí)別呼叫處理(VRCP)服務(wù)。VRCP現(xiàn)在每年處理大約12億次語(yǔ)音交易。

但在20世紀(jì)90年代,大多數(shù)關(guān)于語(yǔ)音識(shí)別的工作都是在幕后進(jìn)行的。個(gè)人電腦和無(wú)處不在的網(wǎng)絡(luò)為創(chuàng)新創(chuàng)造了新的視角。這正是Mike Cohen發(fā)現(xiàn)的機(jī)會(huì),他在2004年加入谷歌,啟動(dòng)了該公司的語(yǔ)音技術(shù)發(fā)展。谷歌Voice Search(2007)向大眾提供了語(yǔ)音識(shí)別技術(shù)。但它也回收了數(shù)百萬(wàn)網(wǎng)絡(luò)用戶的語(yǔ)音數(shù)據(jù),作為機(jī)器學(xué)習(xí)的培訓(xùn)材料。

蘋(píng)果(Siri)和微軟(Cortana)緊隨其后。在2010年代早期,深度學(xué)習(xí)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)和長(zhǎng)短期記憶(LSTM)的出現(xiàn),導(dǎo)致ASR技術(shù)能力的超空間飛躍。這種前進(jìn)勢(shì)頭在很大程度上也受到低成本計(jì)算和大規(guī)模算法進(jìn)步的出現(xiàn)和可用性的推動(dòng)。 

ASR的現(xiàn)狀

在數(shù)十年的發(fā)展基礎(chǔ)上,為了響應(yīng)用戶日益增長(zhǎng)的期望,語(yǔ)音識(shí)別技術(shù)在過(guò)去五年中取得了進(jìn)一步的飛躍。優(yōu)化不同的音頻保真度和苛刻的硬件要求的解決方案,使語(yǔ)音識(shí)別通過(guò)語(yǔ)音搜索和物聯(lián)網(wǎng),日常使用更為方便。

例如,智能音箱使用熱詞檢測(cè),通過(guò)嵌入式軟件傳遞即時(shí)結(jié)果。同時(shí),句子的其余部分被發(fā)送到云進(jìn)行處理。谷歌的VoiceFilter-Lite在交易的設(shè)備端優(yōu)化個(gè)人的語(yǔ)音。這使得消費(fèi)者可以用自己的聲音“訓(xùn)練”他們的設(shè)備。培訓(xùn)降低了源失真比(SDR),提高了聲控輔助應(yīng)用程序的可用性。 

[[435458]] 

單詞錯(cuò)誤率(WER——語(yǔ)音到文本轉(zhuǎn)換過(guò)程中出現(xiàn)的錯(cuò)誤單詞的百分比)正在大幅下降。研究人員認(rèn)為,到本世紀(jì)20年代末,99%的轉(zhuǎn)錄工作將是自動(dòng)化的。人們只會(huì)介入質(zhì)量控制和糾正。

21世紀(jì)20年代的ASR使用案例

隨著網(wǎng)絡(luò)時(shí)代的發(fā)展,ASR能力正在共生發(fā)展。下面是自動(dòng)語(yǔ)音識(shí)別的三個(gè)引人注目的案例。

2021年,播客產(chǎn)業(yè)將突破10億美元大關(guān)。聽(tīng)眾的數(shù)量在飆升,詞匯不斷涌現(xiàn)。

播客平臺(tái)正在尋找具有高準(zhǔn)確性和每字時(shí)間戳的ASR提供商,以幫助人們更容易創(chuàng)建播客,并最大化其內(nèi)容的價(jià)值。像Description這樣的應(yīng)用程序可以將音頻轉(zhuǎn)換為可以快速編輯的文本。

此外,每個(gè)單詞的時(shí)間戳節(jié)省了時(shí)間,使編輯可以像粘土一樣塑造完成的播客。這些文本還可以讓所有觀眾更容易獲取內(nèi)容,并幫助創(chuàng)作者通過(guò)搜索引擎優(yōu)化提高他們節(jié)目的可搜索性和可發(fā)現(xiàn)性。

由于新冠疫情的大流行,越來(lái)越多的會(huì)議在線上進(jìn)行。雖然會(huì)議記錄需要耗費(fèi)大量的時(shí)間,但是它對(duì)于與會(huì)者而言是一個(gè)非常實(shí)用的工具。因?yàn)闀?huì)議記錄可以讓與會(huì)人員了解會(huì)議的概要并跟進(jìn)細(xì)節(jié)。Streaming ASR能夠?qū)崟r(shí)轉(zhuǎn)換語(yǔ)音到文字,為會(huì)議和研討會(huì)提供更為便捷的字幕及現(xiàn)場(chǎng)轉(zhuǎn)錄。 

法律作證、招聘等流程也正在走向虛擬。ASR可以使視頻內(nèi)容更容易被獲取。但更重要的是,端到端(E2E)機(jī)器學(xué)習(xí)(ML)模型進(jìn)一步改進(jìn)了語(yǔ)音分割技術(shù)——記錄誰(shuí)在場(chǎng),誰(shuí)說(shuō)了什么。

 

責(zé)任編輯:華軒 來(lái)源: 今日頭條
相關(guān)推薦

2022-08-29 10:57:09

語(yǔ)音識(shí)蘋(píng)果頻率

2019-10-29 08:00:00

語(yǔ)音識(shí)別

2017-03-19 16:09:00

語(yǔ)音識(shí)別

2022-10-18 15:21:25

大數(shù)據(jù)管理技術(shù)數(shù)據(jù)倉(cāng)庫(kù)

2024-02-20 13:16:00

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖

2022-12-01 07:03:22

語(yǔ)音識(shí)別人工智能技術(shù)

2024-03-11 11:32:38

語(yǔ)音識(shí)別

2021-04-14 14:49:47

語(yǔ)音識(shí)別技術(shù)人工智能

2009-08-21 15:28:23

C#英文

2019-05-20 13:00:00

人臉識(shí)別人工智能AI

2023-02-28 12:12:21

語(yǔ)音識(shí)別技術(shù)解碼器

2022-07-06 13:21:52

語(yǔ)音識(shí)別

2020-11-01 19:00:55

開(kāi)源區(qū)塊鏈區(qū)塊鏈技術(shù)

2015-05-11 11:35:58

2011-08-09 15:38:00

Windows7語(yǔ)音識(shí)別

2019-10-12 17:42:33

2017-03-20 10:42:08

語(yǔ)音識(shí)別NervanaNeon

2021-03-08 12:02:22

人工智能安防人臉識(shí)別技術(shù)

2023-02-09 11:12:41

語(yǔ)音識(shí)別人工智能

2011-01-18 11:52:25

Linux語(yǔ)音識(shí)別
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)