自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

未來十年,AI 語音識別將朝著這五個方向發(fā)展

人工智能 新聞
隨著 ASR 技術(shù)的識別準確度大幅提升,同時應用場景越來越豐富,我們相信:現(xiàn)在還不是 ASR 商用的巔峰,該領(lǐng)域的研究與市場應用還有待發(fā)掘。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

在過去的兩年中,自動語音識別(Automatic Speech Recognition, ASR)在商用上取得了重要的發(fā)展,其中一個衡量指標就是:

多個完全基于神經(jīng)網(wǎng)絡的企業(yè)級 ASR 模型成功上市,如 Alexa、Rev、AssemblyAI、ASAPP等。2016年,微軟研究院發(fā)表了一篇文章,宣布他們的模型在已有25年歷史的“Switchboard”數(shù)據(jù)集上,達到了人類水平(通過單詞錯誤率來衡量)。ASR 的準確性仍在不斷提高,在更多的數(shù)據(jù)集和用例中逐漸達到人類水平。

未來十年,AI 語音識別將朝著這五個方向發(fā)展

圖源:Awni Hannun 的博文 “Speech Recognition is not Solved”

隨著 ASR 技術(shù)的識別準確度大幅提升,同時應用場景越來越豐富,我們相信:現(xiàn)在還不是 ASR 商用的巔峰,該領(lǐng)域的研究與市場應用還有待發(fā)掘。我們預計未來十年 AI 語音的相關(guān)研究和商業(yè)系統(tǒng)將重點攻克以下五個領(lǐng)域 :

多語言ASR模型

“在未來十年,我們將在生產(chǎn)環(huán)境中部署真正的多語言模型,使開發(fā)人員能夠構(gòu)建任何人都能理解任意語言的應用程序,從而真正向全世界釋放語音識別的力量?!?/span>

未來十年,AI 語音識別將朝著這五個方向發(fā)展

圖源:Alexis Conneau 等人在 2020 年發(fā)表的“Unsupervised cross-lingual representation learning for speech recognition”論文

如今的商用 ASR 模型主要使用英語數(shù)據(jù)集進行訓練,因此對英語輸入具有更高的準確性。由于數(shù)據(jù)可用性和市場需求,學術(shù)界和工業(yè)界對英語的長期關(guān)注度更高。法語、西班牙語、葡萄牙語和德語等商業(yè)流行語言的識別準確度雖然也較為合理,但顯然存在一個訓練數(shù)據(jù)有限且ASR輸出質(zhì)量相對較低的語言長尾。

此外,大多數(shù)商業(yè)系統(tǒng)都是基于單一語言,這無法適用于許多社會特有的多語言場景。多語言可以采用背靠背語言的形式,例如雙語國家的媒體節(jié)目。亞馬遜最近推出了一款集成語言識別(LID)和ASR的產(chǎn)品,在處理這一問題上取得了長足進步。相比之下,跨語言(也稱為語碼轉(zhuǎn)換)是個人使用的一種語言系統(tǒng),該系統(tǒng)可以將兩種語言的單詞和語法結(jié)合在同一個句子中。這是一個學術(shù)界繼續(xù)取得有趣進展的領(lǐng)域。

正如自然語言處理領(lǐng)域采用多語言方法一樣,我們將會看到ASR在未來十年也會效仿。隨著我們學習如何利用新興的端到端技術(shù),我們將會訓練可以在多種語言之間進行遷移學習的大規(guī)模多語言模型。Meta的XLS-R就是一個很好的例子:在一個演示中,體驗者可以說21種語言中的任何一種,而不需要指定某種語言,模型最終都會翻譯成英語。通過理解和應用語言之間的相似性,這些更智能的ASR系統(tǒng)將為低資源語言和混合語言用例提供高質(zhì)量的ASR可用性,并將實現(xiàn)商業(yè)級別的應用。

豐富的標準化輸出對象

“在未來十年,我們相信商業(yè) ASR 系統(tǒng)將輸出更豐富的轉(zhuǎn)錄對象,其中包含的內(nèi)容將不止簡單的單詞。此外,我們預計,這種更豐富的輸出將得到W3C等標準組織的認可,以便所有API都將返回類似構(gòu)造的輸出。這將進一步釋放世界上每個人的語音應用潛力。

”盡管國家標準技術(shù)研究院(NIST)在探索“豐富轉(zhuǎn)錄”方面有著悠久傳統(tǒng),但在將其納入ASR輸出的標準化和可擴展格式方面仍是淺嘗輒止。豐富轉(zhuǎn)錄的概念最初涉及大寫、標點和日記化,但在某種程度上擴展到說話人角色和一系列非語言性言語事件。預期的創(chuàng)新包括轉(zhuǎn)錄來自不同說話者、不同情緒和其他副語言特征的重疊語音,以及一系列非語言甚至非人類的語音場景和事件,還可以轉(zhuǎn)錄基于文本或語言多樣性的信息。Tanaka等人描繪了一個用戶可能希望在不同豐富程度的轉(zhuǎn)錄選項中進行選擇的場景,顯然,我們預測的附加信息的數(shù)量和性質(zhì)是可指定的,這取決于下游應用。

傳統(tǒng)的ASR系統(tǒng)能夠在識別口語單詞的過程中生成多個假設的網(wǎng)格,這些已被證明在人工輔助轉(zhuǎn)錄、口語對話系統(tǒng)和信息檢索中大有裨益。在豐富的輸出格式中包含n-best信息將鼓勵更多用戶使用ASR系統(tǒng),從而改善用戶體驗。雖然目前不存在用于構(gòu)建或存儲語音解碼過程中當前生成或可能生成的附加信息的標準,但CallMiner的開放語音轉(zhuǎn)錄標準(OVTS)朝這個方向邁出了堅實的一步,使企業(yè)易于探索和選擇多個ASR供應商。

我們預測,在未來,ASR系統(tǒng)將以標準格式產(chǎn)生更豐富的輸出,從而支持更強大的下游應用程序。例如,ASR系統(tǒng)可能會輸出全部可能網(wǎng)格,并且應用程序可以在編輯轉(zhuǎn)錄內(nèi)容時使用這些附加數(shù)據(jù)進行智能自動轉(zhuǎn)錄。類似地,包括附加元數(shù)據(jù)(如檢測到的區(qū)域方言、口音、環(huán)境噪聲或情緒)的ASR轉(zhuǎn)錄可以實現(xiàn)更強大的搜索應用。

面向所有人的大規(guī)模 ASR

“在這十年中,大規(guī)模的 ASR(即私有化、可負擔、可靠和快速)將成為每個人日常生活的一部分。這些系統(tǒng)將能夠搜索視頻,索引我們參與的所有媒體內(nèi)容,并使世界各地的聽力受損消費者能夠訪問每個視頻。ASR將是對每一個音頻和視頻都實現(xiàn)可訪問和可操作的關(guān)鍵。”

未來十年,AI 語音識別將朝著這五個方向發(fā)展未來十年,AI 語音識別將朝著這五個方向發(fā)展

我們可能都在大量使用音視頻軟件:播客、社交媒體流、在線視頻、實時群聊、Zoom會議等等。然而相關(guān)的內(nèi)容實際上很少被轉(zhuǎn)錄。如今,內(nèi)容轉(zhuǎn)錄已經(jīng)成為ASR API的最大市場之一,并將在未來十年呈指數(shù)級增長,特別是考慮到它們準確性和經(jīng)濟性。話雖如此,ASR轉(zhuǎn)錄目前僅用于特定應用程序(廣播視頻、某些會議和播客等)。因此,許多人無法訪問此媒體內(nèi)容,并且在廣播或活動結(jié)束后很難找到相關(guān)信息。

在未來,這種情況將會改變。正如Matt Thompson在2010年預測的那樣,在某種程度上,ASR價格廉價并被廣泛普及,以至于我們將體驗到他所謂的“演講性”。我們預計,未來幾乎所有音頻和視頻內(nèi)容都將被轉(zhuǎn)錄,并且可立即訪問、可存儲、可大規(guī)模搜索。但ASR的發(fā)展不會到此停滯,我們還希望這些內(nèi)容具有可操作性。我們希望消費或參與的每個音視頻會提供額外的上下文,例如從播客或會議中自動生成的見解,或視頻中關(guān)鍵時刻的自動總結(jié)等等,我們希望NLP系統(tǒng)可以將上述處理日?;?。

人機協(xié)同

“到本世紀末,我們將擁有不斷發(fā)展的ASR系統(tǒng),它就像一個活的有機體,在人類的幫助或自我監(jiān)督下不斷學習。這些系統(tǒng)將從現(xiàn)實世界中的不同渠道學習, 以實時而非異步的方式理解新單詞和語言變體,自我調(diào)試并自動監(jiān)控不同的用法?!?/span>

未來十年,AI 語音識別將朝著這五個方向發(fā)展

隨著ASR成為主流并涵蓋越來越多的用例,人機協(xié)同將發(fā)揮關(guān)鍵作用。ASR模型的訓練很好地體現(xiàn)了這一點。如今,開源數(shù)據(jù)集和預訓練模型降低了ASR供應商的準入門檻。然而,訓練過程仍然相當簡單:收集數(shù)據(jù)、注釋數(shù)據(jù)、訓練模型、評估結(jié)果、改進模型。但這是一個緩慢的過程,并且在許多情況下,由于調(diào)整困難或數(shù)據(jù)不足而容易出錯。Garnerin等人觀察到,元數(shù)據(jù)缺失和跨語料庫表示的不一致性使得在ASR性能方面難以保證同等的準確性,這也是Reid和Walker在開發(fā)元數(shù)據(jù)標準時試圖解決的問題。

在未來,人類將通過智能手段高效地監(jiān)督ASR訓練,在加速機器學習方面發(fā)揮日益重要的作用。人在回路方法將人工審查員置于機器學習/反饋循環(huán)中,可以對模型結(jié)果進行持續(xù)審查和調(diào)整。這會使機器學習更快、更高效,從而產(chǎn)生更高質(zhì)量的輸出。今年早些時候,我們討論了ASR的改進如何使Rev的人工轉(zhuǎn)錄員(稱為“Revvers”)能夠?qū)SR草案進行后期編輯,從而提高工作效率。Revver的轉(zhuǎn)錄可以直接輸入到改進的ASR模型中,形成良性循環(huán)。

對于ASR,人類語言專家仍然不可或缺的一個領(lǐng)域是反向文本規(guī)范化(ITN),他們將識別的字符串(如“five dollars”)轉(zhuǎn)換為預期的書面形式(如“$5”)。Pusateri等人提出了一種使用“手工語法和統(tǒng)計模型”的混合方法,Zhang等人繼續(xù)沿用這些思路,用人工制作的FST約束RNN。

負責任的 ASR

“與所有人工智能系統(tǒng)一樣,未來的ASR系統(tǒng)將堅持更嚴格的人工智能倫理原則,以便系統(tǒng)平等對待所有人,可解釋性程度更高、對其決策負責、并尊重用戶及其數(shù)據(jù)的隱私?!?/span>

未來十年,AI 語音識別將朝著這五個方向發(fā)展

未來的ASR系統(tǒng)將遵循人工智能倫理的四項原則:公平性、可解釋性、尊重隱私和問責制。

公平性:無論說話者的背景、社會經(jīng)濟地位或其他特征如何,公平的ASR系統(tǒng)都能識別語音。值得注意的是,構(gòu)建這樣的系統(tǒng)需要識別并減少我們的模型和訓練數(shù)據(jù)中的偏差。幸運的是,政府、非政府組織和企業(yè)已經(jīng)著手創(chuàng)建識別和減輕偏見的基礎設施。

可解釋性:ASR系統(tǒng)將不再是“黑盒”:它們將根據(jù)要求對數(shù)據(jù)收集與分析、模型性能與輸出過程進行解釋。這種附加的透明度要求可以對模型訓練和性能進行更好的人為監(jiān)督。與Gerlings等人一樣,我們從一系列利益相關(guān)者(包括研究人員、開發(fā)人員、客戶,以及Rev案例中的轉(zhuǎn)錄學家)的角度來看待可解釋性。研究人員可能想知道輸出錯誤文本的原因,以便緩解問題;而轉(zhuǎn)錄學家可能需要一些證據(jù)來證明ASR為什么會這么認為,以幫助他們評估其有效性,特別是在嘈雜的情況下,ASR可能比人“聽”得更好。Weitz等人在音頻關(guān)鍵詞識別的背景下,為終端用戶實現(xiàn)可解釋性采取了重要的初步措施。Laguarta和Subirana已將臨床醫(yī)生指導的解釋納入用于阿爾茨海默癥檢測的語音生物標記系統(tǒng)。

尊重隱私:根據(jù)各種美國和國際法律,“語音”被視為“個人數(shù)據(jù)”,因此,語音記錄的收集和處理受到嚴格的個人隱私保護。在Rev,我們已經(jīng)提供了數(shù)據(jù)安全和控制功能,未來的ASR系統(tǒng)將進一步尊重用戶數(shù)據(jù)的隱私和模型的隱私。在許多情況下,這很可能涉及將ASR模型推向邊緣(在設備或瀏覽器上)。語音隱私挑戰(zhàn)正在推動這一領(lǐng)域的研究,許多司法管轄區(qū),如歐盟,已經(jīng)開展立法工作。隱私保護機器學習領(lǐng)域有望引起大家對技術(shù)這一關(guān)鍵方面的重視,使其能夠被公眾廣泛接受和信任。

問責制:我們將對ASR系統(tǒng)進行監(jiān)控,以確保其遵守前三項原則。反過來需要投入資源和基礎設施,以設計和開發(fā)必要的監(jiān)測系統(tǒng),并針對調(diào)查結(jié)果采取措施。部署ASR系統(tǒng)的公司將對其技術(shù)的使用負責,并為遵守ASR倫理原則做出具體努力。

值得一提的是,作為ASR系統(tǒng)的設計者、維護者和消費者,人類將負責實施和執(zhí)行這些原則——這是人機協(xié)同的又一個示例。

責任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2022-09-14 17:53:45

ASR技術(shù)領(lǐng)域

2024-02-20 11:22:34

AI人工智能

2022-03-18 13:46:20

物聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2011-06-16 09:34:54

Mac OS十年

2022-02-21 13:57:47

人工智能小數(shù)據(jù)機器學習

2021-04-14 14:49:47

語音識別技術(shù)人工智能

2019-07-02 14:34:15

Android智能十年

2024-07-10 14:17:33

2020-03-18 08:59:42

物聯(lián)網(wǎng)智慧城市邊緣計算

2022-09-20 10:30:14

技術(shù)行業(yè)

2020-02-20 09:37:55

人工智AI經(jīng)濟

2021-11-11 11:21:23

云計算云遷移

2022-11-22 16:39:21

2023-06-14 15:49:12

2021-02-01 10:55:52

人工智能科大訊飛

2022-11-24 14:00:36

2020-11-05 22:59:15

技能工業(yè)革命技術(shù)

2021-10-27 17:20:23

圖數(shù)據(jù)數(shù)據(jù)庫

2018-11-15 14:29:15

蘋果iPhone中國

2023-01-06 16:31:22

點贊
收藏

51CTO技術(shù)棧公眾號