機器學習發(fā)展如何助力配音技術提升
譯文譯者 | 李睿
審校 | 梁策 孫淑娟
人工智能(AI)技術在過去幾年發(fā)展迅速,為商業(yè)人士提供了一種深入學習模式。盡管離在音頻世界大展身手還需要一些時間,但人們已經看到AI在視頻和圖像處理方面的悄然崛起。
作為人工智能的一部分,機器學習改變了人們使用配音技術的方式。人們熟悉的Cortana、Siri、Alexa許多語音助手都采用了配音技術。也正是由于人工智能技術的進步,AI產出的聲音變得比以往任何時候都更加真實,并且在自然語音處理方面做得更加出色。
本文將討論機器學習和人工智能已經取得的進展,以及它們如何對語音技術提升產生的影響。
1.機器學習如何改進語音技術
(1)音頻更智能
隨著對語音技術的需求開始增長,自動語音識別(ASR)方面的提供商正加大語音識別產品的創(chuàng)新,以滿足人們的更多需求。
語音識別技術的用戶在增加,市場規(guī)模也在擴大。根據一項研究,到2026年,全球語音識別市場規(guī)模將增長到220億美元。這種巨大的轉變將為自動語音識別(ASR)帶來挑戰(zhàn),推動其創(chuàng)新并成功應對同種語言中的不同方言,比如以英語為母語的人在不同的國家和地區(qū)(例如澳大利亞、英格蘭、蘇格蘭、美國等)就會使用不同的方言。
只有在機器學習(ML)和人工智能(AI)功能的雙重驅動下,自動語音識別(ASR)才能做到將同種語言中不同方言的口語單詞轉換為文本。此外,它還能夠識別來自一種語言的更多方言和口音。換句話說,有一天,全世界使用的每一種語音技術都將使用一個逼真的人工智能語音生成器。
關于音頻技術中機器學習的一些真實示例包括:
- iZotope&Neutron 2:貼心的音軌助手能利用人工智能和機器學習功能來檢測直接向用戶提供預設的儀器的跟蹤協助。它還具有一個實用程序,用于隔離音頻中的對話。
- LANDR:一種自動音頻母帶處理服務,它完全依賴人工智能和機器學習來設置有關數字音頻處理的參數。
- Google Wavenet:一種用于生成錄音的學習模型。
(2)數據就是推動力
計算機的聲波部分處理是語音識別的初始步驟,即聲音將會轉換成數據。因此,要使語音識別社會工程獲得成功,這一過程應包括以下內容:
- 語音采集樣本完全可訪問或有可靠的語音數據庫。
- 由于表征數據集的功能數量較少,消除提高算法學習能力的實用功能。
- 機器學習算法用于創(chuàng)建可靠的分類器,并允許機器學習算法從訓練樣本中學習以進行新的觀察。
最后,深度學習適用于語音識別技術,并且在任何環(huán)境中的日常使用中都保持精確,因此,語音識別系統(tǒng)可在給定的環(huán)境中平穩(wěn)運行。
現實中,想要創(chuàng)建語音識別系統(tǒng)的開發(fā)人員需要有大量的訓練數據。如果從經濟角度上來說,這可能需要花費數百萬美元來收集正確的轉錄數據。只有這樣,才能對轉錄數據正確地訓練語音識別系統(tǒng)。
(3)人工智能和機器學習中的數字信號處理
盡管在音頻處理中應用人工智能和機器學習還處于早期階段,但深度學習方法使人們能夠從不同的角度解決信號處理問題,而這一問題目前正被廣大音頻行業(yè)用戶忽視。一般來說,理解聲音和信號處理是復雜的,很難用語言來描述。
例如,聽到兩個或更多人說話,這兩個人互相交談的參數會如何描述呢?這當中要考慮的因素很多,其中一些問題包括:
- 性格(年齡、性別、活力)如何影響這些聲音?
- 室內聲學和距離對理解水平有多大影響?
- 談話過程中可能出現的其他噪音怎么辦?
正如人們所見,對配音的測量可以源自許多參數,并且需要對它們給予重視。在這種情況下,人工智能可以為人們提供一種實用的方法,為學習創(chuàng)造所需條件。
深度神經網絡音頻處理正日益發(fā)展,但仍有許多問題需要人們解決,包括:
- 高保真音頻重建:小型低質量麥克風。
- 空間模擬:用于雙耳處理和混響。
- 選擇性降噪:去除某些元素,例如汽車交通。
- 模擬音頻仿真:估計非線性模擬音頻組件之間的復雜交互。
(4)配音藝術家
使用深度學習(機器學習)創(chuàng)建自然聲音的關鍵步驟是在這個過程中擁有原始音頻。相對而言,世界各地的許多企業(yè)都在與配音藝術家合作創(chuàng)作配音產品。大多數配音師在每次使用他們的人工智能語音時可以獲得版稅,從而獲得豐厚的報酬。
但是,配音師也會碰到被騙的問題。他們雖然錄制了配音,但沒有進一步了解使用者是誰。例如,Siri的原聲配音人員蘇珊·本尼特(Susan Bennett)與ScanSoft公司簽訂了合同,但她從不知道自己的錄音實際上是為蘋果公司錄制的。她只獲得了錄制配音的一次性報酬,并沒有獲得持續(xù)收入。
此外,配音師遇到的其他一些問題是,在現有技術背景下,業(yè)內的合同和費用尚未得到很大提升。此外,還有人認為配音可能被負面使用,甚至可能會毀掉配音師的聲譽。例如,它可被用于不想與之合作的公司以及用于粗俗的語言。
(5)用例的興起
由于人工智能和機器學習能讓人們以最自然的方式增加定制體驗、找到解決方案、訪問服務、進行產品退貨,語音技術在各個行業(yè)中不斷發(fā)展。以下是機器學習和人工智能如何改變自然語言處理案例的幾個例子:
- 消費者下訂單:另一種在消費行業(yè)中涉及語音識別和轉錄的應用。消費者有機會更快、更有效地訂購。不用花時間瀏覽整個菜單,客戶只用語音請求就能在幾秒鐘內下訂單。
- 虛擬助理:根據一項研究,到2024年,市場上的語音助手預計將超過84億臺。語音助手可以支持IT幫助臺團隊等等。通過向虛擬助理提出更多要求,企業(yè)員工有更多時間完成日常任務,并更有效地利用時間。
- 客戶親密度分析:零售企業(yè)開始使用音頻挖掘軟件來更好地分析呼叫中心的對話,并了解他們的客戶。由機器學習和人工智能提供支持的自動語音識別(ASR)可以精準了解客戶,并從其討論中提取有價值的見解。
(6)語音識別技術是未來嗎?
語音識別技術必定在未來大放異彩。隨著人工智能和機器學習技術不斷改進,人們將看到它們的使用場景不斷增加。此外,配音師也將獲得一席之地。由于可以通過他們協助語音識別技術改進,之后語音技術可能會發(fā)展到與人們交談時帶有各種情緒的程度。
2.結語
以上就是機器學習和人工智能在過去幾年為語音技術帶來的提升,以及這種提升不斷發(fā)展的原因。有朝一日,語音技術或將發(fā)展至人們與語音助手交談就像與人交談一樣的程度。
企業(yè)則需要考慮如何將語音技術納入其業(yè)務戰(zhàn)略。畢竟,世界正在朝著新的起點和技術路徑轉變,如果他們把語音識別技術融入業(yè)務,將有助于他們脫穎而出。
原文鏈接:https://www.smartdatacollective.com/machine-learning-advances-are-improving-voiceover-audio-technology/