深入探討語(yǔ)音轉(zhuǎn)文本技術(shù)的演進(jìn)
語(yǔ)音轉(zhuǎn)文本 (STT),也稱為自動(dòng)語(yǔ)音識(shí)別 (ASR),是一種將口語(yǔ)轉(zhuǎn)錄成書面文本的 AI 技術(shù),現(xiàn)在越來(lái)越多的公司利用 STT 在現(xiàn)有應(yīng)用程序中嵌入新的音頻功能,并為一系列用例創(chuàng)建智能助手?!?/p>
語(yǔ)音轉(zhuǎn)文本模型簡(jiǎn)史
首先,一些背景信息。語(yǔ)音轉(zhuǎn)文本是 AI 中自然語(yǔ)言處理 (NLP) 分支的一部分。它的目標(biāo)是使機(jī)器能夠理解人類語(yǔ)音并將其轉(zhuǎn)錄成書面格式?!?/p>
你可能會(huì)想,轉(zhuǎn)錄語(yǔ)音有多難。簡(jiǎn)短的回答是:非常難。與可以以相對(duì)簡(jiǎn)單的方式放入矩陣中的圖像不同,音頻數(shù)據(jù)受背景噪聲、音頻質(zhì)量、口音和行業(yè)術(shù)語(yǔ)的影響,這使得機(jī)器難以掌握?!?/p>
幾十年來(lái),研究人員一直在努力應(yīng)對(duì)這些挑戰(zhàn)。這一切都始于 1949 年 Weaver 的備忘錄,它激發(fā)了使用計(jì)算機(jī)處理語(yǔ)言的想法。早期的自然語(yǔ)言處理 (NLP) 模型使用隱馬爾可夫模型 (HMM) 等統(tǒng)計(jì)方法來(lái)轉(zhuǎn)錄語(yǔ)音,但它們準(zhǔn)確識(shí)別不同口音、方言和語(yǔ)音風(fēng)格的能力受到限制?!?/p>
在接下來(lái)的幾十年里,從語(yǔ)法理論到符號(hào) NLP 再到統(tǒng)計(jì)模型,見(jiàn)證了許多重要的發(fā)展,所有這些都為我們今天所知道的 ASR 系統(tǒng)鋪平了道路。但該領(lǐng)域真正的重大變化發(fā)生在 2010 年代,隨著機(jī)器學(xué)習(xí) (ML) 和深度學(xué)習(xí)的興起。
統(tǒng)計(jì)模型被 ML 算法所取代,例如深度神經(jīng)網(wǎng)絡(luò) (DNN) 和遞歸神經(jīng)網(wǎng)絡(luò) (RNN),這些算法能夠捕獲以前難以檢測(cè)的慣用表達(dá)和其他細(xì)微差別。不過(guò),仍然存在上下文問(wèn)題:模型無(wú)法根據(jù)整個(gè)句子推斷特定單詞的含義,這不可避免地導(dǎo)致了錯(cuò)誤?!?/p>
然而,這十年來(lái)最大的發(fā)明是 2017 年發(fā)明 Transformers。Transformers 的自注意力機(jī)制徹底改變了 ASR。 與以前的所有模型不同,Transformers 成功地捕獲了不同詞性之間的長(zhǎng)期依賴關(guān)系,使它們能夠考慮每個(gè)轉(zhuǎn)錄句子的更廣泛上下文?!?/p>
基于 Transformers 的 ASR 模型的出現(xiàn)重塑了語(yǔ)音識(shí)別領(lǐng)域。其卓越的性能和效率為各種應(yīng)用程序提供支持,從語(yǔ)音助手到高級(jí)轉(zhuǎn)錄和翻譯服務(wù)。
許多人認(rèn)為,正是在那時(shí),我們從單純的“語(yǔ)音識(shí)別”過(guò)渡到更全面的“語(yǔ)言理解”領(lǐng)域。
由于最新的突破,ASR 系統(tǒng)的整體性能(在速度和質(zhì)量方面)多年來(lái)得到了顯著提高,這得益于開(kāi)源存儲(chǔ)庫(kù)的可用性、來(lái)自 Web 的大型訓(xùn)練數(shù)據(jù)集以及更易于訪問(wèn)的 GPU/CPU 硬件成本。
Speech-to-Text 的工作原理
如今,尖端的 ASR 解決方案依靠各種模型和算法來(lái)產(chǎn)生快速準(zhǔn)確的結(jié)果。但是 AI 究竟是如何將語(yǔ)音轉(zhuǎn)換為書面形式的呢?
轉(zhuǎn)錄是一個(gè)復(fù)雜的過(guò)程,涉及多個(gè)階段和 AI 模型協(xié)同工作。以下是 speech-to-text 中關(guān)鍵步驟的概述:
- 預(yù)處理。 在轉(zhuǎn)錄輸入音頻之前,它通常會(huì)經(jīng)歷一些預(yù)處理步驟。這可能包括降噪、回聲消除和其他提高音頻信號(hào)質(zhì)量的技術(shù)。
- 特征提取。 然后將音頻波形轉(zhuǎn)換為更適合分析的表示形式。這通常涉及從音頻信號(hào)中提取特征,以捕獲聲音的重要特征,例如頻率、振幅和持續(xù)時(shí)間。梅爾頻率倒譜系數(shù) (MFCC) 是語(yǔ)音處理中常用的特征。
- 聲學(xué)建模。 涉及訓(xùn)練一個(gè)統(tǒng)計(jì)模型,該模型將提取的特征映射到音素,音素是語(yǔ)言中的最小聲音單位。
- 語(yǔ)言建模。 語(yǔ)言建模側(cè)重于語(yǔ)音的語(yǔ)言方面。它涉及創(chuàng)建一個(gè)概率模型,說(shuō)明單詞和短語(yǔ)在特定語(yǔ)言中的可能顯示方式。這有助于系統(tǒng)根據(jù)句子中的前一個(gè)單詞,就哪些單詞更有可能出現(xiàn)做出明智的決定。
- 譯碼。 在解碼階段,系統(tǒng)使用聲學(xué)和語(yǔ)言模型將音頻轉(zhuǎn)錄為單詞或標(biāo)記序列。此過(guò)程涉及搜索與給定音頻特征對(duì)應(yīng)的最可能的單詞序列。
- 后處理。 解碼后的轉(zhuǎn)錄可能仍包含錯(cuò)誤,例如誤識(shí)別或同音異義詞(發(fā)音相同但含義不同的單詞)。在生成最終輸出之前,應(yīng)用后處理技術(shù)(包括語(yǔ)言約束、語(yǔ)法規(guī)則和上下文分析)來(lái)提高轉(zhuǎn)錄的準(zhǔn)確性和連貫性。
STT 模型的主要類型
轉(zhuǎn)錄發(fā)生的確切方式取決于所使用的 AI 模型。一般來(lái)說(shuō),我們可以區(qū)分聲學(xué)遺留系統(tǒng)和基于端到端深度學(xué)習(xí)模型的系統(tǒng)。
聲學(xué)系統(tǒng)依賴于隱馬爾可夫模型 (HMM) 和深度神經(jīng)網(wǎng)絡(luò) (DNN) 等傳統(tǒng)模型的組合來(lái)執(zhí)行一系列子過(guò)程來(lái)執(zhí)行上述步驟?!?/p>
這里的轉(zhuǎn)錄過(guò)程是通過(guò)傳統(tǒng)的聲學(xué)-語(yǔ)音匹配完成的,即系統(tǒng)嘗試根據(jù)聲音猜測(cè)單詞。由于每個(gè)步驟都由單獨(dú)的模型執(zhí)行,因此這種方法容易出錯(cuò),并且由于需要獨(dú)立訓(xùn)練所涉及的每個(gè)模型,因此成本相當(dāng)高且效率低下?!?/p>
相比之下,由 CNN、RNN 和/或變壓器提供支持的端到端系統(tǒng)作為單個(gè)神經(jīng)網(wǎng)絡(luò)運(yùn)行,所有關(guān)鍵步驟都合并到一個(gè)互連的過(guò)程中。一個(gè)值得注意的例子是 OpenAI 的 Whisper ASR?!?/p>
這種方法旨在解決遺留系統(tǒng)的局限性,由于采用了更精細(xì)的基于嵌入的機(jī)制,因此可以提高準(zhǔn)確性,從而根據(jù)每個(gè)給定單詞的語(yǔ)義接近性實(shí)現(xiàn)語(yǔ)言的上下文理解?!?/p>
關(guān)于微調(diào)的注意事項(xiàng)
盡管上一代轉(zhuǎn)錄模型非常準(zhǔn)確,但得益于新技術(shù)和大型語(yǔ)言模型 (LLMs) 的支持,它們?nèi)匀恍枰稽c(diǎn)幫助才能應(yīng)用于特定用例,而不會(huì)影響輸出準(zhǔn)確性。更具體地說(shuō),這些模型可能需要額外的工作才能用于特定的轉(zhuǎn)錄或音頻智能任務(wù)?!?/p>
微調(diào)包括通過(guò)在特定于任務(wù)的數(shù)據(jù)上訓(xùn)練預(yù)先訓(xùn)練的神經(jīng)網(wǎng)絡(luò),使其適應(yīng)新的應(yīng)用程序。這是使高質(zhì)量 STT 具有商業(yè)可行性的關(guān)鍵?!?/p>
在音頻中,微調(diào)用于使模型適應(yīng)技術(shù)專業(yè)領(lǐng)域(即醫(yī)學(xué)詞匯、法律術(shù)語(yǔ))、口音、語(yǔ)言、噪音水平、特定說(shuō)話人等。在我們的微調(diào) ASR 模型的指南中,我們更詳細(xì)地探討了這項(xiàng)技術(shù)的機(jī)制、用例和應(yīng)用?!?/p>
主要特點(diǎn)和參數(shù)
除了核心轉(zhuǎn)錄技術(shù)之外,如今大多數(shù)提供商還提供一系列附加功能,從說(shuō)話人分類到摘要,再到情感分析,統(tǒng)稱為“音頻智能”?!?/p>
使用 API,基礎(chǔ)轉(zhuǎn)錄輸出并不總是由負(fù)責(zé) “智能” 層的同一模型執(zhí)行。事實(shí)上,商業(yè)語(yǔ)音文本提供商通常使用多種模型的組合來(lái)創(chuàng)建高質(zhì)量和多功能的企業(yè)級(jí) STT API。
轉(zhuǎn)錄:關(guān)鍵概念
有許多參數(shù)會(huì)影響轉(zhuǎn)錄過(guò)程,并可能影響一個(gè)人對(duì) STT 解決方案或提供者的選擇。以下是需要考慮的關(guān)鍵因素?!?/p>
輸入
- 格式: 大多數(shù)轉(zhuǎn)錄模型根據(jù)音頻文件格式(m4a、mp3、mp4、mpeg)提供不同級(jí)別的質(zhì)量,其中一些模型只接受特定格式。根據(jù)轉(zhuǎn)錄是異步轉(zhuǎn)錄還是實(shí)時(shí)轉(zhuǎn)錄,格式的應(yīng)用會(huì)有所不同。
- 音頻編碼:音頻編碼是將音頻文件從一種格式更改為另一種格式的過(guò)程,例如,為了減少傳輸音頻信息所需的位數(shù)。
- 頻率: 對(duì)于語(yǔ)音轉(zhuǎn)文本模型,聲音可以理解的最小頻率。目前生成的大多數(shù)音頻文件的最低頻率為 40 kHz,但某些類型的音頻(例如來(lái)自呼叫中心的電話錄音)的頻率較低,導(dǎo)致錄音頻率為 16 kHz 甚至 8 kHz。需要對(duì)更高的頻率(如 128Khz 的 mp3 文件)進(jìn)行重新采樣。
- 位深度: 位深度表示錄制了音頻樣本的振幅量。它有點(diǎn)像圖像分辨率,但用于聲音。具有較高位深度的文件將表示更廣泛的聲音范圍,從非常柔和到非常響亮。例如,大多數(shù) DVD 的音頻為 24 位,而大多數(shù)電話的音頻為 8 位。
- 渠道: 輸入音頻可以有多個(gè)通道:?jiǎn)温暤溃▎温暤溃?、立體聲(雙聲道); 多通道(多個(gè)軌道)。
輸出
任何轉(zhuǎn)錄輸出都應(yīng)該包含一些基本組件,并且通常以一系列轉(zhuǎn)錄文本的形式出現(xiàn),其中包含關(guān)聯(lián)的 ID 和時(shí)間戳。
除此之外,請(qǐng)務(wù)必考慮轉(zhuǎn)錄輸出的格式。大多數(shù)提供商至少會(huì)提供至少包含上述數(shù)據(jù)點(diǎn)的轉(zhuǎn)錄文本的 JSON 文件。有些還將提供轉(zhuǎn)錄的純文本版本,例如 .txt 文件,或適合字幕的格式,例如 SRT 或 VTT?!?/p>
性能
延遲
延遲是指模型接收到輸入(即語(yǔ)音或音頻信號(hào))與開(kāi)始生成輸出(即轉(zhuǎn)錄文本)之間的延遲。在 STT 系統(tǒng)中,延遲是一個(gè)關(guān)鍵因素,因?yàn)樗苯佑绊懹脩趔w驗(yàn)。延遲越短,響應(yīng)時(shí)間越短,聽(tīng)錄體驗(yàn)越實(shí)時(shí)?!?/p>
推理
在 AI 中,推理是指根據(jù)數(shù)據(jù)和以前的學(xué)習(xí)“推斷”輸出的操作。在 STT 中,在推理階段,該模型利用其學(xué)到的語(yǔ)音模式和語(yǔ)言知識(shí)來(lái)生成準(zhǔn)確的轉(zhuǎn)錄?!?/p>
推理的效率和速度會(huì)影響 STT 系統(tǒng)的延遲?!?/p>
準(zhǔn)確性
STT 模型的性能結(jié)合了許多因素,例如:
- 端到端延遲(上傳、編碼等期間)
- 在惡劣環(huán)境(例如背景噪聲或靜電)下的穩(wěn)健性。
- 涵蓋復(fù)雜的詞匯和語(yǔ)言。
- 模型架構(gòu)、訓(xùn)練數(shù)據(jù)數(shù)量和質(zhì)量。
單詞錯(cuò)誤率 (WER) 是用于評(píng)估語(yǔ)音識(shí)別系統(tǒng)或機(jī)器翻譯系統(tǒng)準(zhǔn)確性的行業(yè)范圍指標(biāo)。它測(cè)量系統(tǒng)輸出中與參考或真實(shí)文本中的單詞不同的單詞的百分比?!?/p>
用于對(duì)準(zhǔn)確性進(jìn)行基準(zhǔn)測(cè)試的其他指標(biāo)是誤差率 (DER),它評(píng)估說(shuō)話人分類和單詞級(jí)時(shí)間戳的平均絕對(duì)對(duì)齊誤差 (MAE)。
語(yǔ)言
即使是最先進(jìn)的多語(yǔ)言模型,如 OpenAI 的 Whisper,也嚴(yán)重偏向于某些語(yǔ)言,如英語(yǔ)、法語(yǔ)和西班牙語(yǔ)。發(fā)生這種情況是因?yàn)橛糜谟?xùn)練它們的數(shù)據(jù),或者因?yàn)槟P驮谵D(zhuǎn)錄過(guò)程中權(quán)衡不同參數(shù)的方式?!?/p>
為了擴(kuò)展語(yǔ)言和方言的范圍,需要額外的微調(diào)和優(yōu)化技術(shù),尤其是在涉及開(kāi)源模型的情況下。
音頻智能
對(duì)于越來(lái)越多的使用案例,僅靠轉(zhuǎn)錄是不夠的。如今,大多數(shù)商業(yè) STT 提供商都至少提供一些附加功能,也稱為附加組件,旨在使成績(jī)單更易于消化和提供信息,以及獲得演講者的見(jiàn)解。以下是一些示例:
安全
在數(shù)據(jù)安全方面,托管架構(gòu)起著重要作用。希望將 Language AI 集成到現(xiàn)有技術(shù)堆棧中的公司需要決定底層網(wǎng)絡(luò)基礎(chǔ)設(shè)施的位置以及他們希望誰(shuí)擁有它:云多租戶 (SaaS)、云單租戶、本地、氣隙?!?/p>
可以使用 Speech-to-Text 構(gòu)建什么
AI 語(yǔ)音轉(zhuǎn)文本是一項(xiàng)用途廣泛的技術(shù),可解鎖各行各業(yè)的一系列用例。借助專門的 API,可以將 Language AI 功能嵌入到現(xiàn)有應(yīng)用程序和平臺(tái)中,讓你的用戶能夠享受轉(zhuǎn)錄、字幕、關(guān)鍵字搜索和分析。還可以構(gòu)建全新的支持語(yǔ)音的應(yīng)用程序,例如虛擬助手和機(jī)器人?!?/p>
一些更具體的例子:
- 轉(zhuǎn)錄服務(wù):采訪、講座、會(huì)議等的書面記錄。
- 呼叫中心自動(dòng)化:將客戶互動(dòng)的錄音轉(zhuǎn)換為文本以供分析和處理。
- 語(yǔ)音筆記和聽(tīng)寫:允許用戶聽(tīng)寫筆記、消息或電子郵件,并將其轉(zhuǎn)換為書面文本。
- 實(shí)時(shí)字幕:為實(shí)時(shí)活動(dòng)、會(huì)議、網(wǎng)絡(luò)研討會(huì)或視頻提供實(shí)時(shí)字幕和配音。
- 譯本:用于多語(yǔ)言交流的實(shí)時(shí)翻譯服務(wù)。
- 語(yǔ)音和關(guān)鍵字搜索:使用語(yǔ)音命令或語(yǔ)義搜索搜索信息。
- 語(yǔ)音分析:分析錄制的音頻以進(jìn)行情緒分析、客戶反饋或市場(chǎng)研究。
- 輔助功能:開(kāi)發(fā)應(yīng)用程序,通過(guò)將口語(yǔ)轉(zhuǎn)換為文本來(lái)幫助殘障人士,以便于溝通和理解。
語(yǔ)音轉(zhuǎn)文本 AI 的終極詞匯表
- 語(yǔ)音轉(zhuǎn)文本也稱為自動(dòng)語(yǔ)音識(shí)別 (ASR),它是將口語(yǔ)轉(zhuǎn)換為書面文本的技術(shù)。
- 自然語(yǔ)言處理 (NLP)AI 的一個(gè)子領(lǐng)域,專注于計(jì)算機(jī)和人類語(yǔ)言之間的交互。
- 機(jī)器學(xué)習(xí)人工智能的一個(gè)領(lǐng)域,涉及開(kāi)發(fā)算法和模型,使計(jì)算機(jī)能夠根據(jù)數(shù)據(jù)學(xué)習(xí)并做出預(yù)測(cè)或決策,而無(wú)需為特定任務(wù)明確編程。
- 神經(jīng)網(wǎng)絡(luò)一種以人腦結(jié)構(gòu)為模型的機(jī)器學(xué)習(xí)算法。
- 深度學(xué)習(xí) 機(jī)器學(xué)習(xí)的一個(gè)子集,涉及使用深度神經(jīng)網(wǎng)絡(luò)。
- 聲學(xué)模型用于語(yǔ)音識(shí)別的模型,用于將聲學(xué)特征映射到語(yǔ)音單元。
- 語(yǔ)言模型NLP 中用于確定單詞序列概率的統(tǒng)計(jì)模型。
- 大型語(yǔ)言模型(LLM)像 GPT-3 這樣的高級(jí) AI 系統(tǒng),它們經(jīng)過(guò)大量文本數(shù)據(jù)的訓(xùn)練,以生成類似人類的文本并執(zhí)行各種自然語(yǔ)言處理任務(wù)。
- 音素語(yǔ)言中的最小聲音單位,由特定符號(hào)表示。
- Transformers一種依賴于多頭自我注意機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu) - 除其他外 - 它允許模型關(guān)注輸入序列的不同部分以捕獲其關(guān)系和依賴關(guān)系。
- 編碼器在神經(jīng)網(wǎng)絡(luò)的上下文中,將輸入數(shù)據(jù)轉(zhuǎn)換為壓縮或抽象表示的組件,通常用于特征提取或創(chuàng)建嵌入等任務(wù)。
- 解碼器一種神經(jīng)網(wǎng)絡(luò)組件,它采用壓縮表示(通常來(lái)自編碼器)并重建或生成有意義的輸出數(shù)據(jù),經(jīng)常用于語(yǔ)言生成或圖像合成等任務(wù)。
- 嵌入對(duì)象(如單詞或圖像)在低維空間中的數(shù)字表示形式,其中保留了對(duì)象之間的關(guān)系。嵌入通常用于將分類數(shù)據(jù)轉(zhuǎn)換為適合 ML 算法的格式,并捕獲單詞之間的語(yǔ)義相似性。
- 依賴關(guān)系給定文本中單詞和句子之間的關(guān)系。可以與語(yǔ)法和句法相關(guān),也可以與內(nèi)容的含義相關(guān)。
- 說(shuō)話人分類分離和識(shí)別錄音或音頻流中發(fā)言者的過(guò)程。
- 說(shuō)話人適應(yīng)調(diào)整語(yǔ)音識(shí)別模型以更好地識(shí)別特定說(shuō)話人的聲音的過(guò)程。
- Language Identification自動(dòng)識(shí)別錄音中所說(shuō)的語(yǔ)言的過(guò)程。
- 關(guān)鍵字識(shí)別檢測(cè)錄音中特定單詞或短語(yǔ)的過(guò)程。
- 自動(dòng)字幕為視頻或音頻錄制生成字幕或字幕的過(guò)程。
- 說(shuō)話人驗(yàn)證驗(yàn)證說(shuō)話人身份的過(guò)程,通常用于安全或身份驗(yàn)證目的。
- 語(yǔ)音合成從書面文本生成口語(yǔ)的過(guò)程,也稱為文本轉(zhuǎn)語(yǔ)音 (TTS) 技術(shù)。
- 單詞錯(cuò)誤率 (WER)用于衡量語(yǔ)音識(shí)別系統(tǒng)準(zhǔn)確性的指標(biāo)。
- 遞歸神經(jīng)網(wǎng)絡(luò) (RNN)一種特別適合于序列數(shù)據(jù)(如語(yǔ)音)的神經(jīng)網(wǎng)絡(luò)。
- 微調(diào)與優(yōu)化微調(diào)涉及在特定數(shù)據(jù)集或域上訓(xùn)練預(yù)先存在的模型,以使其適應(yīng)以獲得更好的性能,而優(yōu)化側(cè)重于微調(diào)超參數(shù)和訓(xùn)練設(shè)置,以最大限度地提高模型的整體效率。這兩個(gè)過(guò)程都有助于提高語(yǔ)音轉(zhuǎn)文本模型對(duì)特定應(yīng)用程序或領(lǐng)域的準(zhǔn)確性和適用性。
- 模型并行性使大型模型的不同部分能夠分布在多個(gè) GPU 上,從而允許使用 AI 芯片以分布式方式訓(xùn)練模型。通過(guò)將模型劃分為更小的部分,可以并行訓(xùn)練每個(gè)部分,與在單個(gè) GPU 或處理器上訓(xùn)練整個(gè)模型相比,訓(xùn)練過(guò)程更快。
本文轉(zhuǎn)載自 ??芝士AI吃魚??,作者: 芝士AI吃魚
