自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="glnau"></u>

<legend id="glnau"><track id="glnau"><menuitem id="glnau"></menuitem></track></legend>

<cite id="glnau"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

揭開神秘面紗：深入了解語音識別算法

作者：李睿 2024-08-19 08:07:52

本文將探索使語音識別成為可能的機(jī)制，了解日益普及的用于應(yīng)用人工智能的語音用戶界面（VUI）可能帶來的優(yōu)勢。

譯者 | 李睿

審校 | 重樓

如今，似乎每一款商用設(shè)備都具備某種形式的語音識別功能，或者至少嘗試過實現(xiàn)這一功能。從跨平臺的語音助手到轉(zhuǎn)錄服務(wù)和輔助工具，再到最近成為大型語言模型(LLM)差異化的關(guān)鍵要素——語音輸入已成為日常的用戶界面。根據(jù)預(yù)測，語音用戶界面(VUI)的市場規(guī)模將從2023年至2028年以23.39%的復(fù)合年增長率增長，可以預(yù)見將有更多的科技公司采用這一技術(shù)。

以下從剖析和定義使語音識別成為可能的最常見技術(shù)開始。

一、語音識別的機(jī)制：它是如何工作的?

特征提取

在進(jìn)行任何“識別”之前，機(jī)器必須將人們產(chǎn)生的聲波轉(zhuǎn)換成它們能理解的格式。這個過程稱為預(yù)處理和特征提取。梅爾頻率倒譜系數(shù)(MFCC)和感知線性預(yù)測(PLP)系數(shù)是兩種最常見的特征提取技術(shù)。

(1)梅爾頻率倒譜系數(shù)(MFCC)

梅爾頻率倒譜系數(shù)(MFCC)捕捉音頻信號的功率譜，從本質(zhì)上識別每個聲音的獨特之處。這項技術(shù)首先通過放大高頻來平衡信號使其更清晰。然后，信號被分成短幀或聲音片段，持續(xù)時間在200毫秒到40毫秒之間。然后對這些幀進(jìn)行分析以了解它們的頻率成分。通過應(yīng)用一系列模擬人耳如何感知音頻的濾波器，梅爾頻率倒譜系數(shù)(MFCC)捕捕捉語音信號的關(guān)鍵、可識別的特征。最后一步是將這些特征轉(zhuǎn)換成聲學(xué)模型可以使用的數(shù)據(jù)格式。

(2)感知線性預(yù)測(PLP)系數(shù)

感知線性預(yù)測(PLP)系數(shù)旨在盡可能地模擬人類聽覺系統(tǒng)的反應(yīng)。與梅爾頻率倒譜系數(shù)(MFCC)類似，感知線性預(yù)測系數(shù)(PLP)過濾聲音頻率以模擬人耳。在經(jīng)過過濾之后，動態(tài)范圍(樣本的“響度”范圍)被壓縮，以反映人們的聽覺對不同音量的不同反應(yīng)。在最后一步，感知線性預(yù)測(PLP)估計“頻譜包絡(luò)線”，這是一種捕捉語音信號最基本特征的方法。這個過程提高了語音識別系統(tǒng)的可靠性，特別是在嘈雜的環(huán)境中。

(3)聲學(xué)建模

聲學(xué)建模是語音識別系統(tǒng)的核心，它形成了語音信號(聲音)和語音單位(構(gòu)成語言的不同聲音)之間的統(tǒng)計關(guān)系。最廣泛使用的技術(shù)包括隱馬爾可夫模型(HMM)和最近的深度神經(jīng)網(wǎng)絡(luò)(DNN)。

(4)隱馬爾可夫模型(HMM)

自從20世紀(jì)60年代末以來，隱馬爾可夫模型(HMM)一直是模式識別工程的基石。它們對語音處理特別有效，因為它們將口語分解成更小、更易于管理的部分——音素。每個提取的音素都與隱馬爾可夫模型(HMM)中的一個狀態(tài)相關(guān)聯(lián)，該模型將計算從一個狀態(tài)到另一個狀態(tài)轉(zhuǎn)換的概率。這種概率方法允許系統(tǒng)從聲音信號中推斷出單詞，即使在存在噪聲和不同個體的語音差異的情況下也是如此。

(5)深度神經(jīng)網(wǎng)絡(luò)(DNN)

近年來，與人工智能和機(jī)器學(xué)習(xí)的發(fā)展和興趣密切相關(guān)，深度神經(jīng)網(wǎng)絡(luò)(DNN)已經(jīng)成為自然語言處理(NLP)的首選。與依賴于預(yù)定義狀態(tài)和轉(zhuǎn)換的隱馬爾可夫模型(HMM)不同，深度神經(jīng)網(wǎng)絡(luò)(DNN)直接從數(shù)據(jù)中學(xué)習(xí)。它們由多層相互連接的神經(jīng)元組成，這些神經(jīng)元逐步提取數(shù)據(jù)的高級表示。

通過關(guān)注場景以及某些單詞和聲音之間的關(guān)系，深度神經(jīng)網(wǎng)絡(luò)可以捕獲語音中更復(fù)雜的模式。這使得它們在準(zhǔn)確性和魯棒性方面與隱馬爾可夫模型(HMM)相比表現(xiàn)得更好，并且需要額外的訓(xùn)練來適應(yīng)口音、方言和說話風(fēng)格——這在日益多語言的世界中是一個巨大的優(yōu)勢。

展望未來：挑戰(zhàn)與創(chuàng)新

語音識別技術(shù)已經(jīng)取得了很大的進(jìn)步，但是，正如用戶認(rèn)識到的那樣，它還遠(yuǎn)遠(yuǎn)不夠完美。背景噪音、多人同時講話、口音以及延遲是尚未解決的挑戰(zhàn)。隨著工程師們逐漸認(rèn)識到網(wǎng)絡(luò)模型的潛力，一個頗具前景的創(chuàng)新是利用隱馬爾可夫模型(HMM)和深度神經(jīng)網(wǎng)絡(luò)(DNN)的優(yōu)勢，使用混合解決方案。擴(kuò)大人工智能研究的另一個好處是跨領(lǐng)域的深度學(xué)習(xí)應(yīng)用，傳統(tǒng)上用于圖像分析的卷積神經(jīng)網(wǎng)絡(luò)(CNN)在語音處理方面顯示出有前景的結(jié)果。另一項激動人心的發(fā)展是遷移學(xué)習(xí)的使用，在大數(shù)據(jù)集上訓(xùn)練的模型可以通過相對較小的配套數(shù)據(jù)集對特定任務(wù)和語言進(jìn)行微調(diào)。這減少了為新應(yīng)用程序開發(fā)高性能語音識別所需的時間和資源，允許采用更環(huán)保的方法來重復(fù)模型部署。

二、整合一切：現(xiàn)實世界的應(yīng)用

綜上所述，特征提取和聲學(xué)建模協(xié)同工作，形成了所謂的語音識別系統(tǒng)。這個過程從使用預(yù)處理和特征識別將聲波轉(zhuǎn)換成可管理的數(shù)據(jù)開始。然后將這些數(shù)據(jù)點或特征輸入聲學(xué)模型，由聲學(xué)模型進(jìn)行解釋并將輸入轉(zhuǎn)換為文本。從那里，其他應(yīng)用程序可以很容易地與語音輸入進(jìn)行交互。

從最嘈雜、最耗時的環(huán)境(如汽車界面)到個人設(shè)備上的無障礙替代方案，人們越來越信任這項技術(shù)，并將其用于更關(guān)鍵的功能。對于致力改進(jìn)這項技術(shù)的人來說，理解這些機(jī)制不僅僅是學(xué)術(shù)上的需要，還激勵技術(shù)人員欣賞這些工具及其在提高無障礙性、可用性和用戶體驗效率方面的潛力。隨著語音用戶界面(VUI)越來越與大型語言模型(LLM)相關(guān)聯(lián)，工程師和設(shè)計師應(yīng)該熟悉生成式人工智能在現(xiàn)實世界應(yīng)用中最常見的界面。

原文標(biāo)題：Demystifying the Magic: A Look Inside the Algorithms of Speech Recognition，作者：Manoj bopathi Raj

責(zé)任編輯：姜華來源： 51CTO內(nèi)容精選

LLM 大型語言模型人工智能

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="2ko7a"><track id="2ko7a"><dfn id="2ko7a"></dfn></track></cite>

<cite id="2ko7a"><rp id="2ko7a"></rp></cite>