自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="16bm0"><font id="16bm0"></font></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

終于有人把智能語音處理講明白了

作者：華章科技 2021-01-26 16:17:42

人工智能機器學習

機器學習的快速發(fā)展，為智能語音處理奠定了堅實的理論和技術基礎。智能語音處理的主要特點是從大量的語音數(shù)據(jù)中學習和發(fā)現(xiàn)其中蘊含的規(guī)律，可以有效解決經(jīng)典語音處理難以解決的非線性問題。

機器學習的快速發(fā)展，為智能語音處理奠定了堅實的理論和技術基礎。智能語音處理的主要特點是從大量的語音數(shù)據(jù)中學習和發(fā)現(xiàn)其中蘊含的規(guī)律，可以有效解決經(jīng)典語音處理難以解決的非線性問題，從而顯著提升傳統(tǒng)語音應用的性能，也為語音新應用提供性能更好的解決方案。

[[378542]]

01 智能語音處理的基本概念

為簡化處理，經(jīng)典的語音處理方法一般都建立在線性平穩(wěn)系統(tǒng)的理論基礎之上，這是以短時語音具有相對平穩(wěn)性為前提條件的。但是，嚴格來講，語音信號是一種典型的非線性、非平穩(wěn)隨機過程，這就使得采用經(jīng)典的處理方法難以進一步提升語音處理系統(tǒng)的性能，如語音識別系統(tǒng)的識別率等。

隨著機器人技術的不斷發(fā)展，以機器人智能語音交互為代表的語音新應用迫切要求發(fā)展新的語音處理技術與手段，以提高語音處理系統(tǒng)的性能水平。

近十年來，人工智能技術正以前所未有的速度向前發(fā)展，機器學習領域不斷涌現(xiàn)的新技術、新算法，特別是新型神經(jīng)網(wǎng)絡和深度學習技術等極大地推動了語音處理的發(fā)展，為語音處理的研究提供了新的方法和技術手段，智能語音處理應運而生。

至今為止，智能語音處理還沒有一個精確的定義。廣義上來說，在語音處理算法或系統(tǒng)實現(xiàn)中全部或部分采用智能化的處理技術或手段均可稱為智能語音處理。

02 智能語音處理的基本框架

“聲源-濾波器”模型雖然能夠有效地區(qū)分聲源激勵和聲道濾波器，對它們進行高效的估計，但語音產(chǎn)生時發(fā)聲器官存在著協(xié)同動作，存在緊耦合關系，采用簡單的線性模型無法準確描述語音的細節(jié)特征。

同時，語音是一種富含信息的信號載體，它承載了語義、說話人、情緒、語種、方言等諸多信息，分離、感知這些信息需要對語音進行十分精細的分析，對這些信息的判別也不再是簡單的規(guī)則描述，單純對發(fā)聲機理、信號的簡單特征采用人工手段去分析并不現(xiàn)實。

類似于人類語言學習的思路，采用機器學習手段，讓機器通過“聆聽”大量的語音數(shù)據(jù)，并從語音數(shù)據(jù)中學習蘊含其中的規(guī)律，是有效提升語音信息處理性能的主要手段。與經(jīng)典語音處理方法僅限于通過提取人為設定特征參數(shù)進行處理不同，智能語音處理最重要的特點就是在語音處理過程或算法中體現(xiàn)從數(shù)據(jù)中學習規(guī)律的思想。

圖1-5給出了智能語音處理的三種基本框架，圖中虛線框部分有別于經(jīng)典語音處理方法，包含了從數(shù)據(jù)中學習的思想，是智能語音處理的核心模塊。

▲圖1-5 智能語音處理的基本框架

其中，圖1-5a是在經(jīng)典語音處理特征提取的基礎上，在特征映射部分融入了智能處理，是機器學習的經(jīng)典形式，圖1-5b和圖1-5c是表示學習的基本框架，其中圖1-5c是深度學習的典型框架，“深度層次化的抽象特征”是通過分層的深度神經(jīng)網(wǎng)絡結構來實現(xiàn)的。

03 智能語音處理的基本模型

智能語音處理是智能信息處理的一個重要研究領域，智能信息處理涉及的模型、方法、技術均可應用于智能語音處理。智能語音處理的基本模型和技術主要來源于人工智能，機器學習作為人工智能的重要領域，是目前智能語音處理中最常用的手段，而機器學習中的表示學習和深度學習則是智能語音處理中目前最為成功的智能處理技術。

▲圖1-6 AI/ML/RL/DL的關系圖

圖1-6展示了人工智能(Artificial Intelligence,AI)、機器學習(Machine Learning，ML)、表示學習(Representation Learning，RL)及深度學習(Deep Learning，DL)的相互關系。

下面列出了近年來在智能語音處理中常見的模型和技術。

1. 稀疏與壓縮感知

一個事物的表示形式?jīng)Q定了認知該事物的難度。在信息處理中，具有稀疏特性的信號表示更易于被感知和辨別，反之則難以辨別。因此，尋找信號的稀疏表示是高效解決信息處理問題的一個重要手段。

利用冗余字典，可以學習信號自身的特點，構造信號的稀疏表示，并進一步降低采樣和處理的難度。這種字典學習方法為信息處理提供了新的視角。對語音信號采用字典學習，構造語音的稀疏表示，為語音編碼、語音分離等應用提供了新的研究思路。

2. 隱變量模型

語音的所有信息都包含在語音波形中，隱變量模型假設這些信息是隱含在觀測信號之后的隱變量。通過利用高斯建模、隱馬爾可夫建模等方法，隱變量模型建立了隱變量和觀測變量之間的數(shù)學描述，并給出了從觀測變量學習各模型參數(shù)的方法。

通過參數(shù)學習，可以將隱變量的變化規(guī)律挖掘出來，從而得到各種需要的隱含信息。隱變量模型大大提高了語音識別、說話人識別等應用的性能，在很長一段時間內都是智能語音處理的主流手段。

3. 組合模型

組合模型認為語音是多種信息的組合，這些信息可以采用線性疊加、相乘、卷積等不同方式組合在一起。具體的組合方式中需要采用一系列模型參數(shù)，這些模型參數(shù)可以通過學習方式從大量語音數(shù)據(jù)中學得。這類模型的提出，有效改善了語音分離、語音增強等應用的性能。

4. 人工神經(jīng)網(wǎng)絡與深度學習

人類面臨大量感知數(shù)據(jù)時，總能以一種靈巧的方式獲取值得注意的重要信息。模仿人腦高效、準確地表示信息一直是人工智能領域的核心挑戰(zhàn)。

人工神經(jīng)網(wǎng)絡(Artificial Neural Network，ANN)通過神經(jīng)元連接成網(wǎng)的方式，模擬了哺乳類動物大腦皮層的神經(jīng)通路。和生物的神經(jīng)系統(tǒng)一樣，ANN通過對環(huán)境輸入的感知和學習，可以不斷優(yōu)化性能。

隨著ANN的結構越來越復雜、層數(shù)越來越多，網(wǎng)絡的表示能力也越來越強，基于ANN進行深度學習成為ANN研究的主流，其性能相對于很多傳統(tǒng)的機器學習方法有較大幅度的提高。但同時，深度學習對輸入數(shù)據(jù)的要求也越來越高，通常需要有海量數(shù)據(jù)的支撐。

ANN很早就應用到了語音處理領域，但由于早期受到計算資源的限制，神經(jīng)網(wǎng)絡層數(shù)較少，語音處理應用性能難以提升，直到近年來深層神經(jīng)網(wǎng)絡的計算資源、學習方法有了突破之后，基于神經(jīng)網(wǎng)絡的語音處理性能才有了顯著的提升。

深度神經(jīng)網(wǎng)絡可以學到語音信號中各種信息間的非線性關系，解決了傳統(tǒng)語音處理方法難以解決的問題，已經(jīng)成為當前智能語音處理的重要技術手段。

責任編輯：華軒來源：今日頭條

人工智能機器學習智能語音

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營