自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

基于注意力長(zhǎng)短期記憶的語音可理解度分類系統(tǒng)

作者：潘泊凡 2024-07-04 12:18:21

基于 LSTM 網(wǎng)絡(luò)和 log-mel 譜圖的自動(dòng)語音清晰度分類系統(tǒng)，結(jié)合注意力機(jī)制，能夠有效地預(yù)測(cè)語音清晰度水平。該系統(tǒng)在性能上顯著優(yōu)于傳統(tǒng)的 SVM 模型，并展現(xiàn)出良好的應(yīng)用前景。

引言

在大多數(shù)人生活中，語音是最主要的交流方式。然而，不幸的是，語音質(zhì)量常受多種因素影響，包括聽力損失、背景噪音干擾、設(shè)備故障，甚至是某些生理狀況導(dǎo)致的語音系統(tǒng)障礙。語音的清晰度則是衡量在特定條件下（如上述影響因素）語音可理解程度的重要標(biāo)準(zhǔn)。

本文探討了由于生理因素導(dǎo)致的語音質(zhì)量下降，尤其是在構(gòu)音障礙的情況下，如何自動(dòng)估計(jì)語音的清晰度水平。文章翻譯自《An attention Long Short-Term Memory based system for automatic classification of speech intelligibility》[1]。

構(gòu)音障礙（dysarthria）是指由于神經(jīng)病變，與言語有關(guān)的肌肉麻痹、收縮力減弱或運(yùn)動(dòng)不協(xié)調(diào)所致的言語障礙，它是一種運(yùn)動(dòng)性言語障礙，其特征包括音素發(fā)音相關(guān)肌肉運(yùn)動(dòng)的失控，導(dǎo)致說話速度改變、言語不連貫、音素重復(fù)、音量和音調(diào)變化過大以及鼻音等癥狀。這種障礙可能由多種疾病引起，如腫瘤、腦損傷、中風(fēng)、帕金森病或肌萎縮性側(cè)索硬化癥等退行性疾病。

構(gòu)音障礙不僅阻礙了患者的正常交流，還可能對(duì)患者心理造成傷害，因?yàn)樗麄儫o法有效表達(dá)自己的想法和感情。在這種情況下，準(zhǔn)確測(cè)量語音的清晰度對(duì)于治療和監(jiān)測(cè)手段至關(guān)重要，例如評(píng)估患者接受特定言語治療或醫(yī)療干預(yù)后的效果。

目前，確定語音清晰度的“金標(biāo)準(zhǔn)”包括一系列標(biāo)準(zhǔn)測(cè)試，患者在測(cè)試中發(fā)出特定的單詞或聲音組合，然后由專家進(jìn)行主觀評(píng)估，評(píng)估語音的可理解程度。然而，這些測(cè)試可能存在主觀性問題，因?yàn)獒t(yī)生的評(píng)估依賴于其聽力技能和對(duì)病理性言語的熟悉程度，導(dǎo)致可能高估或低估語音清晰度。

為了解決這些問題，本研究旨在開發(fā)一種客觀、自動(dòng)且非侵入式的系統(tǒng)，通過分析構(gòu)音障礙患者的語音來預(yù)測(cè)其語音清晰度水平（低、中、高）。該系統(tǒng)基于深度學(xué)習(xí)（DL）范式，特別是基于長(zhǎng)短期記憶（LSTM）網(wǎng)絡(luò)。LSTM 網(wǎng)絡(luò)與注意力機(jī)制結(jié)合，能夠有效建模每個(gè)時(shí)間幀對(duì)最終決策的貢獻(xiàn)，從而提高系統(tǒng)的性能和預(yù)測(cè)精度。

通過這種方法，自動(dòng)化測(cè)量語音清晰度不僅可以節(jié)省醫(yī)生的時(shí)間，使其可以更好地關(guān)注其他患者或進(jìn)行其他醫(yī)療活動(dòng)，還能提供更一致和客觀的評(píng)估結(jié)果。這對(duì)于改善言語治療的效果評(píng)估以及促進(jìn)構(gòu)音障礙患者的生活質(zhì)量具有重要意義。

相關(guān)工作

先前關(guān)于病理性語音清晰度自動(dòng)預(yù)測(cè)的研究可分為兩大類方法：侵入式或非盲方法，以及非侵入式或盲方法。侵入式方法通常依賴于健康參考語音模型，如高斯混合模型、iVectors或頻譜基，通過比較病理性語音與健康模型的差異來評(píng)估清晰度。另一種方法假設(shè)病理性語音會(huì)降低基于健康語音訓(xùn)練的自動(dòng)語音識(shí)別性能，如通過詞錯(cuò)誤率等特征進(jìn)行評(píng)估。然而，這些方法需要大量平衡的健康數(shù)據(jù)，這在實(shí)際應(yīng)用中可能限制了其可行性。

非侵入式或盲方法則通常涉及手工特征提取和機(jī)器學(xué)習(xí)算法，如支持向量機(jī)或隨機(jī)森林，用于分析語音特征并預(yù)測(cè)清晰度水平。這些方法的優(yōu)勢(shì)在于不需要健康語音數(shù)據(jù)，但需要精心設(shè)計(jì)的特征提取和分類器選擇來獲得良好的性能。

文章致力于開發(fā)一種新型的自動(dòng)且非侵入式系統(tǒng)，用于評(píng)估病理性語音的清晰度水平，特別是在沒有健康語音參考數(shù)據(jù)的情況下。這一創(chuàng)新方法基于深度學(xué)習(xí)技術(shù)，具體使用了長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM），這些網(wǎng)絡(luò)能夠有效地建模語音信號(hào)的時(shí)間序列特征。同時(shí)，引入注意力模型進(jìn)一步改善了系統(tǒng)的性能，通過對(duì)每個(gè)時(shí)間幀的重要性進(jìn)行建模，使得系統(tǒng)能夠更精確地預(yù)測(cè)語音清晰度。

深度學(xué)習(xí)技術(shù)在語音處理領(lǐng)域已經(jīng)取得了顯著進(jìn)展，例如在自動(dòng)語音識(shí)別、語音情感識(shí)別和認(rèn)知負(fù)荷分類中的成功應(yīng)用。這些技術(shù)的高效性和靈活性使它們成為處理復(fù)雜語音數(shù)據(jù)和識(shí)別語音障礙的理想工具。通過文中提出的方法，研究人員可以更準(zhǔn)確地評(píng)估病理性語音的清晰度，從而為言語治療和醫(yī)療干預(yù)提供更可靠的評(píng)估工具。

總結(jié)而言，該文章的創(chuàng)新在于提出了一種基于深度學(xué)習(xí)和注意力機(jī)制的自動(dòng)語音清晰度評(píng)估系統(tǒng)，該系統(tǒng)克服了傳統(tǒng)方法中對(duì)健康語音數(shù)據(jù)依賴的限制，并在實(shí)驗(yàn)結(jié)果中顯示出顯著的性能優(yōu)勢(shì)，這對(duì)于未來進(jìn)一步研究和臨床應(yīng)用具有重要意義。

語音清晰度分類系統(tǒng)

文中開發(fā)的兩種系統(tǒng)，旨在將說話者的清晰度分為三類：低、中和高。一方面，第一種系統(tǒng)用作參考，包括提取不同的手工聲學(xué)特征集和 SVM 作為分類器。另一方面，第二種系統(tǒng)，即我們對(duì)該任務(wù)的提議，使用對(duì)數(shù)梅爾譜圖作為輸入，并使用 LSTM 網(wǎng)絡(luò)進(jìn)行分類。這兩種方法都遵循類似的步驟序列，為了更清晰地了解這項(xiàng)工作，圖 1 顯示了一個(gè)包含這些階段的框圖。

圖 1 語音可理解程度分類系統(tǒng)的框圖

1.預(yù)處理

預(yù)處理步驟包括對(duì)原始音頻信號(hào)應(yīng)用語音活動(dòng)檢測(cè)器（VAD），以去除靜音/噪聲幀。此階段背后的基本原理是，理論上，非語音幀不會(huì)傳達(dá)有關(guān)清晰度水平的信息。但是，正如前面所述，去除非語音區(qū)域會(huì)對(duì)系統(tǒng)的性能產(chǎn)生負(fù)面影響。因此，在兩種情況下都進(jìn)行了實(shí)驗(yàn)：有 VAD 和沒有 VAD。

2.特征提取

對(duì)于參考系統(tǒng)，提取了三組不同的聲學(xué)特征：(i) 梅爾頻率倒譜系數(shù) （MFCC）及其一階導(dǎo)數(shù)；(ii) 調(diào)制譜的平均能量；(iii) 在中提出的特征集。對(duì)于基于 LSTM 的系統(tǒng)，使用對(duì)數(shù)梅爾譜圖作為聲學(xué)特征。以下小節(jié)中，將簡(jiǎn)要介紹所有這些特征。

MFCC 及其一階導(dǎo)數(shù)

MFCC是自動(dòng)語音和說話人識(shí)別以及音頻分類任務(wù)中最流行的特征提取程序。因此，這些參數(shù)已針對(duì)所考慮的任務(wù)進(jìn)行了嘗試。MFCC 是通過對(duì)語音信號(hào)的對(duì)數(shù)梅爾譜圖應(yīng)用離散余弦變換 (DCT) 來逐幀提取的。計(jì)算出 MFCC 后，將它們的一階導(dǎo)數(shù)添加到最終的聲學(xué)向量中。

調(diào)制譜的平均能量

這組特征源自語音信號(hào)的調(diào)制譜，該譜測(cè)量了語音信號(hào)在不同調(diào)制頻率下的波動(dòng)。調(diào)制譜包含有關(guān)病理性語音中可能出現(xiàn)的幾種現(xiàn)象的信息，例如非習(xí)慣性的強(qiáng)度和速度變化、不精確的共發(fā)音或中斷和不流暢。

調(diào)制譜是通過使用 Falk 等人提出的方法，從音頻信號(hào)的頻譜時(shí)間表示中計(jì)算出來。其中，對(duì)應(yīng)于每個(gè)聲學(xué)頻帶的時(shí)間包絡(luò)用特定的調(diào)制濾波器組進(jìn)行濾波，從而獲得所謂的調(diào)制能量。最終的特征集由這些能量在所有語音幀上的平均值組成。圖 2 顯示了兩個(gè)不同語音記錄中調(diào)制能量平均值的兩個(gè)示例，其中橫軸和縱軸分別表示調(diào)制頻率和聲學(xué)頻率?？梢杂^察到，對(duì)于病理性說話者，調(diào)制能量通常高度集中在低調(diào)制頻率，如圖 2 (b) 中的示例所示，而對(duì)于高清晰度說話者，調(diào)制能量分布在更寬的頻率區(qū)域，如圖 2 (a) 中的示例所示。

圖2 (a)高清晰度和(b)低清晰度語音記錄的調(diào)制頻譜的平均能量。這兩句話都對(duì)應(yīng)于“jowls”這個(gè)詞

Falk 的特征

這組聲學(xué)特征最初是Falk 等人提出的，用于清晰度水平預(yù)測(cè)。它包含以下六個(gè)特征：

零階 MFCC 一階導(dǎo)數(shù)的標(biāo)準(zhǔn)差。該參數(shù)與信號(hào)的對(duì)數(shù)能量相關(guān)，可用于檢測(cè)語音強(qiáng)度中的異常。

線性預(yù)測(cè)殘差的峰度。該特征可以提供有關(guān)聲音嘶啞、音量損失或聲音氣喘的信息。

低調(diào)制與高調(diào)制比率 (LHMR)。該參數(shù)是對(duì)語音信號(hào)調(diào)制譜中包含的信息的總結(jié)。特別是，它是一個(gè)商，比較了低調(diào)制頻率（小于 4 Hz）和高調(diào)制頻率（大于 4 Hz）處的調(diào)制譜能量。

三個(gè)與韻律相關(guān)的特征：話語中濁音段的百分比，以及基頻的標(biāo)準(zhǔn)差和范圍。第一個(gè)特征可以提供有關(guān)由于發(fā)聲器官障礙導(dǎo)致的濁音發(fā)音異常的信息。第二個(gè)和第三個(gè)參數(shù)有助于檢測(cè)單調(diào)語音（構(gòu)音障礙的一種癥狀）以及聲音中的顫抖和震顫。

對(duì)數(shù)梅爾譜圖

最后一組特征對(duì)應(yīng)于音頻信號(hào)的譜圖，該譜圖首先使用由梅爾尺度濾波器組成的聽覺濾波器組映射到梅爾頻率間距，然后轉(zhuǎn)換為對(duì)數(shù)尺度。梅爾尺度是一種頻率扭曲，試圖模擬人類聽覺在不同頻率下的非均勻敏感性。

3.分類器

一般的分類器主要分為SVM和LSTM。SVM主要采用一對(duì)一策略和高斯核。LSTM 是一種專門設(shè)計(jì)用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)架構(gòu)，具有記憶單元和門控機(jī)制，可以有效地處理長(zhǎng)期依賴關(guān)系。在文章中，作者設(shè)計(jì)了幾種不同的 LSTM 架構(gòu)來進(jìn)行分類任務(wù)，包括基本 LSTM、LSTM with Mean-Pooling 和 LSTM with Attention-Pooling。

這些 LSTM 架構(gòu)會(huì)接受音頻記錄中的特征作為輸入，并通過訓(xùn)練學(xué)習(xí)特征之間的關(guān)系，從而對(duì)音頻記錄進(jìn)行分類。訓(xùn)練過程中，使用了隨機(jī)梯度下降和 Adam 優(yōu)化方法來調(diào)整網(wǎng)絡(luò)參數(shù)，以使模型能夠更好地?cái)M合數(shù)據(jù)。此外，在某些架構(gòu)中還實(shí)施了 dropout 技術(shù)，以減少過度擬合現(xiàn)象。

在實(shí)現(xiàn) LSTM with Attention-Pooling 架構(gòu)時(shí)，還引入了注意力機(jī)制，用于動(dòng)態(tài)地計(jì)算每個(gè) LSTM 幀的權(quán)重，以便更加關(guān)注對(duì)分類任務(wù)有重要影響的幀。這有助于提高模型的性能和準(zhǔn)確率。

實(shí) 驗(yàn)

1.數(shù)據(jù)庫

用于實(shí)驗(yàn)的數(shù)據(jù)集是 UA-Speech 數(shù)據(jù)庫，包含 15 人患有不同程度構(gòu)音障礙和 13 名健康對(duì)照組人員的錄音。音頻以 16 KHz 頻率使用 7 個(gè)麥克風(fēng)錄制，包括數(shù)字、計(jì)算機(jī)命令、簡(jiǎn)單詞語、復(fù)雜詞語和無線電字母表。數(shù)據(jù)庫中的語音根據(jù)專家聽錄音并寫下理解的單詞百分比進(jìn)行醫(yī)學(xué)測(cè)試，得到清晰度得分，范圍為 0 到 100，經(jīng)修改后分為低清晰度、中等清晰度和高清晰度三個(gè)類別。實(shí)驗(yàn)未使用健康對(duì)照組的音頻，僅考慮第六個(gè)麥克風(fēng)上的語音信號(hào)，總文件數(shù)量為 9,140 個(gè)。實(shí)驗(yàn)以說話者無關(guān)方式配置，訓(xùn)練集、驗(yàn)證集和測(cè)試集中包含不同的說話者，避免模型學(xué)習(xí)說話者身份或環(huán)境聲學(xué)條件而非清晰度水平。

2.預(yù)處理和特征提取

在預(yù)處理階段，對(duì)語音信號(hào)進(jìn)行分幀和加窗，并使用 VAD（語音活動(dòng)檢測(cè)）來去除靜音片段。特征提取方面，參考系統(tǒng)使用了三種特征：MFCC 和其一階導(dǎo)數(shù)、調(diào)制譜的平均能量以及 Falk’s features。LSTM 系統(tǒng)則使用 log-mel spectrogram 特征，該特征包含 32 個(gè) log-Mel 濾波器能量，每 10 毫秒計(jì)算一次。

3.分類器

參考系統(tǒng)使用 SVM 分類器，采用 one-vs-all 策略和高斯核函數(shù)。LSTM 系統(tǒng)則使用了三種不同的 LSTM 架構(gòu)：Basic LSTM、LSTM Mean-Pooling 和 LSTM Attention-Pooling。

4.結(jié)果

實(shí)驗(yàn)結(jié)果表明，LSTM 系統(tǒng)在該任務(wù)中取得了更好的性能，特別是 LSTM Attention-Pooling 架構(gòu)，其準(zhǔn)確率達(dá)到了 76.97%±0.28%，顯著優(yōu)于參考系統(tǒng)。Mean-Pooling 策略進(jìn)一步也提升了 LSTM 模型的性能，表明 LSTM 框架中的所有幀都包含有價(jià)值的信息，不應(yīng)完全舍棄。而注意力機(jī)制通過學(xué)習(xí)語音片段的重要性，進(jìn)一步提升了 LSTM 模型的性能，表明該機(jī)制在處理語音清晰度分類任務(wù)中具有顯著的優(yōu)勢(shì)。最后，VAD 預(yù)處理步驟對(duì)于語音清晰度分類任務(wù)的性能提升并不顯著，甚至可能導(dǎo)致性能下降。這表明沉默片段和語音中的其他人工制品（如口吃或猶豫）可能包含有關(guān)語音清晰度的重要信息。

圖片

表：基于lstm的分類器實(shí)現(xiàn)的分類率[%]

結(jié)論

研究表明，基于 LSTM 網(wǎng)絡(luò)和 log-mel 譜圖的自動(dòng)語音清晰度分類系統(tǒng)，結(jié)合注意力機(jī)制，能夠有效地預(yù)測(cè)語音清晰度水平。該系統(tǒng)在性能上顯著優(yōu)于傳統(tǒng)的 SVM 模型，并展現(xiàn)出良好的應(yīng)用前景。

參考文獻(xiàn)

1. Fernández-Díaz M, Gallardo-Antolín A. An attention Long Short-Term Memory based system for automatic classification of speech intelligibility[J]. Engineering Applications of Artificial Intelligence, 2024, 96: 103976.

責(zé)任編輯：武曉燕來源：中國保密協(xié)會(huì)科學(xué)技術(shù)分會(huì)

分類系統(tǒng)語音

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="4kse3"></style>

<sub id="4kse3"><p id="4kse3"></p></sub>

<blockquote id="4kse3"><i id="4kse3"></i></blockquote>

<style id="4kse3"></style>

<blockquote id="4kse3"><i id="4kse3"><video id="4kse3"></video></i></blockquote>