基于對數(shù)譜圖的深度學習心音分類
這是一篇很有意思的論文,他基于心音信號的對數(shù)譜圖,提出了兩種心率音分類模型,我們都知道:頻譜圖在語音識別上是廣泛應用的,這篇論文將心音信號作為語音信號處理,并且得到了很好的效果。
對心音信號進行一致長度的分幀,提取其對數(shù)譜圖特征,論文提出了長短期記憶(LSTM)和卷積神經(jīng)網(wǎng)絡(CNN)兩種深度學習模型,根據(jù)提取的特征對心跳聲進行分類。
心音數(shù)據(jù)集
影像學診斷包括心臟核磁共振成像(MRI)、CT掃描、心肌灌注成像。這些技術的缺點也很明顯對現(xiàn)代機械、專業(yè)人員的要求高,診斷時間長。
論文使用的是公共數(shù)據(jù)集,由1000個。wav格式的信號樣本組成,采樣頻率為8 kHz。數(shù)據(jù)集分為5類,包括1個正常類(N)和4個異常類:主動脈瓣狹窄(AS)、二尖瓣反流(MR)、二尖瓣狹窄(MS)和二尖瓣脫垂(MVP)。
主動脈瓣狹窄(AS)是指主動脈瓣太小、狹窄或僵硬。主動脈瓣狹窄的典型雜音是高音調(diào)的“菱形”雜音。
二尖瓣返流(MR)是指心臟的二尖瓣沒有正常關閉,導致血液回流到心臟而不是被泵出。聽診胎兒心臟時,S1可能很低(有時很響)。直到S2,雜音的音量增加。由于S3后二尖瓣急流,可聽到短而隆隆聲的舒張中期雜音。
二尖瓣狹窄(MS)是指二尖瓣受損不能完全打開。心音聽診顯示二尖瓣狹窄早期S1加重,嚴重二尖瓣狹窄時S1軟。隨著肺動脈高壓的發(fā)展,S2音將被強調(diào)。純多發(fā)性硬化癥患者幾乎沒有左室S3。
二尖瓣脫垂(MVP)是指在心臟收縮期二尖瓣小葉脫垂至左心房。MVP通常是良性的,但并發(fā)癥包括二尖瓣反流、心內(nèi)膜炎和脊索斷裂。體征包括收縮期中期的咔嗒聲和收縮期晚期的雜音(如果存在反流)。
預處理與特征提取
聲音信號有不同的長度。所以需要固定每個記錄文件的采樣率。長度被裁剪后使聲音信號包含至少一個完整的心臟周期。成年人每分鐘心跳65-75次,心跳周期約為0.8秒,所以信號樣本被裁剪為2.0-s, 1.5-s和1.0-s段。
基于離散傅里葉變換(DFT),將心音信號的原始波形轉(zhuǎn)換為對數(shù)譜圖。聲音信號的DFT y(k)為Eq.(1),對數(shù)譜圖s定義為Eq.(2)。
式中,N為向量x的長度,ε = 10^(- 6)是一個小偏移量。部分心音樣本的波形和對數(shù)譜圖如下:
深度學習模型
1、LSTM
LSTM模型設計為2層直接連接,然后是3層完全連接。第三個完全連接的層輸入softmax分類器。
2、CNN模型
如上圖所示,前兩個卷積層之后是重疊的最大池化層。第三個卷積層直接連接到第一個全連接層。第二個完全連接的層提供給具有五個類標簽的softmax分類器。在每個卷積層之后使用BN和ReLU。
3、訓練細節(jié)
結(jié)果
訓練集包含整個數(shù)據(jù)集的70%,測試集包含其余部分。
當CNN模型片段持續(xù)時間為2.0 s時,準確率最高為0.9967;分割時間為1.0 s的LSTM準確率最低為0.9300。
CNN模型的整體準確率分別為0.9967、0.9933和0.9900,片段持續(xù)時間分別為2.0 s、1.5 s和1.0 s,而LSTM模型的這三個數(shù)字分別為0.9500、0.9700和0.9300。
CNN模型比LSTM模型在各時段的預測精度更高。
混淆矩陣如下:
N類(Normal)的預測正確率最高,在5個案例中達到60個,而MVP類在所有案例中預測正確率最低。
LSTM模型輸入時間長度為2.0 s,最長預測時間為9.8631 ms。分類時間為1.0 s的CNN模型預測時間最短,為4.2686 ms。
與其他SOTA比較,一些研究的準確率非常高,但這些研究只進行了兩類(正常和異常),而本研究分為五類。
與使用相同數(shù)據(jù)集的其他研究相比(0.9700),論文研究有了顯著提高,最高準確率為0.9967。