高級(jí)長(zhǎng)短期記憶網(wǎng)絡(luò):關(guān)于更優(yōu)時(shí)間依賴性刻畫在情感識(shí)別方面的應(yīng)用
原創(chuàng)【51CTO.com原創(chuàng)稿件】長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)隱含了這樣一個(gè)假設(shè),本層的現(xiàn)時(shí)狀態(tài)依賴于前一時(shí)刻的狀態(tài)。這種“一步”的時(shí)間依賴性,可能會(huì)限制LSTM對(duì)于序列信號(hào)動(dòng)態(tài)特性的建模。在這篇論文里,針對(duì)這樣的一個(gè)問題,我們提出了高級(jí)長(zhǎng)短期記憶網(wǎng)絡(luò)(advanced LSTM (A-LSTM)),利用線性組合,將若干時(shí)間點(diǎn)的本層狀態(tài)都結(jié)合起來(lái),以打破傳統(tǒng)LSTM的這種局限性。在這篇文章中,我們將A-LSTM應(yīng)用于情感識(shí)別中。實(shí)驗(yàn)結(jié)果顯示,與應(yīng)用傳統(tǒng)LSTM 的系統(tǒng)相比,應(yīng)用了A-LSTM的系統(tǒng)能相對(duì)提高5.5%的識(shí)別率。
研究背景
LSTM 現(xiàn)在被廣泛的應(yīng)用在RNN中。它促進(jìn)了RNN在對(duì)序列信號(hào)建模的應(yīng)用當(dāng)中。LSTM 有兩個(gè)輸入,一個(gè)來(lái)源于前一層,還有一個(gè)來(lái)源于本層的前一個(gè)時(shí)刻。因此,LSTM隱含了這樣一個(gè)假設(shè),本層的現(xiàn)時(shí)狀態(tài)依賴于前一時(shí)刻的狀態(tài)。這種“一步”的時(shí)間依賴性,可能會(huì)限制LSTM對(duì)于序列信號(hào)動(dòng)態(tài)特性的建模(尤其對(duì)一些時(shí)間依賴性在時(shí)間軸上跨度比較大的任務(wù))。在這篇論文里,針對(duì)這樣的一個(gè)問題,我們提出了advanced LSTM (A-LSTM),以期打破傳統(tǒng)LSTM的這種局限性。A-LSTM利用線性組合,將若干時(shí)間點(diǎn)的本層狀態(tài)都結(jié)合起來(lái),因此不僅可以看到”一步“以前的狀態(tài),還可以看到更遠(yuǎn)以前的歷史狀態(tài)。
在這篇文章中,我們把A-LSTM應(yīng)用到整句話層級(jí)(utterance level)上的情感識(shí)別任務(wù)中。傳統(tǒng)的情感識(shí)別依賴于在整句話上提取底端特征(low level descriptors)的統(tǒng)計(jì)數(shù)據(jù),比如平均值,方差等等。由于實(shí)際應(yīng)用中,整句話中可能會(huì)有一些長(zhǎng)靜音,或者是一些非語(yǔ)音的聲音,這種統(tǒng)計(jì)數(shù)據(jù)就可能不準(zhǔn)確。在這篇論文中,我們使用基于注意力模型(attention model)的加權(quán)池化(weighted pooling)遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network)來(lái)更有效的提取整句話層級(jí)上的特征。
高級(jí)長(zhǎng)短期記憶網(wǎng)絡(luò)
A-LSTM利用線性組合,將若干時(shí)間點(diǎn)的本層狀態(tài)都結(jié)合起來(lái)。這其中的線性組合是利用與注意力模型(attention model)類似的機(jī)制進(jìn)行計(jì)算的。具體公式如下。
Fig 1 中C'(t)即為前面若干時(shí)間狀態(tài)的線性組合。這個(gè)線性組合以后的時(shí)間狀態(tài)將被輸入下一時(shí)間點(diǎn)進(jìn)行更新。可以想象,每次的更新都不只是針對(duì)前一時(shí)刻,而是對(duì)若干時(shí)刻的組合進(jìn)行更新。由于這種組合的權(quán)重是有注意力模型控制,A-LSTM可以通過學(xué)習(xí)來(lái)自動(dòng)調(diào)節(jié)各時(shí)間點(diǎn)之間的權(quán)重占比。如果依賴性在時(shí)間跨度上比較大,則更遠(yuǎn)以前的歷史狀態(tài)可能會(huì)占相對(duì)大的比重;反之,比較近的歷史狀態(tài)會(huì)占相對(duì)大的比重。
Fig 1 The unrolled A-LSTM
加權(quán)池化遞歸神經(jīng)網(wǎng)絡(luò)
Fig 2 The attention based weighted pooling RNN.
在這篇論文中,我們使用基于注意力模型的加權(quán)池化遞歸神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行情感識(shí)別(見Fig 2)。這一神經(jīng)網(wǎng)絡(luò)的輸入是序列聲學(xué)信號(hào)。利用注意力模型,我們的神經(jīng)網(wǎng)絡(luò)可以自動(dòng)調(diào)整各個(gè)時(shí)間點(diǎn)上的權(quán)重,然后將各個(gè)時(shí)間點(diǎn)上的輸出進(jìn)行加權(quán)平均(加權(quán)池化)。加權(quán)平均的結(jié)果是一個(gè)能夠表征這一整串序列的表達(dá)。由于注意力模型的存在,這一表達(dá)的提取可以包含有效信息,規(guī)避無(wú)用信息(比如輸入序列中中的一些長(zhǎng)時(shí)間的靜音部分)。這就比簡(jiǎn)單的計(jì)算一整個(gè)序列的統(tǒng)計(jì)數(shù)值要更好(比如有opensmile提取的一些底端特征)。 為了更好的訓(xùn)練模型,我們?cè)谇楦凶R(shí)別任務(wù)之外還添加了兩個(gè)輔助任務(wù),說(shuō)話人識(shí)別和性別識(shí)別。 我們?cè)谶@個(gè)模型當(dāng)中使用了A-LSTM來(lái)提升系統(tǒng)性能。
實(shí)驗(yàn)
在實(shí)驗(yàn)階段,我們使用IEMOCAP數(shù)據(jù)集中的四類數(shù)據(jù)(高興,憤怒,悲傷和普通)。這其中一共有4490句語(yǔ)音文件。我們隨機(jī)選取1位男性和1位女性說(shuō)話人的數(shù)據(jù)作為測(cè)試數(shù)據(jù)。其余的數(shù)據(jù)用來(lái)訓(xùn)練(其中的10%的數(shù)據(jù)用來(lái)做驗(yàn)證數(shù)據(jù))。我們采用三個(gè)衡量指標(biāo),分別為無(wú)權(quán)重平均F-score(MAF),無(wú)權(quán)重平均精密度(MAP),以及準(zhǔn)確率(accuracy)。
我們提取了MECC,信號(hào)過零率(zero crossing rate),能量,能量熵,頻譜矩心(spectral centroid),頻譜流量(spectral flux),頻譜滾邊(spectral rolloff),12維彩度向量(chroma vector),色度偏差(chroma deviation),諧波比(harmonic ratior) 以及語(yǔ)音基頻,一共36維特征。對(duì)這些序列特征進(jìn)行整句話層級(jí)上的歸一化后,將其送入系統(tǒng)進(jìn)行訓(xùn)練或測(cè)試。
在這個(gè)實(shí)驗(yàn)中,我們的系統(tǒng)有兩層神經(jīng)元層,***層位全連接層(fully connected layer),共有256個(gè)精餾線性神經(jīng)元組成(rectified linear unit)。第二層位雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional LSTM (BLST))。兩個(gè)方向一共有256個(gè)神經(jīng)元。之后即為基于注意力模型的加權(quán)池化層。最上方為三個(gè)柔性***值傳輸函數(shù)層,分別對(duì)應(yīng)三個(gè)任務(wù)。我們給三個(gè)任務(wù)分配了不同的權(quán)重,其中情感識(shí)別權(quán)重為1,說(shuō)話人識(shí)別權(quán)重為0.3,性別識(shí)別為0.6。如果是應(yīng)用A-LSTM,我們就將第二層的BLSTM替換成雙向的A-LSTM,其他的所有參數(shù)都不變。這里的A-LSTM選取三個(gè)時(shí)間點(diǎn)的狀態(tài)作線性組合,分別為5個(gè)時(shí)間點(diǎn)前(t-5),3個(gè)時(shí)間點(diǎn)前(t-3),以及1個(gè)時(shí)間點(diǎn)前(t-1)。實(shí)驗(yàn)結(jié)果如下:
其中的mean LSTM 與A-LSTM比較類似,唯一區(qū)別是,當(dāng)我們?yōu)檫x取的幾個(gè)時(shí)間點(diǎn)的狀態(tài)作線性組合的時(shí)候,不是采用注意力模型,而是簡(jiǎn)單的做算術(shù)平均。
結(jié)論
與應(yīng)用傳統(tǒng)LSTM 的系統(tǒng)相比,應(yīng)用了A-LSTM的系統(tǒng)顯示出了更好的識(shí)別率。由于加權(quán)池化過程是將所有時(shí)間點(diǎn)上的輸出進(jìn)行加權(quán)平均,因此系統(tǒng)性能的提升只可能是來(lái)源于A-LSTM更加靈活的時(shí)間依賴性模型,而非其他因素,例如高層看到更多時(shí)間點(diǎn)等等。并且,這一提升的代價(jià)只會(huì)增加了數(shù)百個(gè)參數(shù)。
作者:陶菲/Fei Tao, 劉剛/Gang Liu
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】