聊聊圖像識(shí)別:循環(huán)神經(jīng)網(wǎng)絡(luò)
本文轉(zhuǎn)載自微信公眾號(hào)「活在信息時(shí)代」,作者活在信息時(shí)代。轉(zhuǎn)載本文請(qǐng)聯(lián)系活在信息時(shí)代公眾號(hào)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)主要是用來(lái)解決序列數(shù)據(jù)問(wèn)題。它之所以成為循環(huán)神經(jīng)網(wǎng)絡(luò),是因?yàn)橐粋€(gè)序列的當(dāng)前輸出與前面的輸出也是有關(guān)的。RNN網(wǎng)絡(luò)對(duì)之前時(shí)刻的信息進(jìn)行記憶,并運(yùn)用到當(dāng)前輸出計(jì)算中,與卷積神經(jīng)網(wǎng)絡(luò)不同,循環(huán)神經(jīng)網(wǎng)絡(luò)隱藏層之間的神經(jīng)元是相互連接的,隱藏層中神經(jīng)元的輸入是由輸入層的輸出和上一時(shí)刻隱藏神經(jīng)元的輸出共同構(gòu)成。雖然RNN網(wǎng)絡(luò)取得了一些顯著成果,但是有一些缺點(diǎn)和局限,如:訓(xùn)練難度大、準(zhǔn)確度低、效率低、時(shí)間長(zhǎng)等,故基于RNN之上的一些改進(jìn)的網(wǎng)絡(luò)模型逐漸被研發(fā)出來(lái),如:長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),雙向RNN,雙向LSTM、GRU等。這些改進(jìn)的RNN模型在圖像識(shí)別領(lǐng)域表現(xiàn)出了顯出的效果,并被廣泛應(yīng)用。以LSTM網(wǎng)絡(luò)為例,介紹下其主要網(wǎng)絡(luò)結(jié)構(gòu)。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)解決了RNN存在著梯度消失或梯度爆炸等問(wèn)題,可以學(xué)習(xí)長(zhǎng)期依賴問(wèn)題。其結(jié)構(gòu)如下。
LSTM擁有三個(gè)門來(lái)讓信息選擇式通過(guò):遺忘門、輸入門、輸出門。其中遺忘門決定著哪些信息可以通過(guò)這個(gè)cell。它通過(guò)一個(gè)sigmoid神經(jīng)層來(lái)實(shí)現(xiàn)。它的輸入是,輸出是一個(gè)數(shù)值在(0,1)之間的向量,表示著讓的各部分信息通過(guò)的比重。0表示“不讓任何信息通過(guò)”,1表示“讓所有信息通過(guò)”。
輸入門決定著讓多少新的信息加入到cell狀態(tài)中來(lái),一個(gè)tanh層生成一個(gè)向量,也就是備選的用來(lái)更新的內(nèi)容。
更新cell狀態(tài):
輸出門決定中的哪部分信息被輸出:
GRU網(wǎng)絡(luò)模型也同樣解決了RNN存在著梯度消失或梯度爆炸等問(wèn)題,能夠?qū)W習(xí)長(zhǎng)期依賴關(guān)系,是LSTM的一種變形,結(jié)構(gòu)比LSTM簡(jiǎn)單,具有更少的參數(shù),訓(xùn)練時(shí)間也較LSTM有所縮短。也廣泛應(yīng)用于語(yǔ)音識(shí)別、圖像描述、自然語(yǔ)言處理等場(chǎng)景。