突破瓶頸,嵌入式AI神經(jīng)持續(xù)學(xué)習(xí)引擎—Replay4NCL
阿聯(lián)酋大學(xué)、紐約大學(xué)阿布扎比分校以及巴基斯坦國立科技大學(xué)的研究人員,聯(lián)合推出了一種高效內(nèi)存重放方法Replay4NCL,以解決嵌入式 AI 系統(tǒng)在動(dòng)態(tài)環(huán)境中持續(xù)學(xué)習(xí)的難題。
值得一提的是,該研究成果已經(jīng)被第62屆設(shè)計(jì)自動(dòng)化大會(huì)(DAC)審核通過,會(huì)在2025年6月在舊金山舉辦的大會(huì)上展示。
隨著AI技術(shù)的快速迭代發(fā)展,嵌入式 AI 系統(tǒng)在各種應(yīng)用場(chǎng)景中扮演著越來越重要的角色,例如,移動(dòng)機(jī)器人、無人駕駛、無人機(jī)等。這些系統(tǒng)需要具備持續(xù)學(xué)習(xí)的能力,以適應(yīng)動(dòng)態(tài)變化的環(huán)境,同時(shí)避免災(zāi)難性遺忘。
但傳統(tǒng)的持續(xù)學(xué)習(xí)方法在嵌入式系統(tǒng)中面臨著顯著的延遲、能量消耗和內(nèi)存占用問題,而Replay4NCL通過優(yōu)化記憶重放過程,為嵌入式 AI 系統(tǒng)提供了一種高效的神經(jīng)形態(tài)持續(xù)學(xué)習(xí)解決方案。
Replay4NCL核心架構(gòu)介紹
Replay4NCL的第一個(gè)核心創(chuàng)新模塊是時(shí)序優(yōu)化。在脈沖神經(jīng)網(wǎng)絡(luò)中,時(shí)序是一個(gè)關(guān)鍵參數(shù),決定了神經(jīng)元在每個(gè)時(shí)間步內(nèi)處理信息的頻率。
傳統(tǒng)的 SNN 模型通常采用較長的時(shí)序,以確保網(wǎng)絡(luò)能夠充分處理輸入數(shù)據(jù)并達(dá)到較高的精度。然而,長時(shí)序也帶來了顯著的處理延遲,這對(duì)于需要快速響應(yīng)的嵌入式 AI 系統(tǒng)來說是不可接受的。
Replay4NCL通過實(shí)驗(yàn)研究了不同時(shí)序設(shè)置對(duì)網(wǎng)絡(luò)精度和延遲的影響。研究人員發(fā)現(xiàn),將時(shí)序從傳統(tǒng)的 100 降低到 40,雖然會(huì)導(dǎo)致精度略有下降,但仍然能夠保持在可接受的范圍內(nèi),同時(shí)顯著減少了處理時(shí)間。這一發(fā)現(xiàn)為優(yōu)化時(shí)序提供了理論依據(jù)。此外,
Replay4NCL還引入了一種基于減少時(shí)序的數(shù)據(jù)壓縮 - 解壓縮機(jī)制,進(jìn)一步減少了潛在數(shù)據(jù)(舊知識(shí))的內(nèi)存占用。通過這種機(jī)制,潛在數(shù)據(jù)在存儲(chǔ)時(shí)被壓縮,而在使用時(shí)再進(jìn)行解壓縮,從而在不損失信息的前提下,顯著減少了潛在數(shù)據(jù)的存儲(chǔ)空間。
時(shí)序的減少雖然降低了延遲和內(nèi)存占用,但也帶來了新的挑戰(zhàn)。由于時(shí)序減少,神經(jīng)元接收到的脈沖數(shù)量減少,這可能導(dǎo)致神經(jīng)元的膜電位難以達(dá)到閾值電位,從而影響網(wǎng)絡(luò)的性能。為了解決這一難題,Replay4NCL提出了參數(shù)調(diào)整模塊,通過調(diào)整神經(jīng)元的閾值電位和學(xué)習(xí)率來彌補(bǔ)信息損失。
研究人員降低了閾值電位 Vthr 的值,使得神經(jīng)元更容易發(fā)射脈沖,即使在脈沖數(shù)量較少的情況下,也能夠保持與原始預(yù)訓(xùn)練模型相近的脈沖活動(dòng)。同時(shí),學(xué)習(xí)率也被降低,以減緩網(wǎng)絡(luò)的學(xué)習(xí)速度。這一調(diào)整確保了在訓(xùn)練階段,網(wǎng)絡(luò)能夠更加謹(jǐn)慎地更新權(quán)重,尤其是在脈沖數(shù)量較少的情況下,從而提高了網(wǎng)絡(luò)對(duì)舊知識(shí)的保持能力和對(duì)新知識(shí)的學(xué)習(xí)能力。
Replay4NCL的另一個(gè)核心創(chuàng)新是其動(dòng)態(tài)訓(xùn)練策略,可將時(shí)序優(yōu)化、參數(shù)調(diào)整和潛在重放數(shù)據(jù)插入策略有機(jī)地結(jié)合起來,形成了一種高效的訓(xùn)練機(jī)制。
在預(yù)訓(xùn)練階段,SNN 模型首先被訓(xùn)練以學(xué)習(xí)所有預(yù)訓(xùn)練任務(wù)。在準(zhǔn)備網(wǎng)絡(luò)進(jìn)行持續(xù)學(xué)習(xí)訓(xùn)練階段時(shí),模型會(huì)生成LR 數(shù)據(jù)激活,并根據(jù)選定的層將網(wǎng)絡(luò)分割為兩部分:凍結(jié)層和學(xué)習(xí)層。凍結(jié)層負(fù)責(zé)將輸入脈沖傳遞到學(xué)習(xí)層,而學(xué)習(xí)層則在訓(xùn)練新任務(wù)時(shí)進(jìn)行更新。
在持續(xù)學(xué)習(xí)訓(xùn)練階段,網(wǎng)絡(luò)會(huì)動(dòng)態(tài)調(diào)整閾值電位和學(xué)習(xí)率。通過這種方式,網(wǎng)絡(luò)能夠在處理較少脈沖的情況下,仍然保持高效的權(quán)重更新和學(xué)習(xí)能力。
實(shí)驗(yàn)數(shù)據(jù)
為了測(cè)試Replay4NCL 的性能,研究人員在Spiking Heidelberg Digits、Class-Incremental Learning上進(jìn)行了綜合評(píng)估,來檢測(cè)其精度、處理延遲和內(nèi)存占用等關(guān)鍵參數(shù)。
實(shí)驗(yàn)結(jié)果顯示,Replay4NCL在保持舊知識(shí)方面表現(xiàn)出色,其 Top-1 精度達(dá)到了 90.43%,相比現(xiàn)有的最先進(jìn)方法SpikingLR提高了 4.21 個(gè)百分點(diǎn)。同時(shí),在學(xué)習(xí)新任務(wù)時(shí),Replay4NCL 方法也展現(xiàn)出了良好的性能,其精度與 SpikingLR 方法相當(dāng)。
在處理延遲方面,Replay4NCL 方法取得了顯著的改進(jìn)。與時(shí)序?yàn)?00的 SpikingLR 方法相比,Replay4NCL方法通過采用 40 時(shí)序的設(shè)置,將處理延遲降低了 4.88 倍。這一改進(jìn)使得嵌入式 AI 系統(tǒng)能夠更快地響應(yīng)輸入信號(hào),提高了系統(tǒng)的實(shí)時(shí)性。
在潛在數(shù)據(jù)內(nèi)存占用方面,Replay4NCL 方法也取得了顯著的節(jié)省。由于采用了減少時(shí)序的數(shù)據(jù)壓縮 - 解壓縮機(jī)制,Replay4NCL 方法將潛在數(shù)據(jù)的內(nèi)存占用減少了20%。這一節(jié)省對(duì)于資源受限的嵌入式 AI 系統(tǒng)來說至關(guān)重要,因?yàn)樗梢燥@著減少系統(tǒng)的存儲(chǔ)需求,從而降低硬件成本和功耗。
在能量消耗方面,Replay4NCL 方法同樣表現(xiàn)出色。實(shí)驗(yàn)結(jié)果表明,與 SpikingLR 方法相比,Replay4NCL 方法將能量消耗降低了 36.43%。這一節(jié)能效果主要得益于減少的時(shí)序設(shè)置,因?yàn)樗鼫p少了脈沖的生成和處理數(shù)量,從而降低了系統(tǒng)的能量消耗。