「稀疏編碼」從理論走向?qū)嵱?!馬毅教授NeurIPS 2022新作:稀疏卷積性能和穩(wěn)健性超越ResNet
盡管深度神經(jīng)網(wǎng)絡(luò)在圖像分類方面具有很強(qiáng)的經(jīng)驗性能(empirical performance),但這類模型往往被視為「黑盒」,最為人詬病的就是「難以解釋」。
相比之下,稀疏卷積模型(sparse convolutional models)也是分析自然圖像的強(qiáng)大工具,其假設(shè)一個信號可以由卷積字典(convolutional dictionary)中的幾個元素的線性組合來表達(dá),具有良好的理論可解釋性和生物合理性。
但在實際應(yīng)用中,稀疏卷積模型雖然原理上行得通,但與經(jīng)驗設(shè)計的深層網(wǎng)絡(luò)相比并沒有展現(xiàn)出應(yīng)有的性能優(yōu)勢。
最近,馬毅教授研究組在NeurIPS 2022上發(fā)表了一篇新論文,回顧了稀疏卷積模型在圖像分類中的應(yīng)用,并成功解決了稀疏卷積模型的經(jīng)驗性能和可解釋性之間的不匹配問題。
論文鏈接:?https://arxiv.org/pdf/2210.12945.pdf?
代碼鏈接:?https://github.com/Delay-Xili/SDNet?
文中提出的可微優(yōu)化層使用卷積稀疏編碼(CSC)對標(biāo)準(zhǔn)卷積層進(jìn)行替換。
結(jié)果表明,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,這些模型在 CIFAR-10、 CIFAR-100和 ImageNet 數(shù)據(jù)集上具有同樣強(qiáng)的經(jīng)驗性能。
通過利用稀疏建模的穩(wěn)定恢復(fù)特性,研究人員進(jìn)一步表明,只需要在稀疏正則化和數(shù)據(jù)重構(gòu)項之間進(jìn)行簡單的適當(dāng)權(quán)衡,這些模型就可以對輸入損壞以及測試中的對抗性擾動具有更強(qiáng)的魯棒性。
馬毅教授于1995年獲得清華大學(xué)自動化與應(yīng)用數(shù)學(xué)雙學(xué)士學(xué)位,后求學(xué)于美國伯克利加州大學(xué),并于1997年獲EECS碩士學(xué)位,2000年獲數(shù)學(xué)碩士學(xué)位與EECS博士學(xué)位。
畢業(yè)后在美國伊利諾伊大學(xué)香檳分校任教,并成為該校電氣與計算機(jī)工程系歷史上最年輕的副教授。
2009年任微軟亞洲研究院視覺計算組高級研究員。2014年全職加入上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院。
2018年加入伯克利加州大學(xué)和清華-伯克利深圳學(xué)院,目前是加利福尼亞大學(xué)伯克利分校電子工程與計算機(jī)科學(xué)系教授,同時也是IEEE Fellow, ACM Fellow, SIAM Fellow
馬毅教授的研究興趣包括 3D 計算機(jī)視覺、高維數(shù)據(jù)的低維模型、可擴(kuò)展性優(yōu)化和機(jī)器學(xué)習(xí),近來的研究主題包括大規(guī)模 3D 幾何重構(gòu)和交互以及低維模型與深度網(wǎng)絡(luò)的關(guān)系。
稀疏卷積
雖然深度卷積網(wǎng)絡(luò)(ConvNets)已經(jīng)是圖像分類的主流方法,并且性能上也超越其他模型,但其內(nèi)部的組件如卷積、非線性函數(shù)和歸一化等的具體數(shù)據(jù)意義還沒有得到解釋。
而稀疏數(shù)據(jù)建模在學(xué)習(xí)可解釋表征的能力和強(qiáng)大的理論保證的支持下(例如處理損壞的數(shù)據(jù)),已被廣泛用于許多信號和圖像處理應(yīng)用,但其在ImageNet等數(shù)據(jù)集上的分類性能仍然不如經(jīng)驗性的深度模型。
即便性能較強(qiáng)的稀疏模型也仍然存在缺陷:
1)需要專門設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),限制了模型的適用性;
2)訓(xùn)練的計算速度要慢幾個數(shù)量級;
3)在可解釋性和穩(wěn)健性上沒有表現(xiàn)出明顯優(yōu)勢。
研究人員在這篇論文中提出了視覺識別框架,通過一個簡單的設(shè)計證明稀疏建??梢耘c深度學(xué)習(xí)相結(jié)合,假設(shè)層輸入可以由所有數(shù)據(jù)點(diǎn)所共享的字典中的幾個原子(atoms)來表示,從而獲得了與標(biāo)準(zhǔn)ConvNets相同的性能,同時具有更好的層級可解釋性和穩(wěn)定性。
該方法將稀疏建模封裝在一個隱層(implicit layer)中,并將其作為標(biāo)準(zhǔn)ConvNets中卷積層的替代。
相對于經(jīng)典的全連接或卷積層中所使用的顯式函數(shù)(explicit function),隱層使用隱函數(shù)。這篇論文中的隱層基于該層輸入和權(quán)重參數(shù)的優(yōu)化問題進(jìn)行定義,隱層的輸出就是優(yōu)化問題的解。
給定一個多維輸入信號,可以將層的函數(shù)定義為執(zhí)行反向映射到一個更好的稀疏輸出,輸出通道數(shù)可與輸入不同,從而可以找到上述Lasso類型優(yōu)化問題的一個最優(yōu)的稀疏解。
該隱層實現(xiàn)了卷積稀疏編碼(CSC)模型,其中輸入信號被卷積字典中的原子稀疏線性組合所逼近。這種卷積詞典可以看作是CSC層的參數(shù),通過反向傳播進(jìn)行訓(xùn)練。
CSC模型的目標(biāo)是通過A(z)算子重構(gòu)輸入信號,其中特征圖z指定了A中卷積過濾器的位置和值。為了對建模差異具有容錯度,重建并不要求精確。
基于確定的CSC層的輸入-輸出映射,就可以通過解決相關(guān)的優(yōu)化來進(jìn)行前向傳播,并通過得出最優(yōu)系數(shù)解相對于輸入x和參數(shù)A的梯度來進(jìn)行反向傳播。
然后,帶有CSC層的整個網(wǎng)絡(luò)可以通過最小化交叉熵?fù)p失,以端到端的方式從標(biāo)記的數(shù)據(jù)中進(jìn)行訓(xùn)練。
實驗結(jié)果
分類性能對比?
實驗用到的數(shù)據(jù)集為CIFAR-10和CIFAR-100,每個數(shù)據(jù)集包含50,000張訓(xùn)練圖像和10,000張測試圖像,每張圖像的尺寸為32×32,RGB通道。
除了將該方法與標(biāo)準(zhǔn)網(wǎng)絡(luò)架構(gòu)ResNet-18和ResNet-34進(jìn)行比較外,研究人員還與具有隱層架構(gòu)的MDEQ模型和具有稀疏建模架構(gòu)的SCN進(jìn)行比較。
實驗結(jié)果可以看到,在相似的模型規(guī)模下,SDNet-18/34的Top-1準(zhǔn)確率與ResNet-18/34相近或更高,同時具有相似的推理速度。結(jié)果表明該網(wǎng)絡(luò)有潛力作為現(xiàn)有數(shù)據(jù)驅(qū)動模型的強(qiáng)大替代品,因為SDNet模型在處理受損圖像上有額外的優(yōu)勢。
將SDNet-18模型與模型規(guī)模相似的MDEQ模型進(jìn)行了比較后,可以發(fā)現(xiàn)SDNet-18不僅比MDEQ更準(zhǔn)確,而且速度也快得多(>7倍)。需要注意的是,MDEQ不能像SDNet那樣處理受損的數(shù)據(jù)。
同樣使用稀疏建模的SCN網(wǎng)絡(luò)獲得了Top-1的準(zhǔn)確度,但SCN的一個重要缺點(diǎn)是它的訓(xùn)練速度非常慢,原因可能是SCN對圖像使用了基于patch的稀疏編碼模型,與卷積稀疏編碼模型相比,它需要在每個前向傳播中解決更多稀疏編碼問題,無法從并行計算中受益。
穩(wěn)健推理處理輸入擾動
為了測試該方法對輸入擾動的魯棒性,研究人員使用了CIFAR-10-C數(shù)據(jù)集,其中的數(shù)據(jù)被不同類型的合成噪聲和不同嚴(yán)重程度所破壞。
由于模型中CSC層對輸入信號和重建信號之間的entry-wise差異進(jìn)行懲罰,所以SDNet理論上應(yīng)該更適合于處理additive噪聲。
所以實驗部分主要關(guān)注于CIFAR-10-C中四種類型的additive噪聲,即高斯噪聲、shot噪聲、speckle噪聲和impulse噪聲,然后評估SDNet-18的準(zhǔn)確性,并將其性能與ResNet-18進(jìn)行比較。
可以看到,對于各種類型的噪聲和不同的嚴(yán)重程度(除了0、1和2級的impulse噪聲),適當(dāng)選擇一個不同于訓(xùn)練時使用的λ值有助于提高測試性能。
特別地,作為λ的函數(shù)的準(zhǔn)確度曲線表現(xiàn)出一個單模態(tài)的形狀,性能首先增加,然后減少。此外,在每種數(shù)據(jù)破壞類型中,達(dá)到性能峰值的λ值隨著破壞嚴(yán)重程度上升而單調(diào)地增加,觀察結(jié)果與預(yù)期一致。
處理對抗性擾動
研究人員在CIFAR-10測試數(shù)據(jù)集上使用PGD對SDNet(λ=0.1)生成對抗性擾動,擾動的L∞范式為8/255,擾動的L2范式為0.5。
與ResNet-18進(jìn)行對比可以看到,在λ=0.1的情況下,SDNet的表現(xiàn)并不比ResNet好多少,但可以通過調(diào)整參數(shù)λ來大幅提高魯棒性精度。