低成本算法,大幅提升視覺(jué)分類(lèi)魯棒性!悉尼大學(xué)華人團(tuán)隊(duì)發(fā)布全新EdgeNet方法
在深度神經(jīng)網(wǎng)絡(luò)時(shí)代,深度神經(jīng)網(wǎng)絡(luò)(DNNs)在視覺(jué)分類(lèi)任務(wù)中展現(xiàn)出了卓越的準(zhǔn)確性。然而,它們對(duì)額外噪聲,即對(duì)抗性攻擊,表現(xiàn)出了脆弱性。先前的研究假設(shè)這種脆弱性可能源于高準(zhǔn)確度的深度網(wǎng)絡(luò)過(guò)度依賴于與紋理和背景等無(wú)關(guān)緊要且不魯棒的特征。
最近的AAAI 2024學(xué)術(shù)會(huì)議上,悉尼大學(xué)的研究人員們揭示了「從圖像中提取的邊緣信息」能夠提供與形狀和前景相關(guān)的相關(guān)性強(qiáng)且魯棒的特征。
論文鏈接:https://ojs.aaai.org/index.php/AAAI/article/view/28110
這些特征在幫助預(yù)訓(xùn)練深度網(wǎng)絡(luò)改善對(duì)抗魯棒性的同時(shí),還不影響其在清晰圖像上的準(zhǔn)確性。
作者們提出了一種輕量級(jí)且即插即用的EdgeNet,可以無(wú)縫集成到現(xiàn)有的預(yù)訓(xùn)練深度網(wǎng)絡(luò)中,包括Vision Transformers (ViTs),這是最新一代用于視覺(jué)分類(lèi)的先進(jìn)模型家族。
EdgeNet可以處理從干凈的自然圖像或嘈雜的對(duì)抗性圖像中提取的邊緣,產(chǎn)生魯棒的特征,可以注入到預(yù)訓(xùn)練好并被凍結(jié)的的骨干深度網(wǎng)絡(luò)的中間層。
值得注意的是,這種方法帶來(lái)的額外成本極低:使用傳統(tǒng)的邊緣檢測(cè)算法(例如文中所用的 Canny 邊緣檢測(cè)器)獲取這些邊緣的成本與深度網(wǎng)絡(luò)的推理成本相比微乎其微;而訓(xùn)練EdgeNet 的成本則與使用諸如 Adapter 等技術(shù)對(duì)骨干網(wǎng)絡(luò)進(jìn)行微調(diào)的成本不相上下。
EdgeNet 架構(gòu)
為了將圖像中的邊緣信息注入到預(yù)訓(xùn)練的骨干網(wǎng)絡(luò)中,作者引入了一個(gè)名為 EdgeNet 的側(cè)支網(wǎng)絡(luò)。這個(gè)輕量級(jí)、即插即用的側(cè)枝網(wǎng)絡(luò)可以無(wú)縫地集成到現(xiàn)有的預(yù)訓(xùn)練深度網(wǎng)絡(luò)中,包括像 ViTs 這樣的最新模型。
EdgeNet 通過(guò)處理從輸入圖像中提取的邊緣信息運(yùn)行。這個(gè)過(guò)程產(chǎn)生了一組具有魯棒性的特征,可以被選擇性地注入到預(yù)訓(xùn)練好并被凍結(jié)的骨干深度網(wǎng)絡(luò)的中間層。
通過(guò)注入這些魯棒特征,能夠提升網(wǎng)絡(luò)在防御對(duì)抗性擾動(dòng)方面的能力。同時(shí),由于骨干網(wǎng)絡(luò)是被凍結(jié)的,而新特征的注入是有選擇性的,所以可以保持預(yù)訓(xùn)練網(wǎng)絡(luò)在識(shí)別未經(jīng)擾動(dòng)的清晰圖像方面的準(zhǔn)確性。
如圖所示,作者在原有的構(gòu)建塊基礎(chǔ)上,以一定間隔 N 插入新的 EdgeNet 構(gòu)建塊
。新的中間層輸出可以由以下公式表示:
EdgeNet 構(gòu)建塊
為了實(shí)現(xiàn)選擇性特征提取和選擇性特征注入,這些 EdgeNet 構(gòu)建塊采取了一種“三明治”結(jié)構(gòu):每個(gè)塊的前后都添加了零卷積(zero convolution)來(lái)控制輸入與輸出。在這兩個(gè)零卷積之間是一個(gè)具有隨機(jī)初始化的、與骨干網(wǎng)絡(luò)架構(gòu)相同的 ViT block
利用零輸入,充當(dāng)提取與優(yōu)化目標(biāo)相關(guān)信息的過(guò)濾器;利用零輸出, 充當(dāng)確定要集成到骨干中的信息的過(guò)濾器。此外,通過(guò)零初始化,可以確保了骨干內(nèi)的信息流保持不受影響。因此,對(duì) EdgeNet 的后續(xù)微調(diào)變得更加簡(jiǎn)化。
訓(xùn)練目標(biāo)
在訓(xùn)練 EdgeNet 的過(guò)程中,預(yù)訓(xùn)練好的 ViT 骨干網(wǎng)絡(luò)除了分類(lèi)頭均被凍結(jié)住,不進(jìn)行更新。優(yōu)化目標(biāo)僅專(zhuān)注于為邊緣特征引入的 EdgeNet 網(wǎng)絡(luò),以及骨干網(wǎng)絡(luò)內(nèi)的分類(lèi)頭。在這里,作者采用了一個(gè)非常簡(jiǎn)化的聯(lián)合優(yōu)化目標(biāo)以保障訓(xùn)練的效率:
在公式 9 中,α 是準(zhǔn)確性損失函數(shù)的權(quán)重,β 是魯棒性損失函數(shù)的權(quán)重。通過(guò)調(diào)整 α 和 β 的大小,可以微調(diào) EdgeNet 訓(xùn)練目標(biāo)的平衡性,以達(dá)到在提升其魯棒性的同時(shí)不顯著損失準(zhǔn)確性的目的。
實(shí)驗(yàn)結(jié)果
作者們?cè)?ImageNet 數(shù)據(jù)集上針對(duì)兩大類(lèi)魯棒性進(jìn)行了測(cè)試。
第一類(lèi)是抵御對(duì)抗攻擊的魯棒性,包括白盒攻擊與黑盒攻擊;
第二類(lèi)是抵御一些常見(jiàn)的擾動(dòng)的魯棒性,包括 ImageNet-A 中的自然對(duì)抗樣本(Natural Adversarial Examples),ImageNet-R 中的分布外數(shù)據(jù)(Out-of-Distribution Data)和 ImageNet-C 中的常見(jiàn)數(shù)據(jù)扭曲(Common Corruptions)。
作者還針對(duì)不同擾動(dòng)下提取到的邊緣信息進(jìn)行了可視化。
網(wǎng)絡(luò)規(guī)模與性能測(cè)試
在實(shí)驗(yàn)部分,作者首先測(cè)試了不同規(guī)模 EdgeNet 的分類(lèi)性能和計(jì)算開(kāi)銷(xiāo)(Table 1)。在綜合考慮分類(lèi)性能和計(jì)算計(jì)算開(kāi)銷(xiāo)后,他們確定 #Intervals = 3的配置為最佳設(shè)置。
在這個(gè)配置中,EdgeNet 與基準(zhǔn)模型相比獲得了顯著的準(zhǔn)確度和魯棒性提升。它在分類(lèi)性能、計(jì)算要求和魯棒性之間取得了平衡的妥協(xié)。
該配置在保持合理的計(jì)算效率的同時(shí),在清晰準(zhǔn)確度和魯棒性方面取得了實(shí)質(zhì)性的增益。
準(zhǔn)確性與魯棒性對(duì)比
作者將他們提出的 EdgeNet 與5個(gè)不同類(lèi)別的 SOTA 方法進(jìn)行了對(duì)比(Table 2)。這些方法包括在自然圖像上訓(xùn)練的 CNNs、魯棒的 CNNs、在自然圖像上訓(xùn)練的 ViTs、魯棒的ViTs 和經(jīng)過(guò)魯棒微調(diào)的ViTs。
考慮的指標(biāo)包括在對(duì)抗攻擊(FGSM 和 PGD)下的準(zhǔn)確性、在ImageNet-A上的準(zhǔn)確性以及在ImageNet-R上的準(zhǔn)確性。
此外,還報(bào)告了ImageNet-C 的平均錯(cuò)誤(mCE),較低的值表示更好的性能。實(shí)驗(yàn)結(jié)果表明 EdgeNet 在面對(duì) FGSM 和 PGD 攻擊時(shí)展現(xiàn)出卓越的性能,同時(shí)在清晰的 ImageNet-1K 數(shù)據(jù)集及其變體上表現(xiàn)出與先前 SOTA 方法相持平的水平。
除此之外,作者還開(kāi)展了黑盒攻擊的實(shí)驗(yàn)(Table 3)。實(shí)驗(yàn)結(jié)果表明,EdgeNet 也能十分有效的抵擋黑盒攻擊。
結(jié)論
在這項(xiàng)工作中,作者提出了一種名為 EdgeNet 的新方法,它通過(guò)利用從圖像中提取到的邊緣信息,可以提升深度神經(jīng)網(wǎng)絡(luò)(特別是 ViTs)的魯棒性。
這是一個(gè)輕量級(jí)且可以無(wú)縫集成到現(xiàn)有網(wǎng)絡(luò)中的模塊,它能夠有效的提高對(duì)抗性魯棒性。實(shí)驗(yàn)證明,EdgeNet 具有高效性——它僅帶來(lái)了極小的額外計(jì)算開(kāi)銷(xiāo)。
此外 EdgeNet 在各種魯棒基準(zhǔn)上具有廣泛適用性。這使其成為該領(lǐng)域引人注目的進(jìn)展。
此外,實(shí)驗(yàn)結(jié)果證實(shí),EdgeNet 可以有效抵抗對(duì)抗性攻擊,并能在干凈圖像上保持的準(zhǔn)確性,這突顯了邊緣信息在視覺(jué)分類(lèi)任務(wù)中作為魯棒且相關(guān)特征的潛力。
值得注意的是,EdgeNet 的魯棒性不僅限于對(duì)抗性攻擊,還涵蓋了涉及自然對(duì)抗性示例(ImageNet-A)、分布之外的數(shù)據(jù)(ImageNet-R)和常見(jiàn)破壞(ImageNet-C)情景。
這種更廣泛的應(yīng)用凸顯了EdgeNet的多功能性,并顯示其作為視覺(jué)分類(lèi)任務(wù)中多樣挑戰(zhàn)的全面解決方案的潛力。