ImageNet-D 詳解:嚴(yán)格評(píng)估神經(jīng)網(wǎng)絡(luò)的魯棒性
神經(jīng)網(wǎng)絡(luò)在零樣本圖像分類(lèi)中取得了驚人的成就,但它們真的能“看”得有多好呢?現(xiàn)有的用于評(píng)估這些模型魯棒性的數(shù)據(jù)集僅限于網(wǎng)絡(luò)上的圖像或通過(guò)耗時(shí)且資源密集的手動(dòng)收集創(chuàng)建的圖像。這使得系統(tǒng)評(píng)估這些模型在面對(duì)未見(jiàn)數(shù)據(jù)和真實(shí)世界條件(包括背景、紋理和材質(zhì)的變化)時(shí)的泛化能力變得困難。一個(gè)可行的解決方案是在合成生成的圖像上評(píng)估模型,例如ImageNet-C、ImageNet-9或Stylized-ImageNet。
然而,這些數(shù)據(jù)集依賴(lài)于特定的合成損壞、背景和紋理;此外,它們的變化有限,缺乏真實(shí)的圖像質(zhì)量。
ImageNet-D與其他合成圖像數(shù)據(jù)集的對(duì)比示例
這些模型變得如此強(qiáng)大,以至于在這些合成圖像數(shù)據(jù)集中實(shí)現(xiàn)了極高的準(zhǔn)確性,這也帶來(lái)了額外的挑戰(zhàn)。
ImageNet-D
ImageNet-D是一個(gè)通過(guò)擴(kuò)散模型生成的新基準(zhǔn),解決了這些局限性,通過(guò)具有挑戰(zhàn)性的圖像將模型推向極限,并揭示模型魯棒性的關(guān)鍵缺陷。
- 它由4,835張“困難圖像”組成。
- ImageNet-D涵蓋了ImageNet和ObjectNet之間的113個(gè)重疊類(lèi)別。
- 該數(shù)據(jù)集包含547種干擾變化,包括廣泛的背景(3,764種)、紋理(498種)和材質(zhì)(573種),使其比之前的基準(zhǔn)更加多樣化。通過(guò)系統(tǒng)地改變這些因素,ImageNet-D全面評(píng)估了模型是否能夠真正“看到”圖像表面特征之外的內(nèi)容。
從“真實(shí)世界數(shù)據(jù)的復(fù)雜性”轉(zhuǎn)向像ImageNet-D這樣的合成數(shù)據(jù)集可能看起來(lái)違反直覺(jué),但它解決了評(píng)估神經(jīng)網(wǎng)絡(luò)魯棒性時(shí)的關(guān)鍵局限性。
為什么合成數(shù)據(jù)集具有優(yōu)勢(shì)?
- 需要系統(tǒng)性控制:真實(shí)世界的數(shù)據(jù)本質(zhì)上是不可控的。如果你想測(cè)試神經(jīng)網(wǎng)絡(luò)對(duì)背景、紋理或材質(zhì)變化的響應(yīng),很難系統(tǒng)地創(chuàng)建或找到包含所有所需組合的真實(shí)世界數(shù)據(jù)。
- 合成數(shù)據(jù)提供控制性和可擴(kuò)展性:ImageNet-D利用擴(kuò)散模型生成合成圖像,克服了真實(shí)世界數(shù)據(jù)的局限性。這種方法使研究人員能夠系統(tǒng)地控制并高效擴(kuò)展數(shù)據(jù)集,探索比僅使用真實(shí)圖像更廣泛的變化范圍。通過(guò)擴(kuò)散模型,ImageNet-D可以生成比現(xiàn)有數(shù)據(jù)集更多樣化的背景、紋理和材質(zhì)的圖像。
- 專(zhuān)注于“困難”示例:ImageNet-D使用困難圖像挖掘過(guò)程,選擇性地保留導(dǎo)致多個(gè)視覺(jué)模型失敗的圖像。通過(guò)關(guān)注當(dāng)前模型的弱點(diǎn),ImageNet-D提供了更具信息量的評(píng)估。
- 通過(guò)人工驗(yàn)證進(jìn)行質(zhì)量控制:雖然是合成的,但I(xiàn)mageNet-D并未犧牲質(zhì)量。通過(guò)嚴(yán)格的質(zhì)量控制流程,包括人工標(biāo)注者,確保生成的圖像是有效的、單一類(lèi)別的且高質(zhì)量的。
擴(kuò)散模型的圖像生成
ImageNet - D 的創(chuàng)建框架
ImageNet-D的創(chuàng)建框架涉及幾個(gè)關(guān)鍵步驟,利用Stable Diffusion和困難圖像挖掘策略。生成過(guò)程公式為:Image(C,N) = Stable Diffusion(Prompt(C, N)),其中C是對(duì)象類(lèi)別,N表示背景、材質(zhì)和紋理等干擾因素。
用于創(chuàng)建合成圖像的提示詞格式
- 通過(guò)在擴(kuò)散模型的提示詞中將每個(gè)物體與所有干擾因素進(jìn)行配對(duì)來(lái)生成圖像,這些干擾因素使用了來(lái)自 Broden 數(shù)據(jù)集的 468 種背景、47 種紋理和 32 種材質(zhì)。
- 每張圖像都以其提示詞類(lèi)別 C 作為分類(lèi)的真實(shí)標(biāo)簽進(jìn)行標(biāo)注。
- 如果模型預(yù)測(cè)的標(biāo)簽與真實(shí)標(biāo)簽 C 不匹配,則該圖像被視為分類(lèi)錯(cuò)誤。
困難圖像挖掘與共享感知失敗
ImageNet-D的困難圖像挖掘策略旨在識(shí)別和選擇最具挑戰(zhàn)性的圖像,以評(píng)估神經(jīng)網(wǎng)絡(luò)的魯棒性。其目標(biāo)是創(chuàng)建一個(gè)測(cè)試集,將視覺(jué)模型推向極限,暴露它們的弱點(diǎn)和失敗點(diǎn)。
- 共享感知失?。汉诵母拍钍恰肮蚕硎 ?,即當(dāng)一張圖像導(dǎo)致多個(gè)模型錯(cuò)誤預(yù)測(cè)對(duì)象標(biāo)簽時(shí)發(fā)生。其原理是,導(dǎo)致不同模型共享失敗的圖像可能本質(zhì)上更具挑戰(zhàn)性,對(duì)評(píng)估魯棒性更具信息量。
- 代理模型:為了識(shí)別這些困難圖像,使用一組預(yù)先建立的視覺(jué)模型作為“代理模型”。這些模型充當(dāng)代理,估計(jì)圖像對(duì)其他潛在未知“目標(biāo)模型”的難度。
挖掘過(guò)程
- 如前文所述,使用擴(kuò)散模型生成大量合成圖像。
- 在生成的圖像上運(yùn)行每個(gè)替代模型,并記錄其預(yù)測(cè)結(jié)果。
- 找出多個(gè)替代模型未能正確預(yù)測(cè)物體標(biāo)簽的圖像。這些圖像被標(biāo)記為潛在的 “難例”。
- ImageNet - D 測(cè)試集就是利用這些替代模型的共同錯(cuò)誤構(gòu)建而成。最終的 ImageNet - D 是通過(guò) 4 個(gè)替代模型的共同錯(cuò)誤創(chuàng)建的。
其結(jié)果是一個(gè)精心設(shè)計(jì)的過(guò)程,通過(guò)選擇能夠暴露多個(gè)視覺(jué)模型共同弱點(diǎn)的合成圖像,來(lái)創(chuàng)建一個(gè)具有挑戰(zhàn)性且信息豐富的基準(zhǔn)測(cè)試。
質(zhì)量控制:人工參與
人工參與的組件對(duì)于驗(yàn)證ImageNet-D數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性至關(guān)重要,確保圖像被正確標(biāo)注并適合評(píng)估神經(jīng)網(wǎng)絡(luò)的魯棒性。
雖然擴(kuò)散模型和難例圖像挖掘能夠生成并選擇具有挑戰(zhàn)性的圖像,但人工標(biāo)注對(duì)于完善數(shù)據(jù)集同樣必不可少。人工標(biāo)注確保 ImageNet - D 圖像有效、屬于單類(lèi)別且質(zhì)量較高。由于 ImageNet - D 包含各種可能不常見(jiàn)的物體和干擾因素組合,標(biāo)注標(biāo)準(zhǔn)會(huì)考慮主要物體的外觀和功能。
679 名合格的亞馬遜土耳其機(jī)器人(Mechanical Turk)工人參與了 1540 項(xiàng)標(biāo)注任務(wù),在從 ImageNet - D 中抽取的圖像上達(dá)成了 91.09% 的一致性。工人需要考慮以下問(wèn)題:
- 你能在圖像中識(shí)別出目標(biāo)物體([真實(shí)類(lèi)別])嗎?
- 圖像中的物體可以用作目標(biāo)物體([真實(shí)類(lèi)別])嗎?
為保持高質(zhì)量的標(biāo)注,在每個(gè)標(biāo)注任務(wù)中都加入了哨兵樣本。這些樣本包括:
- 正哨兵樣本:明確屬于目標(biāo)類(lèi)別的圖像,且被多個(gè)模型正確分類(lèi)。
- 負(fù)哨兵樣本:不屬于目標(biāo)類(lèi)別的圖像。
- 一致性哨兵樣本:隨機(jī)重復(fù)出現(xiàn)的圖像,用于檢查工人回答的一致性。
未通過(guò)哨兵樣本檢查的工人回復(fù)將被丟棄。
如何使用和解釋結(jié)果
在ImageNet-D上測(cè)試模型后,如何解釋結(jié)果并獲取有關(guān)模型優(yōu)勢(shì)和劣勢(shì)的寶貴見(jiàn)解?
- 較低的準(zhǔn)確性表明缺乏魯棒性:如果你的模型在ImageNet-D上的表現(xiàn)明顯低于ImageNet等標(biāo)準(zhǔn)基準(zhǔn),則表明它在面對(duì)背景、紋理和材質(zhì)變化時(shí)難以泛化。這意味著模型可能依賴(lài)于表面特征,而不是真正“理解”對(duì)象。
- 與其他模型進(jìn)行比較:?jiǎn)我坏臏?zhǔn)確性分?jǐn)?shù)信息有限。為了評(píng)估模型的魯棒性,將其在ImageNet-D上的表現(xiàn)與其他模型進(jìn)行比較。這將幫助你了解其相對(duì)地位,并突出其表現(xiàn)優(yōu)異或落后的領(lǐng)域。
- 分析失敗案例:不要只看整體準(zhǔn)確性,還要分析模型失敗的特定圖像。是否存在某些背景始終導(dǎo)致錯(cuò)誤分類(lèi)?模型是否容易被不尋常的紋理或材質(zhì)迷惑?通過(guò)分析這些失敗案例,你可以識(shí)別模型的具體弱點(diǎn),并針對(duì)性地改進(jìn)。
下一步如果你有興趣探索該數(shù)據(jù)集,我已將其解析為FiftyOne格式并上傳到Hugging Face。通過(guò)幾行代碼,你可以下載并開(kāi)始探索數(shù)據(jù)集。
import fiftyone as fo
import fiftyone.utils.huggingface as fouh
dataset = fouh.load_from_hub("Voxel51/ImageNet-D")
# Launch the App
session = fo.launch_app(dataset)
結(jié)論
通過(guò)結(jié)合擴(kuò)散模型的合成圖像生成、系統(tǒng)性的困難圖像挖掘和嚴(yán)格的人工驗(yàn)證,ImageNet-D提供了一個(gè)比以往數(shù)據(jù)集更全面、更具挑戰(zhàn)性的基準(zhǔn)。
ImageNet-D測(cè)試的結(jié)果可以揭示模型對(duì)視覺(jué)概念的真正理解,而不僅僅是表面級(jí)別的模式匹配。
隨著視覺(jué)模型的進(jìn)步,評(píng)估其局限性的可靠方法變得越來(lái)越重要。ImageNet-D幫助識(shí)別這些局限性,并為開(kāi)發(fā)更魯棒的模型提供了途徑,這些模型能夠更好地處理真實(shí)世界中的外觀、背景和上下文變化。對(duì)于計(jì)算機(jī)視覺(jué)的研究人員和從業(yè)者來(lái)說(shuō),ImageNet-D不僅僅是一個(gè)基準(zhǔn),它是一個(gè)寶貴的工具,用于理解和改進(jìn)人工神經(jīng)網(wǎng)絡(luò)如何“看”和解釋視覺(jué)世界。
數(shù)據(jù)集鏈接:https://github.com/chenshuang-zhang/imagenet_d