ICLR 2024 | 跨領(lǐng)域準(zhǔn)確進(jìn)行零樣本異常檢測,浙大等提出AnomalyCLIP
零樣本異常檢測(ZSAD)允許檢測模型僅利用輔助數(shù)據(jù)進(jìn)行訓(xùn)練,從而在沒有任何目標(biāo)數(shù)據(jù)集訓(xùn)練樣本的情況下檢測異常。這在因各種原因(如數(shù)據(jù)隱私問題)無法獲取訓(xùn)練數(shù)據(jù)時非常關(guān)鍵。
然而,這項(xiàng)任務(wù)面臨的挑戰(zhàn)在于,模型需要能夠跨不同領(lǐng)域泛化異常檢測能力,尤其是前景對象、異常區(qū)域及背景特征(比如不同產(chǎn)品或器官上的缺陷或腫瘤)在不同應(yīng)用中可能大相徑庭。
為了改進(jìn) CLIP 模型,來自浙江大學(xué)、新加坡管理大學(xué)、哈佛大學(xué)的研究者聯(lián)合提出 AnomalyCLIP,使其能在不同領(lǐng)域中更準(zhǔn)確地進(jìn)行零樣本異常檢測。AnomalyCLIP 的核心思想是學(xué)習(xí)一種與對象不相關(guān)的文本提示技術(shù)(object-agnostic learning),這種技術(shù)能夠捕捉到圖像中的一般性正常和異常特征,而不依賴于任何特定的前景對象,從而在多種語義的對象上實(shí)現(xiàn)泛化的異常識別。在 17 個來自不同領(lǐng)域(如缺陷檢測和醫(yī)療成像)的真實(shí)世界異常檢測數(shù)據(jù)集上進(jìn)行的大規(guī)模實(shí)驗(yàn)證明, AnomalyCLIP 在跨域且高度多樣化類別語義的數(shù)據(jù)中實(shí)現(xiàn)了卓越的零樣本異常檢測和分割能力。
- 論文名稱:AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection
- 文章地址:https://arxiv.org/pdf/2310.18961.pdf
- 代碼地址:https://github.com/zqhang/AnomalyCLIP
背景
傳統(tǒng)的異常檢測方法通常需要在特定應(yīng)用領(lǐng)域內(nèi)有可用的訓(xùn)練樣本來學(xué)習(xí)檢測模型。然而,在某些情況下,這個假設(shè)可能并不成立,比如訪問訓(xùn)練數(shù)據(jù)會違反數(shù)據(jù)隱私政策,或者目標(biāo)領(lǐng)域內(nèi)根本就沒有可用的訓(xùn)練數(shù)據(jù)。
圖 1: 不同文本提示方法的結(jié)果對比。
由于不同應(yīng)用場景中異常的視覺外觀、前景對象和背景特征存在很大差異,例如不同產(chǎn)品表面的缺陷、不同器官上的病變或腫瘤,或者是工業(yè)缺陷與醫(yī)學(xué)圖像中腫瘤 / 病變的對比,我們需要能夠針對這些變化進(jìn)行準(zhǔn)確零樣本異常檢測(ZSAD)的檢測模型,這要求模型具有強(qiáng)大的泛化能力。
最近,大型預(yù)訓(xùn)練的視覺 - 語言模型(VLMs)在包括異常檢測在內(nèi)的多種視覺任務(wù)上展示了出色的零樣本識別能力。特別是,通過使用數(shù)以百萬計的圖像 - 文本對進(jìn)行預(yù)訓(xùn)練,CLIP 在強(qiáng)化各種下游任務(wù)的泛化能力方面發(fā)揮了巨大作用。然而,CLIP 這類 VLM 主要是為了學(xué)習(xí)前景對象的類別語義,而不是圖像中的異常 / 正常模式,因此它們在理解視覺異常 / 正常性方面的泛化能力有限,導(dǎo)致在 ZSAD 性能方面表現(xiàn)不佳。
此外,當(dāng)前使用的文本提示方法,如圖 1d 和圖 1e 所示,無論是手動定義的文本提示還是可學(xué)習(xí)的文本提示,往往會導(dǎo)致提示文本嵌入偏向于全局特征以實(shí)現(xiàn)有效的對象語義對齊,而忽略了通常表現(xiàn)在細(xì)節(jié)、局部特征中的異常。
方法介紹
AnomalyCLIP 旨在通過學(xué)習(xí)對象不相關(guān)的文本提示來讓 CLIP 實(shí)現(xiàn)不同領(lǐng)域中的準(zhǔn)確 ZSAD,從而捕獲圖像中的通用正常性和異常性,如圖 2 所示。AnomalyCLIP 首先為 “正?!?和 “異?!?這兩個廣泛的類別設(shè)計了一個簡單而普遍有效的可學(xué)習(xí)的文本提示模板,然后通過使用輔助數(shù)據(jù),結(jié)合圖像級別和像素級別的損失函數(shù)來讓提示嵌入學(xué)習(xí)圖像中存在的通用正常和異常模式。
這樣,AnomalyCLIP 可以專注于圖像中的異常區(qū)域而非對象的語義,使其能夠零樣本的識別出與輔助數(shù)據(jù)中相似的異常模式。如圖 1a 和圖 1b 所示,盡管輔助數(shù)據(jù)和目標(biāo)數(shù)據(jù)中前景對象的語義完全不同時,但是其異常模式保持相似,例如金屬螺母和板材上的劃痕、晶體管和 PCB 的錯位、不同器官表面的腫瘤 / 病變等。而 CLIP 的文本提示嵌入在不同領(lǐng)域間的泛化能力有限,如圖 1c 所示。不同的是,AnomalyCLIP 學(xué)習(xí)到的對象不相關(guān)的文本提示嵌入能夠有效地泛化,識別出跨領(lǐng)域圖像中的異常,如圖 1f 所示。AnomalyCLIP只需要微調(diào)一次,就能夠泛化地捕捉不同對象、場景甚至跨領(lǐng)域的異常。其他的沒有了。
圖 2: AnomalyCLIP 框架圖
實(shí)驗(yàn)結(jié)果
該研究在 17 個公開可用的數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),涵蓋了各種工業(yè)檢測場景和醫(yī)學(xué)成像領(lǐng)域(包括攝影、內(nèi)窺鏡和放射學(xué)),以評估 AnomalyCLIP 的性能。在工業(yè)檢測方面,該研究考慮了 MVTec AD、VisA、MPDD、BTAD、SDD、DAGM 和 DTD-Synthetic 等數(shù)據(jù)集。在醫(yī)學(xué)成像方面,該研究考慮了皮膚癌檢測數(shù)據(jù)集 ISIC、結(jié)腸息肉檢測數(shù)據(jù)集 CVC-ClinicDB 和 CVC-ColonDB、Kvasir、Endo、甲狀腺結(jié)節(jié)檢測數(shù)據(jù)集 TN3k、腦瘤檢測數(shù)據(jù)集 HeadCT、BrainMRI、Br35H 和 COVID-19 檢測數(shù)據(jù)集 COVID-19。最先進(jìn)的 baseline 包括 CLIP、CLIP-AC、WinCLIP、VAND 和 CoOp。論文附錄提供了有關(guān)方法和數(shù)據(jù)預(yù)處理的更多細(xì)節(jié)。
表 1:工業(yè)領(lǐng)域零樣本異常檢測性能比較。最佳性能以紅色突出顯示,次佳性能以藍(lán)色突出顯示。?表示結(jié)果來自原始論文。(除了 MVTec AD 數(shù)據(jù)集以外,其他所有結(jié)果均由 MVTec AD fine-tuining 得到)
各種工業(yè)檢測領(lǐng)域的零樣本異常檢測性能
表 1 展示了 AnomalyCLIP 與五種 baseline 在七個工業(yè)缺陷數(shù)據(jù)集上的零樣本異常檢測結(jié)果,這些數(shù)據(jù)集具有非常不同的前景對象、背景和 / 或異常類型。AnomalyCLIP 在這些數(shù)據(jù)集上取得了優(yōu)越的零樣本異常檢測性能,大部分情況下明顯優(yōu)于其他五種方法。CLIP 和 CLIP-AC 表現(xiàn)較差的原因在于 CLIP 的原始預(yù)訓(xùn)練側(cè)重于對齊對象語義而非異常語義。WinCLIP 和 VAND 通過使用手動定義的文本提示獲得了更好的結(jié)果。另外,CoOp 采用了可學(xué)習(xí)的提示來學(xué)習(xí)全局異常語義。然而,這些提示專注于全局特征,忽略了細(xì)粒度的局部異常語義,導(dǎo)致它們在異常分割上表現(xiàn)不佳。為了將 CLIP 適應(yīng)于零樣本異常檢測,AnomalyCLIP 學(xué)習(xí)了對象不相關(guān)的文本提示,通過全局和局部上下文優(yōu)化,專注于學(xué)習(xí)通用的異常 / 正常模式,使得模型能夠有效識別全局和局部的異常。得到的提示還可以推廣到來自不同領(lǐng)域的不同數(shù)據(jù)集。為了提供更直觀的結(jié)果,該研究在圖 3 中可視化了 AnomalyCLIP、VAND 和 WinCLIP 在不同數(shù)據(jù)集上的異常分割結(jié)果。與 VAND 和 WinCLIP 相比,AnomalyCLIP 可以對來自不同工業(yè)檢測領(lǐng)域的缺陷進(jìn)行更準(zhǔn)確的異常分割。
圖 3: AnomalyCLIP 分割結(jié)果
表 2:醫(yī)療領(lǐng)域零樣本異常檢測性能比較。最佳性能以紅色突出顯示,次佳性能以藍(lán)色突出顯示。請注意,醫(yī)療異常檢測數(shù)據(jù)集往往不同時包含像素級和圖像級標(biāo)簽,因此評估圖像級和像素級醫(yī)療異常檢測的數(shù)據(jù)集有所不同。
從缺陷數(shù)據(jù)集到多樣化的醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集的泛化能力
為了評估模型的泛化能力,該研究進(jìn)一步考察了 AnomalyCLIP 在 10 個不同器官、不同成像設(shè)備上的醫(yī)學(xué)圖像數(shù)據(jù)集上的零樣本異常檢測性能。表 2 展示了相關(guān)結(jié)果,其中包括 AnomalyCLIP、VAND 和 CoOp 等基于學(xué)習(xí)的方法,均使用 MVTec AD 數(shù)據(jù)進(jìn)行fine-tuining。
值得注意的是,像 AnomalyCLIP 和 VAND 這樣的方法在各種醫(yī)學(xué)圖像數(shù)據(jù)集上取得了令人滿意的零樣本異常檢測性能,即使它們是使用缺陷檢測數(shù)據(jù)集進(jìn)行調(diào)優(yōu)的。在所有這些方法中,由于其通過對象不相關(guān)的提示學(xué)習(xí)帶來的強(qiáng)大泛化能力,AnomalyCLIP 是表現(xiàn)最佳的。
正如圖 3 所示,AnomalyCLIP 能夠準(zhǔn)確檢測出不同醫(yī)學(xué)圖像中的各種異常類型,例如攝影圖像中的皮膚癌區(qū)域,內(nèi)窺鏡圖像中的結(jié)腸息肉,超聲圖像中的甲狀腺結(jié)節(jié)以及 MRI 圖像中的腦腫瘤,其在定位異常病變 / 腫瘤區(qū)域方面的性能明顯優(yōu)于另外兩種方法 WinCLIP 和 VAND。這再次證明了 AnomalyCLIP 在醫(yī)學(xué)成像領(lǐng)域高度多樣化的對象語義數(shù)據(jù)集中具有領(lǐng)先的零樣本異常檢測性能。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
