「解釋一切」圖像概念解釋器來了,港科大團隊出品
你是否好奇當一個黑盒深度神經網絡 (DNN) 預測下圖的時候,圖中哪個部分對于輸出預測為「擊球手」的幫助最大?
香港科技大學團隊最新的 NeurIPS2023 研究成果給出了他們的答案。
- 論文:https://arxiv.org/abs/2305.10289
- 項目代碼:https://github.com/Jerry00917/samshap
繼 Meta 的分割一切 (SAM) 后,港科大團隊首次借助 SAM 實現了人類可解讀的任意 DNN 模型圖像概念解釋器:Explain Any Concept (EAC)。
你往往會看到傳統的 DNN 圖像概念解釋器會給出這樣的解釋 (SuperPixel-Based):
但這類輸出通常不能完整地將 DNN 對于輸入圖像里概念的理解表達給人類。
港科大團隊首次將具有強大的概念抓取力的 SAM 和博弈論中夏普利公理 (Shapley Value) 結合起來,構建了端對端具有完整概念的模型解釋器,并呈現了非常令人驚嘆的結果?。?nbsp;
現在,用戶只需要將任意 DNN 接入該解釋器的 API,EAC 就可以精準地解釋出圖中哪些概念影響了模型最終的輸出。
算法原理
如下圖所示,解釋一切 EAC 的算法流程圖可大體分為三個階段:1)SAM 概念抓取,2)利用 Per-Input Equivalence (PIE) 模擬目標 DNN 模型,3)通過計算出 PIE 的夏普利公理值得出近似原目標 DNN 的最終概念解釋輸出。
夏普利值實現
在博弈論中,夏普利公理的地位舉足輕重?;谒?,研究人員可以推算出圖片里每一個概念對目標模型輸出的貢獻值,從而得知哪些概念對于模型預測的幫助最大。不過計算夏普利值所需要的時間復雜度為 O (2^N),這對于幾乎任何一個成熟的深度學習模型是災難性的計算量。
本文為了解決這一問題提出了 Per-Input Equivalence (PIE)輕量型框架。PIE 希望通過一個 surrogate model f' 將原目標 DNN 模型 f 做局部擬合。
PIE 的完整表達式為。這里 f_fc 完全保留了原模型的全連接層,h 是一層線性權重用于模擬 f 的特征提取器,輸入 b 為一維 one-hot 對一張目標圖片里的概念集 C(由 SAM 生成)的編碼。算法通過對 PIE 進行蒙特卡洛估算,就可得出 f^' 對于 f 的近似夏普利值。
文章指出 PIE 的運算十分輕量。在 COCO 標準測試集上,將目標模型設為 ResNet50,平均解釋時間僅約為 8.1 秒 / 一張圖片。
實驗結果
通過給每張測試圖逐一添加(Insertion)/ 刪除(Deletion)最重要的概念 patch,這兩項實驗研究者可以直接評估任意解釋器在解釋目標 DNN 時的表現。
EAC 同時在「添加」和「刪除」兩項實驗中實現了比較優(yōu)秀的解釋效果。
以下是 EAC 效果展示和 baseline 對比:
在文章的最后,團隊表示有了 EAC 這項技術,醫(yī)療影像,智慧安防等重要的可信機器學習商用應用場景會變的更準確,更可靠。