Nature: 受熱力學(xué)啟發(fā)的人工智能解釋
介紹
根據(jù)觀測數(shù)據(jù)執(zhí)行預(yù)測是廣泛科學(xué)學(xué)科中普遍關(guān)注的問題。傳統(tǒng)上,科學(xué)家們通過開發(fā)數(shù)學(xué)模型來解決這個問題,這些模型利用他們對潛在物理過程的了解將觀察與預(yù)測聯(lián)系起來。然而,在許多實際情況下,由于缺乏系統(tǒng)特定信息,構(gòu)建這種顯式模型是不可行的. 近年來,出現(xiàn)了一類涉及人工智能 (AI) 的純數(shù)據(jù)驅(qū)動方法,并取得了顯著的成功.這些方法通常被稱為黑盒模型,因為它們不依賴于對系統(tǒng)內(nèi)部工作原理的深入理解,并且旨在直接從數(shù)據(jù)中提取模式。然而,當(dāng)涉及到根據(jù)這些模型做出明智的決策和政策時,這種缺乏理解會引起人們的擔(dān)憂。
最近在解決這個問題方面取得了重大進展,所提出的方法可分為兩類:(1) 本質(zhì)上可解釋的 AI 模型(例如,提供可理解決策路徑的決策樹、評分機制、廣義加法模型等),或 (2) 針對本質(zhì)上不可解釋的 AI 模型的事后解釋方案,稱為 XAI(例如,基于梯度的方法:逐層相關(guān)性傳播 (LRP)、引導(dǎo)反向傳播、積分梯度;樹或線性近似于黑盒行為的替代模型;基于博弈論的方法等)。盡管由于 XAI 的某些限制,最近有人推動了前一類方法,大多數(shù)現(xiàn)有的黑盒 AI 本身并不是可解釋的。因此,XAI 已被廣泛用于為黑盒 AI 預(yù)測生成人類可理解的基本原理.在 XAI 范式下,開發(fā)的方法可以是特定于模型的黑盒,也可以是與模型無關(guān)的,它們以視覺或特征重要性歸因的形式生成全局或局部有效的解釋.
在這項工作中,我們專注于與模型無關(guān)的 XAI 方法,即一類特定的方法,通過僅訪問黑盒模型的輸入和輸出層來工作。最近,出現(xiàn)了一種趨勢,即越來越多的 ML 模型僅用于用戶級別的推理目的,而模型架構(gòu)和訓(xùn)練的參數(shù)則保留用于商業(yè)目的。為了評估此類 ML 模型的可信度,與模型無關(guān)的 XAI 是為數(shù)不多的有效選擇之一。
最早和最有影響力的模型不可知解釋方法之一是部分依賴圖 (PDP).PDP 可視化特征子集與預(yù)測之間的關(guān)系,同時保持所有其他特征不變。很久以后,在 2016 年,隨著 Ribeiro 等人引入局部可解釋模型不可知解釋 (LIME:Local Interpretable Model-agnostic Explanations),與模型無關(guān)的解釋取得了重大突破。LIME 構(gòu)造一個線性替代模型,該模型在局部近似于黑盒模型的行為。然后使用與構(gòu)建的線性模型的每個特征相關(guān)的系數(shù)來歸因局部特征重要性。由于其易用性,LIME 已成為最廣泛采用的與模型無關(guān)的解釋方法之一。在 2018 年的后續(xù)工作中,Ribeiro 等人引入了錨,該方法旨在識別足夠的 if-then 條件作為解釋,以便在特征值更改時保留預(yù)測。從那時起,其他研究人員一直致力于擴展 LIME 的適用性,例如 Zhang 等人調(diào)查了由于隨機鄰域抽樣程序、不正確的相似性測量、缺乏穩(wěn)健性等原因在 LIME 中可能出現(xiàn)的潛在不確定性,并提出了一組測試來信任解釋本身。
SHapley 加法解釋 (SHAP)由 Lundberg 和 Lee 于 2017 年推出,通過將合作博弈論概念與模型不可知的解釋方法相結(jié)合,進一步推動了該領(lǐng)域的發(fā)展。SHAP 值通過考慮所有可能的特征組合集來評估每個特征對預(yù)測的貢獻,從而提供特征重要性的綜合指標(biāo)。SHAP 的一個關(guān)鍵優(yōu)勢是它能夠檢測特征之間的非線性依賴關(guān)系。此外,SHAP 能夠為黑盒預(yù)測提供局部和全局解釋。
盡管這些方法的開發(fā)是為了使 AI 預(yù)測合理化,但存在一個確保人類高可解釋性的潛在問題。挑戰(zhàn)在于,沒有既定的方法可以直接量化生成的解釋的人類可解釋性程度。這是評估 AI 模型可信度的一個主要問題,但經(jīng)常被忽視。例如,當(dāng)合理化涉及大量相關(guān)特征時,實現(xiàn)高人類可解釋性并因此建立信任可能具有挑戰(zhàn)性。到目前為止,這個方向的研究進展包括構(gòu)建線性模型以近似 AI 模型并將模型參數(shù)的數(shù)量作為人類可解釋性的代理的方法(類似于其他數(shù)學(xué)領(lǐng)域的一些已建立的方法,例如,在 Akaike 信息準(zhǔn)則中或貝葉斯信息準(zhǔn)則).
我們工作背后的主要動機之一是認識到模型復(fù)雜性可能不足以描述人類可解釋性,如圖 1 所示。在這種情況下,如果模型復(fù)雜性用作人類可解釋性的代理,那么兩個線性模型都如圖 1 所示。a、b 將被分配相同的值,因為它們都具有相同數(shù)量的模型參數(shù)。事實上,以前的研究揭示了當(dāng)受到不同刺激時,信息處理能力的瓶頸引起的人類認知限制。因此,我們將自己建立在信息論對熵的定義之上并采用一種將線性模型權(quán)重視為概率分布的方法。這使我們能夠通過計算類似于香農(nóng)熵的量來評估不同線性模型之間人類可解釋性的差異。如圖 1 所示,很明顯,與模型 1 相比,模型 2 對人類來說明顯更容易理解。如果兩個模型表現(xiàn)出相同的準(zhǔn)確性,則最好選擇模型 2 而不是 1,因為它提供的可操作策略較少。我們在現(xiàn)有方法中通過引入解釋熵的概念來評估任何線性模型的人類可解釋性程度,從而解決了這個問題。我們表明,在簡單條件下,我們對解釋熵的定義解決了基于復(fù)雜性的量化的缺點。
圖 1:模型復(fù)雜性不是人類可解釋性的良好描述符。
a 線性模型 1 的說明性輸入特征系數(shù)。b 線性模型2的系數(shù)。兩個模型具有相同數(shù)量的模型參數(shù) (6)。但是,模型 2 明顯比模型 1 更易于人類解釋,其中 6 個特征中有 2 個與預(yù)測最相關(guān)。
此外,我們從經(jīng)典熱力學(xué)的角度看待 AI 模型解釋的整體問題.在熱力學(xué)中已知,系統(tǒng)的平衡狀態(tài)以其亥姆霍茲自由能 F(T, V) ? U ? TS 的最小值為特征。這里 U 和 S 分別表征在恒定溫度 T 和體積 V 下具有固定數(shù)量粒子 N 的系統(tǒng)的內(nèi)部能量和熵。同樣,我們在這項工作中建立了一種形式主義,其中解釋的最優(yōu)性 (ζ) 被評估為它的不忠實性 (U) 和基礎(chǔ)真值之間的權(quán)衡,和解釋熵 (S).類似于經(jīng)典熱力學(xué)中的 U 和 S,在我們的形式主義中U和S單調(diào)地相互依賴。這種權(quán)衡的強度可以通過參數(shù) θ 進行調(diào)整,以確定最穩(wěn)定的解釋,該參數(shù)的作用類似于熱力學(xué)溫度 T。對于 θ > 0 的任何選擇,ζ 都保證只有一個最小值,在某些條件下由一對值表征{U,S}。
我們將我們的方法稱為受熱力學(xué)啟發(fā)的 AI 和其他黑盒范式的可解釋表征 (TERP),它從 LIME 中汲取靈感,構(gòu)建局部線性替代模型來生成黑盒解釋。然而,與現(xiàn)有文獻中的方法相反,TERP 側(cè)重于使用本文中引入的解釋熵的概念直接量化人類可解釋性的程度,以產(chǎn)生獨特的解釋。由于其與模型無關(guān)的實現(xiàn),TERP 可用于解釋來自任何 AI 分類器的預(yù)測。在這項工作中,我們通過解釋以下黑盒模型的預(yù)測來證明這種普遍性:(1) 基于自動編碼器的 VAMPnet對于表格分子數(shù)據(jù),(2) 用于圖像的基于自注意力的視覺Transformer(3) 基于注意力的雙向長短期記憶 (Att-BLSTM) 的文本分類。特別是,第一類模型屬于一個正在快速發(fā)展的研究領(lǐng)域,涉及分子動力學(xué) (MD) 模擬.作為對 MD 模擬有著濃厚興趣的研究人員,我們觀察到該領(lǐng)域?qū)?AI 模型的解釋工具的應(yīng)用非常有限。因此,我們相信我們提出的方法 TERP 將證明對專注于該主題的更廣泛科學(xué)界有價值。
結(jié)果
解釋不忠實性 (U) 用于替代模型構(gòu)造
我們的起點是一些給定的數(shù)據(jù)集X以及來自黑盒模型的相應(yīng)預(yù)測 g。對于特定元素x∈X,我們尋求盡可能人類可理解的解釋,同時也盡可能忠實于 x 附近的 g。我們的目標(biāo)是通過開發(fā)線性近似來解決解釋 g 的問題,由于其線性結(jié)構(gòu),線性近似更容易解釋。具體來說,我們將 F 表述為一組有序的代表性特征的線性組合 s = {s1、 s2, ..., sn}.通常,這些特征是依賴于域的,例如,圖像的熱編碼超像素、文本的關(guān)鍵字和表格數(shù)據(jù)的標(biāo)準(zhǔn)化值。我們在下面的公式 (1) 中證明了這一點,其中 F 表征線性近似值,f0是常數(shù),fk來自一組有序的特征系數(shù),f = {f1、 f2, ..., fn}.
讓我們考慮一個具體問題,其中 x0是高維實例,g(x0) 是黑盒模型預(yù)測,需要對此進行解釋。我們首先通過隨機擾動高維輸入空間生成一個鄰域 {x1、 x2, ..., xN}。之后,黑盒預(yù)測 {g(x1)、g(x2), ..., g(xN)} 獲得與鄰域中的每個樣本相關(guān)聯(lián)。隨后,通過使用方程 (2) 中定義的損失函數(shù)采用線性回歸來構(gòu)建局部替代模型。
(2)
這里
是高斯相似度測度,其中 d 是解釋實例 x 之間的距離0和鄰域樣本 Xi.在以前的替代模型構(gòu)造方法中,連續(xù)輸入特征空間中的歐幾里得距離一直是 d 的典型選擇。但是,如果輸入空間具有多個相關(guān)或冗余特征,則基于歐幾里得距離的相似性度量可能會產(chǎn)生誤導(dǎo).TERP 通過使用線性判別分析計算鄰域的一維 (1-d) 投影來解決此問題(LDA),它消除了冗余并產(chǎn)生了更準(zhǔn)確的相似性。這種投影通過最小化類內(nèi)方差和最大化類間距離,鼓勵在一維空間中形成兩個集群,分別對應(yīng)于類內(nèi)和非類內(nèi)數(shù)據(jù)點。由于投影空間是一維的,因此無需調(diào)整超參數(shù),
中σ在已建立的方法中可能是必要的,我們可以設(shè)置 σ = 1。我們通過在隨后的小節(jié)中進行實驗來證明基于 LDA 的相似性對實際問題的優(yōu)勢。
接下來,我們引入一個有意義的不忠實度量 (U) 生成的解釋,根據(jù)使用公式 (1) 和黑盒預(yù)測 (g) 獲得的線性替代模型預(yù)測 (F) 之間的相關(guān)系數(shù) C 計算得出。對于任何解釋,C(F, g) ∈ [ ? 1, + 1],因此解釋不忠實性是有界限的,即U∈[0,1]
U=1 ? | C(F,g) | (3)
使用這些定義,我們實現(xiàn)了一個前向特征選擇方案,首先構(gòu)建 n 個線性模型,每個模型都有 j = 1 個非零系數(shù)。我們使用等式 (3) 來確定導(dǎo)致最低Uj=1.此處,上標(biāo) j = 1 突出顯示了U是針對具有 j = 1 個非零系數(shù)的模型計算的。我們將在整個手稿中對其他相關(guān)量遵循此符號。
然后,傳播所選特征以識別兩個最佳特征集,從而產(chǎn)生最低的Uj=2,并且該方案將持續(xù)到Uj=n被計算。由于具有 j + 1 個非零系數(shù)的模型與方程 (1) 中定義的具有 j 個非零系數(shù)的模型相比,其不忠實度較低或充其量相同,因此可以觀察到U隨 j 單調(diào)遞減。當(dāng) j 從 1 到 n 時,整個方案會產(chǎn)生 n 種不同的解釋。
解釋熵 (S) 進行模型選擇
在確定了 n 種解釋之后,我們的目標(biāo)是從這一系列模型中確定最佳解釋。在這一點上,我們介紹解釋熵的定義S用于量化任何線性模型的人類可解釋性程度。給定一個線性模型,其中有一組有序的特征系數(shù) {f1、 f2, ..., fn},其中 j 為非零,我們可以定義 {p1、 p2, ..., pn},其中
. 然后解釋熵定義為:
此處的上標(biāo) j 表征S針對具有 j 個非零系數(shù)的模型進行計算。很容易看出pk滿足概率分布的屬性。具體來說,pk≥ 0 和
與信息論中的自信息/驚異(surprisal)概念類似,擬合線性模型中pk 的負對數(shù)可以定義為該特征的自解釋性懲罰。然后,將解釋熵計算為所有特征的自解釋性懲罰的期望值,如方程 (5) 所示。使用 Jensen 不等式,可以證明S的上限為日志log(n) 我們可以對定義進行規(guī)一化,以便S以 [0, 1] 為界。
(5)
這種函數(shù)式解釋形式的熵 (S),即可解釋性懲罰,鼓勵擬合權(quán)重的急劇峰值分布的低值,表明人類可解釋性高,反之亦然。此外,如果特征是獨立的,則S在下面的定理中表達了兩個有趣的性質(zhì)。
定理 1
Sj是特征數(shù) (j) 的單調(diào)遞增函數(shù)。
定理 2
隨著U減少S單調(diào)遞增。
用于最佳解釋的自由能 (ζ)
對于具有 j 個非零系數(shù)的解釋,我們現(xiàn)在定義自由能 ζ j作為Uj和Sj可通過參數(shù) θ ≥ 0 進行調(diào)節(jié),如圖 2和方程 (6)。
(6)通過為穩(wěn)態(tài)值 Δ 編寫方程 (7) 中所示的表達式 Δζ j = ζ J+1? ζ j= 0,我們可以在每個 j ∈ [1, n ? 1]定義特征溫度 θj。本質(zhì)上
是具有 j 個非零系數(shù)的模型的隨每單位解釋熵變化的不忠實度變化的度量。這與熱力學(xué)溫度的定義非常相似,熱力學(xué)溫度被定義為內(nèi)能相對于熵的導(dǎo)數(shù)。然后,我們用 (j + 1) 個非零系數(shù)確定解釋,該系數(shù)將
作為最佳解釋,因為可以保證ζJ+1將保留集合中最低的最小值 {ζ 1、ζ2, ..., ζj, ..., ζn} 在最寬的溫度范圍內(nèi)。最后,我們計算最佳溫度
(θ 內(nèi)的任何值j < θ < θJ+1同樣有效,因為最優(yōu)解釋本身不會改變),并將解釋生成為此模型的權(quán)重。全部 ζ j本手稿中顯示的 vs. j 圖是使用最佳溫度的定義創(chuàng)建的。
(7)
因此
(8)這又讓人想起了經(jīng)典的熱力學(xué),其中系統(tǒng)的平衡構(gòu)型通常會隨溫度而變化,但粗粒度的亞穩(wěn)態(tài)描述在明確定義的溫度范圍內(nèi)保持穩(wěn)健。在我們的框架中,當(dāng) θ = 0 時,ζ j在 j = n 解釋時最小化,或者最大化不忠實并完全忽略熵的模型。當(dāng) θ 從零開始增加時,解釋熵對 ζ 的貢獻更大 j.此處,(θ J+1? θj) 是 j 非零系數(shù)解釋穩(wěn)定性的度量。完整的 TERP 協(xié)議總結(jié)為一種算法,如圖 3所示。
圖 2:突出自由能特性的說明性示例 ζj、不忠Uj和解釋熵Sj.
a Sj強度對 ζ 的貢獻j可以使用 θ 進行調(diào)諧。ζ j顯示了三種不同 θ = 9、6、4 的 vs. j 圖,分別在 j = 2、3、4 處產(chǎn)生最小值。乙Uj vs. j 不受 θ 影響。C θSj vs. j 圖顯示權(quán)衡的強度可以通過 θ 進行調(diào)整。
圖 3:TERP 算法。
描述生成與黑盒模型預(yù)測對應(yīng)的最佳 TERP 解釋的協(xié)議。
圖像分類應(yīng)用:視覺Transformer (ViTs)
Transformers 是一種機器學(xué)習(xí)模型,其特征是存在自我注意層,通常用于自然語言處理 (NLP) 任務(wù). 最近提出的 Vision transformers (ViTs)旨在將 Transformer 架構(gòu)直接應(yīng)用于圖像數(shù)據(jù),無需卷積層,已成為計算機視覺中的熱門選擇。根據(jù)結(jié)構(gòu),ViT 是黑盒模型,由于它們的實際用途,最好在部署之前采用解釋方案來驗證它們的預(yù)測。
ViT 的工作原理是將輸入圖像分割成更小的時空分片,將每個分片視為類似于 NLP 中的單詞的次元。然后嵌入這些 patchs (patch-embeddings) 并傳遞給 transformer 層進行自我注意和前饋操作。這樣的設(shè)計使 ViT 能夠捕捉圖像中的長程空間依賴性并學(xué)習(xí)有意義的表征。有趣的是,眾所周知,ViT 在有限的訓(xùn)練數(shù)據(jù)下表現(xiàn)不佳,但在足夠大的數(shù)據(jù)集下,ViT 已被證明優(yōu)于基于卷積層的模型。因此,典型的 ViT 實現(xiàn)包括兩個階段:首先,使用大型數(shù)據(jù)集來學(xué)習(xí)有意義的表征并預(yù)先訓(xùn)練可轉(zhuǎn)移模型,然后針對特定任務(wù)進行微調(diào)。
在這項工作中,我們采用了作者在 ImageNet-21k 數(shù)據(jù)集上預(yù)先訓(xùn)練的 ViT. 然后,通過對公開可用的大規(guī)模 CelebFaces 屬性 (CelebA) 進行訓(xùn)練,微調(diào)用于預(yù)測人類面部屬性的模型數(shù)據(jù)。CelebA 是一個包含 202,599 張人類面部圖像的大型集合,每張圖像都標(biāo)有 40 種不同的屬性(例如,“微笑”、“眼鏡”、“男性”等)。在訓(xùn)練過程中,輸入圖像被轉(zhuǎn)換為 16 × 16 像素的分片,導(dǎo)致每個 CelebA 圖像(224 × 224 像素)總共有 196 個分片,如圖5b所示。
圖 5:使用 TERP 解釋和檢查在 CelebA 數(shù)據(jù)集上訓(xùn)練的 ViT 的可靠性。
a ViT 預(yù)測此圖像中存在“眼鏡”的概率為 0.998。b 在 ViT 分片的 16 × 16 像素定義之后,測試圖像的超像素定義。TERP 結(jié)果顯示 c Uj、 d Sj, e θj和 f ζj作為 j、g 的函數(shù)對應(yīng)的 TERP 解釋。我們可以看到 θ 的最大下降 j從 j = 2 到 j = 3 時發(fā)生。通過定義最佳溫度
如 “Results” 部分所述,最低 ζj在 j = 3 處觀察到。面板 h-j 顯示完整性檢查,即 AI 解釋方案的結(jié)果在模型參數(shù)隨機化 (h) 、 (i) 和數(shù)據(jù)隨機化 (j) 下應(yīng)該是敏感的。k 顯著性圖結(jié)果作為“眼鏡”預(yù)測的基線解釋。紅色突出顯示了 RGB 通道中類概率梯度絕對值較高的像素。與 'Eyeglasses' 無關(guān)的像素處的高梯度顯示了顯著性圖解釋的局限性。l TERP 和 m 類 'Male' 的顯著性圖解釋。Uj, Sj、ζj和 θj因為 (l, m) 的 j 函數(shù)在 SI 中提供。
為了解釋 ViT 預(yù)測,“眼鏡”(預(yù)測概率為 0.998),對圖 5a使用 TERP。我們首先通過將圖像劃分為對應(yīng)于 196 個 ViT 分片的 196 個超像素(像素集合)來構(gòu)建人類可理解的代表性特征,如圖5b所示。之后,按照鄰域生成方案,通過對隨機選擇的超像素的 RGB 顏色求平均值來生成擾動圖像的鄰域。圖 5c-f 顯示Uj,Sj、 θj和 ζj作為 j 的函數(shù)(圖3)。因此,TERP 解釋使我們能夠得出結(jié)論,“眼鏡”的 ViT 預(yù)測是出于正確的原因。最佳 TERP 解釋出現(xiàn)在 j = 3 處,如圖 5g所示, 這是由于 θ 的最大減小 j因為 j 從 2 增加到 3。使用公式 (7) 和 (8),ζ j,并且最小值出現(xiàn)在 j = 3 處。
數(shù)據(jù)和模型參數(shù)隨機化實驗表明 TERP 解釋很敏感
為了確定 TERP 在生成解釋時確實同時考慮了輸入數(shù)據(jù)和黑盒模型,我們對我們的協(xié)議進行了 Adebayo 等人開發(fā)的健全性測試。我們通過采用微調(diào)的 ViT 模型并在他們的工作之后以自上而下的級聯(lián)方式隨機化模型參數(shù)并獲得損壞的模型來實現(xiàn)這一目標(biāo)。具體來說,我們分別隨機化 ViT 塊 11 ? 9 和塊 11 ? 3 的所有參數(shù),以獲得兩個損壞的模型。這兩個型號的“眼鏡”的 TERP 解釋如圖 5h所示。顯示的繪圖Uj,Sj、ζj和 θj因為這些模型的 j 函數(shù)在 SI 中提供。在這里,我們的想法是,由于隨機化,解釋將與基本事實不匹配。但是,一個好的 AI 解釋方案應(yīng)該對這種隨機化測試敏感,并產(chǎn)生與完全訓(xùn)練的模型不同的解釋。同樣,我們實施了在同一工作中提出的數(shù)據(jù)隨機化測試(圖 5j),其中訓(xùn)練數(shù)據(jù)的標(biāo)簽在訓(xùn)練前隨機化,并使用損壞的數(shù)據(jù)獲得新的 ViT。同樣,AI 解釋方法的結(jié)果應(yīng)該對這種隨機化敏感。從相應(yīng)的 TERP 解釋中可以看出。5h-j,我們得出結(jié)論 TERP 通過了兩個隨機化測試。
基于顯著性圖的基線基準(zhǔn)顯示 TERP 解釋是可靠的
為了了解解釋的有效性、穩(wěn)健性和人類可解釋性,我們分別將 TERP 與顯著性圖、 LIME 和 SHAP 進行了基準(zhǔn)測試。在本節(jié)中,我們首先表明,與基線方法相比,TERP 解釋明顯更好、更合理,即使用先前訓(xùn)練的 ViT 進行“眼鏡”預(yù)測的簡單基于梯度的顯著性圖。與更高級的方法(LIME 和 SHAP)進行比較,以展示我們的工作如何為現(xiàn)有領(lǐng)域做出貢獻,將在下一小節(jié)中討論。
從圖5k,我們看到了顯著性解釋的局限性,例如,檢測到許多與“眼鏡”無關(guān)的像素在 RGB 通道中具有較高的概率梯度絕對值。這并不奇怪,因為眾所周知,顯著性圖可以檢測顏色變化、對象邊緣和其他高級特征,而不是學(xué)習(xí)模型輸入和類預(yù)測之間的關(guān)系.我們還為標(biāo)簽“男性”生成了 TERP 和顯著性圖解釋,如圖 5L 所示。同樣,顯著性圖解釋包括應(yīng)該與此預(yù)測類無關(guān)的像素。相反,TERP 解釋涉及的像素應(yīng)該與證明結(jié)果有效性的相應(yīng)類相關(guān)。
與高級方法的比較表明 TERP 解釋是獨一無二的
在本小節(jié)中,我們將 TERP 與生成獨特且高度人類可解釋性的最新解釋方法進行了比較。為了確保公平的比較,我們重點介紹其他廣泛使用的與模型無關(guān)的事后解釋方案 (LIME和 SHAP),這些方法僅適用于黑盒模型的輸入和輸出層。
LIME 通過最小化來生成黑盒預(yù)測 (g) 的局部線性近似值 (f):
這里L(fēng)是保真度函數(shù)(通常為均方根誤差),πx是鄰域相似度,Ω 是代理線性模型的復(fù)雜度度量。在實踐中,LIME 是通過首先執(zhí)行加權(quán)線性回歸,然后 (1) 選擇具有極值系數(shù)的前 j 個特征,或 (2) 直接實施具有 L1 正則化的 Lasso 回歸來實現(xiàn)用于構(gòu)建稀疏模型,其中稀疏度可以通過超參數(shù)α進行調(diào)整。j 和 α 通常都取決于所調(diào)查的實例,并且需要由用戶將其設(shè)置為合理的值。因此,LIME 中缺少基于人類可解釋性的準(zhǔn)確機制來生成獨特的解釋,并且在分析大量黑盒預(yù)測時,需要進行大量測試/人工干預(yù)。
雖然 TERP 和 LIME 都使用相似的保真度函數(shù),但主要區(qū)別在于 TERP 不使用模型復(fù)雜性或簡單性作為人類可解釋性的代理。正如 “引言” 中所討論的,此類指標(biāo)可能具有誤導(dǎo)性,TERP 通過引入解釋熵的概念直接計算人類的可解釋性程度。之后,通過識別導(dǎo)致每單位熵增加的不忠實度降低幅度最大的特征集來生成獨特的解釋。
我們應(yīng)用 LIME 來解釋 “眼鏡” 的 ViT 預(yù)測,如圖 6a 所示,顯示對預(yù)測有前 10 個影響的特征。我們還在 LIME 中實施了第二種方法,即 10 個不同 α 值的稀疏模型的 Lasso 回歸。隨著 α 的增加,解釋中所選特征的數(shù)量會減少,如圖 6b所示。雖然 LIME 識別的相關(guān)超像素是合理的,并且與 TERP 識別的超像素重疊(圖 5g),LIME 涉及超參數(shù)選擇/人為干預(yù),這對于高通量實驗來說可能是不可行的,例如,在分析 MD 數(shù)據(jù)時。
圖 6:最先進方法的黑盒解釋。
a 對具有頂部 j = 10 個特征的“眼鏡”的 LIME 解釋,b 稀疏模型大小與調(diào)節(jié) L1 正則化強度的超參數(shù)α。分別為 c“眼鏡”、d 和“男性”預(yù)測的 SHAP 值。這些結(jié)果與解釋的一致性如圖 5 所示驗證了 TERP。
在 LIME 之后,我們實施了另一種廣泛使用的最新方法 SHAP,用于解釋“眼鏡”和“男性”預(yù)測,如圖 6c 所示, d.與極端 SHAP 值關(guān)聯(lián)的特征表征對黑盒預(yù)測的貢獻很大。具體來說,與特征 j 相關(guān)的 SHAP 值可以通過以下方式獲得:
. 在這里,前因子表征特征 j 到 S 的邊際貢獻(括在 [] 中)的權(quán)重,其中 S、∣S∣ 和 N 分別表征一組特定的特征(聯(lián)盟)、該特定聯(lián)盟中的特征數(shù)和特征總數(shù)。邊際貢獻是通過減去當(dāng) j 分別存在于聯(lián)盟中存在和不存在時特征 j 在預(yù)測中的影響來評估的。在獲得所有特征的 SHAP 值后,通常通過取具有最極端 SHAP 值的前 j (j 是用戶定義的) 特征來獲得稀疏解釋。因此,與 LIME 類似,SHAP 解釋也不是唯一的。通過將 SHAP 結(jié)果與 TERP 進行比較(圖5gl),我們再次看到相關(guān)特征重疊,這驗證了 TERP 的解釋。
在本節(jié)中,我們將 TERP 與兩種廣泛使用的最先進的、與模型無關(guān)的事后方法進行了比較,并證明了 TERP 解釋的有效性。此外,通過采用這項工作中開發(fā)的理論,TERP 成功地產(chǎn)生了高度人類可解釋的獨特解釋,這與既定方法不同。
AI 增強 MD 的應(yīng)用:VAMPnets,降維 (LDA) 顯著提高鄰域相似性,應(yīng)用于文本分類:基于注意力的雙向長短期記憶 (Att-BLSTM)
討論
基于 AI 的黑盒模型的廣泛采用已成為各個領(lǐng)域的標(biāo)準(zhǔn)做法,因為它們能夠在不需要深入了解底層流程的情況下進行部署。然而,這一優(yōu)勢也對 AI 模型的可信度和解釋提出了挑戰(zhàn)。在這項研究中,我們引入了一個受熱力學(xué)啟發(fā)的框架來創(chuàng)建復(fù)雜黑盒模型的可解釋表征。我們的目標(biāo)是使用類似于能量-熵權(quán)衡的概念找到能夠最大限度地減少與真實模型差異的表征形式,同時保持對人類的高度可解釋性。此外,這項工作中引入的解釋熵的概念有可能在 ML 之外的一般基于人類可解釋性的模型選擇中有用。在未來的工作中,可以為通用線性回歸開發(fā)高效的優(yōu)化算法,該算法使用方程 (4) 作為正則化來直接構(gòu)建人類可解釋的模型。
我們展示了這種方法在各種 AI 應(yīng)用中的有效性,包括圖像分類、文本分析和分子模擬。雖然有幾種方法過去曾提出解決 AI 可解釋性問題,但只有少數(shù)已被用于例如闡明分子模擬。重要的是,我們的工作標(biāo)志著可解釋性技術(shù)在快速發(fā)展的 AI 增強分子動力學(xué)領(lǐng)域的開創(chuàng)性應(yīng)用之一。
我們的框架 (TERP) 的最新應(yīng)用有助于揭示晶體成核背后的關(guān)鍵機制和疏水配體解離.鑒于分子科學(xué)在揭示化學(xué)反應(yīng)途徑方面的關(guān)鍵作用、了解疾病機制、設(shè)計有效的藥物以及許多其他重要領(lǐng)域,確保準(zhǔn)確分析至關(guān)重要,因為黑盒模型中的錯誤可能會對財務(wù)和公共衛(wèi)生產(chǎn)生重大影響。TERP 應(yīng)該為分子科學(xué)的從業(yè)者提供一種方法,通過與熱力學(xué)領(lǐng)域簡單而有力的相似之處,在嚴謹?shù)幕A(chǔ)上解釋這些黑盒模型。
本文轉(zhuǎn)載自 ??清熙??,作者: 沙姆斯·邁赫迪
