因果啟發(fā)的可解釋框架:大模型解釋的高效之路
為了深入了解大模型的科學(xué)原理并確保其安全,可解釋變得日益重要。解釋大模型帶來了很多獨特挑戰(zhàn):(1)大模型參數(shù)特別多,怎么盡可能確保解釋速度?(2)大模型涉及的樣本特別多,如何讓用戶盡可能少看一些樣本的解釋也能了解大模型的全貌?這兩個問題都指向了對大模型解釋效率的要求,而我們希望通過新的范式,為構(gòu)建大模型高效解釋之路提供一個思路。
我們的高效新范式是通過從因果角度重新審視模型來獲得的。我們首先從因果的視角重新審視知名可解釋方法(比如 LIME、Shapley Value 等),發(fā)現(xiàn)他們的解釋得分對應(yīng)于因果推理中的因果效應(yīng)(treatment effect),明確構(gòu)建了這些方法和因果的聯(lián)系。這不僅讓我們可以統(tǒng)一對比這些方法的優(yōu)缺點,還可以分析他們的因果圖,發(fā)現(xiàn)其中導(dǎo)致不夠高效的原因:(1)他們的解釋需要特別多次對大模型的擾動才能獲得,解釋速度慢;(2)他們的解釋不具備泛化性:對相似的樣本,其解釋可能劇烈變化,導(dǎo)致用戶無法通過看少量樣本解釋得到本質(zhì)的、對其他樣本也適用的本質(zhì)原因。
基于這個發(fā)現(xiàn),我們提出了新的因果圖,并遵循重要的因果原則,提出了因果啟發(fā)的模型解釋框架(Causality Inspired Framework for Model Interpretation, CIMI)來設(shè)計解釋器的訓(xùn)練目標(biāo)和理想屬性。實驗結(jié)果表明,CIMI 提供了更忠誠和可泛化的解釋,同時具有更高的采樣效率,使其特別適合更大的預(yù)訓(xùn)練模型。
通過閱讀本文你可以了解到:
- 現(xiàn)有知名可解釋方法和因果之間的聯(lián)系是什么?如何從統(tǒng)一的因果視角去對比它們的優(yōu)缺點?
- 更好、更高效的因果圖是什么?對應(yīng)的可解釋方法是什么?
本文同時也還有不少需要改進之處,比如我們目前都分析的是分類模型而不是文本生成模型;我們主要在常規(guī)大小的預(yù)訓(xùn)練模型上驗證了解釋效率,對于很大規(guī)模模型的測試還在進一步實驗中;我們的框架盡管通用,但是具體采用方法目前需要模型最后一層 embedding,對于不公開 embedding 的模型如何高效分析還不明確。這些問題希望在后續(xù)和大家探討中共同解決。
- 論文地址:https://dl.acm.org/doi/pdf/10.1145/3580305.3599240
- 開源地址:https://github.com/Daftstone/CIMI
研究背景
深度學(xué)習(xí)在醫(yī)療保障、金融預(yù)測分析、故障檢測等諸多領(lǐng)域發(fā)揮著關(guān)鍵作用。然而,深度模型大多是人類無法理解的黑盒,這種不透明性可能產(chǎn)生嚴(yán)重后果,尤其在高風(fēng)險決策中。例如,基于深度學(xué)習(xí)的污染模型聲稱高污染空氣對人類健康沒有威脅 [1]。不完美的模型并非毫無意義,如果可以解釋模型做出特定決策的原因,就可能有效地降低和避免模型錯誤的風(fēng)險。另外,公開透明的模型也有助于發(fā)現(xiàn)模型中潛在的錯誤(比如,推理邏輯與領(lǐng)域知識不符),從而進一步改進模型 [2]。因此,可解釋人工智能(eXplainable Artificial Intelligence, XAI)的研究受到了越來越多的關(guān)注。
圖 1. 深度學(xué)習(xí)模型的不透明性。
可解釋學(xué)習(xí)中一個基本問題是:解釋是否揭示了模型行為的重要根本原因,還是僅僅是虛假的相關(guān)性?無法區(qū)分相關(guān)性和因果關(guān)系會導(dǎo)致決策者做出錯誤的解釋。在人機交互方面的研究 [3] 進一步突出了因果關(guān)系的重要性,其中廣泛的用戶研究表明,在可解釋人工智能中,因果關(guān)系增加了用戶信任,并有助于評估解釋的質(zhì)量。這一結(jié)果呼應(yīng)了認(rèn)知科學(xué)中的主要理論,即人類使用因果關(guān)系來構(gòu)建對世界的心理模型 [4]。
另外,可解釋人工智能遵循基本的因果性假設(shè),為因果研究提供了理想的環(huán)境,而這些假設(shè)通常在其他情況下是難以驗證的。例如,在可解釋研究中,我們可以輕易地獲得一組變量(比如,一個句子的所有單詞的組合),這些變量構(gòu)成了模型預(yù)測的所有可能原因的完整集合,這確保滿足了因果充分性假設(shè) [5]。此外,黑盒模型可以輕松進行干預(yù),這允許直接執(zhí)行關(guān)鍵的 do 操作(do-operator)。例如,因果研究的環(huán)境通常是一次性的,一個人吃過藥了就無法讓他不吃藥,如果需要建模吃藥和康復(fù)的因果關(guān)系,就需要仔細(xì)對混雜因素建模,并使用后門或者前門調(diào)整等技術(shù)將因果估計轉(zhuǎn)化為統(tǒng)計估計,并僅基于觀測數(shù)據(jù)計算該統(tǒng)計估計。而在可解釋中,干預(yù)變得尤為簡單。這是因為要解釋的模型所處的環(huán)境非常清楚,允許直接對任何特征進行 do 操作并查看模型預(yù)測的變化,并且這一操作可以重復(fù)操作。
因果視角的關(guān)鍵問題
由于因果在可解釋研究中的重要性和適用性,已經(jīng)引起了越來越多的關(guān)注。多種解釋方法,如 LIME [6],Shapley Value [7] 以及 CXPlain [8],利用干預(yù) (例如對輸入數(shù)據(jù)擾動) 等因果分析技術(shù)提供更忠誠的黑盒模型解釋。盡管如此,仍然缺乏一個正式統(tǒng)一的因果視角,并且一些關(guān)鍵研究問題仍然具有挑戰(zhàn)性,例如:
- RQ1. 現(xiàn)有解釋方法和因果的關(guān)系:現(xiàn)有的解釋方法能否在一個因果框架內(nèi)進行構(gòu)建?如果可以的話,所采用的因果模型是什么,并且它們之間有什么區(qū)別?
- RQ2. 因果推理在可解釋中的挑戰(zhàn):在利用因果推理進行模型解釋方面,主要的挑戰(zhàn)是什么?通過解決這些挑戰(zhàn),我們可能會獲得哪些好處?
- RQ3. 如何利用因果推理改進可解釋方法:如何改進因果模型以解決這些挑戰(zhàn)?
在該工作中,我們旨在通過研究這些問題來彌合因果推理與可解釋性之間的差距。
從因果角度重新審視可解釋(RQ1)
通過從因果的角度重新審視現(xiàn)有的方法,我們可以證明許多經(jīng)典的基于擾動的可解釋方法,如 LIME、Shapley Value 以及 CXPlain,實際上計算的是(平均)因果效應(yīng)。因果效應(yīng)構(gòu)成了這些特征的解釋得分,旨在揭示模型預(yù)測中每個特征被納入解釋的程度。
另外,他們的因果圖與圖 2(左)相對應(yīng)。其中,對 E 的治療(treatment)對應(yīng)于對一個或一組特定特征的擾動。C 是上下文特征,表示在改變 E 后保持不變的特征。
圖 2. 左:現(xiàn)有方法的因果圖,其中解釋 E 和上下文 C 都是影響模型預(yù)測 的因素;右:從統(tǒng)一的因果視角對現(xiàn)有可解釋方法的比較。
盡管這三種方法都可以使用圖 2(左)中的因果圖進行總結(jié),但它們也會存在些許差異,如圖 2(右)所示。我們將展示該統(tǒng)一的視角如何輕松地比較每個方法的優(yōu)缺點:
- 干預(yù)特征 E:CXPlain 和 Shapley Value 只考慮一個特征作為 E,而 LIME 則使用一組特征。因此,在沒有進一步擴展或假設(shè)的情況下,CXPlain 和 Shapley Value 無法衡量一組特征的因果效應(yīng),這表明他們的解釋能力可以提高,因為解釋往往是多個特征的組合。
- 上下文 C:Shapley Value 將所有特征子集視為可能的上下文,而其他方法將特定實例 x 作為主要上下文。相應(yīng)地,Shapley Value 計算所有上下文 (即所有可能的特征子集) 的平均因果效應(yīng),而其他方法則考慮個體因果效應(yīng)。雖然個體因果效應(yīng)的計算效率可能更高,但它們對相似輸入的解釋的泛化能力可能會顯著降低。
- 模型輸出
:LIME、Shapley Value 跟蹤模型預(yù)測的變化,而 CXPlain 觀察輸入如何改變模型預(yù)測誤差的變化。因此,CXPlain 可能對模型調(diào)試更有用,而其他兩個方法可能更適合理解模型行為。
因果推理應(yīng)用于可解釋的挑戰(zhàn)(RQ2)
根據(jù)上一節(jié)的觀察結(jié)果,我們能夠總結(jié)將因果推理應(yīng)用于模型解釋的核心挑戰(zhàn)。雖然解釋方法很容易計算個體因果效應(yīng),比如,當(dāng)一個輸入特征改變時,模型的預(yù)測結(jié)果發(fā)生了多大的變化,但核心挑戰(zhàn)是如何有效地發(fā)現(xiàn)可以從大量特征和數(shù)據(jù)點推廣到不同實例的突出共同原因。要解決這個問題,需要保證解釋是:
- 因果充分:解釋包含了所有預(yù)測模型行為的信息,并且非解釋不包含影響模型決策的因子。
- 可泛化的:對于相似的實例(只有潛在非解釋的變化),解釋應(yīng)該保持不變。
這些性質(zhì)是非常重要的,特別是當(dāng)黑盒模型變得越來越大,并且有更多的數(shù)據(jù)點需要解釋時,這些突出的共同原因可以泛化到許多數(shù)據(jù)點上,這樣我們可以節(jié)省用戶的認(rèn)知工作。同時,這也有助于增強用戶的信任。以圖 3 的病理檢測器為例,如果在同一患者的不同斷面層檢測到完全不同的關(guān)鍵區(qū)域,這將是非常令人不安的。
圖 3:解釋增強用戶信任的例子:病理檢測器。
基于這兩個解釋的重要性質(zhì),我們重新審視現(xiàn)有方法的因果圖(圖 4 (左))。這個框架的主要問題是模型預(yù)測由解釋 E 和上下文 C 共同決定,換句話說,解釋 E 并不是
的唯一原因,這不滿足第一個因果充分的性質(zhì)。
因果不充分問題可以通過刪除上下文作為模型預(yù)測的原因來解決。圖 4 (中) 和圖 4 (右) 提供了兩種可能的解決方案。這里,X 表示輸入實例的隨機變量,而 E 和 U 分別表示解釋和非解釋對應(yīng)的隨機變量。這兩個因果圖中,有唯一的原因,即解釋 E,這使得解釋 E 充分決定了模型行為
。
然而在圖 4 (中),當(dāng) X 改變時,解釋 E 會以任意的方式隨之變化,這不滿足解釋的可泛化性質(zhì)?;谶@些考慮,我們選擇圖 4 (右) 描述的因果圖。很明顯,非解釋變量 U 的改變,對解釋 E 或者模型預(yù)測沒有影響,只導(dǎo)致輸入實例 X 的輕微變化,這表明相似實例的解釋是具有穩(wěn)定性的。同時,E 作為
的唯一決定因素,這保證了解釋作為模型預(yù)測的原因的充分性。
圖 4:(左). 現(xiàn)有方法的因果圖,其中解釋不是模型預(yù)測的唯一原因;(中). 候選因果圖,其中解釋對模型預(yù)測是因果充分的,但不是泛化的;(右). 我們的選擇,其中解釋是泛化且是的唯一原因??捎^測變量用藍色陰影表示。
利用因果改進可解釋(RQ3)
基于上一節(jié)的討論,我們希望根據(jù)選擇的因果圖提升解釋質(zhì)量(因果充分和可泛化)。但由于兩個重要的因果變量 E 和 U 是不可觀察的,直接在圖 4 (右) 的因果圖中重構(gòu)因果機制是不切實際的。考慮到因果變量需要遵循明確的原則,我們使用以下兩個因果推理中的重要原則來設(shè)計因果變量應(yīng)滿足的基本屬性:
- 原則 1. 休謨因果原則(Humean’s Causality Principle)[9]:如果
的所有原因可用,
先于
發(fā)生,并且使用所有的可用信息比除了
之外的信息能夠更精確地預(yù)測
,那么存在一個因果關(guān)系
。
- 原則 2. 獨立因果機制原則(Independent Causal Mechanisms Principle)[10]:每個變量在給定其原因的條件下的條件分布不會影響其他變量。
基于選擇的因果圖以及這兩個因果原則,我們設(shè)計了一個因果啟發(fā)的模型解釋框架,CIMI。CIMI 包含三個模塊:因果充分模塊、因果干預(yù)模塊以及因果先驗?zāi)K,以確保提取的解釋滿足這兩個原則所需的基本屬性。
圖 5. 左:因果充分示意圖;中:因果干預(yù)示意圖;右:解釋器的結(jié)構(gòu)設(shè)計。
- 因果充分模塊:
根據(jù)原則 1,為了保證生成的解釋 E 是的充分原因,需要保證 E 是最適合預(yù)測
的特征,而不是其他特征 U,如圖 5 (左) 所示。為此,因果充分損失
構(gòu)建如下:
其中,
這里,g 是本文的解釋器,其學(xué)習(xí)一個掩碼函數(shù),
表示解釋,
表示非解釋,而
則為均方根誤差損失。
- 因果干預(yù)模塊:
根據(jù)原則 2,我們希望 U 和 E 是獨立的,這使得找到相鄰實例的穩(wěn)定解釋成為可能,從而提高解釋器的泛化能力。為此,我們基于先驗知識,解釋器 g 生成的解釋應(yīng)該對非解釋的干預(yù)不變,如圖 5 (中) 所示。在本文中,我們隨機采樣另一個樣本,通過 x 和
的非解釋部分進行線性插值實現(xiàn)干預(yù),如下所示:
其中,,ε 控制干預(yù)的大小。我們可以通過優(yōu)化以下因果干預(yù)損失
來確保 U 和 E 的獨立:
- 因果先驗?zāi)K:
解釋器的設(shè)計:當(dāng)我們用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)解釋器時,很難決定解釋器應(yīng)該使用哪種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。如果解釋器 g 的架構(gòu)不像黑盒模型 f 那樣富有表現(xiàn)力,那么我們?nèi)绾伪WC解釋器具有理解黑盒模型的能力?如果解釋器比黑盒模型更復(fù)雜,那么容易出現(xiàn)訓(xùn)練慢和過擬合的問題。
我們對這個問題的解決方案受到原則 1 的啟發(fā),該原則指出,解釋在預(yù)測模型方面更有效。因此,我們直接利用黑盒模型的參數(shù)用于生成解釋。為了實現(xiàn)這一點,使用黑盒模型 ?? 的編碼器作為我們的解釋器 ?? 中的編碼器。解釋器 ?? 中的解碼部分是一個簡單的神經(jīng)網(wǎng)絡(luò),記為 ??,因此,
,如圖 5 (右) 所示。
該設(shè)計的合理性可以由信息瓶頸理論支持,該理論指出,在模型的前向傳播過程中,會逐漸過濾對預(yù)測無用的信息,逐漸關(guān)注輸入中最重要的部分。根據(jù)這一理論,將解釋器的編碼部分設(shè)置為黑盒模型的編碼器,使解釋器能夠過濾已經(jīng)被黑盒編碼器過濾的大部分噪聲信息,從而允許更高效地學(xué)習(xí)解釋。
弱監(jiān)督損失:如果因果變量沒有進一步的正則化約束,容易存在平凡解,即所有特征被視為解釋,這會導(dǎo)致解釋器崩塌。為了解決該問題,稀疏性損失是被經(jīng)常使用的正則化約束,它要求涉及的因果變量的數(shù)量較小 [11]。然而,這種稀疏性損失會將復(fù)雜句子和簡單句子的約束視為相同,可能無法適應(yīng)不同實例的不同解釋長度,給超參數(shù)調(diào)優(yōu)帶來困難。
為此,我們基于一個直覺,x 的解釋應(yīng)該包含更多關(guān)于 x 本身的信息,而不是關(guān)于另一個實例 x' 的信息。利用這一點,我們通過最大化實例 x 中的 token 被預(yù)測為解釋的概率,同時最小化不在 x 的 token 被預(yù)測為解釋的概率,得到弱監(jiān)督損失如下
其中,,
表示實例 x' 的 embedding。
實驗分析
我們選擇了 BERT 和 RoBERTa 作為待解釋的黑盒模型,在 Clickbait、Hate、Yelp 以及 IMDB 數(shù)據(jù)集來評估生成解釋的質(zhì)量。具體的統(tǒng)計數(shù)據(jù)如圖 6 所示。
圖 6. 實驗設(shè)置。
我們將對解釋的忠誠性、泛化性、采樣效率以及可用性進行評估。
1. 忠誠性評估:我們使用三個忠誠度指標(biāo)來評估生成解釋的因果充分性,分別為 DFFOT(決策翻轉(zhuǎn)的分詞比例)、COMP(必要性)、SUFF(充分性)。這些指標(biāo)的細(xì)節(jié)以及我們的實驗結(jié)果如圖 7 所示。可以看出提出的方法在各種數(shù)據(jù)集上是有競爭力的。特別地,隨著數(shù)據(jù)集的復(fù)雜度越來越高(CLickbaitIMDB),相較于基線方法的提升效果更加明顯。例如,在 Clickbait 上,和最好的基線方法比較,關(guān)于 DFFOT 的性能提升為 4.2%,而在 IMDB 上,相應(yīng)的性能提升為 54.3%。這種良好的性質(zhì)突出了我們的算法具有更好的可擴展性。
圖 7. 解釋的忠誠性評估。
2. 泛化性評估:我們使用 AvgSen(平均敏感度)來評估生成解釋的泛化性。不可否認(rèn),對于 AvgSen 來說,解釋中包含的一些重要的 token(解釋)可能會被替換,但概率很低,尤其是在分詞數(shù)量較多的 Yelp 和 IMDB 中。實驗結(jié)果如圖 8 所示。可以看到,在四個數(shù)據(jù)集中,擾動前后的 Top-10 重要分詞中至少有 8 個是一致的,這對于基線方法是難以做到的。這表明提出的方法具有捕獲不變泛化特征的能力,這種泛化能力有助于避免對相似實例的重復(fù)解釋的耗時成本,同時這種穩(wěn)定的解釋也有助于增強人們的信任。
圖 8. 解釋的泛化性評估。
3. 采樣效率(即解釋速度)評估:圖 9 展示了在相同采樣次數(shù)(模型前向傳播次數(shù))下,各種基于擾動方法的性能比較。首先,CXPlain 的單特征擾動的解釋機制使每個樣本 x 的擾動次數(shù)最多為 |x| 次,因此在小數(shù)據(jù)集上表現(xiàn)出了較高的效率。其次,所提出方法在四個數(shù)據(jù)集中都顯示出顯著的競爭力,特別是在 Hate 上,只需要 3 個采樣次數(shù)就可以超過具有 100 個采樣次數(shù)的基線。這得益于神經(jīng)網(wǎng)絡(luò)在因果原則約束下的泛化能力,從大量的數(shù)據(jù)點中總結(jié)出推廣到不同的實例的解釋,最終提高效率。在大模型高速發(fā)展的時代,由于模型越來越大,要解釋的數(shù)據(jù)點也越來越多,這種高效的采樣對于解釋方法顯得越來越重要。
圖 9. 解釋方法的采樣效率評估。
4. 可用性評估:解釋除了讓我們更好地理解模型,還有幫助調(diào)試模型。有噪聲的數(shù)據(jù)收集可能會導(dǎo)致模型在訓(xùn)練過程中學(xué)習(xí)到錯誤的相關(guān)性。為此,本節(jié)分析了各種解釋方法在刪除捷徑特征(shortcut)的能力。我們使用 20 newsgroups 的一個子集分類 “基督教” 和 “無神論”。選擇該數(shù)據(jù)集的原因是訓(xùn)練集中有很多捷徑特征,但測試集是干凈的。例如,在訓(xùn)練集中出現(xiàn)單詞 “posting” 的實例中,99% 的實例都屬于 “無神論” 的類別。
為了測試解釋方法是否可以幫助檢測捷徑特征,我們首先在有噪聲的訓(xùn)練集上訓(xùn)練 BERT 模型。然后,我們獲得不同方法的解釋,如果解釋中的分詞沒有出現(xiàn)在干凈的測試集中,則將其視為潛在的捷徑特征。然后,在刪除捷徑特征后重新訓(xùn)練分類模型。評估各種解釋方法識別捷徑特征的指標(biāo)是移除潛在捷徑特征后重訓(xùn)練模型的性能 (更好的分類性能意味著找到的捷徑特征更準(zhǔn)確)。結(jié)果如圖 10 所示。首先,LIME 和提出的方法都能有效去除捷徑,提高模型性能。其次,CIMI 對模型性能的改進更加明顯,這表明其檢測的捷徑特征更為準(zhǔn)確。
圖 10. 解釋方法的可用性評估。
總結(jié)
本文從因果推理的角度重新解讀了一些經(jīng)典的可解釋方法,發(fā)現(xiàn)他們的解釋得分對應(yīng)于因果推理中的因果效應(yīng)。通過在這個統(tǒng)一的因果視角分析它們的利弊,揭示了利用因果推理進行解釋的主要挑戰(zhàn):因果充分性和泛化性。最后,基于合適的因果圖和重要的因果原則,設(shè)計了神經(jīng)解釋器的訓(xùn)練目標(biāo)和理想屬性,并提出了一種高效的解決方案 CIMI。通過廣泛的實驗,證明了所提方法在解釋的因果充分性、泛化性以及采樣效率方面的優(yōu)越性,并探索了解釋方法幫助模型調(diào)試的潛力。