探析可解釋人工智能 (XAI) 方法在 GDPR 合規(guī)性中的應(yīng)用
1. 引言
人工智能 (AI) 正迅速滲透到我們生活的方方面面,并在各個(gè)領(lǐng)域展現(xiàn)出巨大的潛力。尤其是在信貸、住房和醫(yī)療等高風(fēng)險(xiǎn)領(lǐng)域,AI驅(qū)動(dòng)的自動(dòng)化決策 (ADM) 系統(tǒng)正發(fā)揮著越來(lái)越重要的作用。這些系統(tǒng)能夠高效地處理海量數(shù)據(jù),并根據(jù)預(yù)設(shè)算法做出決策,從而提高效率、降低成本。然而,ADM 系統(tǒng)的廣泛應(yīng)用也引發(fā)了人們對(duì)其透明度和問(wèn)責(zé)制的擔(dān)憂。由于許多 ADM 系統(tǒng)基于復(fù)雜的機(jī)器學(xué)習(xí)模型,例如深度神經(jīng)網(wǎng)絡(luò),其決策過(guò)程往往難以理解,甚至可能存在算法偏差和歧視等問(wèn)題,這給個(gè)人權(quán)益帶來(lái)了潛在風(fēng)險(xiǎn)。
為了解決 ADM 系統(tǒng)的"黑盒"問(wèn)題,可解釋人工智能 (XAI) 應(yīng)運(yùn)而生。XAI 旨在提供各種方法來(lái)解釋復(fù)雜模型的決策過(guò)程,使人們能夠理解 AI 如何做出決策,并評(píng)估其公平性和可靠性。XAI 不僅有助于提高用戶對(duì) AI 系統(tǒng)的信任度,還有助于識(shí)別和糾正算法偏差,確保 AI 系統(tǒng)的負(fù)責(zé)任使用。
歐盟的《通用數(shù)據(jù)保護(hù)條例》(GDPR) 對(duì)數(shù)據(jù)隱私和個(gè)人權(quán)利進(jìn)行了嚴(yán)格的規(guī)定,其中包括對(duì)自動(dòng)化決策的解釋權(quán)的要求。GDPR 第 22 條及其相關(guān)條款規(guī)定,個(gè)人有權(quán)不被完全基于自動(dòng)化處理(包括分析)的決策所約束,并且有權(quán)獲得關(guān)于這些決策的解釋。然而,GDPR 對(duì)解釋權(quán)的具體內(nèi)容和形式并沒(méi)有明確規(guī)定,這給 XAI 方法的合規(guī)性帶來(lái)了挑戰(zhàn)。
為了探究 XAI 方法如何滿足 GDPR 的要求,在論文《The explanation dialogues: an expert focus study to understand requirements towards explanations within the GDPR》中,比薩大學(xué)和南安普頓大學(xué)的研究者進(jìn)行了一項(xiàng)專(zhuān)家焦點(diǎn)研究,旨在了解法律專(zhuān)家對(duì) XAI 解釋的理解、期望和推理。這項(xiàng)研究的結(jié)果將為 XAI 方法的開(kāi)發(fā)和應(yīng)用提供重要的指導(dǎo),并有助于促進(jìn) AI 系統(tǒng)在 GDPR 框架下的合規(guī)性。
2. 背景與相關(guān)工作
2.1 GDPR 與自動(dòng)化決策
GDPR 第 22 條規(guī)定,個(gè)人有權(quán)不被完全基于自動(dòng)化處理的決策所約束,除非該決策: (1) 是訂立或履行合同所必需的;(2) 基于數(shù)據(jù)主體的明確同意;(3) 是由歐盟或成員國(guó)法律授權(quán)的。此外,GDPR 還對(duì)特殊類(lèi)別的個(gè)人數(shù)據(jù)(例如種族、政治觀點(diǎn)、健康狀況等)的自動(dòng)化處理進(jìn)行了更嚴(yán)格的限制。
即使?jié)M足上述例外情況,GDPR 仍然要求數(shù)據(jù)控制者采取適當(dāng)?shù)谋U洗胧﹣?lái)保護(hù)數(shù)據(jù)主體的權(quán)益。這些保障措施包括: (1) 數(shù)據(jù)主體有權(quán)獲得人工干預(yù);(2) 數(shù)據(jù)主體有權(quán)表達(dá)自己的觀點(diǎn);(3) 數(shù)據(jù)主體有權(quán)對(duì)決策提出異議。此外,GDPR 第 71 條款還提到了數(shù)據(jù)主體有權(quán)獲得對(duì)決策的解釋。
然而,GDPR 對(duì)解釋權(quán)的具體內(nèi)容和形式并沒(méi)有明確規(guī)定,這引發(fā)了關(guān)于其含義和范圍的廣泛討論。一些學(xué)者認(rèn)為,解釋權(quán)是競(jìng)爭(zhēng)權(quán)的前提,數(shù)據(jù)主體只有理解了決策的依據(jù)和邏輯,才能有效地行使競(jìng)爭(zhēng)權(quán)。另一些學(xué)者則認(rèn)為,解釋權(quán)的范圍應(yīng)受到 GDPR 透明度原則的限制,數(shù)據(jù)控制者只需提供必要的信息,而無(wú)需透露其商業(yè)秘密或知識(shí)產(chǎn)權(quán)。
不同國(guó)家對(duì) GDPR 第 22 條的實(shí)施也存在差異。例如,法國(guó)和匈牙利在其國(guó)內(nèi)法中明確規(guī)定了對(duì)自動(dòng)化決策的解釋權(quán),而其他一些國(guó)家則沒(méi)有。這些差異反映了各國(guó)對(duì) XAI 解釋的不同理解和期望。
2.2 可解釋人工智能 (XAI)
XAI 方法可以根據(jù)其解釋范圍和模型依賴性進(jìn)行分類(lèi)。局部解釋方法旨在解釋單個(gè)決策,而全局解釋方法則旨在解釋整個(gè)模型的行為。模型特定方法只能用于特定類(lèi)型的模型,而模型無(wú)關(guān)方法則可以應(yīng)用于任何類(lèi)型的模型。
研究中使用了三種模型無(wú)關(guān)的局部解釋方法:
- SHAP (SHapley Additive exPlanations):SHAP 是一種基于博弈論的特征相關(guān)性方法,它可以計(jì)算每個(gè)特征對(duì)最終決策的貢獻(xiàn)值。SHAP 值可以是正的也可以是負(fù)的,表示該特征對(duì)決策結(jié)果的正面或負(fù)面影響。
- DICE (DIverse Counterfactual Explanations):DICE 是一種對(duì)比解釋方法,它可以生成與待解釋實(shí)例相似但具有不同預(yù)測(cè)結(jié)果的實(shí)例。這些對(duì)比實(shí)例可以幫助用戶理解如何改變輸入特征以獲得不同的決策結(jié)果。
- LORE (LOcal Rule-based Explanations):LORE 是一種基于規(guī)則的對(duì)比解釋方法,它可以生成描述決策邏輯的規(guī)則。LORE 可以提供事實(shí)規(guī)則和對(duì)比規(guī)則,分別解釋當(dāng)前決策的依據(jù)和如何改變輸入以獲得不同決策。
2.3 定性研究
XAI 中的用戶研究旨在了解不同用戶對(duì) XAI 解釋的理解、接受程度和使用方式。用戶研究通常采用定性研究方法,例如調(diào)查、訪談和觀察,以收集用戶的反饋和意見(jiàn)。扎根理論是一種從定性數(shù)據(jù)中生成理論的分析方法。它通過(guò)對(duì)數(shù)據(jù)進(jìn)行編碼和分類(lèi),逐步提煉出核心概念和理論框架。
3. 解釋對(duì)話
3.1 研究問(wèn)題
研究旨在回答以下兩個(gè)研究問(wèn)題:
- 法律專(zhuān)家如何理解 ADM 系統(tǒng)的解釋?zhuān)约八麄內(nèi)绾闻袛喱F(xiàn)有方法的法律合規(guī)性?
- 法律專(zhuān)家是否理解并信任 ADM 系統(tǒng)的解釋?zhuān)约八麄冋J(rèn)為應(yīng)該如何改進(jìn)?
3.2 研究設(shè)計(jì)
研究設(shè)計(jì)了一個(gè)貸款申請(qǐng)場(chǎng)景,其中銀行使用隨機(jī)森林模型來(lái)評(píng)估客戶的信用風(fēng)險(xiǎn),并使用 XAI 方法向客戶解釋貸款申請(qǐng)的結(jié)果。隨機(jī)森林模型在訓(xùn)練集和測(cè)試集上的準(zhǔn)確率分別為 0.815 和 0.8,表明模型具有良好的預(yù)測(cè)性能。
研究選擇了 SHAP、DICE 和 LORE 三種 XAI 方法,并以不同的形式 (例如圖表、表格、規(guī)則) 向參與者呈現(xiàn)。選擇這些方法的原因包括:它們能夠提供不同類(lèi)型的解釋信息 (例如全局解釋、局部解釋、對(duì)比解釋);它們是 XAI 領(lǐng)域的最新方法,并具有一定的法律支持。
研究招募了 9 位法律專(zhuān)家參與在線問(wèn)卷調(diào)查,并對(duì)其中 6 位進(jìn)行了后續(xù)訪談。選擇法律專(zhuān)家的目的是了解他們對(duì) XAI 解釋的法律合規(guī)性和可理解性的看法。
3.3 技術(shù)細(xì)節(jié)
研究使用了 South German Credit Dataset 作為貸款申請(qǐng)場(chǎng)景的數(shù)據(jù)集。該數(shù)據(jù)集包含 1000 個(gè)數(shù)據(jù)樣本,每個(gè)樣本有 20 個(gè)特征和一個(gè)二元響應(yīng)變量 ("good vs. bad" credit)。
XAI 解釋方法的計(jì)算使用了 Python 的 sklearn、SHAP 和 DICE (dice-ml) 包,以及 LORE 的開(kāi)源代碼。在線問(wèn)卷調(diào)查使用了 Qualtrics 軟件,訪談則通過(guò) Microsoft Teams 進(jìn)行,并進(jìn)行了錄音和轉(zhuǎn)錄。所有數(shù)據(jù)都進(jìn)行了匿名化處理,以保護(hù)參與者的隱私。
3.4 評(píng)估細(xì)節(jié)
問(wèn)卷數(shù)據(jù)經(jīng)過(guò)清洗后,對(duì)參與者的自由文本回答進(jìn)行了扎根理論分析。兩位研究人員獨(dú)立地對(duì)文本進(jìn)行開(kāi)放編碼、軸心編碼和選擇性編碼,最終生成了一套包含六個(gè)核心現(xiàn)象的編碼表。訪談數(shù)據(jù)也進(jìn)行了類(lèi)似的扎根理論分析,最終生成了一套包含三個(gè)核心現(xiàn)象的編碼表。
4. 結(jié)果
4.1 問(wèn)卷調(diào)查結(jié)果
問(wèn)卷結(jié)果分析主要圍繞以下六個(gè)核心現(xiàn)象展開(kāi): 解釋的相關(guān)性、對(duì)普通用戶的可理解性、交付方式和格式的適當(dāng)性、行使權(quán)利的適用性、決策結(jié)果對(duì)信息需求的意義以及信息的完整性。
參與者對(duì)不同 XAI 方法的評(píng)價(jià)如下:
- 全局 SHAP:參與者普遍認(rèn)為全局 SHAP 解釋難以理解,缺乏與個(gè)案相關(guān)的具體信息,并且對(duì)行使權(quán)利沒(méi)有幫助。
- 局部 SHAP:參與者對(duì)局部 SHAP 解釋的評(píng)價(jià)褒貶不一,一些人認(rèn)為它有助于理解決策,另一些人則認(rèn)為它過(guò)于復(fù)雜和難以理解。
- DICE:參與者對(duì) DICE 解釋的評(píng)價(jià)較為正面,認(rèn)為它提供了更具體的對(duì)比信息,但同時(shí)也指出其可操作性有限。
- LORE:參與者對(duì) LORE 解釋的評(píng)價(jià)差異較大,一些人認(rèn)為它清晰易懂,另一些人則認(rèn)為它缺乏信息和指導(dǎo)意義。
4.2 訪談結(jié)果
訪談結(jié)果主要圍繞三個(gè)核心現(xiàn)象展開(kāi):解釋的呈現(xiàn)、有效性以及高級(jí)主題。訪談結(jié)果顯示,參與者對(duì) XAI 解釋的理解程度仍然有限,并且對(duì)解釋權(quán)的范圍和內(nèi)容存在不同看法。一些參與者強(qiáng)調(diào)了解釋的可理解性,認(rèn)為解釋?xiě)?yīng)該清晰易懂,以便數(shù)據(jù)主體能夠理解決策的依據(jù)。另一些參與者則更關(guān)注解釋的法律合規(guī)性,認(rèn)為解釋?xiě)?yīng)該提供足夠的信息,以便數(shù)據(jù)主體能夠評(píng)估決策的合法性和公平性。
4.3 相互聯(lián)系與總結(jié)
研究發(fā)現(xiàn),解釋的有效性與其上下文密切相關(guān),例如應(yīng)用領(lǐng)域、決策的重要性以及適用的法律法規(guī)。此外,數(shù)據(jù)控制者和數(shù)據(jù)主體之間的利益權(quán)衡也是一個(gè)重要的考慮因素。XAI 解釋需要在保護(hù)數(shù)據(jù)主體權(quán)益的同時(shí),兼顧數(shù)據(jù)控制者的商業(yè)利益和知識(shí)產(chǎn)權(quán)。
總的來(lái)說(shuō),問(wèn)卷和訪談的結(jié)果都表明,現(xiàn)有的 XAI 方法在可理解性、信息完整性和法律合規(guī)性方面仍有改進(jìn)空間。
5. 討論的關(guān)鍵問(wèn)題
5.1 回答研究問(wèn)題
在第四部分詳細(xì)分析了問(wèn)卷和訪談的結(jié)果之后,現(xiàn)在我們來(lái)解讀一下研究提出的兩個(gè)核心問(wèn)題:
- 問(wèn)題 1:法律專(zhuān)家如何理解 ADM 系統(tǒng)的解釋?zhuān)约八麄內(nèi)绾闻袛喱F(xiàn)有方法的法律合規(guī)性?
研究結(jié)果顯示,法律專(zhuān)家對(duì) XAI 解釋的理解存在一定難度,尤其是在面對(duì) SHAP 生成的圖形解釋時(shí),他們普遍感到困惑。這表明 XAI 方法的可理解性仍有待提高,開(kāi)發(fā)者需要更加注重解釋的清晰性和直觀性。此外,法律專(zhuān)家對(duì)現(xiàn)有 XAI 方法的 GDPR 合規(guī)性也表示擔(dān)憂。他們認(rèn)為,許多解釋缺乏關(guān)鍵信息,例如決策的具體依據(jù)、特征的重要性以及與個(gè)案相關(guān)的細(xì)節(jié)。這突顯了 XAI 方法在信息完整性方面需要改進(jìn),以滿足 GDPR 的要求。 - 問(wèn)題 2:法律專(zhuān)家是否理解并信任 ADM 系統(tǒng)的解釋?zhuān)约八麄冋J(rèn)為應(yīng)該如何改進(jìn)?
研究發(fā)現(xiàn),法律專(zhuān)家對(duì) XAI 解釋的信任程度并不高。他們認(rèn)為,現(xiàn)有的解釋方法難以幫助數(shù)據(jù)主體充分理解決策過(guò)程,并評(píng)估其合法性和公平性。為了改進(jìn) XAI 解釋?zhuān)蓪?zhuān)家提出了一些建議,例如:
- 結(jié)合全局解釋和局部解釋?zhuān)蕴峁└娴男畔ⅰ?/li>
- 使用清晰易懂的語(yǔ)言和圖表,避免使用過(guò)于專(zhuān)業(yè)的術(shù)語(yǔ)和復(fù)雜的圖形。
- 提供更多與個(gè)案相關(guān)的細(xì)節(jié),例如特征的具體取值和對(duì)決策的影響。
- 增加解釋的交互性,允許數(shù)據(jù)主體探索不同的假設(shè)情景。
5.2 改進(jìn)建議
基于研究結(jié)果, XAI 方法的開(kāi)發(fā)者可以考慮以下改進(jìn)建議:
- 呈現(xiàn)方式:為了提高可理解性,XAI 解釋?xiě)?yīng)該結(jié)合全局解釋和局部解釋。全局解釋可以幫助用戶了解模型的整體行為,而局部解釋可以幫助用戶理解個(gè)體決策的具體原因。此外,開(kāi)發(fā)者應(yīng)該使用清晰易懂的語(yǔ)言和圖表來(lái)呈現(xiàn)解釋?zhuān)苊馐褂眠^(guò)于專(zhuān)業(yè)的術(shù)語(yǔ)和復(fù)雜的圖形。例如,可以使用自然語(yǔ)言、決策樹(shù)或簡(jiǎn)單的圖表來(lái)解釋模型的決策邏輯。
- 格式選擇:XAI 解釋的格式應(yīng)該根據(jù)用戶的需求和理解能力進(jìn)行選擇。對(duì)于非專(zhuān)業(yè)用戶,可以使用文本、簡(jiǎn)單的圖表或決策規(guī)則來(lái)解釋模型的決策過(guò)程。對(duì)于專(zhuān)業(yè)用戶,可以使用更復(fù)雜的圖形或數(shù)學(xué)公式來(lái)解釋模型的內(nèi)部機(jī)制。
- 內(nèi)容設(shè)計(jì):XAI 解釋?xiě)?yīng)該提供足夠的信息,以幫助用戶理解決策過(guò)程。這些信息應(yīng)該包括決策的依據(jù)、特征的重要性以及對(duì)比信息等。例如,可以使用 SHAP 方法來(lái)解釋每個(gè)特征對(duì)決策的貢獻(xiàn),使用 LIME 方法來(lái)解釋模型在局部區(qū)域的行為,使用 DICE 方法來(lái)生成對(duì)比解釋。
- 用戶需求:在開(kāi)發(fā) XAI 方法時(shí),應(yīng)該充分考慮用戶的需求??梢酝ㄟ^(guò)用戶研究來(lái)了解用戶的認(rèn)知水平、信息需求和解釋偏好。此外,可以根據(jù)用戶的反饋來(lái)改進(jìn) XAI 方法的設(shè)計(jì)和實(shí)現(xiàn)。
5.3 法律問(wèn)題*
在設(shè)計(jì)和應(yīng)用 XAI 方法時(shí),還需要注意以下法律問(wèn)題:
- 可理解性和可解釋性:GDPR 要求 XAI 解釋必須清晰易懂,以便數(shù)據(jù)主體能夠理解自動(dòng)化決策的過(guò)程,并評(píng)估其合法性和公平性。開(kāi)發(fā)者需要確保 XAI 解釋的語(yǔ)言、格式和內(nèi)容都易于被目標(biāo)用戶理解。
- 透明度閾值:GDPR 鼓勵(lì)透明度,但也承認(rèn)保護(hù)商業(yè)秘密和知識(shí)產(chǎn)權(quán)的重要性。在設(shè)計(jì) XAI 解釋時(shí),需要平衡數(shù)據(jù)主體的信息權(quán)和數(shù)據(jù)控制者的商業(yè)利益。
- 利益沖突:XAI 解釋需要平衡數(shù)據(jù)主體和數(shù)據(jù)控制者之間的利益。開(kāi)發(fā)者應(yīng)該避免設(shè)計(jì)可能導(dǎo)致利益沖突的解釋方法,例如,避免過(guò)度強(qiáng)調(diào)有利于數(shù)據(jù)控制者的信息,而忽略不利于數(shù)據(jù)控制者的信息。
5.4 未來(lái)趨勢(shì)
未來(lái),參照之前的論文觀點(diǎn),XAI 的發(fā)展趨勢(shì)可能有以下幾個(gè):
- 與其他技術(shù)的結(jié)合:XAI 可以與聯(lián)邦學(xué)習(xí)、差分隱私等技術(shù)結(jié)合,以更好地保護(hù)數(shù)據(jù)主體的隱私和權(quán)益。例如,可以將 XAI 方法應(yīng)用于聯(lián)邦學(xué)習(xí)模型,以解釋模型如何在不訪問(wèn)原始數(shù)據(jù)的情況下進(jìn)行訓(xùn)練和決策。
- 個(gè)性化解釋?zhuān)?/strong>XAI 可以根據(jù)用戶的需求和理解能力提供個(gè)性化的解釋。例如,可以根據(jù)用戶的專(zhuān)業(yè)背景、認(rèn)知水平和信息需求,調(diào)整解釋的語(yǔ)言、格式和內(nèi)容。
- 動(dòng)態(tài)解釋?zhuān)?/strong>XAI 可以隨著模型的更新和數(shù)據(jù)的變化提供動(dòng)態(tài)的解釋。例如,可以將 XAI 方法與模型監(jiān)控技術(shù)相結(jié)合,以便在模型的行為發(fā)生變化時(shí)及時(shí)更新解釋。
6. 結(jié)論
XAI 方法在 GDPR 合規(guī)性中發(fā)揮著重要的作用。它能夠幫助數(shù)據(jù)主體理解自動(dòng)化決策的過(guò)程,并評(píng)估其合法性和公平性,從而保障數(shù)據(jù)主體的權(quán)益。研究通過(guò)對(duì)法律專(zhuān)家的調(diào)查和訪談,深入了解了他們對(duì) XAI 解釋的理解、期望和顧慮。研究結(jié)果為 XAI 方法的開(kāi)發(fā)和應(yīng)用提供了重要的指導(dǎo)。
未來(lái),XAI 方法需要在可理解性、信息完整性和法律合規(guī)性方面不斷改進(jìn),以更好地滿足 GDPR 的要求,并促進(jìn) AI 系統(tǒng)的負(fù)責(zé)任使用。
參考論文: arXiv:2501.05325v1 [cs.CY] 9 Jan 2025
本文轉(zhuǎn)載自 ??上堵吟??,作者: 一路到底孟子敬
