自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何解釋AI做出的決策?一文梳理算法應(yīng)用場(chǎng)景和可解釋性

人工智能 新聞
本文結(jié)合《Explanation decisions made with AI》指南,重點(diǎn)對(duì)算法的應(yīng)用場(chǎng)景和可解釋性分析進(jìn)行了梳理總結(jié)。

英國(guó)的 Information Commissioner’s Office (ICO)和 The Alan-Turing Institute 聯(lián)合發(fā)布了《Explanation decisions made with AI》指南。該指南旨在為機(jī)構(gòu)和組織提供實(shí)用建議,以幫助向受其影響的個(gè)人解釋由 AI 提供或協(xié)助的程序、服務(wù)和決定,同時(shí)幫助機(jī)構(gòu)和組織遵循歐盟 GDPR 等與個(gè)人信息保護(hù)相關(guān)的政策要求。該指南分為三個(gè)部分,第 1 部分:可解釋 AI 的基礎(chǔ)知識(shí);第 2 部分:可解釋 AI 的實(shí)踐;第 3 部分:可解釋 AI 對(duì)機(jī)構(gòu) / 組織的意義。指南最后給出了主流的 AI 算法 / 模型的適用場(chǎng)景,以及對(duì)這些算法 / 模型的可解釋性分析,可作為實(shí)踐任務(wù)中結(jié)合應(yīng)用場(chǎng)景特點(diǎn)選擇能夠滿足領(lǐng)域要求的可解釋性的 AI 算法 / 模型的參考。

本文結(jié)合《Explanation decisions made with AI》指南,重點(diǎn)對(duì)算法的應(yīng)用場(chǎng)景和可解釋性分析進(jìn)行了梳理總結(jié)。此外,我們還解讀了一篇醫(yī)學(xué)領(lǐng)域可解釋性方法的最新論文—《評(píng)估藥物不良事件預(yù)測(cè)中基于注意和 SHAP 時(shí)間解釋的臨床有效性》,以了解關(guān)于可解釋性方法的最新研究進(jìn)展。

1、算法的應(yīng)用場(chǎng)景和可解釋性分析

《Explanation decisions made with AI》指南給出了主流的 AI 算法 / 模型的適用場(chǎng)景,以及對(duì)這些算法 / 模型的可解釋性分析,作者對(duì)主流模型的可解釋性情況進(jìn)行了梳理總結(jié)。

算法類(lèi)型

可能的應(yīng)用

解釋

線性回歸 (LR)

在金融(如信用評(píng)分)和醫(yī)療保?。ǜ鶕?jù)生活方式和現(xiàn)有的健康狀況預(yù)測(cè)疾病風(fēng)險(xiǎn))等高度監(jiān)管的行業(yè)中具有優(yōu)勢(shì),因?yàn)樗挠?jì)算和監(jiān)督都比較簡(jiǎn)單。

由于線性和單調(diào)性,具有較高的可解釋性。隨著特征數(shù)量的增加(即高維度),可解釋性會(huì)變差。

邏輯回歸

像線性回歸一樣,在高度管制和安全關(guān)鍵部門(mén)有優(yōu)勢(shì),特別是在基于分類(lèi)問(wèn)題的用例中,如對(duì)風(fēng)險(xiǎn)、信用或疾病的是/否決策。

良好的可解釋性,但不如LR,因?yàn)樘卣魇峭ㄟ^(guò)邏輯函數(shù)轉(zhuǎn)換的,與概率結(jié)果的關(guān)系是對(duì)數(shù),而不是相加。

正則化回歸(LASSO和Ridge)

與線性回歸一樣,在要求結(jié)果可理解、可獲得和透明的高度監(jiān)管和安全關(guān)鍵部門(mén)中具有優(yōu)勢(shì)。

由于通過(guò)更好的特征選擇程序改善了模型的稀疏性,因此具有高度的可解釋性。

廣義線性模型(GLM)

適用于目標(biāo)變量具有需要指數(shù)族分布集的約束條件的用例(例如,如果目標(biāo)變量涉及人數(shù)、時(shí)間單位或結(jié)果的概率,則結(jié)果必須具有非負(fù)值。)

良好的可解釋性水平,跟蹤了LR的優(yōu)點(diǎn),同時(shí)也引入了更多的靈活性。因?yàn)槠滏溄庸δ?,確定特征的重要性可能不如用加性特征簡(jiǎn)單的LR那么直接,一定程度上失去了透明度。

廣義加性模型(GAM)

適用于預(yù)測(cè)變量和響應(yīng)變量之間的關(guān)系不是線性的(即輸入-輸出關(guān)系在不同時(shí)間以不同速度變化),但需要最佳可解釋性的用例。

良好的可解釋性,因?yàn)榧词乖诖嬖诜蔷€性關(guān)系的情況下,GAM也可以用圖形清晰地表示預(yù)測(cè)變量對(duì)響應(yīng)變量的影響。

決策樹(shù)

由于產(chǎn)生DT結(jié)果的分步邏輯對(duì)非技術(shù)用戶來(lái)說(shuō)很容易理解(取決于節(jié)點(diǎn)/特征的數(shù)量),這種方法可用于需要透明度的高風(fēng)險(xiǎn)和安全關(guān)鍵的決策支持情況,以及相關(guān)特征數(shù)量相當(dāng)少的許多其他用例。

如果DT保持相當(dāng)小的規(guī)模,那么可解釋的程度就很高,這樣就可以從頭到尾跟蹤邏輯。與LR相比,DT的優(yōu)勢(shì)在于前者可以適應(yīng)非線性和變量交互,同時(shí)保持可解釋性。

規(guī)則/決定清單和集

與DT一樣,由于產(chǎn)生規(guī)則列表和規(guī)則集的邏輯對(duì)非技術(shù)用戶來(lái)說(shuō)很容易理解,這種方法可用于需要透明度的高風(fēng)險(xiǎn)和安全關(guān)鍵的決策支持情況,以及其他許多需要明確和完全透明地說(shuō)明結(jié)果的用例。

規(guī)則列表和規(guī)則集是所有最佳性能和不透明的算法技術(shù)中具有最高程度的可解釋性之一。然而,它們也與DT有相同的可能性,即當(dāng)規(guī)則列表變長(zhǎng)或規(guī)則集變大時(shí),可理解的程度就會(huì)消失。

基于案例的推理(CBR)/原型和批評(píng)

CBR適用于任何基于經(jīng)驗(yàn)的領(lǐng)域。推理用于決策的任何領(lǐng)域。例如,在醫(yī)學(xué)上,當(dāng)以前類(lèi)似案例的成功經(jīng)驗(yàn)指向決策者建議的治療方法時(shí),就會(huì)在CBR的基礎(chǔ)上推薦。CBR擴(kuò)展到原型和批評(píng)的方法意味著更好地促進(jìn)對(duì)復(fù)雜數(shù)據(jù)分布的理解,以及增加數(shù)據(jù)挖掘的洞察力、可操作性和可解釋性。

CBR是可以通過(guò)設(shè)計(jì)來(lái)解釋的。它使用從可解釋的設(shè)計(jì)中提取的例子。它使用從人類(lèi)知識(shí)中提取的例子,以便將輸入的特征吸收到人類(lèi)可識(shí)別的表征中。它通過(guò)稀疏的特征和熟悉的原型保留了模型的可解釋性。

超稀疏線性整數(shù)模型(SLIM)

SLIM已被用于需要快速、簡(jiǎn)化而又最準(zhǔn)確的臨床決策的醫(yī)療應(yīng)用中。一個(gè)被稱(chēng)為風(fēng)險(xiǎn)校準(zhǔn)SLIM(RiskSLIM)的版本已被應(yīng)用于刑事司法領(lǐng)域,表明其稀疏線性方法對(duì)生態(tài)犯罪的預(yù)測(cè)與目前使用的一些不透明模型一樣有效。

由于其稀疏和易理解的特點(diǎn),SLIM為以人為中心的決策支持提供了最佳的可解釋性。作為一個(gè)手動(dòng)完成的評(píng)分系統(tǒng),它還確保了實(shí)施它的引導(dǎo)員-用戶的積極參與。

Na?ve Bayes

雖然這種技術(shù)由于不現(xiàn)實(shí)的特征獨(dú)立性假設(shè)而被認(rèn)為是naive的,但眾所周知它是非常有效的。它的快速計(jì)算時(shí)間和可擴(kuò)展性使其適合于高維特征空間的應(yīng)用。
常見(jiàn)的應(yīng)用包括垃圾郵件過(guò)濾、推薦系統(tǒng)和情感分析。

Naive Bayes分類(lèi)器具有高度的可解釋性,因?yàn)槊總€(gè)特征的類(lèi)成員概率是獨(dú)立計(jì)算的。然而,假設(shè)獨(dú)立變量的條件概率在統(tǒng)計(jì)上是獨(dú)立的,這也是一個(gè)弱點(diǎn),因?yàn)闆](méi)有考慮特征的相互作用。

K近鄰(KNN)

KNN是一種簡(jiǎn)單、直觀、多功能的技術(shù),應(yīng)用廣泛,但對(duì)較小的數(shù)據(jù)集效果最好。由于它是非參數(shù)性的(對(duì)基礎(chǔ)數(shù)據(jù)分布不做任何假設(shè)),它對(duì)非線性數(shù)據(jù)很有效,同時(shí)不失可解釋性。常見(jiàn)的應(yīng)用包括推薦系統(tǒng)、圖像識(shí)別、客戶評(píng)級(jí)和排序。

KNN的工作假設(shè)是,通過(guò)查看它們所依賴(lài)的數(shù)據(jù)點(diǎn)與產(chǎn)生類(lèi)似類(lèi)別和結(jié)果的數(shù)據(jù)點(diǎn)的接近程度,可以預(yù)測(cè)類(lèi)別或結(jié)果。這種關(guān)于近似性/接近性的重要性的直覺(jué)是對(duì)所有KNN結(jié)果的解釋。當(dāng)特征空間保持小的時(shí)候,這樣的解釋更有說(shuō)服力,所以實(shí)例之間的相似性仍然是可以得到的。

SVM

SVM對(duì)于復(fù)雜的分類(lèi)任務(wù)來(lái)說(shuō)是非常通用的。它們可以用來(lái)檢測(cè)圖像中物體的存在(有臉/無(wú)臉;有貓/無(wú)貓),對(duì)文本類(lèi)型進(jìn)行分類(lèi)(體育文章/藝術(shù)文章),以及識(shí)別生物信息學(xué)中感興趣的基因。

可解釋性水平低,取決于維度特征空間。在上下文確定的情況下,使用SVM應(yīng)輔以輔助解釋工具。

ANN

ANN最適合于完成高維特征空間的各種分類(lèi)和預(yù)測(cè)任務(wù),即有非常大的輸入向量的情況。它們的用途可能包括計(jì)算機(jī)視覺(jué)、圖像識(shí)別、銷(xiāo)售和天氣預(yù)報(bào)、藥品發(fā)現(xiàn)和股票預(yù)測(cè)、機(jī)器翻譯、疾病診斷和欺詐檢測(cè)。

由于曲線(極端非線性)的傾向和輸入變量的高維度,導(dǎo)致ANN非常低的可解釋性。ANN被認(rèn)為是 "黑盒 "技術(shù)的縮影。在適當(dāng)?shù)那闆r下,應(yīng)當(dāng)引入解釋工具輔助ANN的使用。

隨機(jī)森林

隨機(jī)森林經(jīng)常被用來(lái)有效地提高單個(gè)決策樹(shù)的性能,改善其錯(cuò)誤率,并減輕過(guò)擬合。它們?cè)诨蚪M醫(yī)學(xué)等高維問(wèn)題領(lǐng)域非常流行,也被廣泛用于計(jì)算語(yǔ)言學(xué)、計(jì)量經(jīng)濟(jì)學(xué)和預(yù)測(cè)性風(fēng)險(xiǎn)建模。

由于在bagged數(shù)據(jù)和隨機(jī)特征上訓(xùn)練這些決策樹(shù)群的方法、特定森林中的樹(shù)木數(shù)量以及單個(gè)樹(shù)木可能有數(shù)百甚至數(shù)千個(gè)節(jié)點(diǎn)的可能性,可能導(dǎo)致隨機(jī)森林方法非常低的可解釋性。

集合方法

集合方法有廣泛的應(yīng)用,跟蹤其組成學(xué)習(xí)者模型的潛在用途(包括DT、KNN、隨機(jī)森林、NaiveBayes,等等)。

集合方法的可解釋性因使用何種方法而不同。例如,使用bagging技術(shù)的模型,即把在隨機(jī)數(shù)據(jù)子集上訓(xùn)練的學(xué)習(xí)者的多個(gè)估計(jì)值平均起來(lái),其原理可能難以解釋。對(duì)這些技術(shù)的解釋需求應(yīng)該結(jié)合其組成學(xué)習(xí)者的情況分別考慮。

2、評(píng)估藥物不良事件預(yù)測(cè)中基于注意力機(jī)制和 SHAP 時(shí)間解釋的臨床有效性

可解釋的機(jī)器學(xué)習(xí)是一個(gè)新興的領(lǐng)域,它嘗試以更人性化的方式幫助我們理解黑盒分類(lèi)器模型的決策。特別是對(duì)于醫(yī)療領(lǐng)域,可解釋性對(duì)于提供公開(kāi)透明的分析和合法的決策結(jié)果至關(guān)重要。具備可解釋性,一線醫(yī)療利益相關(guān)者就可以信任模型的決定并采取適當(dāng)?shù)男袆?dòng)。此外,全面的可解釋性能夠確保醫(yī)療實(shí)施的用戶可能獲取監(jiān)管權(quán)利,例如根據(jù)歐盟通用數(shù)據(jù)保護(hù)條例(GDPR):"獲得解釋的權(quán)利"。

在醫(yī)療領(lǐng)域,深度學(xué)習(xí)模型應(yīng)用于電子健康記錄(Electronic Health Record,EHR)數(shù)據(jù)獲得了很好的效果。例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)能夠有效捕捉 EHR 中時(shí)間相關(guān)的和異質(zhì)的數(shù)據(jù)復(fù)雜性。然而,RNNs 的一個(gè)主要缺點(diǎn)是缺乏內(nèi)在的可解釋性。在過(guò)去的研究過(guò)程中,已經(jīng)產(chǎn)生了幾種使 RNNs 更具解釋性的方法,例如,通過(guò)引入注意力機(jī)制使模型本身更易解釋?zhuān)缬?RETAIN;事后可解釋性框架(如 SHAP)可以應(yīng)用于概述 RNNs 的時(shí)間解釋等等。 

RETAIN[2]:用于分析 EHR 數(shù)據(jù)以預(yù)測(cè)病人未來(lái)出現(xiàn)心力衰竭的風(fēng)險(xiǎn)。RETAIN 受注意力機(jī)制啟發(fā),通過(guò)使用一個(gè)兩層的神經(jīng)注意力模型,并對(duì) EHR 數(shù)據(jù)進(jìn)行逆序輸入系統(tǒng),模擬醫(yī)生滿足病人需求及分析病人記錄時(shí)專(zhuān)注于病人過(guò)去診療記錄中某些特殊臨床信息、風(fēng)險(xiǎn)因素的過(guò)程,在保證預(yù)測(cè)結(jié)果準(zhǔn)確性(Accuracy)的同時(shí)確保了結(jié)果的可解釋性(interpretability)。


SHAP[3]:來(lái)自于博弈論原理,SHAP(SHapley Additive exPlanations)為特征分配特定的預(yù)測(cè)重要性值,作為特征重要性的統(tǒng)一度量,能夠解釋現(xiàn)代機(jī)器學(xué)習(xí)中大多數(shù)的黑盒模型,為機(jī)器學(xué)習(xí)模型量化各個(gè)特征的貢獻(xiàn)度。給定當(dāng)前的一組特征值,特征值對(duì)實(shí)際預(yù)測(cè)值與平均預(yù)測(cè)值之差的貢獻(xiàn)就是估計(jì)的 Shapley 值。

然而,關(guān)于醫(yī)學(xué)預(yù)測(cè)領(lǐng)域 RNN 的可解釋技術(shù)所提供的時(shí)間解釋的質(zhì)量,還存在著研究空白。支持和反對(duì)使用注意力作為解釋方法的論點(diǎn)都存在,一些證據(jù)表明,使用注意力得分可以提供足夠的透明度來(lái)解釋單個(gè)特征如何影響預(yù)測(cè)結(jié)果。而還有一些證據(jù)則質(zhì)疑了注意力機(jī)制的有效性,因?yàn)樽⒁饬χ岛透庇^的特征重要性測(cè)量之間的相關(guān)性很弱。在實(shí)踐中,用于模型解釋的可視化平臺(tái)已經(jīng)成功地利用了注意力分?jǐn)?shù)來(lái)為醫(yī)學(xué)預(yù)測(cè)提供解釋。然而,使用注意力值的整體效用還需要更深入的驗(yàn)證,特別是與利用其他可解釋方法(如 SHAP)相比。

本文的主要目標(biāo)是探索具有內(nèi)在可解釋性的 RNN 通過(guò)注意力機(jī)制能夠在多大程度上提供與臨床兼容的時(shí)間解釋?zhuān)⒃u(píng)估這種解釋?xiě)?yīng)該如何通過(guò)應(yīng)用事后方法來(lái)補(bǔ)充或取代,例如對(duì)黑盒 RNN 的 SHAP。本文具體在藥物不良事件(Adverse Drug Event,ADE)預(yù)測(cè)的醫(yī)學(xué)背景下探討這個(gè)問(wèn)題。結(jié)合我們所解讀的《Explanation decisions made with AI》指南,這篇文章所討論的是典型的必須應(yīng)用非線性統(tǒng)計(jì)技術(shù)的情況。在上一章節(jié)的梳理中,指南已經(jīng)明確“由于曲線(極端非線性)的傾向和輸入變量的高維度,導(dǎo)致 ANN 非常低的可解釋性。ANN 被認(rèn)為是 "黑盒" 技術(shù)的縮影。在適當(dāng)?shù)那闆r下,應(yīng)當(dāng)引入解釋工具輔助 ANN 的使用。”。因此,本文所做的工作就是為應(yīng)用于醫(yī)學(xué)領(lǐng)域的 ANN 方法引入適當(dāng)?shù)妮o助解釋工具(注意力機(jī)制和 SHAP 時(shí)間解釋?zhuān)?。?dāng)然,正如我們?cè)谥暗慕庾x中分析的,在一些應(yīng)用場(chǎng)景中,簡(jiǎn)單的白盒模型 / 方法無(wú)法滿足應(yīng)用需要,為了保證較高的準(zhǔn)確度 / 預(yù)測(cè)率,有時(shí)必須采用黑盒算法 / 模型。而如何在這種情況下通過(guò)引入輔助解釋工具幫助模型 / 系統(tǒng)的用戶更好的理解解釋?zhuān)褪窍旅孢@篇論文會(huì)詳細(xì)介紹的了。

2.1 方法介紹

令ε={P1,...,Pn}表征 n 個(gè)病人的數(shù)據(jù)庫(kù)。Pj 表征 K 個(gè)病人就診數(shù)據(jù)記錄,Pj = {x_1, . . , x_k},其中,x_k 發(fā)生在時(shí)間點(diǎn) t_k,包含一組描述該次診療的醫(yī)療變量,考慮到第 j 個(gè)病人在時(shí)間點(diǎn) t-1 的病史數(shù)據(jù) Pj={x_1, . . . , x_t-1},我們的任務(wù)是預(yù)測(cè)時(shí)間點(diǎn) t 的 ADE 的發(fā)生,并準(zhǔn)確地解釋為什么使用病人病史的整個(gè)時(shí)間結(jié)構(gòu)來(lái)預(yù)測(cè)這種 ADE。為了解決這個(gè)問(wèn)題,本文將 RNN 模型和可解釋性技術(shù)結(jié)合起來(lái),對(duì)全局和局部解釋的方法進(jìn)行了比較和臨床驗(yàn)證的分析。

SHAP 框架確定了加法特征重要性方法的類(lèi)別,以提供模型無(wú)關(guān)的解釋。SHAP 已經(jīng)成為一種流行的模型可解釋性方法,因?yàn)樗鼡碛卸喾N理想的特性,即全局一致的解釋?zhuān)@是其他事后方法所不能提供的,在這些方法中,局部定義的預(yù)測(cè)可能與全局模型的預(yù)測(cè)不一致。SHAP 建立在使用博弈論中的 Shapley 值的基礎(chǔ)上,在博弈論中,通過(guò)將不同的特征視為聯(lián)盟中的不同玩家來(lái)計(jì)算特定特征值對(duì)選定預(yù)測(cè)的影響。這些特征中的每一個(gè)都可以被看作是對(duì)預(yù)測(cè)的相對(duì)貢獻(xiàn),這些貢獻(xiàn)可以通過(guò)計(jì)算可能的聯(lián)盟中的邊際貢獻(xiàn)的平均值而被計(jì)算為 Shapley 值。

Shapley 值(表示為φ_ij),可以理解為每個(gè)特征值 x_ij 對(duì)每個(gè)樣本 i 和特征 j 的預(yù)測(cè)偏離數(shù)據(jù)集的平均預(yù)測(cè)的程度。在本研究中,每個(gè)醫(yī)療變量的 Shapley 值是針對(duì)病史中的每個(gè)時(shí)間點(diǎn)計(jì)算的,以解釋每個(gè)醫(yī)療變量對(duì)預(yù)測(cè)的影響是如何高于或低于基于背景數(shù)據(jù)集的預(yù)測(cè)平均值的。

遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是前饋神經(jīng)網(wǎng)絡(luò)模型的概括,用于處理連續(xù)的數(shù)據(jù),擁有一個(gè)持續(xù)的內(nèi)部狀態(tài) h_t,由 j 個(gè)隱藏單元 h_j 組成,作為處理連續(xù)狀態(tài)之間的依賴(lài)關(guān)系的記憶機(jī)制,在本文案例中具體是指跨時(shí)間點(diǎn)的病人診療信息。

本文希望采用一個(gè)基本的 RNN architechure 與 SHAP 相結(jié)合,它應(yīng)該能夠達(dá)到與 RETAIN 相當(dāng)?shù)男阅芩?,以幫助直接比較有效性解釋方法,而不會(huì)因?yàn)檫^(guò)度追求可解釋性而影響了模型本身的性能。具體的,本文基本 RNN 模型的內(nèi)部狀態(tài)由門(mén)控遞歸單元(GRU)組成,通過(guò)迭代以下方程定義:


其中,r_j 為復(fù)位門(mén),它決定了一個(gè)狀態(tài)中的每一個(gè)第 j 個(gè)隱藏單元的前一個(gè)狀態(tài)被忽略的程度;h_t-1 是上一個(gè)隱藏的內(nèi)部狀態(tài);W 和 U 是包含由網(wǎng)絡(luò)學(xué)習(xí)的參數(shù)權(quán)重的矩陣;z_j 是一個(gè)更新門(mén),決定了隱藏狀態(tài)應(yīng)該如何被更新為新的狀態(tài) h_new;(h_j)^t 表示隱藏單元 h_j 的激活函數(shù);sigm( )表示 sigmoid 函數(shù);?是 Hadamard 積。

本文采用與 SHAP 相結(jié)合的 GRU 架構(gòu),包括兩個(gè) 128 個(gè)單元的堆疊的 GRU 隱藏層,然后是 dropout 層,最后是一個(gè)全連接層,通過(guò)一個(gè) softmax 函數(shù)產(chǎn)生輸出分類(lèi)概率?y。

為了收集基于注意力的時(shí)間解釋?zhuān)疚牟捎昧?RETAIN 的 RNN 架構(gòu),在預(yù)測(cè)階段,基于注意力的貢獻(xiàn)分?jǐn)?shù)可以在單個(gè)醫(yī)學(xué)變量層面上確定。這個(gè) RNN 首先由輸入向量 x_i 的線性嵌入組成:

v_i∈R^m 是二進(jìn)制輸入向量 x_i∈R^V 的嵌入,W_emb∈R^(m xV)是嵌入的權(quán)重向量,m 是 V 個(gè)醫(yī)療變量的嵌入維度。使用兩個(gè) RNNs,RNNa 和 RNNb 分別用于生成訪問(wèn)和可變水平的注意力向量α和β。注意力向量是通過(guò)在時(shí)間上向后運(yùn)行 RNN 來(lái)生成的,這意味著 RNNα和 RNNβ都以相反的順序考慮訪問(wèn)嵌入。最后,我們得到每個(gè)病人在第 i 次就診前的情況向量 c_i:

然后,最終預(yù)測(cè)結(jié)果的計(jì)算方法如下:

基于注意力的貢獻(xiàn)得分可以確定對(duì)某一預(yù)測(cè)貢獻(xiàn)最大的訪問(wèn)和醫(yī)療變量。分?jǐn)?shù)可以用下式計(jì)算:

在本文研究中,根據(jù) RNN-GRU 模型修改了 SHAP,使用的是原始 SHAP 實(shí)現(xiàn)的修改代碼庫(kù)。作者采用了深度學(xué)習(xí)模型的梯度解釋方法,該方法基于預(yù)期梯度,使用 1000 個(gè)隨機(jī)樣本的背景數(shù)據(jù),為每個(gè)預(yù)測(cè)提供 Shapley 值的近似值。作者表示,這種特殊的近似處理并不保證 SHAP 的每一個(gè)屬性,但對(duì)于本文的目標(biāo)來(lái)說(shuō)是合適的。

2.2 驗(yàn)證方法介紹

本研究使用的數(shù)據(jù)庫(kù)由 1,314,646 名患者的診斷、藥物和文本記錄組成,這些記錄來(lái)自斯德哥爾摩大學(xué)的瑞典健康記錄研究銀行(HealthBank);這是一個(gè)匿名的患者記錄數(shù)據(jù)庫(kù),最初來(lái)自瑞典斯德哥爾摩卡羅林斯卡大學(xué)醫(yī)院的 TakeCare CGM 患者記錄系統(tǒng)。診斷由《國(guó)際疾病和相關(guān)健康問(wèn)題統(tǒng)計(jì)分類(lèi)》第十版(ICD-10)中的標(biāo)準(zhǔn)化代碼組成。藥物是根據(jù)解剖學(xué)治療化學(xué)分類(lèi)系統(tǒng)(ATC)進(jìn)行編碼的。為了減少問(wèn)題的復(fù)雜性,并增加病人的匿名性,非 ADEICD-10 和 ATC 代碼被減少到其更高層次的等級(jí)類(lèi)別,通過(guò)選擇每個(gè)代碼的前三個(gè)字符獲得。此外,就診是以月為單位定義的,這意味著在一個(gè)日歷月內(nèi)分配給病人的所有代碼和藥物的組合構(gòu)成了一次就診記錄?;颊咝枰獡碛兄辽偃芜@樣的記錄,相當(dāng)于至少三個(gè)月的數(shù)據(jù)。與 ADE 相關(guān)的詞袋特征也被提取為二元醫(yī)學(xué)變量。本研究使用了 1813 個(gè)醫(yī)療變量,包括 1692 個(gè) ICD-10 編碼,109 個(gè) ATC 編碼和 12 個(gè)關(guān)鍵詞特征。

評(píng)估實(shí)驗(yàn)將數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,比例分別為 0.7、0.1 和 0.2。在驗(yàn)證集上呈現(xiàn)最佳 AUC 的訓(xùn)練 epoch 所對(duì)應(yīng)的模型配置部署在測(cè)試集上。為每位患者分配了一個(gè)二進(jìn)制標(biāo)簽,以表示在他們最后一次就診時(shí)是否有 ADE。每個(gè)病人樣本都是由包含醫(yī)療變量的就診序列組成的,刪除最后一次就診記錄。為了適應(yīng)因 ADE 相對(duì)罕見(jiàn)而導(dǎo)致的類(lèi)別不平衡問(wèn)題,作者通過(guò)對(duì)多數(shù)類(lèi)別的低度取樣創(chuàng)建了一個(gè)平衡的訓(xùn)練集,其中利用了整個(gè)訓(xùn)練集的一個(gè)隨機(jī)分區(qū)。為了說(shuō)明模型行為的可變性,作者使用 3 個(gè)隨機(jī)模型和數(shù)據(jù)分區(qū)配置的平均值生成最終結(jié)果。在直接性能比較中,RNN-GRU 被配置成與 RETAIN 相同的多對(duì)一格式,并使用跨熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。默認(rèn)情況下,模型輸出大于 0.5 就會(huì)映射出一個(gè)正向 ADE 預(yù)測(cè)結(jié)果。

為了建立一個(gè)用于評(píng)估所研究的可解釋方法的臨床基本事實(shí),本文實(shí)驗(yàn)過(guò)程中總共招募了 5 位醫(yī)學(xué)專(zhuān)家,他們擁有醫(yī)學(xué)學(xué)位和豐富的臨床藥理學(xué)經(jīng)驗(yàn)。在第一階段的結(jié)構(gòu)化調(diào)查中,這些專(zhuān)家被要求對(duì)通過(guò) SHAP 和注意力方法確定的全局醫(yī)學(xué)變量進(jìn)行打分,最終收錄了每種方法的前 20 個(gè)變量。評(píng)分包括從 - 5 到 5 的整數(shù),0 不包括在內(nèi),其中 - 5 代表該變量與不發(fā)生 ADE 的可能性有非常高的關(guān)聯(lián),而 5 代表變量與發(fā)生 ADE 的可能性有非常高的關(guān)聯(lián)。然后計(jì)算出臨床醫(yī)生變量得分的平均值。其次,實(shí)驗(yàn)要求醫(yī)學(xué)專(zhuān)家對(duì) 10 個(gè)有代表性的個(gè)體病人記錄中的醫(yī)療變量進(jìn)行同樣的評(píng)分,這些記錄包含了直接發(fā)生在兩個(gè) RNN 都正確預(yù)測(cè)的 ADE 之前的醫(yī)療變量的歷史。這是一個(gè)案例研究任務(wù),受試者對(duì)與過(guò)敏相關(guān)的 ADEs T78.4、T78.3 和 T78.2 的發(fā)生有關(guān)的變量進(jìn)行評(píng)分。此外,受試者還被要求考慮變量本身的重要性、與其他變量的相互作用,以及過(guò)敏性疾病發(fā)生前的時(shí)間段。考慮時(shí)間的方法是將相同醫(yī)療變量的歷史記錄作為月度窗口輸入 RNN 模型。臨床醫(yī)生提供的平均分?jǐn)?shù)被用作評(píng)估可解釋方法對(duì)同一批(10 份)病人記錄所提供的解釋的基本事實(shí)。

本文使用 Top-k Jaccard 指數(shù)比較兩種可解釋方法與臨床專(zhuān)家得分的相似性,該指數(shù)定義為交集大小除以原始集合中排名最高的前 k 個(gè)子集的聯(lián)合大小。排名是根據(jù)從臨床專(zhuān)家反應(yīng)的平均值或從可解釋性方法返回的 Shapley 值或注意力貢獻(xiàn)分?jǐn)?shù)分別計(jì)算出的降序絕對(duì)分?jǐn)?shù)來(lái)定義的。最后,向醫(yī)學(xué)專(zhuān)家展示了如何將解釋方法可視化的示例,并要求他們思考這些解釋是否適用于現(xiàn)實(shí)生活中的臨床情況。

2.3 驗(yàn)證結(jié)果

表 1 給出了 RETAIN 與 RNN-GRU 配置在 AUC 和 F1-Score 方面的性能比較,由表 1 中的結(jié)果可看出,用于生成解釋的模型在兩個(gè)模型中的性能相似,RETAIN 的性能略勝一籌。

表 1. 在多對(duì)一預(yù)測(cè)配置中為所選架構(gòu)指定的 ADE 預(yù)測(cè)的 ROC 曲線下的經(jīng)驗(yàn)測(cè)試集面積和微型 F1 分?jǐn)?shù)

2.3.1  全局特征重要性

圖 1 和圖 2 是兩種方法對(duì)醫(yī)學(xué)變量的前 20 個(gè)全局重要性排名,顯示了平均絕對(duì) SHAP 值,以及數(shù)據(jù)測(cè)試集中頂級(jí)特征的平均絕對(duì)關(guān)注值。圖 3 顯示的是所述的利益相關(guān)者參與方法產(chǎn)生的臨床專(zhuān)家平均絕對(duì)分?jǐn)?shù),用于對(duì)醫(yī)學(xué)變量進(jìn)行評(píng)分。為清晰起見(jiàn),作者通過(guò)計(jì)算所有病人就診中出現(xiàn)特定醫(yī)療變量的每個(gè)例子的貢獻(xiàn)系數(shù)分?jǐn)?shù)的平均絕對(duì)值,來(lái)報(bào)告注意力貢獻(xiàn)分?jǐn)?shù)的全局重要性。

圖 1. 根據(jù) RETAIN 模型的平均注意力貢獻(xiàn)得分,排名最前的醫(yī)學(xué)變量。ATC 代碼前綴為 "M"

圖 2. 根據(jù)平均 SHAP 值對(duì) RNN-GRU 模型輸出的影響,排名靠前的醫(yī)療變量。ATC 代碼前綴為 "M"。標(biāo)記為 KWord * 的關(guān)鍵詞特征

圖 3. 根據(jù)臨床專(zhuān)家定義的分?jǐn)?shù),排名靠前的醫(yī)療變量。ATC 代碼前綴為'M'

表 2 給出了 SHAP 和注意力排名與醫(yī)學(xué)專(zhuān)家排名的 top-k Jaccard 指數(shù)比較結(jié)果,由表 2 可看出與注意力排名相比,SHAP 在每個(gè) k 值上都提供了與醫(yī)學(xué)專(zhuān)家更相似的總體解釋。

表 2. 可解釋性方法和臨床專(zhuān)家對(duì)最重要的醫(yī)療變量的排名之間的 Top-k Jaccard 相似性比較

2.3.2  過(guò)敏癥 ADEs 的個(gè)別解釋的案例研究

表 3 給出了過(guò)敏癥 ADEs 案例研究的結(jié)果,將 10 個(gè)有代表性的案例的平均臨床專(zhuān)家得分排名與注意力和 SHAP 提供的同等解釋得分排名進(jìn)行比較。對(duì)于每個(gè) Jaccard 指數(shù),所選的前 k% 基于注意力的得分與臨床得分最相似。

表 3. 可解釋性方法和臨床專(zhuān)家對(duì)單個(gè)病人記錄中最重要的醫(yī)療變量的平均 Top-k% Jaccard 相似度比較

2.3.3  對(duì)臨床遇到的問(wèn)題進(jìn)行可視化解釋的反饋

圖 4 展示了 SHAP 的時(shí)間解釋?zhuān)?4 給出了注意力機(jī)制的對(duì)應(yīng)時(shí)間解釋。SHAP 的解釋是通過(guò) SHAP 的特征相加的性質(zhì)來(lái)提供的,以便直觀地看到醫(yī)療特征的存在或不存在是如何通過(guò)它們?cè)诿總€(gè)時(shí)間點(diǎn)的 Shapley 值的總和來(lái)定義預(yù)測(cè)的。對(duì)于注意力的解釋?zhuān)@種可視化是不可能的,因?yàn)樨暙I(xiàn)值只反映相對(duì)重要性。

受試者得到了兩種方法的描述,并被要求回答:他們更喜歡哪種解釋?zhuān)麄冊(cè)诶斫饨忉寱r(shí)面臨哪些挑戰(zhàn),以及對(duì)改進(jìn)解釋的建議。首先,5 位專(zhuān)家中的 4 位更喜歡 SHAP 提供的解釋?zhuān)蚴撬且粋€(gè)更簡(jiǎn)單的解釋?zhuān)軌虮茸⒁饬忉尭行У乩斫?ADE 風(fēng)險(xiǎn)的完整觀點(diǎn)。其次,受試者的主要顧慮是,解釋中提供的信息太多,在大多數(shù)臨床上無(wú)法使用,而且解釋一個(gè)變量的缺失是如何導(dǎo)致風(fēng)險(xiǎn)的也不直觀。改進(jìn)的建議是,在可能的情況下顯示更少的醫(yī)療變量,以提高理解解釋的效率;其次,確保使用這種解釋的臨床醫(yī)生得到詳細(xì)的培訓(xùn)。

圖 4. 向臨床專(zhuān)家展示 SHAP 的解釋。ADE 真正陽(yáng)性預(yù)測(cè)的示例,顯示用 SHAP 評(píng)估的 7 個(gè)病人就診時(shí)間的 ADE 風(fēng)險(xiǎn)的發(fā)展,最后一次就診提示有 ADE。賦值 = 0 和 = 1 分別表示沒(méi)有或存在導(dǎo)致風(fēng)險(xiǎn)的變數(shù)

表 4. 與圖 4 相對(duì)應(yīng)的真陽(yáng)性 ADE 解釋的示例,使用 RETAIN 模型與藥物、診斷和文本數(shù)據(jù)。訪問(wèn)得分和預(yù)測(cè)得分指的是相應(yīng)的 ADE 代碼的 softmax 概率

2.4 文章討論 

首先,本文實(shí)驗(yàn)表明 RETAIN 和 RNN-GRU 模型的預(yù)測(cè)性能結(jié)果相似。這一發(fā)現(xiàn)對(duì)于臨床有效性評(píng)估很重要,因?yàn)槲覀儾幌MT發(fā)一種偏見(jiàn),即某一方法產(chǎn)生的解釋在臨床上的有效性較差,這是由于模型的性能較差,而不是解釋方法本身的原因。此外,考察圖 1 和圖 2 中的全局特征解釋?zhuān)鶕?jù)與圖 3 中的臨床專(zhuān)家排名的比較,這兩個(gè)排名都是獨(dú)特的,在醫(yī)學(xué)上基本符合 ADE。

SHAP 為每個(gè) top-k Jaccard 指數(shù)提供了更多的臨床驗(yàn)證的全局解釋?zhuān)@在很大程度上受到了它對(duì)沒(méi)有出現(xiàn)在注意力排名中的文本特征的高排名的影響。就單個(gè)解釋而言,注意力為每個(gè) top-k Jaccard 指數(shù)提供了最具有臨床有效性的解釋?zhuān)@表明,由于注意力具有捕捉和利用相關(guān)領(lǐng)域知識(shí)的明顯能力,不應(yīng)該將其作為一種可解釋的方法加以否定。

最后,從圖 4 和表 4 中醫(yī)學(xué)專(zhuān)家對(duì)解釋的反饋中得到的重要啟示是,由于 SHAP 在可視化特征對(duì)預(yù)測(cè)的貢獻(xiàn)方面具有加法特性,因此它能提供更緊湊和高效的解釋。這種緊湊性對(duì)于效率優(yōu)先的實(shí)時(shí)臨床會(huì)診是至關(guān)重要的。另一方面,注意力機(jī)制不能提供同樣的緊湊性或加法性,因此對(duì)于詳細(xì)的離線解釋或不受時(shí)間限制的臨床會(huì)診可能更可取。

3、總結(jié)

由 ICO 和 The Alan-Turing Institute 共同發(fā)起的 "解釋用人工智能做出的決定(Explanation decisions made with AI)"(2020 年)是對(duì)使用人工智能系統(tǒng)的組織中的問(wèn)責(zé)制和透明度要求的實(shí)際轉(zhuǎn)化的一次廣泛探索。

在過(guò)去的十幾年中,AI 算法 / 模型獲得了巨大的發(fā)展,從 “白盒” 不斷改進(jìn)為“黑盒”,不管是產(chǎn)業(yè)界還是學(xué)術(shù)界,都可以看到大量追求 AI 決策性能提升的工作,將識(shí)別率提升 1%、將預(yù)測(cè)準(zhǔn)確度提升 0.5%、在復(fù)雜背景環(huán)境下提升輸出準(zhǔn)確度、提高推薦排序的準(zhǔn)確性等等。隨著數(shù)字經(jīng)濟(jì)的發(fā)展,國(guó)內(nèi)外都越來(lái)越重視算法 / 模型的公平性、透明性、可解釋性和問(wèn)責(zé)制。為了讓技術(shù)更好的服務(wù)于人類(lèi),而不是讓人類(lèi)越來(lái)越被算法所奴役,解釋用 AI 做出的決策相信是未來(lái)大家都會(huì)越來(lái)越關(guān)注的問(wèn)題,我們也期待更多更有效、更可行的可解釋性方法、工具的出現(xiàn)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-03-07 16:48:54

算法可解釋性

2024-05-28 08:00:00

人工智能機(jī)器學(xué)習(xí)

2025-01-13 08:13:18

2024-09-18 05:25:00

可解釋性人工智能AI

2022-02-07 15:49:15

人工智能機(jī)器學(xué)習(xí)技術(shù)

2023-05-04 07:23:04

因果推斷貝葉斯因果網(wǎng)絡(luò)

2019-08-29 18:07:51

機(jī)器學(xué)習(xí)人工智能

2020-05-14 08:40:57

神經(jīng)網(wǎng)絡(luò)決策樹(shù)AI

2022-06-14 14:48:09

AI圖像GAN

2025-03-10 08:34:39

2023-09-26 11:45:45

2021-01-25 21:41:59

人工智能深度學(xué)習(xí)自動(dòng)駕駛

2021-01-08 10:47:07

機(jī)器學(xué)習(xí)模型算法

2022-10-12 07:24:18

大文件哈希算法Hash

2024-12-20 08:07:45

2023-03-09 12:12:38

算法準(zhǔn)則

2024-08-05 09:30:00

2020-11-11 12:15:31

AI人工智能可解釋性

2019-03-28 09:26:26

數(shù)據(jù)科學(xué)模型機(jī)器學(xué)習(xí)

2022-06-06 07:52:41

反欺詐技術(shù)AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)