自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

終于有人把可解釋機(jī)器學(xué)習(xí)講明白了

作者：索信達(dá)控股 2021-12-30 20:20:46

人工智能機(jī)器學(xué)習(xí)

為了解決模型的“黑盒”問題，科學(xué)家們提出了可解釋機(jī)器學(xué)習(xí)。除了預(yù)測的精準(zhǔn)性之外，可解釋性也是機(jī)器學(xué)習(xí)模型是否值得信賴的重要衡量標(biāo)準(zhǔn)。

在大數(shù)據(jù)時(shí)代，機(jī)器學(xué)習(xí)在提升產(chǎn)品銷售、輔助人類決策的過程中能夠起到很大的作用，但是計(jì)算機(jī)通常不會(huì)解釋它們的預(yù)測結(jié)果。

我們?cè)谑褂脵C(jī)器學(xué)習(xí)模型時(shí)，常用的模型性能評(píng)價(jià)指標(biāo)有精度、查準(zhǔn)率、查全率、ROC曲線、代價(jià)曲線等。如果一個(gè)機(jī)器學(xué)習(xí)模型表現(xiàn)得很好，我們是否就能信任這個(gè)模型而忽視決策的理由呢?答案是否定的。

模型的高性能意味著模型足夠智能和“聰明”，但這不足以讓我們了解它的運(yùn)作原理，因此我們需要賦予模型“表達(dá)能力”，這樣我們才能更加理解和信任模型。除了單一的性能評(píng)價(jià)之外，模型的評(píng)價(jià)還應(yīng)該增加一個(gè)維度，以表示模型的“表達(dá)能力”，可解釋性就是其中一個(gè)。

一可解釋性的定義

解釋指的是用通俗易懂的語言進(jìn)行分析闡明或呈現(xiàn)。對(duì)于模型來說，可解釋性指的是模型能用通俗易懂的語言進(jìn)行表達(dá)，是一種能被人類理解的能力，具體地說就是，能夠?qū)⒛Ｐ偷念A(yù)測過程轉(zhuǎn)化成具備邏輯關(guān)系的規(guī)則的能力。

可解釋性通常比較主觀，對(duì)于不同的人，解釋的程度也不一樣，很難用統(tǒng)一的指標(biāo)進(jìn)行度量。我們的目標(biāo)是希望機(jī)器學(xué)習(xí)模型能“像人類一樣表達(dá)，像人類一樣思考”，如果模型的解釋符合我們的認(rèn)知和思維方式，能夠清晰地表達(dá)模型從輸入到輸出的預(yù)測過程，那么我們就會(huì)認(rèn)為模型的可解釋性是好的。

在《機(jī)器學(xué)習(xí)的挑戰(zhàn)：黑盒模型正面臨這3個(gè)問題》例舉的基金營銷小場景中，雖然模型能夠判斷一個(gè)客戶有很大的可能性購買低風(fēng)險(xiǎn)、低收益的產(chǎn)品，但是模型不能解釋客戶傾向于購買低風(fēng)險(xiǎn)、低收益產(chǎn)品的更詳細(xì)的原因，因此也就無法提出對(duì)這個(gè)客戶來說更有針對(duì)性的營銷策略，從而導(dǎo)致營銷的效果不佳。

具備可解釋性的模型在做預(yù)測時(shí)，除了給出推薦的產(chǎn)品之外，還要能給出推薦的理由。例如，模型會(huì)推薦一個(gè)低收益產(chǎn)品的原因是，該客戶剛大學(xué)畢業(yè)，年紀(jì)還比較小，缺乏理財(cái)意識(shí)，金融知識(shí)也比較薄弱，盡管個(gè)人賬戶中金額不少，但是盲目推薦購買高收益產(chǎn)品，可能會(huì)由于其風(fēng)險(xiǎn)意識(shí)不足而導(dǎo)致更多的損失，因此可以通過一些簡單的低風(fēng)險(xiǎn)理財(cái)產(chǎn)品，讓客戶先體驗(yàn)一下金融市場，培養(yǎng)客戶的理財(cái)興趣，過一段時(shí)間再購買高收益的產(chǎn)品。

模型的可解釋性和模型的“表達(dá)能力”越強(qiáng)，我們?cè)诶媚Ｐ徒Y(jié)果進(jìn)行決策時(shí)便能達(dá)到更好的營銷效果。

二可解釋性的分類

可解釋機(jī)器學(xué)習(xí)的思想是在選擇模型時(shí)，同時(shí)考慮模型的預(yù)測精度和可解釋性，并盡量找到二者之間的最佳平衡。根據(jù)不同的使用場景和使用人員，我們大致可以將模型的可解釋性作以下分類。

1. 內(nèi)在可解釋VS.事后可解釋

內(nèi)在可解釋(Intrinsic Interpretability)指的是模型自身結(jié)構(gòu)比較簡單，使用者可以清晰地看到模型的內(nèi)部結(jié)構(gòu)，模型的結(jié)果帶有解釋的效果，模型在設(shè)計(jì)的時(shí)候就已經(jīng)具備了可解釋性。

如圖2-1所示，從決策樹的輸出結(jié)果中我們可以清楚地看到，兩個(gè)特征在不同取值的情況下，預(yù)測值存在差異。常見的內(nèi)在可解釋模型有邏輯回歸、深度較淺的決策樹模型(最多不超過4層)等。

▲圖2-1 決策樹結(jié)果

事后可解釋(Post-hoc Interpretability)指的是模型訓(xùn)練完之后，使用一定的方法增強(qiáng)模型的可解釋性，挖掘模型學(xué)習(xí)到的信息。

有的模型自身結(jié)構(gòu)比較復(fù)雜，使用者很難從模型內(nèi)部知道結(jié)果的推理過程，模型的結(jié)果也不帶有解釋的語言，通常只是給出預(yù)測值，這時(shí)候模型是不具備可解釋性的。事后可解釋是指在模型訓(xùn)練完之后，通過不同的事后解析方法提升模型的可解釋性。

如圖2-2所示，利用事后解析的方法，可以對(duì)不同的模型識(shí)別結(jié)果給出不同的理由：根據(jù)吉他的琴頸識(shí)別出電吉他，根據(jù)琴箱識(shí)別出木吉他，根據(jù)頭部和腿部識(shí)別出拉布拉多。常用的事后解析方法有可視化、擾動(dòng)測試、代理模型等。

▲圖2-2 事后解釋：a. 原始圖片，b. 解釋為電吉他的原因，c. 解釋為木吉他的原因，d. 解釋為拉布拉多的原因(來源：論文“"Why Should I Trust You?"—Explaining the Predictions of Any Classifier”)

2. 局部解釋VS.全局解釋

對(duì)于模型使用者來說，不同場景對(duì)解釋的需求也有所不同。對(duì)于整個(gè)數(shù)據(jù)集而言，我們需要了解整體的預(yù)測情況;對(duì)于個(gè)體而言，我們需要了解特定個(gè)體中預(yù)測的差異情況。

局部解釋指的是當(dāng)一個(gè)樣本或一組樣本的輸入值發(fā)生變化時(shí)，解釋其預(yù)測結(jié)果會(huì)發(fā)生怎樣的變化。

例如，在銀行風(fēng)控系統(tǒng)中，我們需要找到違規(guī)的客戶具備哪個(gè)或哪些特征，進(jìn)而按圖索驥，找到潛在的違規(guī)客戶;當(dāng)賬戶金額發(fā)生變化時(shí)，違規(guī)的概率會(huì)如何變化;在拒絕了客戶的信用卡申請(qǐng)后，我們也可以根據(jù)模型的局部解釋，向這些客戶解釋拒絕的理由。

圖2-2展示的既是事后解釋，也是一個(gè)局部解釋，是針對(duì)輸入的一張圖片作出的解釋。

全局解釋指的是整個(gè)模型從輸入到輸出之間的解釋，從全局解釋中，我們可以得到普遍規(guī)律或統(tǒng)計(jì)推斷，理解每個(gè)特征對(duì)模型的影響。

例如，吸煙與肺癌相關(guān)，抽煙越多的人得肺癌的概率越高。全局解釋可以幫助我們理解基于特征的目標(biāo)分布，但一般很難獲得。

人類能刻畫的空間不超過三維，一旦超過三維空間就會(huì)讓人感覺難以理解，我們很難用直觀的方式刻畫三維以上的聯(lián)合分布。因此一般的全局解釋都停留在三維以下，比如，加性模型(Additive Model)需要在保持其他特征不變的情況下，觀察單個(gè)特征與目標(biāo)變量的關(guān)系;樹模型則是將每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)的路徑解釋為產(chǎn)生葉節(jié)點(diǎn)結(jié)果的規(guī)則。

3. 可解釋機(jī)器學(xué)習(xí)的研究方向

可解釋機(jī)器學(xué)習(xí)為模型的評(píng)價(jià)指標(biāo)提供了新的角度，模型設(shè)計(jì)者在設(shè)計(jì)模型或優(yōu)化模型時(shí)，應(yīng)該從精度和解釋性兩個(gè)角度進(jìn)行考慮。

圖2-3所示的是可解釋機(jī)器學(xué)習(xí)中模型精度和模型可解釋性的關(guān)系，由香港大學(xué)張愛軍教授提出，在學(xué)術(shù)界廣為流傳，圖2-3中的橫軸代表模型的可解釋性，越往正方向，代表模型的可解釋性越高;縱軸代表模型的精度，越往正方向，代表模型的精度越高。

▲圖2-3 可解釋機(jī)器學(xué)習(xí)：模型精度和模型可解釋性的關(guān)系(圖片來源：?香港大學(xué)張愛軍博士)

針對(duì)模型評(píng)價(jià)的兩個(gè)指標(biāo)，可解釋機(jī)器學(xué)習(xí)有兩大研究方向，具體說明如下。

第一，對(duì)于傳統(tǒng)的統(tǒng)計(jì)學(xué)模型(比如決策樹、邏輯回歸、線性回歸等)，模型的可解釋性較強(qiáng)，我們?cè)谑褂媚Ｐ蜁r(shí)可以清楚地看到模型的內(nèi)部結(jié)構(gòu)，結(jié)果具有很高的可解釋性。

然而一般情況下，這些模型的精度較低，在一些信噪比較高(信號(hào)強(qiáng)烈，噪聲較少)的領(lǐng)域，擬合效果沒有當(dāng)下的機(jī)器學(xué)習(xí)模型高。

在保持模型的可解釋性前提下，我們可以適當(dāng)?shù)馗牧寄Ｐ偷慕Y(jié)構(gòu)，通過增加模型的靈活表征能力，提高其精度，使得模型往縱軸正方向移動(dòng)，形成內(nèi)在可解釋機(jī)器學(xué)習(xí)模型。比如，保持模型的加性性質(zhì)，同時(shí)從線性擬合拓展到非線性擬合，GAMI-Net、EBM模型均屬于內(nèi)在可解釋機(jī)器學(xué)習(xí)模型。

第二，當(dāng)下的機(jī)器學(xué)習(xí)模型(比如神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí))，其內(nèi)部結(jié)構(gòu)十分復(fù)雜，我們難以通過逐層神經(jīng)網(wǎng)絡(luò)或逐個(gè)神經(jīng)元觀察數(shù)據(jù)的變化，在一些信噪比較低(信號(hào)較弱，噪聲強(qiáng))的領(lǐng)域，我們很容易把噪聲也擬合進(jìn)去，不易發(fā)現(xiàn)其中的錯(cuò)誤，模型的可解釋性較低。

為了提高模型的可解釋性，我們可以采用以下兩種方法：

降低模型結(jié)構(gòu)的復(fù)雜度，如減少樹模型的深度，以犧牲模型的精度換取可解釋性;
保持模型原有的精度，在模型訓(xùn)練完之后，利用事后輔助的歸因解析方法及可視化工具，來獲得模型的可解釋性。

無論采用哪一種方法，其目的都是讓模型往橫軸的正方向移動(dòng)，獲取更多的可解釋性。LIME和SHAP等方法均屬于事后解析方法。

可解釋機(jī)器學(xué)習(xí)的研究在學(xué)術(shù)界和工業(yè)界都引發(fā)了熱烈的反響，發(fā)表的文章和落地應(yīng)用逐年增長。無論是哪一個(gè)研究方向，可解釋機(jī)器學(xué)習(xí)研究的最終目的都是：

在保證高水平學(xué)習(xí)表現(xiàn)的同時(shí)，實(shí)現(xiàn)更具可解釋性的模型;
讓我們更理解、信任并有效地使用模型。

關(guān)于作者：邵平，資深數(shù)據(jù)科學(xué)家，索信達(dá)控股金融AI實(shí)驗(yàn)室總監(jiān)。在大數(shù)據(jù)、人工智能領(lǐng)域有十多年技術(shù)研發(fā)和行業(yè)應(yīng)用經(jīng)驗(yàn)。技術(shù)方向涉及可解釋機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、時(shí)間序列預(yù)測、智能推薦、自然語言處理等?，F(xiàn)主要致力于可解釋機(jī)器學(xué)習(xí)、推薦系統(tǒng)、銀行智能營銷和智能風(fēng)控等領(lǐng)域的技術(shù)研究和項(xiàng)目實(shí)踐。

楊健穎，云南財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)碩士，高級(jí)數(shù)據(jù)挖掘工程師，一個(gè)對(duì)數(shù)據(jù)科學(xué)有堅(jiān)定信念的追求者，目前重點(diǎn)研究機(jī)器學(xué)習(xí)模型的可解釋性。

蘇思達(dá)，美國天普大學(xué)統(tǒng)計(jì)學(xué)碩士，機(jī)器學(xué)習(xí)算法專家，長期為銀行提供大數(shù)據(jù)與人工智能解決方案和技術(shù)服務(wù)。主要研究方向?yàn)榭山忉寵C(jī)器學(xué)習(xí)與人工智能，曾撰寫《可解釋機(jī)器學(xué)習(xí)研究報(bào)告》和多篇可解釋機(jī)器學(xué)習(xí)相關(guān)文章。

本文摘編自《可解釋機(jī)器學(xué)習(xí)：模型、方法與實(shí)踐》，經(jīng)出版方授權(quán)發(fā)布。(ISBN：9787111695714)

責(zé)任編輯：武曉燕來源：大數(shù)據(jù)DT

機(jī)器學(xué)習(xí)銷售語言

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="ayk4a"><track id="ayk4a"></track></cite>