深度學(xué)習(xí)?不一定非得搞“黑箱”
深度神經(jīng)網(wǎng)絡(luò)的參數(shù)網(wǎng)絡(luò)極其龐大復(fù)雜,也因此讓機(jī)器得以實(shí)現(xiàn)以往難以想象的各類功能。然而,這種復(fù)雜性也成為制約其廣泛應(yīng)用的禍根:神經(jīng)網(wǎng)絡(luò)的內(nèi)部工作機(jī)理一直是個謎,就連創(chuàng)建者自己也搞不清它到底怎么做出決策。自深度學(xué)習(xí)在2010年初全面流行以來,這個難題一直困擾著人工智能業(yè)界。
隨著深度學(xué)習(xí)在各個領(lǐng)域及應(yīng)用中的拓展,人們對根據(jù)神經(jīng)網(wǎng)絡(luò)的結(jié)果以及學(xué)習(xí)到的參數(shù)組合來解釋神經(jīng)網(wǎng)絡(luò)技術(shù)原理的興致也越來越高。然而,這些解釋方法往往并不靠譜,甚至充滿種種誤導(dǎo)性。更要命的是,這一切對于在訓(xùn)練過程中修復(fù)深度學(xué)習(xí)模型內(nèi)的偏差/偏見幾乎沒有任何實(shí)際意義。
最近,《自然:機(jī)器智能》雜志發(fā)表了一篇經(jīng)過同行評審的論文,杜克大學(xué)的科學(xué)家們在其中提出了“概念白化(concept whitening)”技術(shù),希望在不犧牲性能的前提下引導(dǎo)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特定概念。概念白化將可解釋性引入深度學(xué)習(xí)模型,而不再由模型自主在數(shù)百萬訓(xùn)練得出的參數(shù)中尋找答案。這項(xiàng)技術(shù)適用于卷積神經(jīng)網(wǎng)絡(luò),展示出令人鼓舞的結(jié)果,亦有望為人工智能的未來發(fā)展及研究產(chǎn)生重大影響。
深度學(xué)習(xí)模型的特征與潛在空間
面對質(zhì)量過硬的訓(xùn)練示例,擁有正確架構(gòu)的深度學(xué)習(xí)模型應(yīng)該有能力區(qū)分不同類型的輸入素材。例如,在計(jì)算機(jī)視覺任務(wù)場景下,經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)能夠?qū)D像的像素值轉(zhuǎn)換為相應(yīng)的類別。(由于概念白化主要適用于圖像識別,因此我們這里主要討論機(jī)器學(xué)習(xí)任務(wù)的這一特定子集。當(dāng)然,本文涉及的很多內(nèi)容同樣適用于整個深度學(xué)習(xí)領(lǐng)域。)
在訓(xùn)練期間,深度學(xué)習(xí)模型的每一層都會將訓(xùn)練圖像的特征編碼為一組數(shù)值,并將其存儲在參數(shù)當(dāng)中。這個過程,即AI模型的潛在空間。通常,多層卷積神經(jīng)網(wǎng)絡(luò)中的較低層負(fù)責(zé)學(xué)習(xí)基本特征,例如角度和邊界。神經(jīng)網(wǎng)絡(luò)的較高層則學(xué)習(xí)檢測更復(fù)雜的特征,例如人臉、物體、完整場景等。

圖注:神經(jīng)網(wǎng)絡(luò)中的各層都會對輸入圖像中的特定特征進(jìn)行編碼。
在理想情況下,神經(jīng)網(wǎng)絡(luò)的潛在空間應(yīng)代表與待檢測圖像類別相關(guān)的概念。但我們并不確定,因?yàn)樯疃葘W(xué)習(xí)模型往往傾向于學(xué)習(xí)最具區(qū)分性的特征——即使這些特征與結(jié)論并無因果關(guān)聯(lián)。
例如,以下數(shù)據(jù)集中包含小貓的每一張圖像,右下角都恰巧有個徽標(biāo)。人類能夠很快發(fā)現(xiàn),徽標(biāo)跟小貓沒有任何關(guān)系。但深度學(xué)習(xí)模型卻很可能選擇取巧路線,即認(rèn)定右下角有徽標(biāo)的就是包含小貓的圖像。同樣的,如果訓(xùn)練集中所有包含綿羊的圖像都有草地背景,那么神經(jīng)網(wǎng)絡(luò)學(xué)會的很可能是檢測草地、而非綿羊。
圖注:在訓(xùn)練期間,機(jī)器學(xué)習(xí)算法會搜索最容易將像素與標(biāo)簽關(guān)聯(lián)起來的訪問模式。
因此,除了深度學(xué)習(xí)模型在訓(xùn)練與測試數(shù)據(jù)集上的實(shí)際表現(xiàn)之外,更重要的是理解模型到底學(xué)會檢測出哪些概念與特征。經(jīng)典解釋技術(shù)也正是從這個角度試圖解決問題。
神經(jīng)網(wǎng)絡(luò)的事后解釋
大部分深度學(xué)習(xí)解釋技術(shù)都具有事后特性,意味著只能通過檢查輸出結(jié)果及參數(shù)值對經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)加以評估。例如,目前一種用于確定神經(jīng)網(wǎng)絡(luò)在圖像中到底在觀察哪些對象的流行技術(shù),就嘗試遮擋住輸入圖像中的不同部分,并觀察這些變化會給深度學(xué)習(xí)模型的輸出造成哪些影響。這項(xiàng)技術(shù)有助于創(chuàng)建熱圖,突出顯示與神經(jīng)網(wǎng)絡(luò)相關(guān)度最高的各項(xiàng)圖像特征。

圖注:顯著性圖示例
其他事后技術(shù)還包括開啟及關(guān)閉不同人工神經(jīng)元,檢查這些調(diào)整如何影響AI模型的輸出。這些方法同樣有助于找到相關(guān)特征與潛在空間之間的映射關(guān)系。
雖然這些方法效果不錯,但本質(zhì)上仍是在以“黑箱”形式看待深度學(xué)習(xí)模型,無法真正描繪出神經(jīng)網(wǎng)絡(luò)的確切情況。
白皮書作者寫道,“「解釋」方法通常屬于性能的摘要統(tǒng)計(jì)信息(例如局部逼近、節(jié)點(diǎn)激活的總體趨勢等),而非對模型計(jì)算的實(shí)際解釋。”
例如,顯著性圖的問題在于,它們往往無法發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到錯誤信息的問題。當(dāng)神經(jīng)網(wǎng)絡(luò)的特征分散在潛在空間中時,解釋單一神經(jīng)元的作用將變得極為困難。

圖注:顯著性圖解釋,無法準(zhǔn)確表示黑箱AI模型如何做出最終判斷。
杜克大學(xué)計(jì)算機(jī)科學(xué)專業(yè)學(xué)生、概念白化論文第一作者在采訪中表示,“深度神經(jīng)網(wǎng)絡(luò)(NN)在圖像識別方面非常強(qiáng)大,但由于極為復(fù)雜,我們無法理解神經(jīng)網(wǎng)絡(luò)隱藏層中的學(xué)習(xí)過程。這種可解釋性缺失,導(dǎo)致神經(jīng)網(wǎng)絡(luò)變得不可信且難以實(shí)際應(yīng)用。以往大部分事后解釋只是在努力分析模型學(xué)到了什么,例如各個神經(jīng)元具體學(xué)到了什么概念。但這些方法仍然嚴(yán)重依賴于這樣一個假設(shè):這些概念已經(jīng)被網(wǎng)絡(luò)所學(xué)會(并不一定),而且只集中在一個神經(jīng)元上(同樣并不一定)。”
杜克大學(xué)計(jì)算機(jī)科學(xué)教授、概念白化論文聯(lián)合作者Cynthia Rudin之前曾就信任黑箱解釋技術(shù)的危險性發(fā)出警告,并表示此類方法有可能給出錯誤的神經(jīng)網(wǎng)絡(luò)解釋。在之前發(fā)表在《自然:機(jī)器智能》雜志上的另一篇論文中,Rudin鼓勵使用并開發(fā)天然具有可解釋性的AI模型。作為博士導(dǎo)師,Rudin領(lǐng)導(dǎo)著杜克大學(xué)的預(yù)測分析實(shí)驗(yàn)室(此實(shí)驗(yàn)室專注于研究機(jī)器學(xué)習(xí)的可解釋性課題)。
概念白化的目標(biāo)在于開發(fā)神經(jīng)網(wǎng)絡(luò),其潛在空間將與訓(xùn)練過程中學(xué)會的概念相匹配。這種方法使深度學(xué)習(xí)模型真正具有可解釋性,同時也極大降低了在輸入圖像的特征與神經(jīng)網(wǎng)絡(luò)輸出之間建立關(guān)系映射的難度。
Rudin在采訪中表示,“我們的工作直接改變了神經(jīng)網(wǎng)絡(luò)處理潛在空間的方式,讓關(guān)系軸真正與已知概念對應(yīng)起來。”
將概念融入神經(jīng)網(wǎng)絡(luò)
深度學(xué)習(xí)模型通常會在經(jīng)過標(biāo)記的單一數(shù)據(jù)集上完成訓(xùn)練。概念白化則引入了包含概念示例的第二套數(shù)據(jù)集。這些概念與AI模型的核心任務(wù)有關(guān)。例如,如果您的深度學(xué)習(xí)模型給出“臥室”這一檢測結(jié)果,則相關(guān)概念將涵蓋床、冰箱、燈、窗戶及門等。
Chen指出,“代表性樣本可以手動選擇,因?yàn)樗鼈冇型麡?gòu)建我們對可解釋性的定義。機(jī)器學(xué)習(xí)從業(yè)者可以通過任何方式收集這些樣本,借此建立起適合自身應(yīng)用的具體概念數(shù)據(jù)集。例如,我們可以要求醫(yī)師選擇具有代表性的X光片來定義各項(xiàng)醫(yī)學(xué)概念。”
通過概念白化,深度學(xué)習(xí)模型將經(jīng)歷兩個并行的訓(xùn)練周期。神經(jīng)網(wǎng)絡(luò)會調(diào)整自身總體參數(shù)以表示主要任務(wù)中的類,而概念白化技術(shù)則調(diào)整各層中的特定神經(jīng)元,使其與概念數(shù)據(jù)集中包含的類對齊。
這樣的結(jié)果,就是造成一個糾纏的潛在空間,其中各個概念將在每層中整齊分布,神經(jīng)元的激活也與其各自概念相對應(yīng)。Chen表示,“這種糾纏使我們能夠?qū)W(wǎng)絡(luò)如何一層層學(xué)習(xí)概念擁有更清晰的理解。”
為了評估這項(xiàng)技術(shù)的有效性,研究人員通過深度學(xué)習(xí)模型(在不同層上插入概念白化模塊)運(yùn)行一系列驗(yàn)證圖像。接下來,他們根據(jù)每一層上激活的概念神經(jīng)元對圖像進(jìn)行分類。在較低的層中,概念白化模塊能夠捕捉到低級特征,例如顏色及紋理。舉例來說,網(wǎng)絡(luò)能夠通過較低層意識到藍(lán)色背景下的白色物體可能與“飛機(jī)”概念緊密相關(guān),而帶有暖色的圖像則更可能包含“床”的概念。在較高層中,網(wǎng)絡(luò)將學(xué)習(xí)如何對代表該概念的對象進(jìn)行分類。
圖注:概念白化會在較低層學(xué)習(xí)低級信息(例如顏色、紋理),在較高層學(xué)習(xí)高級信息(例如對象、人)。
概念糾紛與對齊的一大優(yōu)勢,是保證神經(jīng)網(wǎng)絡(luò)不會犯下太過低級的錯誤。當(dāng)圖像通過網(wǎng)絡(luò)運(yùn)行時,較高層中的概念神經(jīng)元會糾正較低層中可能發(fā)生的钷。例如,在下圖當(dāng)中,由于密集存在大量藍(lán)色與白色像素,因此神經(jīng)網(wǎng)絡(luò)的較低層錯誤將圖像與“飛機(jī)”概念關(guān)聯(lián)了起來。但當(dāng)圖像轉(zhuǎn)移到較高層中時,概念神經(jīng)元開始幫助模型將結(jié)果導(dǎo)向正確的方向(右圖為可視化糾正過程)。

圖注:當(dāng)圖像從神經(jīng)網(wǎng)絡(luò)的較低層轉(zhuǎn)移至較高層時,概念白化有助于糾正誤解和錯誤。
以往的模型可解釋性嘗試往往強(qiáng)調(diào)創(chuàng)建分類器,利用這些分類器通過神經(jīng)網(wǎng)絡(luò)潛在空間中的值推理概念。但根據(jù)Chen的解釋,在不存在糾纏潛在空間的情況下,通過這類方法學(xué)習(xí)到的概念并不純粹,很可能將概念神經(jīng)元的預(yù)測分?jǐn)?shù)關(guān)聯(lián)起來。“以往人們雖然嘗試用監(jiān)督方式破解神經(jīng)網(wǎng)絡(luò)之謎,但他們并沒有真正解開謎題本身。另一方面,概念白化則通過白化轉(zhuǎn)換對各關(guān)系軸進(jìn)行關(guān)聯(lián)性分解,借此真正理解模型的概念映射思路。”
將概念白化引入深度學(xué)習(xí)應(yīng)用
概念白化是一類能夠插入卷積神經(jīng)網(wǎng)絡(luò)的模塊,而非批量歸一化模塊。批量歸一化技術(shù)誕生于2015年,這是一種流行技術(shù),能夠調(diào)整用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)分布,借此加快訓(xùn)練速度并避免出現(xiàn)過度擬合等問題。目前最流行的卷積神經(jīng)網(wǎng)絡(luò)均已在各層中使用批量歸一化技術(shù)。
除了批量歸一化功能之外,概念白化還能讓數(shù)據(jù)沿著代表相關(guān)概念的多條軸實(shí)現(xiàn)對齊。
概念白化架構(gòu)的優(yōu)勢在于,它能夠輕松被集成至多種現(xiàn)有深度學(xué)習(xí)模型當(dāng)中。通過研究,科學(xué)家們使用概念白化替代批量歸一化模塊,借此修改了多種經(jīng)過預(yù)訓(xùn)練的流行深度學(xué)習(xí)模型,并僅用一輪訓(xùn)練就達(dá)到了預(yù)期效果。(一個輪次,代表深度學(xué)習(xí)模型通過完整訓(xùn)練集進(jìn)行訓(xùn)練的整個周期。深度學(xué)習(xí)模型在從零開始進(jìn)行訓(xùn)練時,往往需要經(jīng)歷多個輪次。)
Rudin指出,“概念白化有望被廣泛應(yīng)用于醫(yī)學(xué)成像等高度強(qiáng)調(diào)可解釋性的領(lǐng)域。”
在實(shí)驗(yàn)當(dāng)中,研究人員將概念白化應(yīng)用于皮膚病變診斷深度學(xué)習(xí)模型當(dāng)中。他們在論文中寫道,“概念白化潛在空間上測量出的概念重要性評分能夠提供重要的洞見,幫助我們了解哪些概念在皮膚病變診斷中更具意義。”
Chen表示,“為了未來的持續(xù)發(fā)展,我們認(rèn)為可能應(yīng)該脫離預(yù)定義的概念,轉(zhuǎn)而從數(shù)據(jù)集中發(fā)現(xiàn)這些概念——特別是那些尚未被發(fā)現(xiàn)的重要概念。以此為基礎(chǔ),我們能夠以糾纏方式在神經(jīng)網(wǎng)絡(luò)的潛在空間內(nèi)明確表示這些概念,進(jìn)一步提高模型的可解釋性。”
目前研究的另一個重要方向,是在分層結(jié)構(gòu)中組織概念,由此建立起概念集群以替代彼此孤立的個體概念。
深度學(xué)習(xí)研究帶來的啟示
隨著深度學(xué)習(xí)模型變得越來越龐大、越來越復(fù)雜,業(yè)界對于如何實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)透明性也開始產(chǎn)生明顯的意見分歧。
一種意見強(qiáng)調(diào)觀察AI模型的行為,而非徒勞地觀察黑箱內(nèi)部。這種方法也是人們研究動物乃至人類大腦、設(shè)計(jì)實(shí)驗(yàn)并記錄激活方式時采取的思路。這種理論的支持者們認(rèn)為,任何對神經(jīng)網(wǎng)絡(luò)施加可解釋性設(shè)計(jì)約束,都必然會導(dǎo)致模型質(zhì)量下降。如果大腦能夠從無到有經(jīng)過數(shù)十億次迭代進(jìn)化出智能,神經(jīng)網(wǎng)絡(luò)也應(yīng)該可以通過這種純進(jìn)化途徑達(dá)成相同的效果。
概念白化的出現(xiàn)反駁了這一理論,并證明我們能夠在不造成任何性能損失的前提下,對神經(jīng)網(wǎng)絡(luò)施加自上而下的設(shè)計(jì)約束。有趣的是,實(shí)驗(yàn)表明深度學(xué)習(xí)模型在引入概念白化模塊后確實(shí)能夠提供可解釋性,且核心推理任務(wù)的準(zhǔn)確性不會發(fā)生任何顯著下降。
Rudin總結(jié)道,“概念白化以及我們乃至更多其他研究實(shí)驗(yàn)室的成果已經(jīng)全面證明,構(gòu)建可解釋模型又不損害其性能確有客觀可行性。我們希望這項(xiàng)工作能夠改變?nèi)藗儗谙淠P蜋C(jī)制的盲目推崇,吸引更多參與者立足各自領(lǐng)域建立起具備可解釋性的機(jī)器學(xué)習(xí)模型。”