重新審視AI,神經(jīng)網(wǎng)絡(luò)中概念符號涌現(xiàn)的發(fā)現(xiàn)與證明
本文圍繞近期的兩項工作,討論神經(jīng)網(wǎng)絡(luò)中符號概念的涌現(xiàn)現(xiàn)象,即『深度神經(jīng)網(wǎng)絡(luò)的表征是否是符號化的』的問題。如果我們繞開 “應(yīng)用技術(shù)提升” 的視角,從 “科學(xué)發(fā)展” 的角度來重新審視 AI,證明 AI 模型中的符號涌現(xiàn)現(xiàn)象無疑是具有重大意義的。
1. 首先,目前大部分的可解釋性研究都在試圖將神經(jīng)網(wǎng)絡(luò)解釋為一個 “清晰的”、“語義化的”、或 “邏輯化的” 模型。但是,如果無法證明神經(jīng)網(wǎng)絡(luò)的符號涌現(xiàn),如果神經(jīng)網(wǎng)絡(luò)內(nèi)在表征成分真的有大量的混亂成分,那么大部分的可解釋性研究就失去了其基本事實依據(jù)。
2. 其次,如果無法證明神經(jīng)網(wǎng)絡(luò)的符號涌現(xiàn),深度學(xué)習(xí)的發(fā)展將會大概率困在 “結(jié)構(gòu)”、“損失函數(shù)”、“數(shù)據(jù)” 等外圍因素的層面,而無法直接高層的認(rèn)知層面去實現(xiàn)知識層面的交互式學(xué)習(xí)。往這個方向發(fā)展需要更干凈清晰的理論支撐。
因此,本文主要從以下三個方面介紹。
1. 如何去定義神經(jīng)網(wǎng)絡(luò)所建模的符號化概念,從而可靠地發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)的符號涌現(xiàn)現(xiàn)象。
2. 為什么所量化的符號化概念可以認(rèn)為是可信的概念(稀疏性、對神經(jīng)網(wǎng)絡(luò)表征的 universal matching、遷移性、分類性、對歷史解釋性指標(biāo)的解釋)。
3. 如何證明符號化概念的涌現(xiàn) —— 即理論證明當(dāng) AI 模型在某些情況下(一個并不苛刻的條件),AI 模型的表征邏輯可以解構(gòu)為極少數(shù)的可遷移的符號化概念的分類效用(這部分會在 4 月底公開討論)。
論文地址:https://arxiv.org/pdf/2111.06206.pdf
論文地址:https://arxiv.org/pdf/2302.13080.pdf
該研究作者包括上海交通大學(xué)碩士二年級學(xué)生李明杰、上海交通大學(xué)博士三年級學(xué)生任潔,李明杰和任潔都師從張拳石老師。他們所在的實驗室團(tuán)隊常年做神經(jīng)網(wǎng)絡(luò)可解釋性的研究。對于可解釋性領(lǐng)域,研究者可以從不同角度來分析,有解釋表征的,有解釋性能的,有相對可靠合理的,也有不合理的。但是,深入討論下去,對神經(jīng)網(wǎng)絡(luò)的解釋有兩個根本的愿景,即「能否清晰且嚴(yán)謹(jǐn)?shù)乇硎境錾窠?jīng)網(wǎng)絡(luò)所建模的概念」和「能否準(zhǔn)確解釋出決定神經(jīng)網(wǎng)絡(luò)性能的因素」。
在「解釋神經(jīng)網(wǎng)絡(luò)所建模的概念」這一方向上,所有研究者都必須面對的一個核心問題 ——“神經(jīng)網(wǎng)絡(luò)的表征到底是不是符號化概念化的”。如果這個問題回答不清楚,那么后續(xù)的研究很難進(jìn)行 —— 如果神經(jīng)網(wǎng)絡(luò)的表征本身都是混亂的,然后研究者強(qiáng)行用一堆 “符號化的概念” 或 “因果邏輯” 去解釋,這樣一來方向就錯了?對神經(jīng)網(wǎng)絡(luò)符號化表征的假設(shè),是進(jìn)行深入研究該領(lǐng)域的基礎(chǔ),但是對此問題的論證往往讓人無從下手。
大部分研究者對神經(jīng)網(wǎng)絡(luò)的第一直覺是 “它不可能是符號化的吧?” 神經(jīng)網(wǎng)絡(luò)畢竟不是圖模型。在一篇由 Cynthia 等人撰寫的論文中《Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead》 [3],,讓人們誤以為對神經(jīng)網(wǎng)絡(luò)的事后解釋(post-hoc explanation)天然地是不可靠的。
那么,神經(jīng)網(wǎng)絡(luò)內(nèi)在表征真的是非?;靵y的?而不是清晰的、稀疏的、符號化的嗎?圍繞這個問題,我們定義了博弈交互 [4,5],證明了神經(jīng)網(wǎng)絡(luò)表征瓶頸 [6],研究了神經(jīng)網(wǎng)絡(luò)對視覺概念表征的特點 [7,8],從而證明了交互概念與神經(jīng)網(wǎng)絡(luò)泛化和魯棒性的關(guān)系 [9,10,11,12],進(jìn)而完善了沙普利值 [13],但是實驗室前期僅僅圍繞 “符號化表征” 核心的周邊進(jìn)行探索,始終無法直接探索神經(jīng)網(wǎng)絡(luò)表征是否是符號化的。
這里我們先說結(jié)論 —— 在大部分情況下,神經(jīng)網(wǎng)絡(luò)的表征是清晰的、稀疏的、符號化的。這個結(jié)論背后有大量的理論證明,以及大量的實驗論證。在理論方面,我們目前的研究證明了一些可以支撐 “符號化” 的特性,但是目前證明還不足以對 “符號化表征” 給出嚴(yán)謹(jǐn)明確的解答。未來幾個月,我們會有更加嚴(yán)謹(jǐn)、全面的證明。
如何定義神經(jīng)網(wǎng)絡(luò)所建模的概念
在分析神經(jīng)網(wǎng)絡(luò)之前,我們需要明確 “如何定義網(wǎng)絡(luò)所建模的概念”。實際上,對于這一問題,之前已經(jīng)有了相關(guān)研究 [14,15],并且實驗結(jié)果也比較優(yōu)異 —— 但是,我們認(rèn)為,“概念” 的定義在理論上應(yīng)有 “嚴(yán)謹(jǐn)性” 的數(shù)學(xué)保證。
因此,我們在論文 [1] 中定義了 I(S) 這一指標(biāo),用來量化概念 S 對于網(wǎng)絡(luò)輸出的效用,這里 S 指的是組成這一概念的所有輸入變量的集合。例如,給定一個神經(jīng)網(wǎng)絡(luò)和一個輸入句子 x=“I think he is a green hand.”,每個單詞可以看成網(wǎng)絡(luò)的其中一個輸入變量,句中的三個詞 “a”,“green”,“hand” 可以構(gòu)成一個潛在的概念 S={a,green,hand}。每個概念 S 表示了 S 中輸入變量之間的 “與” 關(guān)系:當(dāng)且僅當(dāng) S 中的輸入變量全部出現(xiàn)時,這一概念才被觸發(fā),從而為網(wǎng)絡(luò)輸出貢獻(xiàn) I (S) 的效用。而當(dāng) S 中任意變量被遮擋時,I (S) 這部分效用就從原本的網(wǎng)絡(luò)輸出中移除了。例如,對于 S={a,green,hand} 這一概念,如果把輸入句子中的 “hand” 一詞遮擋,那么這一概念就不被觸發(fā),網(wǎng)絡(luò)輸出中也不會包含這一概念的效用 I (S)。
我們證明了神經(jīng)網(wǎng)絡(luò)輸出總可以被拆分為所有觸發(fā)概念效用之和。即在理論上,對于一個包含 n 個輸入單元的樣本,最多有
種不同的遮擋方式,我們總可以用『少量概念』的效用來『精確擬合』神經(jīng)網(wǎng)絡(luò)『所有
種』不同遮擋樣本上的輸出值,從而證明了 I (S) 的『嚴(yán)謹(jǐn)性』。下圖給了一個簡單的例子。
進(jìn)一步,我們在論文 [1] 中證明了 I (S) 滿足博弈論中 7 條性質(zhì),進(jìn)一步說明了這一指標(biāo)的可靠性。
除此以外,我們還證明了博弈交互概念 I (S) 能夠解釋博弈論中大量經(jīng)典指標(biāo)的基本機(jī)理,比如 Shapley value [16]、Shapley interaction index [17],以及 Shapley-Taylor interaction index [18]。具體地,我們可以將這三種指標(biāo)表示為交互概念的不同線性和的形式。
實際上,課題組的前期工作已經(jīng)基于博弈交互概念指標(biāo)來定義 Shapley value 的最優(yōu)基準(zhǔn)值 [13],并探索視覺神經(jīng)網(wǎng)絡(luò)所建模的『原型視覺概念』及其『美觀度』[8]。
神經(jīng)網(wǎng)絡(luò)是否建模了清晰、符號化的概念表征
有了這一指標(biāo),我們進(jìn)一步探索上面提到的核心問題:神經(jīng)網(wǎng)絡(luò)是否真的能從訓(xùn)練任務(wù)中總結(jié)出清晰的、符號化的、概念化的表征?所定義的交互概念真的能表示一些有意義的 “知識”,還是僅僅是一個純粹從數(shù)學(xué)上湊出來的沒有明確意義的 tricky metrics?為此,我們從以下四個方面回答這一問題 —— 符號化概念化的表征應(yīng)當(dāng)滿足稀疏性、樣本間遷移性、網(wǎng)絡(luò)間遷移性,以及分類性。
要求一(概念稀疏性):神經(jīng)網(wǎng)絡(luò)所建模的概念應(yīng)當(dāng)是稀疏的
不同于連結(jié)主義,符號主義的一個特性在于人們希望用少量的、稀疏的概念來表示網(wǎng)絡(luò)學(xué)到的知識,而不是用大量、稠密的概念。實驗中我們發(fā)現(xiàn),在大量潛在概念中,僅有非常少量的顯著概念。即大部分交互概念的交互效用 I (S) 趨近于 0,故可以忽略,僅有極少量的交互概念有較顯著的交互效用 I (S),這樣神經(jīng)網(wǎng)絡(luò)的輸出僅僅決定于少量概念的交互效用。換句話說,神經(jīng)網(wǎng)絡(luò)對于每個樣本的推斷可以被簡潔地解釋為少量顯著概念的效用。
要求二(樣本間遷移性):神經(jīng)網(wǎng)絡(luò)所建模的概念在不同樣本間應(yīng)當(dāng)具有遷移性
在單個樣本上滿足稀疏性是遠(yuǎn)遠(yuǎn)不夠的,更重要的是,這些稀疏的概念表達(dá)應(yīng)當(dāng)能夠在不同樣本之間互相遷移。如果同一個交互概念可以在不同樣本中表征,如果不同樣本總提取出類似的交互概念,那么這個交互概念更可能代表一種有意義的普適的知識。反之,如果大部分交互概念僅僅在一兩個特定樣本上有表征,那么這樣所定義的交互更傾向于一個僅有數(shù)學(xué)定義但沒有物理意義的 tricky metric。在實驗中,我們發(fā)現(xiàn),往往存在一個較小的概念字典,它能夠解釋神經(jīng)網(wǎng)絡(luò)為同類別樣本所建模的大部分概念。
我們也可視化了一些概念,并且發(fā)現(xiàn),相同的概念通常對不同的樣本產(chǎn)生類似的效果,這也驗證了概念在不同樣本之間的遷移性。
要求三(網(wǎng)絡(luò)間遷移性):不同神經(jīng)網(wǎng)絡(luò)所建模的概念之間應(yīng)當(dāng)具有遷移性
類似地,這些概念應(yīng)當(dāng)能夠被不同的神經(jīng)網(wǎng)絡(luò)穩(wěn)定地學(xué)到,無論是不同初始化的網(wǎng)絡(luò),還是不同架構(gòu)的網(wǎng)絡(luò)。雖然神經(jīng)網(wǎng)絡(luò)可以設(shè)計為全然不同的架構(gòu),建模不同維數(shù)的特征,但是如果不同的神經(jīng)網(wǎng)絡(luò)面對同一個具體任務(wù)可以實現(xiàn)『殊途同歸』,即如果不同神經(jīng)網(wǎng)絡(luò)都可以穩(wěn)定地學(xué)習(xí)到類似的一組交互概念,那么我們可以認(rèn)為這組交互概念是面向這個任務(wù)的根本的表征。比如,如果不同的人臉檢測網(wǎng)絡(luò)都不約而同地建模了眼睛、鼻子、嘴之間的交互,那么我們可以認(rèn)為這樣的交互是更 “本質(zhì)的”“可靠的”。在實驗中,我們發(fā)現(xiàn),越顯著的概念越容易被不同的網(wǎng)絡(luò)同時學(xué)到,相對比例的顯著交互是被不同神經(jīng)網(wǎng)絡(luò)所共同建模的。
要求四(概念分類性):神經(jīng)網(wǎng)絡(luò)所建模的概念應(yīng)當(dāng)具有分類性
最后,對于分類任務(wù)而言,如果一個概念具有較高的分類性,那么它應(yīng)當(dāng)為大多數(shù)樣本上的分類起到一致的正向作用(或是一致的負(fù)向作用)。較高的分類性可以驗證這個概念可以獨立地承擔(dān)分類任務(wù),從而更大可能的是一個可靠的概念,而不是不成熟的中間特征。我們同樣設(shè)計了實驗來驗證這一性質(zhì),發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)建模的概念往往具有較高的分類性。
綜上所述,上面的四個方面表明,在大部分情況下,神經(jīng)網(wǎng)絡(luò)的表征是清晰的、稀疏的、符號化的。當(dāng)然,神經(jīng)網(wǎng)絡(luò)也并不是每時每刻都能夠建模這種清晰、符號化的概念,在少數(shù)極端情況下,神經(jīng)網(wǎng)絡(luò)學(xué)不到稀疏、可遷移的概念,具體請看我們的論文 [2]。
此外,我們還利用此交互來解釋了大模型[22]。
神經(jīng)網(wǎng)絡(luò)的符號化表征在神經(jīng)網(wǎng)絡(luò)可解釋性中的意義
1. 從可解釋性領(lǐng)域發(fā)展的角度來看,最直接的意義就是為 “概念層面解釋神經(jīng)網(wǎng)絡(luò)” 找到了一定的依據(jù)。如果神經(jīng)網(wǎng)絡(luò)本身的表征都不是符號化的,那么從符號化概念層面對神經(jīng)網(wǎng)絡(luò)的解釋就只能是隔靴搔癢,解釋的結(jié)果一定是似是而非的,并不能實質(zhì)性的推導(dǎo)深度學(xué)習(xí)進(jìn)一步的發(fā)展。
2. 從 2021 年開始,我們逐步構(gòu)建了一個基于博弈交互的理論體系。發(fā)現(xiàn)基于博弈交互,我們可以統(tǒng)一解釋兩個核心問題 “怎樣量化神經(jīng)網(wǎng)絡(luò)所建模的知識” 和 “怎樣解釋神經(jīng)網(wǎng)絡(luò)的表征能力”。在 “怎樣量化神經(jīng)網(wǎng)絡(luò)所建模的知識” 方向上,除了本文提到的兩個工作之外,課題組的前期工作已經(jīng)基于博弈交互概念指標(biāo),來定義 Shapley value 的最優(yōu)基準(zhǔn)值 [13],并探索視覺神經(jīng)網(wǎng)絡(luò)所建模的『原型視覺概念』及其『美觀度』[7,8]。
3. 在 “怎樣解釋神經(jīng)網(wǎng)絡(luò)的表征能力” 方向上,課題組證明了神經(jīng)網(wǎng)絡(luò)對不同交互的表征瓶頸 [6],研究了神經(jīng)網(wǎng)絡(luò)如何通過其所建模的交互概念來確定其泛化性 [12,19],研究神經(jīng)網(wǎng)絡(luò)所建模的交互概念與其對抗魯棒性和對抗遷移性的關(guān)系 [9,10,11,20],證明了貝葉斯神經(jīng)網(wǎng)絡(luò)更難以建模復(fù)雜交互概念 [21]。
更多閱讀請參考:
?https://zhuanlan.zhihu.com/p/264871522/?