自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

可解釋性終極追問,什么才是第一性解釋?20篇CCF-A+ICLR論文給你答案

人工智能 新聞
本文首先簡單回顧了『等效交互可解釋性理論體系』(20 篇 CCF-A 及 ICLR 論文),并在此基礎(chǔ)上,嚴格推導(dǎo)并預(yù)測出神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中其概念表征及其泛化性的動力學(xué)變化.

本文作者為張俊鵬、任啟涵、張拳石,其中張俊鵬是張拳石老師的準(zhǔn)入學(xué)博士生,任啟涵是張拳石老師的博士生。

本文首先簡單回顧了『等效交互可解釋性理論體系』(20 篇 CCF-A 及 ICLR 論文),并在此基礎(chǔ)上,嚴格推導(dǎo)并預(yù)測出神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中其概念表征及其泛化性的動力學(xué)變化,即在某種程度上,我們可以解釋在訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)在任意時間點的泛化性及其內(nèi)在根因。

一、前言

長期以來,我們團隊一直在思考可解釋性領(lǐng)域的一個終極問題,即什么才是解釋性領(lǐng)域的第一性原理?所謂第一性原理,目前沒有一個被廣泛接受的框架,世上本無路,我們需要逐漸去定義這樣一個路。我們需要在一個新的理論體系中,提出大量的公理性要求,得出一個可以從不同的角度全方位精確嚴謹解釋神經(jīng)網(wǎng)絡(luò)內(nèi)在機理的理論。一套理論系統(tǒng)能嚴謹解釋神經(jīng)網(wǎng)絡(luò)的方方面面才叫 “第一性原理”。

如果你真的在嚴謹?shù)刈?“科學(xué)”,那么第一性原理一定不是想象中簡單,而是一個復(fù)雜的體系,需要研究照顧到深度學(xué)習(xí)中方方面面紛繁復(fù)雜的現(xiàn)象。當(dāng)然,如果你主觀上不愿意或者不信一個理論需要足夠嚴謹,那么研究會變得簡單千萬倍。就像物理學(xué)的標(biāo)準(zhǔn)模型一定比牛頓定律復(fù)雜,取決于你希望走哪條路。

沿著這個方向,我們團隊獨立從頭構(gòu)建了『等效交互可解釋性理論體系』,并基于此理論,從三個角度來解釋神經(jīng)網(wǎng)絡(luò)的內(nèi)在機理。

1. 語義解釋的理論基礎(chǔ):數(shù)學(xué)證明神經(jīng)網(wǎng)絡(luò)的決策邏輯是否可以被少量符號化邏輯所充分覆蓋(充分解釋)?!鹤C明神經(jīng)網(wǎng)絡(luò)的決策邏輯是否可以被有限符號化邏輯解釋清楚』這一命題是解釋神經(jīng)網(wǎng)絡(luò)的根本命題。如果此命題被證偽,則從根本上講,神經(jīng)網(wǎng)絡(luò)的可解釋性將是無望的,所有的解釋性算法只能提供近似的解讀,而無法精確地覆蓋所有的決策邏輯。幸運的是,我們找到了在大部分應(yīng)用中神經(jīng)網(wǎng)絡(luò)都可以滿足的面向遮擋魯棒性的三個常見的條件,并且數(shù)學(xué)證明了滿足這三個條件的神經(jīng)網(wǎng)絡(luò)的決策邏輯可以被寫成符號化的交互概念。

參見 https://zhuanlan.zhihu.com/p/693747946

2. 尋找性能指標(biāo)背后的可證明、可驗證的根因:將神經(jīng)網(wǎng)絡(luò)泛化性和魯棒性等終極性能指標(biāo)的根因拆分具體少數(shù)細節(jié)邏輯。對神經(jīng)網(wǎng)絡(luò)性能(魯棒性、泛化性)的解釋是神經(jīng)網(wǎng)絡(luò)可解釋性領(lǐng)域的另一個重大問題。然而,目前人們普遍認為神經(jīng)網(wǎng)絡(luò)性能是對神經(jīng)網(wǎng)絡(luò)整體的描述,而神經(jīng)網(wǎng)絡(luò)無法像人類一樣將自己的分類判斷拆解成具象化的、少量的決策邏輯。在這方面,我們給出了不一樣的觀點 —— 將性能指標(biāo)與具象化的交互之間建立起數(shù)學(xué)關(guān)系。我們證明了 1. 等效交互的復(fù)雜度可以直接決定神經(jīng)網(wǎng)絡(luò)的對抗魯棒性 / 遷移性,2. 交互的復(fù)雜度決定了神經(jīng)網(wǎng)絡(luò)的表征能力,3. 并解釋神經(jīng)網(wǎng)絡(luò)的泛化能力 [1],和 4. 解釋神經(jīng)網(wǎng)絡(luò)的表征瓶頸。

  • 參見1:https://zhuanlan.zhihu.com/p/369883667
  • 參見2:https://zhuanlan.zhihu.com/p/361686461
  • 參見3:https://zhuanlan.zhihu.com/p/704760363
  • 參見4:https://zhuanlan.zhihu.com/p/468569001

3. 統(tǒng)一工程性深度學(xué)習(xí)算法。由于缺少基礎(chǔ)理論的支撐,目前深度學(xué)習(xí)算法大都是經(jīng)驗性的、工程性的??山忉屝灶I(lǐng)域的第一性原理應(yīng)該可以承擔(dān)起將前人的大量工程性經(jīng)驗總結(jié)為科學(xué)規(guī)律的任務(wù)。在等效交互可解釋性理論體系下,我們團隊既證明了 14 種不同的輸入重要性歸因算法的計算本質(zhì)在數(shù)學(xué)上都可以統(tǒng)一寫成對交互作用的再分配形式。此外,我們還統(tǒng)一了 12 種提升對抗遷移性的算法,證明了所有提升對抗遷移性算法的一個公共機理是降低對抗擾動之間的交互效用,實現(xiàn)了對神經(jīng)網(wǎng)絡(luò)可解釋性方向大部分工程性算法的理論凝練。

  • 參見1:https://zhuanlan.zhihu.com/p/610774894
  • 參見2:https://zhuanlan.zhihu.com/p/546433296

在等效交互可解釋性理論體系下,我們的團隊在之前的研究中已經(jīng)成功發(fā)表了 20 篇 CCF-A 類和機器學(xué)習(xí)頂級會議 ICLR 論文,我們已經(jīng)從理論和實驗上充分解答了上述問題。

二、本文研究概述

沿著上述理論框架,在這篇知乎文章中,我們希望精確解釋出神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中泛化性的變化規(guī)律,具體地涉及兩篇論文。

  • 1.Junpeng Zhang, Qing Li, Liang Lin, Quanshi Zhang,“Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features”,in arXiv: 2405.10262
  • 2.Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi Zhang,“Towards the Dynamics of a DNN Learning Symbolic Interactions” in arXiv:2407.19198

圖片

圖 1:兩階段現(xiàn)象的示意圖。在第一階段,神經(jīng)網(wǎng)絡(luò)逐漸消除中高階交互,學(xué)習(xí)低階交互;在第二階段,神經(jīng)網(wǎng)絡(luò)逐漸建模階數(shù)不斷增大的交互。當(dāng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中測試損失和訓(xùn)練損失之間的 loss gap 開始增大時,神經(jīng)網(wǎng)絡(luò)恰好也進入訓(xùn)練的第二階段。

我們希望在等效交互框架里提出新的理論,精確預(yù)測出神經(jīng)網(wǎng)絡(luò)每一個時間點上神經(jīng)網(wǎng)絡(luò)所學(xué)到的交互概念的數(shù)量、復(fù)雜度,以及泛化性變化的動力學(xué)規(guī)律(如圖 1 所示)。具體地,我們希望證明出兩方面結(jié)論。

第一,基于前人的證明(一個神經(jīng)網(wǎng)絡(luò)的決策邏輯可以被嚴格解構(gòu)表示為幾十個交互概念效用的和的形式),進一步嚴格推導(dǎo)出在整個訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)所建模的交互效用的變化動力學(xué)過程 —— 即理論需精確預(yù)測出在不同訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)所建模的交互概念的分布的變化 —— 推導(dǎo)出哪些交互會在哪個時間點上被學(xué)習(xí)到。

第二,尋找充分的證據(jù),證明所推導(dǎo)的交互復(fù)雜度的變化規(guī)律客觀反映出神經(jīng)網(wǎng)絡(luò)在全訓(xùn)練周期中泛化性變化的規(guī)律

綜上兩點,我們希望具體徹底解釋清楚神經(jīng)網(wǎng)絡(luò)的泛化性變化的內(nèi)在根因。

與前人的關(guān)系:當(dāng)然大家可能第一反應(yīng)想到神經(jīng)正切核(NTK)[2],但是神經(jīng)正切核只是把參數(shù)的變化曲線解了出來,而沒辦法進一步深入到?jīng)Q策邏輯層面進行解釋,沒有將神經(jīng)網(wǎng)絡(luò)建模的概念表征與其泛化性的關(guān)系建立起來,對泛化性的分析依然停留在特征空間分析的層面,而沒有在【符號化概念邏輯】與【泛化性】之間建立起嚴格的關(guān)系。

三、兩大研究背景

誤會 1:神經(jīng)網(wǎng)絡(luò)的第一性表征是『等效交互』,而不是神經(jīng)網(wǎng)絡(luò)的參數(shù)和結(jié)構(gòu)。單純從結(jié)構(gòu)層面分析神經(jīng)網(wǎng)絡(luò)是人們對神經(jīng)網(wǎng)絡(luò)泛化根本表征的誤解。目前大部分神經(jīng)網(wǎng)絡(luò)泛化性研究主要著眼于神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、特征、以及數(shù)據(jù)。人們認為不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)就自然對應(yīng)不同的函數(shù),并自然展現(xiàn)出不同的性能。

但是,事實上,如圖 2 所示,結(jié)構(gòu)的區(qū)別只是神經(jīng)網(wǎng)絡(luò)表征的表面形式。除去有明顯缺陷的對性能有明顯影響的神經(jīng)網(wǎng)絡(luò),所有其他可以實現(xiàn) SOTA 性能的具有不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)往往都建模了相似的等效交互表征,即不同結(jié)構(gòu)的高性能神經(jīng)網(wǎng)絡(luò)在等效交互表征上往往都是殊途同歸的 [3, 4]。雖然神經(jīng)網(wǎng)絡(luò)其中層特征內(nèi)部是復(fù)雜的混亂的,雖然不同神經(jīng)網(wǎng)絡(luò)所建模的特征向量大相徑庭,雖然神經(jīng)網(wǎng)絡(luò)中單個神經(jīng)元往往建模了相對比較混亂的語義(不是嚴格清晰的語義),但是神經(jīng)網(wǎng)絡(luò)作為一個整體,我們從理論上證明神經(jīng)網(wǎng)絡(luò)的所建模的交互關(guān)系是稀疏的符號化的(而不是特征的稀疏性,具體見 “四、交互的定義” 章節(jié)),而且面向相同任務(wù)的完全不同的神經(jīng)網(wǎng)絡(luò)往往建模了相似的交互關(guān)系。

圖片

圖 2:不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)所建模的等效交互往往是殊途同歸的。對于一個相同的輸入句子,面向兩個相同任務(wù)的兩個完全不同的神經(jīng)網(wǎng)絡(luò)建模往往相似的交互。

由于不同神經(jīng)網(wǎng)絡(luò)的參數(shù)和訓(xùn)練樣本不一樣,兩個神經(jīng)網(wǎng)絡(luò)中沒有任何一個神經(jīng)元在表征上具有嚴格的一一對應(yīng)關(guān)系,且每一個神經(jīng)元往往建模著不同語義的混合模式。相比之下,正如上段分析,神經(jīng)網(wǎng)絡(luò)所建模的交互表征實際上是不同神經(jīng)網(wǎng)絡(luò)表征中的不變量。因此,我們有理由認為神經(jīng)網(wǎng)絡(luò)根本表征是等效交互,而不是其載體(參數(shù)和訓(xùn)練樣本),符號化交互表征可能代表了知識表征的第一性原理(被交互的稀疏性定理、無限擬合性定理、以及殊途同歸現(xiàn)象所保證,見 “四、交互的定義” 章節(jié),具體詳細研究見下面知乎文章。

參見:https://zhuanlan.zhihu.com/p/633531725

誤會 2:神經(jīng)網(wǎng)絡(luò)的泛化性問題是一個混合模型問題,而不是一個高維空間的向量。如圖 3 所示,傳統(tǒng)的泛化性分析總是假設(shè)單個樣本整體是高維空間的一個點,實際上神經(jīng)網(wǎng)絡(luò)對單個樣本的表征是 mixture model 的形式 —— 實際上通過大量不同的交互來表達。我們發(fā)現(xiàn)簡單交互的泛化能力比復(fù)雜交互的泛化能力更強,所以不再適合用一個簡單標(biāo)量來籠統(tǒng)表示整個神經(jīng)網(wǎng)絡(luò)在不同樣本上的泛化能力。相反,同一個神經(jīng)網(wǎng)絡(luò)在不同的樣本上建模了不同復(fù)雜度的交互關(guān)系,而不同復(fù)雜度的交互往往對應(yīng)著不同泛化能力。通常情況下,神經(jīng)網(wǎng)絡(luò)建模的高階(復(fù)雜)的交互往往難以泛化到測試樣本上(測試樣本上不會觸發(fā)相同的交互),代表過擬合表征,而神經(jīng)網(wǎng)絡(luò)建模的低階(簡單)交互往往代表泛化性較強的表征,具體詳細研究見 [1]。

圖片

圖 3:(a)傳統(tǒng)的泛化性分析總是假設(shè)單個樣本整體是高維空間的一個點。(b)實際上神經(jīng)網(wǎng)絡(luò)對單個樣本的表征是 mixture model 的形式,神經(jīng)網(wǎng)絡(luò)在單個樣本會建模簡單交互(可泛化的交互)和復(fù)雜交互(不可泛化的交互)。

四、交互的定義

讓我們考慮一個深度神經(jīng)網(wǎng)絡(luò)圖片和一個輸入樣本圖片,它包含圖片個輸入變量,我們用集合圖片表示這些輸入變量的全集。令圖片表示 DNN 在樣本圖片上的一個標(biāo)量輸出。對于一個面向分類任務(wù)的神經(jīng)網(wǎng)絡(luò),我們可以從不同角度來定義其標(biāo)量輸出。例如,對于多類別分類問題,圖片可以定義為圖片,也可以定義為 softmax 層之前該樣本真實標(biāo)簽所對應(yīng)的標(biāo)量輸出。這里,圖片表示真實標(biāo)簽的分類概率。這樣,針對每個子集圖片,我們可以用下面公式來定義圖片中所有輸入變量之間 “等效與交互” 和 “等效或交互”。


圖片


如圖 4(a)所示,我們可以這樣理解上述與或交互:我們可以認為與等效交互表示神經(jīng)網(wǎng)絡(luò)所編碼的圖片內(nèi)輸入變量之間的 “與關(guān)系”。例如,給定一個輸入句子圖片,神經(jīng)網(wǎng)絡(luò)可能會在圖片之間建模一個交互,使得圖片產(chǎn)生一個推動神經(jīng)網(wǎng)絡(luò)輸出 “傾盆大雨” 的數(shù)值效用。如果圖片中的任何輸入變量被遮擋,則該數(shù)值效用將從神經(jīng)網(wǎng)絡(luò)的輸出中移除。類似地,等效或交互圖片表示神經(jīng)網(wǎng)絡(luò)所建模的圖片內(nèi)輸入變量之間的 “或關(guān)系”。例如,給定一個輸入句子圖片,只要圖片中的任意一個詞出現(xiàn),就會推動神經(jīng)網(wǎng)絡(luò)的輸出負面情感分類。

神經(jīng)網(wǎng)絡(luò)所建模的等效交互滿足 “理想概念” 的三條公理性準(zhǔn)則,即無限擬合性、稀疏性、樣本間遷移性。


  1. 無限擬合性:如圖 4,5 所示,對于任意遮擋樣本,神經(jīng)網(wǎng)絡(luò)在樣本上的輸出可以用不同交互概念的效用之和來擬合。即,我們可以構(gòu)造出一個基于交互的 logical model,無論我們?nèi)绾握趽踺斎霕颖?,這個 logical model 依然可精確擬合模型在此輸入樣本在任意遮擋狀態(tài)下的輸出值。
  2. 稀疏性:面向分類任務(wù)的神經(jīng)網(wǎng)絡(luò)往往只建模少量的顯著交互概念,而大部分交互概念都是數(shù)值效用都接近于 0 的噪聲。
  3. 樣本間遷移性:交互在不同樣本間是可遷移的,即神經(jīng)網(wǎng)絡(luò)在(同一類別的)不同樣本上建模的顯著交互概念往往有很大的重合。


圖片

圖 4:神經(jīng)網(wǎng)絡(luò)的復(fù)雜的推理邏輯可以被基于少量交互的邏輯模型圖片準(zhǔn)確擬合。每個交互都是衡量神經(jīng)網(wǎng)絡(luò)建模特定輸入變量集合圖片之間非線性關(guān)系的度量指標(biāo)。當(dāng)且僅當(dāng)集合中變量同時出現(xiàn)時才會觸發(fā)與交互,并為輸出貢獻數(shù)值分數(shù)圖片,集合圖片中任意變量出現(xiàn)時會觸發(fā)或交互。


圖片

圖 5:神經(jīng)網(wǎng)絡(luò)在任意的遮擋樣本上的輸出可以用不同交互概念的效用之和來擬合,即我們可以構(gòu)造出一個基于交互的 logical model,無論我們?nèi)绾握趽踺斎霕颖荆呐赂F舉個輸入單元上種完全不同的遮擋方式,這個 logical model 依然可精確擬合模型在此輸入樣本在任意遮擋狀態(tài)下的輸出值。

五、新的發(fā)現(xiàn)與證明

5.1 發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中交互變化的兩階段現(xiàn)象

在這篇知乎文章中,我們關(guān)注神經(jīng)網(wǎng)絡(luò)解釋性領(lǐng)域的一個根本問題,即如何從一個解析分析的角度去嚴格預(yù)測出神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中泛化能力的變化情況,并且精確的分析神經(jīng)網(wǎng)絡(luò)從欠擬合到過擬合的整個動態(tài)變化過程及其背后的根本原因。

首先,我們將交互的階數(shù)(復(fù)雜度)定義為交互中的輸入變量的數(shù)量,圖片。我們團隊之前的工作發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在某個特定樣本所建模的 “與或交互” 的復(fù)雜度直接決定了神經(jīng)網(wǎng)絡(luò)在這個樣本的泛化能力 [1],即神經(jīng)網(wǎng)絡(luò)建模的高階的(大量輸入單元之間的)“與或交互” 往往有較差的泛化能力,而低階的(少量輸入單元之間的)“與或交互” 具有較強的泛化能力。

因此,本篇研究的第一步是去預(yù)測出神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中不同時間點所建模的不同階 “與或交互” 的復(fù)雜度的一個解析解,即我們可以通過神經(jīng)網(wǎng)絡(luò)在不同時間點所建模的不同階 “與或交互” 的分布去解釋神經(jīng)網(wǎng)絡(luò)在不同階段的泛化能力。交互的泛化能力的定義與神經(jīng)網(wǎng)絡(luò)整體泛化能力的定義請見 “5.2 神經(jīng)網(wǎng)絡(luò)所建模交互的階數(shù)和其泛化能力的關(guān)系” 章節(jié)。

我們提出兩個指標(biāo)來表示不同階(復(fù)雜度)的交互的強度的分布。具體來說,我們用圖片來衡量所有階正顯著交互的強度,用圖片來衡量所有圖片階負顯著交互的強度,其中圖片圖片表示顯著交互的集合,圖片表示顯著交互的閾值。


圖片

圖 6:從訓(xùn)練不同輪次的神經(jīng)網(wǎng)絡(luò)中提取的不同階交互強度圖片圖片。在不同數(shù)據(jù)集上、不同任務(wù)上訓(xùn)練的不同的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程都存在兩階段現(xiàn)象。前兩個選定時間點屬于第一階段,而后兩個時間點屬于第二階段。恰恰在進入神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的第二階段不久,神經(jīng)網(wǎng)絡(luò)的測試損失和訓(xùn)練損失之間的 loss gap 開始顯著上升(見最后一列)。這表明神經(jīng)網(wǎng)絡(luò)訓(xùn)練的兩階段現(xiàn)象與模型 loss gap 的變化在時間上是 “對齊” 的。更多實驗結(jié)果請參見論文。

如圖 6 所示,神經(jīng)網(wǎng)絡(luò)的兩階段現(xiàn)象具體表現(xiàn)為:

  • 在神經(jīng)訓(xùn)練訓(xùn)練之前,初始化的神經(jīng)網(wǎng)絡(luò)主要編碼中階交互,很少編碼高階和低階交互,并且不同階交互的分布看起來呈現(xiàn) “紡錘形”。假設(shè)具有隨機初始化參數(shù)的神經(jīng)網(wǎng)絡(luò)建模的是純噪聲,我們在 “5.4 理論證明兩階段現(xiàn)象” 章節(jié)證明了具有隨機初始化參數(shù)的神經(jīng)網(wǎng)絡(luò)建模的不同階的交互的分布呈現(xiàn) “紡錘形”,即僅建模少量的低階和高階交互,大量建模中階交互。
  • 在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的第一階段,神經(jīng)網(wǎng)絡(luò)編碼的高階和中階交互的強度逐漸減弱,而低階交互的強度逐漸增強。最終,高階和中階交互逐漸被消除,神經(jīng)網(wǎng)絡(luò)只編碼低階交互。
  • 在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的第二階段,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中編碼的交互階數(shù)(復(fù)雜度)逐漸增加。在逐漸學(xué)習(xí)更高復(fù)雜度的交互的過程中,神經(jīng)網(wǎng)絡(luò)過擬合的風(fēng)險也在逐漸提高。

上述的兩階段現(xiàn)象廣泛存在于不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練于不同任務(wù)上的不同數(shù)據(jù)集的訓(xùn)練過程中。我們在圖像數(shù)據(jù)集(CIFAR-10 數(shù)據(jù)集、MNIST 數(shù)據(jù)集、CUB200-2011 數(shù)據(jù)集(使用從圖片中裁剪出來的鳥類圖像)和 Tiny-ImageNet 數(shù)據(jù)集)上訓(xùn)練了 VGG-11/13/16 和 AlexNet。我們在 SST-2 數(shù)據(jù)集上訓(xùn)練了用于情感語義分類 Bert-Medium/Tiny 模型,我們在 ShapeNet 數(shù)據(jù)集中訓(xùn)練 DGCNN 來分類的 3D 點云數(shù)據(jù)。上圖顯示了不同的神經(jīng)網(wǎng)絡(luò)在不同訓(xùn)練時期提取的不同階的顯著交互的分布。我們在這些神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中都發(fā)現(xiàn)了兩階段現(xiàn)象,更多實驗結(jié)果及細節(jié)請參考論文。

5.2 神經(jīng)網(wǎng)絡(luò)所建模交互的階數(shù)和其泛化能力的關(guān)系

我們團隊之前的工作已經(jīng)發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)所建模交互的階數(shù)和其泛化能力的關(guān)系,即高階交互比低階交互具有更差的泛化能力 [1]。某個具體交互的泛化性有清晰的定義 —— 如果一個交互同時在訓(xùn)練樣本和測試樣本中頻繁的被神經(jīng)網(wǎng)絡(luò)所建模,則這個交互具有較好的泛化能力。在本篇知乎文章中,介紹了兩個實驗來證明高階交互具有較差的泛化能力,低階交互具有較強的泛化能力。

實驗一:觀察在不同數(shù)據(jù)集上訓(xùn)練的不同神經(jīng)網(wǎng)絡(luò)所建模的交互的泛化性。這里我們用被測試集所觸發(fā)的交互的分布和被訓(xùn)練集所觸發(fā)的交互的分布的 Jaccard 相似性來度量交互的泛化性。具體來說,給定一個包含圖片個輸入變量的輸入樣本圖片,我們將從輸入樣本圖片提取到的圖片階交互向量化圖片,其中圖片表示圖片圖片階交互。然后,我們計算分類任務(wù)中所有類別為圖片的樣本中提取到的圖片階的平均交互向量,表示為圖片,其中圖片表示類別為圖片的樣本的集合。接下來,我們計算從訓(xùn)練樣本中提取的階的平均交互向量圖片與從測試樣本中提取的圖片階的平均交互向量圖片之間的 Jaccard 相似性,以衡量分類任務(wù)中類別為圖片的樣本的圖片階交互的泛化能力,即:


圖片


其中,圖片圖片將兩個圖片維交互向量投影到兩個圖片維的非負向量上,以便計算 Jaccard 相似性。對于某一階的交互,如果此階交互普遍展現(xiàn)出較大的 Jaccard 相似性,則表示這一階交互具有較強的泛化能力。

我們進行了實驗計算不同階交互圖片。我們測試了在 MNIST 數(shù)據(jù)集上訓(xùn)練的 LeNet、在 CIFAR-10 數(shù)據(jù)集上訓(xùn)練的 VGG-11、在 CUB200-2011 數(shù)據(jù)集上訓(xùn)練的 VGG-13,以及在 Tiny-ImageNet 數(shù)據(jù)集上訓(xùn)練的 AlexNet。為了減少計算成本,我們僅計算了前 10 個類別的 Jaccard 相似性的平均值圖片。如圖 7 所示,隨著交互階數(shù)的增加,交互的 Jaccard 相似性不斷下降。因此,這驗證了高階交互比低階交互具有更差的泛化能力。

圖片圖 7:從訓(xùn)練樣本和測試樣本中提取的交互之間的 Jaccard 相似性。低階交互具有相對較高 Jaccard 相似性表明低階交互具有較強的泛化能力。

實驗二:比較神經(jīng)網(wǎng)絡(luò)在正常樣本和 OOD 樣本建模的交互的分布。我們比較了從正常樣本中提取的交互與從分布外 (OOD) 樣本中提取的交互,以檢查神經(jīng)網(wǎng)絡(luò)在 OOD 樣本上是否建模更多的高階交互。我們將少量訓(xùn)練樣本的分類標(biāo)簽設(shè)置為錯誤標(biāo)簽。這樣,數(shù)據(jù)集中的原始樣本可以視為正常樣本,而一些帶有錯誤標(biāo)簽的樣本則對應(yīng)于 OOD 樣本,這些 OOD 樣本可能會導(dǎo)致神經(jīng)網(wǎng)絡(luò)的過擬合。我們在 MNIST 數(shù)據(jù)集和 CIFAR-10 數(shù)據(jù)集上分別訓(xùn)練了 VGG-11 和 VGG-13。圖 8 比較了從正常樣本中提取的交互的分布和從 OOD 樣本中提取的交互的分布。我們發(fā)現(xiàn),VGG-11 和 VGG-13 在分類 OOD 樣本時建模了更多復(fù)雜的交互(高階交互),而在分類正常樣本時則使用了較低階的交互。這驗證了高階交互的泛化能力通常弱于低階交互。

圖片

圖 8:比較從正常樣本中提取的交互與從分布外 (OOD) 樣本中提取的交互。神經(jīng)網(wǎng)絡(luò)通常在 OOD 樣本上建模的更高階的交互。

5.3 兩階段現(xiàn)象和神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程 loss gap 的變化相對齊

我們發(fā)現(xiàn)上述兩階段現(xiàn)象可以充分表示神經(jīng)網(wǎng)絡(luò)泛化性動力學(xué)。一個很有趣的現(xiàn)象是神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的兩階段現(xiàn)象和神經(jīng)網(wǎng)絡(luò)在測試集和訓(xùn)練集的 loss gap 的變化在時間上是對齊的。訓(xùn)練損失和測試損失之間的 loss gap 是衡量模型過擬合程度的最廣泛使用的指標(biāo)。圖 6 顯示了不同的神經(jīng)網(wǎng)絡(luò)在訓(xùn)練工程的測試損失和訓(xùn)練損失之間的 loss gap 的曲線,還顯示了從不同訓(xùn)練時期的神經(jīng)網(wǎng)絡(luò)中提取的交互分布。我們發(fā)現(xiàn)當(dāng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中測試損失和訓(xùn)練損失之間的 loss gap 開始增大時,神經(jīng)網(wǎng)絡(luò)恰好也進入訓(xùn)練的第二階段。這表明神經(jīng)網(wǎng)絡(luò)訓(xùn)練的兩階段現(xiàn)象與模型 loss gap 的變化在時間上是 “對齊” 的。

我們可以這樣理解上述現(xiàn)象:在訓(xùn)練過程開始前,初始化的神經(jīng)網(wǎng)絡(luò)所建模的交互全部表示隨機噪聲,并且不同階交互的分布看起來像 “紡錘形”。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的第一階段,神經(jīng)網(wǎng)絡(luò)逐漸消除中階和高階的交互,并學(xué)習(xí)最簡單的(最低階的)交互。然后,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的第二階段,神經(jīng)網(wǎng)絡(luò)建模了階數(shù)逐漸增大的交互。由于我們在 “5.2 神經(jīng)網(wǎng)絡(luò)所建模交互的階數(shù)和其泛化能力的關(guān)系” 章節(jié)中的兩個實驗驗證了高階交互通常比低階交互具有更差的泛化能力,因此我們可以認為在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的第二階段,DNN 首先學(xué)習(xí)了泛化能力最強的交互,然后逐漸轉(zhuǎn)向更復(fù)雜但泛化能力較弱的交互。最終一些神經(jīng)網(wǎng)絡(luò)逐漸過擬合,并編碼了大量中階和高階交互。

5.4 理論證明兩階段現(xiàn)象

理論證明神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的兩階段現(xiàn)象共分為三個部分,第一部分我們需要證明隨機初始化的神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程開始之前建模的交互的分布呈現(xiàn) “紡錘形”,即很少建模高階和低階交互,主要建模中階交互。第二部分證明神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的第二階段在建模階數(shù)逐漸增大的交互。第三部分證明神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的第一階段逐漸消除中階和高階交互,學(xué)習(xí)最低價的交互。

1. 證明初始化神經(jīng)網(wǎng)絡(luò)建模的 “紡錘形” 交互分布。

由于隨機初始化的隨網(wǎng)絡(luò)在訓(xùn)練過程開始之前建模的都是噪聲,所以我們假設(shè)隨機初始化的神經(jīng)網(wǎng)絡(luò)建模的交互的服從均值為圖片,方差為圖片的正態(tài)分布。在上述假設(shè)下,我們能夠證明初始化的神經(jīng)網(wǎng)絡(luò)建模的交互的強度和的分布呈現(xiàn) “紡錘形”,即很少建模高階和低階交互,主要建模中階交互。

圖片

2. 證明神經(jīng)網(wǎng)絡(luò)訓(xùn)練的第二階段的交互變化動態(tài)過程。

在進入正式的證明之前,我們需要做以下的預(yù)備工作。首先,我們參照 [5, 6] 的做法,將神經(jīng)網(wǎng)絡(luò)圖片在特定樣本上的 inference 改寫為不同交互觸發(fā)函數(shù)的加權(quán)和

圖片

其中,圖片為標(biāo)量權(quán)重,滿足圖片。而函數(shù)圖片為交互觸發(fā)函數(shù),在任意一個遮擋樣本圖片上都滿足圖片。函數(shù)圖片的具體形式可以由泰勒展開推導(dǎo)得到,可參考論文,這里不做贅述。

根據(jù)上述改寫形式,神經(jīng)網(wǎng)絡(luò)在特定樣本上的學(xué)習(xí)可近似看成是對交互觸發(fā)函數(shù)的權(quán)重圖片的學(xué)習(xí)。進一步地,實驗室的前期工作 [3] 發(fā)現(xiàn)在同一任務(wù)上充分訓(xùn)練的不同的神經(jīng)網(wǎng)絡(luò)往往會建模相似的交互,所以我們可以將神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)看成是對一系列潛在的 ground truth 交互的擬合。由此,神經(jīng)網(wǎng)絡(luò)在訓(xùn)練到收斂時建模的交互可以看成是最小化下面的目標(biāo)函數(shù)時得到的解:

圖片

其中圖片表示神經(jīng)網(wǎng)絡(luò)需要擬合的一系列潛在的 ground truth 交互。圖片圖片則分別表示將所有權(quán)重拼起來得到的向量和將所有交互觸發(fā)函數(shù)的值拼起來得到的向量。

可惜的是,上述建模雖然能得到神經(jīng)網(wǎng)絡(luò)訓(xùn)練到收斂時的交互,但是無法很好地刻畫神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中學(xué)習(xí)交互的動態(tài)過程。這里引入我們的核心假設(shè):我們假設(shè)初始化神經(jīng)網(wǎng)絡(luò)的參數(shù)上包含了大量噪聲,而這些噪聲的量級在訓(xùn)練過程中逐步變小。而進一步地,參數(shù)上的噪聲會導(dǎo)致交互觸發(fā)函數(shù)圖片上的噪聲,且該噪聲隨著交互階數(shù)指數(shù)級增長 (在 [5] 中已有實驗上的觀察和驗證) 。我們將有噪聲下的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)建模如下:

圖片

其中噪聲圖片滿足圖片。且隨著訓(xùn)練進行,噪聲的方差圖片逐漸變小。

在給定的噪聲量級圖片的情況下最小化上述損失函數(shù),可得到最優(yōu)交互權(quán)重圖片的解析解,如下圖中的定理所示。

圖片

我們發(fā)現(xiàn),隨著訓(xùn)練進行(即噪聲量級圖片變?。械碗A交互強度和高階交互強度的比值逐漸減小(如下面的定理所示)。這解釋了訓(xùn)練的第二階段中神經(jīng)網(wǎng)絡(luò)逐漸學(xué)到更加高階的交互的現(xiàn)象。

圖片

另外,我們對上述結(jié)論進一步做了實驗驗證。給定一個具有 n 個輸入單元的樣本,指標(biāo)圖片,其中圖片, 可以用來近似測量第 k 階交互和第 k+1 階交互強度的比值。在下圖中,我們可以發(fā)現(xiàn),在不同的輸入單元個數(shù) n 和不同的階數(shù) k 下,該比值都會隨著圖片的減小而逐漸減小。

圖片

圖 9:在不同的輸入單元個數(shù) n 和不同的階數(shù) k 下,第 k 階交互和第 k+1 階交互強度的比值都會隨著噪聲量級圖片的減小而逐漸減小。這說明隨著訓(xùn)練進行(即圖片逐漸變小),低階交互強度與高階交互強度的比值逐漸變小,神經(jīng)網(wǎng)絡(luò)逐漸學(xué)到更加高階的交互。


最后,我們對比了在不同噪聲量級圖片下的理論交互值圖片在各個階數(shù)上的分布圖片和實際訓(xùn)練過程中各階交互的分布圖片,發(fā)現(xiàn)理論交互分布可以很好地預(yù)測實際訓(xùn)練中各時間點的交互強度分布。


圖片

圖 10:比較理論交互分布圖片(藍色直方圖)和實際交互分布圖片(橙色直方圖)。在訓(xùn)練第二階段的不同時間點,理論交互分布都可以很好地預(yù)測和匹配實際交互的分布。更多結(jié)果請參見論文。

3. 證明神經(jīng)網(wǎng)絡(luò)訓(xùn)練的第一階段的交互變化動態(tài)過程。

如果說訓(xùn)練的第二階段中交互的動態(tài)變化可以解釋為權(quán)重圖片的最優(yōu)解在噪聲圖片逐漸減小時的變化,那么第一階段就可認為是交互從初始化的隨機交互逐漸收斂到最優(yōu)解的過程。

路漫漫其修遠兮,我們團隊是做神經(jīng)網(wǎng)絡(luò)可解釋性的第一性原理,我們希望在更多的方面把這個理論做扎實,能夠嚴格證明等效交互是符號化的解釋,并且能夠解釋神經(jīng)網(wǎng)絡(luò)的泛化性、魯棒性,同時證明神經(jīng)網(wǎng)絡(luò)表征瓶頸,統(tǒng)一 12 種提升神經(jīng)網(wǎng)絡(luò)對抗遷移性的方法和解釋 14 種重要性估計方法。我們后面會做出更扎實的工作,進一步完善理論體系。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-03-07 16:48:54

算法可解釋性

2019-08-29 18:07:51

機器學(xué)習(xí)人工智能

2025-01-13 08:13:18

2024-09-18 05:25:00

可解釋性人工智能AI

2024-05-28 08:00:00

人工智能機器學(xué)習(xí)

2022-06-14 14:48:09

AI圖像GAN

2021-01-08 10:47:07

機器學(xué)習(xí)模型算法

2021-01-25 21:41:59

人工智能深度學(xué)習(xí)自動駕駛

2023-05-04 07:23:04

因果推斷貝葉斯因果網(wǎng)絡(luò)

2025-03-10 08:34:39

2019-11-08 10:17:41

人工智能機器學(xué)習(xí)技術(shù)

2020-11-11 12:15:31

AI人工智能可解釋性

2022-02-07 15:49:15

人工智能機器學(xué)習(xí)技術(shù)

2024-12-20 08:07:45

2019-03-28 09:26:26

數(shù)據(jù)科學(xué)模型機器學(xué)習(xí)

2023-03-09 12:12:38

算法準(zhǔn)則

2022-04-13 15:10:22

AI決策

2023-08-15 10:04:40

2018-05-23 10:23:18

數(shù)據(jù)系統(tǒng)機器學(xué)習(xí)

2023-10-10 09:31:35

自動駕駛技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號