AI「領(lǐng)悟」有理論解釋了!谷歌:兩種腦回路內(nèi)部競爭,訓(xùn)練久了突然不再死記硬背
谷歌PAIR團(tuán)隊不久前撰文介紹了AI的“領(lǐng)悟” (Grokking)現(xiàn)象——
訓(xùn)練久了突然不再死記硬背,而是學(xué)會舉一反三,有了泛化能力。
不出一個月,另一只團(tuán)隊(主要成員來自DeepMind)表示,已經(jīng)給出一個通用理論解釋——
領(lǐng)悟又稱延遲泛化,與AI內(nèi)部兩種“腦回路”的競爭有關(guān)。
對此,有學(xué)者評價“我們需要更多這種對深度學(xué)習(xí)物理規(guī)律的研究,而不是去優(yōu)化煉金術(shù)。”
AI的兩種腦回路
在先前的研究中,發(fā)現(xiàn)在“領(lǐng)悟”現(xiàn)象的作用下,就算只有5-24個神經(jīng)元的模型也能擁有泛化能力。
新研究沿用了這種構(gòu)建最小示例,以及大量做可視化的方法。
基于OpenAI在2020年一項對神經(jīng)網(wǎng)絡(luò)內(nèi)部機制之間相互作用的研究,團(tuán)隊假設(shè)并驗證了模型內(nèi)部有兩種算法回路(Circuits)。
- 記憶回路Cmem,訓(xùn)練時表現(xiàn)很好,但測試時表現(xiàn)不佳。
- 泛化回路Cgen,訓(xùn)練和測試階段表現(xiàn)都好。
通過改變數(shù)據(jù)集的大小和權(quán)重衰減的強度做實驗來觀察。
當(dāng)訓(xùn)練數(shù)據(jù)集增大時,Cmem回路的參數(shù)范數(shù)也更大,也就是在靠記憶的方式去存儲訓(xùn)練集需要的信息量。
但Cgen的參數(shù)范數(shù)不隨訓(xùn)練集大小變化,也就是獲得了類似“舉一反三”的泛化能力
那么,在什么條件下模型會發(fā)生整體的“領(lǐng)悟”現(xiàn)象呢?
來自兩種回路的之間競爭。
在訓(xùn)練初期,直接死記硬背的速度更快,Cmem占據(jù)上風(fēng)。
但隨著數(shù)據(jù)的增加,在梯度下降的作用下效率更高的Cgen會被加強。
也就是說,存在兩種不同的回路、他們之間有效率差和學(xué)習(xí)速度差是導(dǎo)致領(lǐng)悟發(fā)生的三大要素。
重新思考泛化
在更進(jìn)一步的實驗中,團(tuán)隊還根據(jù)這個理論成功演示了在一定條件下,已經(jīng)“領(lǐng)悟”的模型也可以退化,出現(xiàn)“逆領(lǐng)悟”。
在新的小數(shù)據(jù)集上繼續(xù)訓(xùn)練已領(lǐng)悟的模型時,測試精度突然變差,也就是在泛化之后的過擬合。
也可以精心調(diào)整出一個“半領(lǐng)悟”狀態(tài)。
當(dāng)數(shù)據(jù)集的大小剛好在一個臨界值,讓Cmem和Cgen的效率相當(dāng),只對部分測試精度出現(xiàn)延遲泛化。
團(tuán)隊認(rèn)為,這種基于回路效率的分析為理解神經(jīng)網(wǎng)絡(luò)的泛化提供了一種新的視角。
同時也提出了一些后續(xù)研究方向。
如為什么領(lǐng)悟所需的時間隨數(shù)據(jù)集大小的減小呈超指數(shù)級增長?為什么Cgen回路的學(xué)習(xí)速度慢?為什么在沒有權(quán)重衰減的情況下也會發(fā)生grokking?為什么在典型的機器學(xué)習(xí)訓(xùn)練中沒有領(lǐng)悟現(xiàn)象?……
評論區(qū)有學(xué)者認(rèn)為,研究這些基礎(chǔ)問題并不需要成千上萬塊H100。
GPU貧民也有機會為整個領(lǐng)域做出貢獻(xiàn)。
論文地址:https://arxiv.org/abs/2309.02390