自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI「領(lǐng)悟」有理論解釋了！谷歌：兩種腦回路內(nèi)部競爭，訓(xùn)練久了突然不再死記硬背

2023-09-18 16:18:36

如為什么領(lǐng)悟所需的時間隨數(shù)據(jù)集大小的減小呈超指數(shù)級增長？為什么Cgen回路的學(xué)習(xí)速度慢？為什么在沒有權(quán)重衰減的情況下也會發(fā)生grokking？為什么在典型的機器學(xué)習(xí)訓(xùn)練中沒有領(lǐng)悟現(xiàn)象？

谷歌PAIR團(tuán)隊不久前撰文介紹了AI的“領(lǐng)悟” （Grokking）現(xiàn)象——

訓(xùn)練久了突然不再死記硬背，而是學(xué)會舉一反三，有了泛化能力。

不出一個月，另一只團(tuán)隊（主要成員來自DeepMind）表示，已經(jīng)給出一個通用理論解釋——

領(lǐng)悟又稱延遲泛化，與AI內(nèi)部兩種“腦回路”的競爭有關(guān)。

對此，有學(xué)者評價“我們需要更多這種對深度學(xué)習(xí)物理規(guī)律的研究，而不是去優(yōu)化煉金術(shù)。”

AI的兩種腦回路

在先前的研究中，發(fā)現(xiàn)在“領(lǐng)悟”現(xiàn)象的作用下，就算只有5-24個神經(jīng)元的模型也能擁有泛化能力。

新研究沿用了這種構(gòu)建最小示例，以及大量做可視化的方法。

基于OpenAI在2020年一項對神經(jīng)網(wǎng)絡(luò)內(nèi)部機制之間相互作用的研究，團(tuán)隊假設(shè)并驗證了模型內(nèi)部有兩種算法回路（Circuits）。

記憶回路Cmem，訓(xùn)練時表現(xiàn)很好，但測試時表現(xiàn)不佳。
泛化回路Cgen，訓(xùn)練和測試階段表現(xiàn)都好。

通過改變數(shù)據(jù)集的大小和權(quán)重衰減的強度做實驗來觀察。

當(dāng)訓(xùn)練數(shù)據(jù)集增大時，Cmem回路的參數(shù)范數(shù)也更大，也就是在靠記憶的方式去存儲訓(xùn)練集需要的信息量。

但Cgen的參數(shù)范數(shù)不隨訓(xùn)練集大小變化，也就是獲得了類似“舉一反三”的泛化能力

那么，在什么條件下模型會發(fā)生整體的“領(lǐng)悟”現(xiàn)象呢？

來自兩種回路的之間競爭。

在訓(xùn)練初期，直接死記硬背的速度更快，Cmem占據(jù)上風(fēng)。

但隨著數(shù)據(jù)的增加，在梯度下降的作用下效率更高的Cgen會被加強。

也就是說，存在兩種不同的回路、他們之間有效率差和學(xué)習(xí)速度差是導(dǎo)致領(lǐng)悟發(fā)生的三大要素。

重新思考泛化

在更進(jìn)一步的實驗中，團(tuán)隊還根據(jù)這個理論成功演示了在一定條件下，已經(jīng)“領(lǐng)悟”的模型也可以退化，出現(xiàn)“逆領(lǐng)悟”。

在新的小數(shù)據(jù)集上繼續(xù)訓(xùn)練已領(lǐng)悟的模型時，測試精度突然變差，也就是在泛化之后的過擬合。

也可以精心調(diào)整出一個“半領(lǐng)悟”狀態(tài)。

當(dāng)數(shù)據(jù)集的大小剛好在一個臨界值，讓Cmem和Cgen的效率相當(dāng)，只對部分測試精度出現(xiàn)延遲泛化。

團(tuán)隊認(rèn)為，這種基于回路效率的分析為理解神經(jīng)網(wǎng)絡(luò)的泛化提供了一種新的視角。

同時也提出了一些后續(xù)研究方向。

如為什么領(lǐng)悟所需的時間隨數(shù)據(jù)集大小的減小呈超指數(shù)級增長？為什么Cgen回路的學(xué)習(xí)速度慢？為什么在沒有權(quán)重衰減的情況下也會發(fā)生grokking？為什么在典型的機器學(xué)習(xí)訓(xùn)練中沒有領(lǐng)悟現(xiàn)象？……

評論區(qū)有學(xué)者認(rèn)為，研究這些基礎(chǔ)問題并不需要成千上萬塊H100。

GPU貧民也有機會為整個領(lǐng)域做出貢獻(xiàn)。

論文地址：https://arxiv.org/abs/2309.02390

參考鏈接：

[1]https://x.com/VikrantVarma_/status/1699823229307699305

[2]https://pair.withgoogle.com/explorables/grokking/

責(zé)任編輯：武曉燕來源：量子位

AI Cgen 數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="dzajy"></s>