自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI「領(lǐng)悟」有理論解釋了!谷歌:兩種腦回路內(nèi)部競爭,訓(xùn)練久了突然不再死記硬背

人工智能
如為什么領(lǐng)悟所需的時間隨數(shù)據(jù)集大小的減小呈超指數(shù)級增長?為什么Cgen回路的學(xué)習(xí)速度慢?為什么在沒有權(quán)重衰減的情況下也會發(fā)生grokking?為什么在典型的機器學(xué)習(xí)訓(xùn)練中沒有領(lǐng)悟現(xiàn)象?

谷歌PAIR團(tuán)隊不久前撰文介紹了AI的“領(lǐng)悟” (Grokking)現(xiàn)象——

訓(xùn)練久了突然不再死記硬背,而是學(xué)會舉一反三,有了泛化能力。

不出一個月,另一只團(tuán)隊(主要成員來自DeepMind)表示,已經(jīng)給出一個通用理論解釋——

領(lǐng)悟又稱延遲泛化,與AI內(nèi)部兩種“腦回路”的競爭有關(guān)。

對此,有學(xué)者評價“我們需要更多這種對深度學(xué)習(xí)物理規(guī)律的研究,而不是去優(yōu)化煉金術(shù)。”

AI的兩種腦回路

在先前的研究中,發(fā)現(xiàn)在“領(lǐng)悟”現(xiàn)象的作用下,就算只有5-24個神經(jīng)元的模型也能擁有泛化能力。

新研究沿用了這種構(gòu)建最小示例,以及大量做可視化的方法。

基于OpenAI在2020年一項對神經(jīng)網(wǎng)絡(luò)內(nèi)部機制之間相互作用的研究,團(tuán)隊假設(shè)并驗證了模型內(nèi)部有兩種算法回路(Circuits)。

  • 記憶回路Cmem,訓(xùn)練時表現(xiàn)很好,但測試時表現(xiàn)不佳。
  • 泛化回路Cgen,訓(xùn)練和測試階段表現(xiàn)都好。

通過改變數(shù)據(jù)集的大小和權(quán)重衰減的強度做實驗來觀察。

當(dāng)訓(xùn)練數(shù)據(jù)集增大時,Cmem回路的參數(shù)范數(shù)也更大,也就是在靠記憶的方式去存儲訓(xùn)練集需要的信息量。

但Cgen的參數(shù)范數(shù)不隨訓(xùn)練集大小變化,也就是獲得了類似“舉一反三”的泛化能力

那么,在什么條件下模型會發(fā)生整體的“領(lǐng)悟”現(xiàn)象呢?

來自兩種回路的之間競爭。

在訓(xùn)練初期,直接死記硬背的速度更快,Cmem占據(jù)上風(fēng)。

但隨著數(shù)據(jù)的增加,在梯度下降的作用下效率更高的Cgen會被加強。

也就是說,存在兩種不同的回路、他們之間有效率差和學(xué)習(xí)速度差是導(dǎo)致領(lǐng)悟發(fā)生的三大要素。

重新思考泛化

在更進(jìn)一步的實驗中,團(tuán)隊還根據(jù)這個理論成功演示了在一定條件下,已經(jīng)“領(lǐng)悟”的模型也可以退化,出現(xiàn)“逆領(lǐng)悟”。

在新的小數(shù)據(jù)集上繼續(xù)訓(xùn)練已領(lǐng)悟的模型時,測試精度突然變差,也就是在泛化之后的過擬合。

也可以精心調(diào)整出一個“半領(lǐng)悟”狀態(tài)。

當(dāng)數(shù)據(jù)集的大小剛好在一個臨界值,讓Cmem和Cgen的效率相當(dāng),只對部分測試精度出現(xiàn)延遲泛化。

團(tuán)隊認(rèn)為,這種基于回路效率的分析為理解神經(jīng)網(wǎng)絡(luò)的泛化提供了一種新的視角。

同時也提出了一些后續(xù)研究方向。

如為什么領(lǐng)悟所需的時間隨數(shù)據(jù)集大小的減小呈超指數(shù)級增長?為什么Cgen回路的學(xué)習(xí)速度慢?為什么在沒有權(quán)重衰減的情況下也會發(fā)生grokking?為什么在典型的機器學(xué)習(xí)訓(xùn)練中沒有領(lǐng)悟現(xiàn)象?……

評論區(qū)有學(xué)者認(rèn)為,研究這些基礎(chǔ)問題并不需要成千上萬塊H100。

GPU貧民也有機會為整個領(lǐng)域做出貢獻(xiàn)。

論文地址:https://arxiv.org/abs/2309.02390

參考鏈接:

[1]https://x.com/VikrantVarma_/status/1699823229307699305

[2]https://pair.withgoogle.com/explorables/grokking/

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2023-08-14 08:15:44

谷歌模型

2020-07-02 09:47:40

人工智能技術(shù)教育

2025-02-14 10:23:00

LLM模型谷歌

2017-09-21 11:43:14

JavascriptHtml5Html

2024-07-02 13:30:50

2024-07-23 09:26:20

2020-04-16 10:55:03

Java虛擬機字節(jié)碼

2010-01-05 17:23:51

JSON建構(gòu)

2014-04-28 16:13:11

Unix目錄結(jié)構(gòu)

2010-07-19 14:07:09

Perl ->符號

2011-06-20 16:03:03

Qt 控件 鼠標(biāo)

2022-05-26 23:14:26

原型原型鏈JS繼承

2022-06-07 10:28:53

云遷移云計算

2021-07-26 14:14:40

VRAI人工智能

2021-02-24 13:51:45

BIMAI建筑技術(shù)

2022-11-17 08:47:20

Go特性標(biāo)準(zhǔn)庫

2021-04-01 17:43:49

iOS 14.5蘋果Siri

2023-12-13 08:47:13

編程語言編譯型解釋型

2020-09-10 07:04:30

JSJavaScript 原型鏈

2021-02-22 07:48:35

Excel數(shù)據(jù)分析快捷方式
點贊
收藏

51CTO技術(shù)棧公眾號