自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MIT斯坦福Transformer最新研究:過度訓(xùn)練讓中度模型「涌現(xiàn)」結(jié)構(gòu)泛化能力

人工智能 新聞
雖然Transformer架構(gòu)存在一些明顯的限制(例如無法實現(xiàn)無限遞歸),但研究人員的結(jié)果表明它可能具有比以前認(rèn)為的更強的歸納偏好:通過充分的訓(xùn)練,Transformer能夠表示分層的句子結(jié)構(gòu)并利用這種結(jié)構(gòu)進行正確的泛化。

對于人類來說,句子是分層的。

句子的層次結(jié)構(gòu)對于表達和理解都相當(dāng)重要。

但是在自然語言處理中,之前的研究認(rèn)為,在泛化到新的結(jié)構(gòu)輸入時,以Transformer為代表的神經(jīng)序列模型似乎很難有效地捕捉到這種句子的層級結(jié)構(gòu)。

但是斯坦福和MIT的研究人員在最近的研究中發(fā)現(xiàn)。

如果對Transformer類的模型進行長時間的訓(xùn)練之后,它能獲得這種結(jié)構(gòu)性的泛化能力。

研究人員將這種現(xiàn)象稱為:結(jié)構(gòu)頓悟(Structural Grokking,SG)

Grokking這個詞是一個作家在書中造出來的詞,中文大概翻譯成「頓悟」。

微博網(wǎng)友木遙老師把這個詞解釋為:一個高度復(fù)雜的神經(jīng)網(wǎng)絡(luò)在漫長的訓(xùn)練期內(nèi)一直只能記住訓(xùn)練樣本的信息,幾乎沒有泛化能力,但到了某一刻,它的泛化水平忽然跳了出來,而且非常完美。

可以想象成一個神經(jīng)網(wǎng)絡(luò)經(jīng)歷了一個「aha moment」,像是內(nèi)部的某個齒輪忽然對上了一樣。

論文地址:https://arxiv.org/abs/2305.18741

研究人員在不同的數(shù)據(jù)集中發(fā)現(xiàn),SG在模型的深度(Model Depth)上呈現(xiàn)倒U縮放。

中深度模型的泛化能力比非常深和非常淺的模型都要好。

總體上看,如果能對模型進行更多的擴展訓(xùn)練,普通的Transformer能夠展現(xiàn)出層級結(jié)構(gòu)。

背景

在之前的類似研究中,研究人員認(rèn)為Transformer在分層級泛化測試中是失敗的。

Transformer模型中的分層級結(jié)構(gòu)

為了了解給定的模型是否對獲取層次結(jié)構(gòu)有偏見,斯坦福的研究人員按照之前的實驗流程,評估了模糊任務(wù)上訓(xùn)練的模型的泛化性。

在這些任務(wù)中,訓(xùn)練數(shù)據(jù)與“層次規(guī)則”和“非層次規(guī)則”相一致的。

為測試是否獲得了分層規(guī)則,研究人員在一個單獨的分布外測試集上測試泛化性。

頓悟(Grokking)

之前的研究表明,在小型算法數(shù)據(jù)集上會出現(xiàn)頓悟現(xiàn)象,他們發(fā)現(xiàn)在訓(xùn)練性能飽和后的很長時間里,模型測試性能繼續(xù)提高。

因此研究人員就假設(shè)存在一個類似的結(jié)構(gòu)頓悟,在域內(nèi)驗證性能飽和后很長時間內(nèi),模型對于分層結(jié)構(gòu)依然可以繼續(xù)頓悟。

因此,分層泛化可以通過擴展訓(xùn)練繼續(xù)提高。

實驗

數(shù)據(jù)集

研究人員的目標(biāo)是理解transformer中的分層泛化 , 使用了來自之前研究中的兩個數(shù)據(jù)集,并在一個簡單的括號跟蹤任務(wù)上進行了評估。

我們評估了Dyck20,10中結(jié)構(gòu)上未觀察到的字符串的泛化能力,以下圖為例。

模型

研究人員訓(xùn)練了有{2,4,6,8,10}層的transformer語言模型。

對于每個深度,研究人員用10個隨機種子來訓(xùn)練模型,300k steps。(Dyck為400k)

給定輸入句子(或在Dyck的情況下前綴),研究人員在測試時從模型中解碼。

對于Dyck,研究人員報告準(zhǔn)確性是通過在給定語言的輸入前綴的情況下,通過對右括號進行排名來生成正確的右括號類型。

和之前已經(jīng)進行的研究類似,對于Question-Formation,研究人員報告解碼問題的第一個單詞的準(zhǔn)確性。

對于Tense-Inflection,研究人員報告的是目標(biāo)動詞詞形變化正確的測試輸入的分?jǐn)?shù)。

主要結(jié)果

Transformers展現(xiàn)出了結(jié)構(gòu)頓悟。

研究人員在下圖中展示了在所有數(shù)據(jù)集上使用最佳模型深度所獲得的結(jié)果。

他們發(fā)現(xiàn)了明確的結(jié)構(gòu)頓悟證據(jù):在各個數(shù)據(jù)集上,在分布內(nèi)準(zhǔn)確率飽和之后的訓(xùn)練步驟中,泛化性能得到改善,有時甚至接近完美的準(zhǔn)確率。

提前停止是有害的

接下來,研究人員將通過在域內(nèi)驗證準(zhǔn)確率上進行提前停止而獲得的泛化準(zhǔn)確率,與更長的訓(xùn)練流程(如下圖)的泛化準(zhǔn)確性進行了比較。

提前停止會導(dǎo)致泛化性能被嚴(yán)重低估。

例如,在Question-Formation和Tense-Inflection兩個任務(wù)上,平均泛化性能從不到40%、不到50%提高到分別不到90%、不到80%。

倒U形分布

在Question-Formation和Tense-Inflection任務(wù)中,研究人員從2層到10層逐漸增加深度進行模型訓(xùn)練。

對于每個深度,在下圖中報告了最終泛化準(zhǔn)確率超過80%的種子數(shù)(10個種子中的比例)。

他們發(fā)現(xiàn)了一個倒U形的分布狀態(tài)——非常淺和非常深的模型效果不佳,而大多數(shù)種子在中等深度的模型中表現(xiàn)出較好的泛化性能。

這也可以解釋為什么之前的研究要么使用非常淺的模型(1-3層的Transformer),要么使用非常深的模型(Mueller等人論文中的12層Transformer),都無法很好地泛化。

分析

鑒于結(jié)構(gòu)頓悟僅在一部分模型架構(gòu)中發(fā)生,研究人員能否確定它何時發(fā)生(或預(yù)測何時會發(fā)生)?

幾個模型內(nèi)部屬性與結(jié)構(gòu)性理解或Transformer中出現(xiàn)的新興分層結(jié)構(gòu)或許有關(guān)。

Weight Norms

最近的研究將認(rèn)為參數(shù)權(quán)重的L2 norm是結(jié)構(gòu)頓悟的重要量。

但總體上來說,訓(xùn)練過程中范數(shù)(Norms)增長被作為神經(jīng)網(wǎng)絡(luò)泛化的關(guān)鍵因素之一進行了研究。

注意力稀疏性

Merrill等人(2021年)證明了Transformer中的范數(shù)增長導(dǎo)致了注意力的飽和,這是新興語言結(jié)構(gòu)的重要特性(Merrill等人,2022年)。為了衡量fLθ的注意力稀疏性,我們計算了所有分布{apk}的負(fù)均熵。

樹結(jié)構(gòu)

之前有研究展示了樹結(jié)構(gòu)編碼器表現(xiàn)出接近完美的分層泛化。

雖然Transformer相對較為自由,但最近的證據(jù)表明,當(dāng)在語言數(shù)據(jù)上進行訓(xùn)練時,它們隱含地實現(xiàn)了(近似)樹結(jié)構(gòu)計算。

而且,之前研究中樹投影方法精確地描述了Transformer對輸入進行的內(nèi)部計算可以用樹結(jié)構(gòu)神經(jīng)編碼近似的程度,為任何Transformer提供了樹結(jié)構(gòu)度量分?jǐn)?shù)(tscore),并提供了一個在輸入字符串上最佳近似其計算的二叉樹。

為了評估這些樹是否與人類的句法概念相對應(yīng),我們還將恢復(fù)的樹與黃金標(biāo)準(zhǔn)樹進行比較。

結(jié)果

在Question-Formation和Tense-Inflection任務(wù)中,研究人員通過每隔3k steps更新計算一次這些量的方式來描述權(quán)重范數(shù)(通過層數(shù)統(tǒng)一化來比較不同模型深度)、注意力稀疏性和樹結(jié)構(gòu)性的動態(tài)變化情況。

對于依賴于數(shù)據(jù)的屬性,如注意力稀疏性和樹結(jié)構(gòu)性,我們從訓(xùn)練數(shù)據(jù)中隨機抽取了10k個樣例。

研究人員在下圖中繪制了這些量在最小模型、最大模型(其中至少有一個運行顯示成功的結(jié)構(gòu)頓悟)以及最佳模型深度的情況。

樹形結(jié)構(gòu)是最佳的模型

在兩個數(shù)據(jù)集的所有模型設(shè)置中,權(quán)重范數(shù)和注意力稀疏性都會增長。

然而,僅憑這些屬性本身無法預(yù)測淺層和深層模型的失敗 - 淺層模型學(xué)習(xí)到了最稀疏的解以及具有最大權(quán)重范數(shù)的解,但從未進行分層泛化。

正如之前的研究中所指出的,tscore隨時間的推移對于所有模型都有所改善,表明隨著時間的推移,樹結(jié)構(gòu)性增加。

對于這兩個數(shù)據(jù)集,與深層和淺層模型相比,“最佳”模型學(xué)習(xí)到了最多的樹結(jié)構(gòu)解。

在算法任務(wù)中,結(jié)構(gòu)性理解“與嵌入中結(jié)構(gòu)的出現(xiàn)相吻合”。

類似地,在語言任務(wù)中,我們發(fā)現(xiàn)結(jié)構(gòu)性理解與樹狀內(nèi)部計算的出現(xiàn)相吻合。

Transformer在誘導(dǎo)結(jié)構(gòu)方面表現(xiàn)出驚人的效果

從下圖的tparseval的動態(tài)變化中,研究人員注意到所有模型,無論它們是否進行泛化,都學(xué)習(xí)到了接近于真實句法的結(jié)構(gòu),有時表現(xiàn)優(yōu)于右分支基線。

之前的研究認(rèn)為,只有樹結(jié)構(gòu)編碼器根據(jù)正確的句法分析樹進行結(jié)構(gòu)化時才能進行泛化。

研究人員發(fā)現(xiàn)所有Transformer都學(xué)習(xí)到了正確的樹結(jié)構(gòu),但只有最具樹結(jié)構(gòu)性的模型表現(xiàn)出最好的泛化能力。

結(jié)論

這項研究表明,通過結(jié)構(gòu)頓悟機制,Transformer能夠展現(xiàn)出對結(jié)構(gòu)敏感的“分層泛化”。

它們的整體學(xué)習(xí)行為逐漸從記憶(領(lǐng)域內(nèi)高準(zhǔn)確率,領(lǐng)域外準(zhǔn)確率較差)向泛化(領(lǐng)域內(nèi)和領(lǐng)域外準(zhǔn)確率高)轉(zhuǎn)變。

雖然研究人員在相對較小的數(shù)據(jù)集和小型模型上展示了這種行為,但這些結(jié)果可能具有更廣泛的意義。

因為已經(jīng)證明長時間的訓(xùn)練即使對于規(guī)模龐大的語言建模和組合泛化任務(wù)也有幫助。

結(jié)構(gòu)頓悟在“中等規(guī)?!钡哪P蜕疃茸畛0l(fā)生,而非常淺和非常深的模型則無法展現(xiàn)出這種行為。

雖然以往與Transformer中的語言泛化相關(guān)的屬性,如權(quán)重范數(shù)和注意力稀疏性,不能區(qū)分好的架構(gòu)和壞的架構(gòu),但Transformer的功能性樹結(jié)構(gòu)可以很好地預(yù)測最佳模型深度。

雖然Transformer架構(gòu)存在一些明顯的限制(例如無法實現(xiàn)無限遞歸),但研究人員的結(jié)果表明它可能具有比以前認(rèn)為的更強的歸納偏好:通過充分的訓(xùn)練,Transformer能夠表示分層的句子結(jié)構(gòu)并利用這種結(jié)構(gòu)進行正確的泛化。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-04 12:32:28

模型研究

2024-11-21 08:39:08

2023-07-21 14:47:24

AI訓(xùn)練

2023-10-20 12:17:57

AI數(shù)據(jù)

2023-06-25 13:28:21

2023-02-14 09:45:11

模型測試

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2022-02-23 14:36:31

AI數(shù)據(jù)研究

2017-11-28 14:18:29

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2025-01-20 13:08:25

2023-12-05 13:38:11

架構(gòu)模型

2022-10-08 12:38:23

模型開源

2018-12-17 11:06:34

華為云

2024-01-03 13:37:00

模型數(shù)據(jù)

2023-09-06 13:34:31

2022-01-11 10:22:26

量子計算芯片超算

2024-07-09 12:59:37

2024-08-07 13:00:00

2023-08-14 20:18:20

模型神經(jīng)元
點贊
收藏

51CTO技術(shù)棧公眾號