自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型訓(xùn)練或無需“純凈數(shù)據(jù)”!北大團(tuán)隊(duì)新研究:隨機(jī)噪聲影響有限,新方法讓模型更抗噪

人工智能 新聞
來自北大的研究人員通過在訓(xùn)練數(shù)據(jù)中刻意添加隨機(jī)亂碼進(jìn)行驗(yàn)證。他們?cè)噲D測(cè)試模型在性能受損前能承受多少”壞數(shù)據(jù)”。

傳統(tǒng)的大語言模型訓(xùn)練需要依賴”純凈數(shù)據(jù)”——那些經(jīng)過仔細(xì)篩選、符合標(biāo)準(zhǔn)語法且邏輯嚴(yán)密的文本。但如果這種嚴(yán)格的數(shù)據(jù)過濾,并不像我們想象中那般重要呢?

這就像教孩子學(xué)語言:傳統(tǒng)觀點(diǎn)認(rèn)為他們應(yīng)該只聽語法完美的標(biāo)準(zhǔn)發(fā)音。但現(xiàn)實(shí)情況是,孩童恰恰是在接觸俚語、語法錯(cuò)誤和背景噪音的過程中,依然能夠掌握語言能力。

來自北大的研究人員通過在訓(xùn)練數(shù)據(jù)中刻意添加隨機(jī)亂碼進(jìn)行驗(yàn)證。他們?cè)噲D測(cè)試模型在性能受損前能承受多少”壞數(shù)據(jù)”。

實(shí)驗(yàn)結(jié)果表明,即便面對(duì)高達(dá)20%的”垃圾數(shù)據(jù)”,訓(xùn)練依然可以正常進(jìn)行,且Next-token Prediction (NTP) loss受到的影響不足1%!他們不僅揭示了噪聲與模型性能的復(fù)雜關(guān)系,還提出了一種創(chuàng)新的“局部梯度匹配”方法,讓模型在噪聲環(huán)境中依然保持強(qiáng)勁表現(xiàn)。

是什么:隨機(jī)噪音會(huì)有什么影響?

研究者利用OpenWebText數(shù)據(jù)集,訓(xùn)練了多個(gè)GPT-2相同架構(gòu)和參數(shù)量的語言模型。他們首先生成了一串范圍在0到50256(GPT-2 tokenizer的大小)的整數(shù),其中每個(gè)數(shù)都遵循0到50256的均勻分布。這樣是為了模擬由于解碼錯(cuò)誤或網(wǎng)頁崩潰導(dǎo)致的隨機(jī)亂碼經(jīng)過tokenizer之后的結(jié)果。之后,研究團(tuán)隊(duì)向OpenWebText中注入占比1%-20%的隨機(jī)噪聲,正常進(jìn)行Next-token Prediction的預(yù)訓(xùn)練。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)反直覺現(xiàn)象:盡管NTP loss受到噪音的影響有些微提升,但是增加幅度遠(yuǎn)小于噪音占比。即使20%的數(shù)據(jù)被污染,模型的下一個(gè)詞預(yù)測(cè)損失僅上升約1%。

更令人驚訝的是,在arXiv和Wikipedia語料測(cè)試中,含噪模型甚至展現(xiàn)出更低的NTP loss。

這些反?,F(xiàn)象的出現(xiàn)引發(fā)了研究團(tuán)隊(duì)的思考。他們想要知道這種現(xiàn)象出現(xiàn)的背后原因。

為什么:理論角度分析隨機(jī)噪音

遵照之前的理論工作,研究團(tuán)隊(duì)把NTP過程建模成在 (給定前綴, 下一token) 的聯(lián)合概率分布上的分類任務(wù)。用P^c表示干凈分布,P^n表示噪音分布,作者指出,我們真正關(guān)心的不是模型在噪音P^n上的損失,而是在噪音分布上訓(xùn)練出來的模型 h 與最優(yōu)模型 h* 在干凈分布P^c上的 NTP loss 差距。

為了給出證明,研究團(tuán)隊(duì)首先注意到,在隨機(jī)亂碼中找到一段有意義文本的概率極低。用數(shù)學(xué)語言來描述,這意味著干凈分布P^c和噪音分布P^n的支撐集(support set)的交集可以認(rèn)為是空集。

基于這條假設(shè),研究團(tuán)隊(duì)成功證明,當(dāng)噪音占比 α 足夠小時(shí),P^n的存在不改變 NTP loss的全局最小值。哪怕 α 足夠大,噪音對(duì)損失函數(shù)帶來的影響也遠(yuǎn)小于其占比。

由于Assumption 1并不只在隨機(jī)噪音時(shí)成立,因此結(jié)論可以推廣到其他情況。最直接的場(chǎng)景便是多語言模型的訓(xùn)練。顯然,在一種語言(英語)看來,另一種語言(漢語)就是隨機(jī)亂碼,他們之間的token彼此是不重合的,兩者對(duì)應(yīng)的分布自然沒有交集,也就滿足了Assumption 1。因此,Proposition 1表明,在多語言數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,單個(gè)語言的性能不會(huì)受到太大的影響。這就解釋了多語言模型的成功。此外,Proposition 1還可以解釋為什么在充滿背景噪音的數(shù)據(jù)集上訓(xùn)練的音頻模型可以成功。

為了進(jìn)一步檢驗(yàn)上述理論,研究團(tuán)隊(duì)還隨機(jī)生成了先驗(yàn)分布服從高斯分布的隨機(jī)噪音。由于高斯分布有規(guī)律可循,這種噪音對(duì)應(yīng)的NTP loss更低。按照Proposition 1的結(jié)論,更低NTP loss的噪音P^n對(duì)模型性能的影響更小。實(shí)驗(yàn)結(jié)果驗(yàn)證了這一預(yù)言,也就證明了Proposition 1的正確性。

怎么做:如何彌補(bǔ)隨機(jī)噪音的影響

盡管預(yù)訓(xùn)練損失變化微弱,下游任務(wù)卻暴露出隱患。實(shí)驗(yàn)顯示,在高斯噪音上訓(xùn)練的模型,盡管其相比隨機(jī)噪音對(duì)應(yīng)模型的NTP loss更低,但在文本分類下游任務(wù)中的準(zhǔn)確率卻下降高達(dá)1.5%。這種“損失-性能解耦”現(xiàn)象表明,預(yù)訓(xùn)練指標(biāo)NTP loss無法全面反映模型的實(shí)際能力。研究者指出,噪聲會(huì)扭曲特征空間的梯度分布,導(dǎo)致微調(diào)時(shí)模型對(duì)細(xì)微擾動(dòng)過于敏感。

針對(duì)這一挑戰(zhàn),團(tuán)隊(duì)提出了一種即插即用的解決方案——局部梯度匹配損失(LGM)。具體來說,由于在下游任務(wù)應(yīng)用大模型時(shí)幾乎不會(huì)從頭預(yù)訓(xùn)練,研究團(tuán)隊(duì)在黑盒模型的假設(shè)下提出了LGM這一微調(diào)方法。其無需訪問模型參數(shù),而是通過向特征添加高斯噪聲并約束原始/擾動(dòng)特征的梯度差異,直接增強(qiáng)分類頭的抗噪能力。其核心思想在于:迫使模型在特征擾動(dòng)下保持決策一致性,從而彌合噪聲導(dǎo)致的特征偏移。對(duì)于黑盒模型提取的特征 t,首先添加一定程度高斯擾動(dòng)得到 \hat{t},然后將分類頭關(guān)于t和 \hat{t} 的梯度差作為損失函數(shù)

實(shí)驗(yàn)部分,團(tuán)隊(duì)在8個(gè)自然語言理解和14個(gè)視覺分類數(shù)據(jù)集上驗(yàn)證了模型性能。

對(duì)于受到噪音影響的模型,LGM可以顯著增強(qiáng)性能。

出乎意料的是,當(dāng)把LGM用在干凈模型(如Llama-3、ViT-L)上時(shí),下游任務(wù)準(zhǔn)確率仍可提升1%-3%。


為了解釋LGM的成功,研究團(tuán)隊(duì)從 Sharpness-Aware Minimization的角度,證明了LGM損失和損失函數(shù)的光滑程度、對(duì)輸入的敏感程度有緊密關(guān)系:

啟示與展望:數(shù)據(jù)清洗的新思考

這項(xiàng)研究為大規(guī)模預(yù)訓(xùn)練提供了全新視角:

  • 效率革命:適度保留隨機(jī)噪聲可降低數(shù)據(jù)清洗成本,尤其對(duì)資源有限的團(tuán)隊(duì)意義重大
  • 理論擴(kuò)展:理論框架可用于解釋多語言模型的成功,還可用于其他模態(tài)
  • 數(shù)據(jù)增強(qiáng):可控噪聲注入或成新型正則化手段,提升模型泛化能力

當(dāng)然,研究也存在局限:實(shí)驗(yàn)僅基于GPT-2規(guī)模模型,超大規(guī)模模型(如GPT-4)的噪聲耐受性仍需驗(yàn)證。團(tuán)隊(duì)計(jì)劃進(jìn)一步探索噪聲類型與模型容量的動(dòng)態(tài)關(guān)系,以及LGM在其他模態(tài)中的應(yīng)用。

論文地址:https://arxiv.org/abs/2502.06604

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-02-20 16:07:27

神經(jīng)網(wǎng)絡(luò)AI算法

2024-09-03 14:10:00

模型測(cè)試

2023-07-06 08:00:00

機(jī)器學(xué)習(xí)擴(kuò)散模型Midjourney

2023-09-06 13:34:31

2023-05-26 00:43:08

2025-03-03 09:16:00

Meta模型預(yù)測(cè)

2025-02-06 07:26:35

2023-07-04 10:11:28

數(shù)據(jù)模型

2023-10-29 22:38:59

2025-03-17 12:55:18

2023-09-10 10:51:22

算法結(jié)構(gòu)

2024-04-08 12:18:57

訓(xùn)練AI

2023-05-15 09:43:49

模型數(shù)據(jù)

2024-02-07 12:13:03

AI模型

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2023-03-03 13:06:34

大腦分層預(yù)測(cè)

2017-12-05 17:06:11

機(jī)器人

2023-12-29 13:18:23

模型NeRFTICD

2023-11-26 18:04:00

IDEA視覺

2024-01-15 16:41:00

模型數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)