自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)據(jù)更多更好還是質(zhì)量更高更好?這項(xiàng)研究能幫你做出選擇

人工智能 新聞
當(dāng)計(jì)算預(yù)算低時(shí),重復(fù)使用高質(zhì)量數(shù)據(jù)更好;當(dāng)不差錢時(shí),使用大量數(shù)據(jù)更有利。

對(duì)基礎(chǔ)模型進(jìn)行 scaling 是指使用更多數(shù)據(jù)、計(jì)算和參數(shù)進(jìn)行預(yù)訓(xùn)練,簡(jiǎn)單來說就是「規(guī)模擴(kuò)展」。

雖然直接擴(kuò)展模型規(guī)??雌饋砗?jiǎn)單粗暴,但也確實(shí)為機(jī)器學(xué)習(xí)社區(qū)帶來了不少表現(xiàn)卓越的模型。之前不少研究都認(rèn)可擴(kuò)大神經(jīng)模型規(guī)模的做法,所謂量變引起質(zhì)變,這種觀點(diǎn)也被稱為神經(jīng)擴(kuò)展律(neural scaling laws)。

近段時(shí)間,又有不少人認(rèn)為「數(shù)據(jù)」才是那些當(dāng)前最佳的閉源模型的關(guān)鍵,不管是 LLM、VLM 還是擴(kuò)散模型。隨著數(shù)據(jù)質(zhì)量的重要性得到認(rèn)可,已經(jīng)涌現(xiàn)出了不少旨在提升數(shù)據(jù)質(zhì)量的研究:要么是從大型語料庫(kù)中過濾出高質(zhì)量數(shù)據(jù),要么是生成高質(zhì)量的新數(shù)據(jù)。但是,過去的擴(kuò)展律一般是將「數(shù)據(jù)」視為一個(gè)同質(zhì)實(shí)體,并未將近期人們關(guān)注的「數(shù)據(jù)質(zhì)量」作為一個(gè)考量維度。

盡管網(wǎng)絡(luò)上的數(shù)據(jù)規(guī)模龐大,但高質(zhì)量數(shù)據(jù)(基于多個(gè)評(píng)估指標(biāo))通常很有限?,F(xiàn)在,開創(chuàng)性的研究來了 —— 數(shù)據(jù)過濾維度上的擴(kuò)展律!它來自卡內(nèi)基梅隆大學(xué)和 Bosch Center for AI,其中尤其關(guān)注了「大規(guī)?!古c「高質(zhì)量」之間的數(shù)量 - 質(zhì)量權(quán)衡(QQT)。


  • 論文標(biāo)題:Scaling Laws for Data Filtering—Data Curation cannot be Compute Agnostic
  • 論文地址:https://arxiv.org/pdf/2404.07177.pdf
  • 代碼地址:https://github.com/locuslab/scaling_laws_data_filtering


如圖 1 所示,當(dāng)訓(xùn)練多個(gè) epoch 時(shí),高質(zhì)量數(shù)據(jù)的效用(utility)就不大了(因?yàn)槟P鸵呀?jīng)完成了學(xué)習(xí))。


圖片

此時(shí),使用更低質(zhì)量的數(shù)據(jù)(一開始的效用更?。┩戎貜?fù)使用高質(zhì)量數(shù)據(jù)更有助益。

在數(shù)量 - 質(zhì)量權(quán)衡(QQT)之下,我們?cè)撊绾未_定訓(xùn)練使用怎樣的數(shù)據(jù)搭配更好?

為了解答這個(gè)問題,任何數(shù)據(jù)整編(data curation)工作流程都必須考慮模型訓(xùn)練所用的總計(jì)算量。這不同于社區(qū)對(duì)數(shù)據(jù)過濾(data filtering)的看法。舉個(gè)例子,LAION 過濾策略是從常見爬取結(jié)果中提取出質(zhì)量最高的 10%。

但從圖 2 可以看出,很明顯一旦訓(xùn)練超過 35 epoch,在完全未整編的數(shù)據(jù)集上訓(xùn)練的效果優(yōu)于在使用 LAION 策略整編的高質(zhì)量數(shù)據(jù)上訓(xùn)練的效果。

當(dāng)前的神經(jīng)擴(kuò)展律無法建模質(zhì)量與數(shù)量之間這種動(dòng)態(tài)的權(quán)衡。此外,視覺 - 語言模型的擴(kuò)展律研究甚至還要更加更少,目前的大多數(shù)研究都僅限于語言建模領(lǐng)域。

今天我們要介紹的這項(xiàng)開創(chuàng)性研究攻克了之前的神經(jīng)擴(kuò)展律的三大重要局限,其做到了:

(1)在擴(kuò)展數(shù)據(jù)時(shí)考慮「質(zhì)量」這個(gè)軸;

(2)估計(jì)數(shù)據(jù)池組合的擴(kuò)展律(而無需真正在該組合上進(jìn)行訓(xùn)練),這有助于引導(dǎo)實(shí)現(xiàn)最優(yōu)的數(shù)據(jù)整編決策;

(3)調(diào)整 LLM 擴(kuò)展律,使之適用于對(duì)比訓(xùn)練(如 CLIP),其中每一批都有平方數(shù)量的比較次數(shù)。

該團(tuán)隊(duì)首次針對(duì)異構(gòu)和數(shù)量有限的網(wǎng)絡(luò)數(shù)據(jù)提出了擴(kuò)展律。

大型模型是在多種質(zhì)量的數(shù)據(jù)池組合上訓(xùn)練完成的。通過對(duì)從各個(gè)數(shù)據(jù)池的擴(kuò)散參數(shù)(如圖 1 (a) 中的 A-F)派生的聚合數(shù)據(jù)效用進(jìn)行建模,就可以直接估計(jì)模型在這些數(shù)據(jù)池的任意組合上的性能。

需要重點(diǎn)指出,這種方法并不需要在這些數(shù)據(jù)池組合上進(jìn)行訓(xùn)練就能估計(jì)它們的擴(kuò)展律,而是可以根據(jù)各個(gè)組成池的擴(kuò)展參數(shù)直接估計(jì)它們的擴(kuò)展曲線。

相比于過去的擴(kuò)展律,這里的擴(kuò)展律有一些重要差異,可以建模對(duì)比訓(xùn)練機(jī)制中的重復(fù),實(shí)現(xiàn) O (n2) 比較。舉個(gè)例子,如果訓(xùn)練池的大小倍增,對(duì)模型損失有影響的比較次數(shù)就會(huì)變成原來的四倍。

他們用數(shù)學(xué)形式描述了來自不同池的數(shù)據(jù)的相互交互方式,從而可以在不同的數(shù)據(jù)組合下估計(jì)模型的性能。這樣便可以得到適合當(dāng)前可用計(jì)算的數(shù)據(jù)整編策略。

這項(xiàng)研究給出的一個(gè)關(guān)鍵信息是:數(shù)據(jù)整編不能脫離計(jì)算進(jìn)行。

當(dāng)計(jì)算預(yù)算少時(shí)(更少重復(fù)),在 QQT 權(quán)衡下質(zhì)量?jī)?yōu)先,如圖 1 中低計(jì)算量下的激進(jìn)過濾(E)的最佳性能所示。

另一方面,當(dāng)計(jì)算規(guī)模遠(yuǎn)超過所用訓(xùn)練數(shù)據(jù)時(shí),有限高質(zhì)量數(shù)據(jù)的效用會(huì)下降,就需要想辦法彌補(bǔ)這一點(diǎn)。這會(huì)得到不那么激進(jìn)的過濾策略,即數(shù)據(jù)量更大時(shí)性能更好。

該團(tuán)隊(duì)進(jìn)行了實(shí)驗(yàn)論證,結(jié)果表明這個(gè)用于異構(gòu)網(wǎng)絡(luò)數(shù)據(jù)的新擴(kuò)展律能夠使用 DataComp 的中等規(guī)模池(128M 樣本)預(yù)測(cè)從 32M 到 640M 的各種計(jì)算預(yù)算下的帕累托最優(yōu)過濾策略。

一定計(jì)算預(yù)算下的數(shù)據(jù)過濾

該團(tuán)隊(duì)通過實(shí)驗(yàn)研究了不同計(jì)算預(yù)算下數(shù)據(jù)過濾的效果。

他們使用一個(gè)大型初始數(shù)據(jù)池訓(xùn)練了一個(gè) VLM。至于基礎(chǔ)的未過濾數(shù)據(jù)池,他們選用了近期的數(shù)據(jù)整編基準(zhǔn) Datacomp 的「中等」規(guī)模版本。該數(shù)據(jù)池包含 128M 樣本。他們使用了 18 個(gè)不同的下游任務(wù),評(píng)估的是模型的零樣本性能。

他們首先研究了用于獲得 LAION 數(shù)據(jù)集的 LAION 過濾策略,結(jié)果見圖 2。他們觀察到了以下結(jié)果:

1. 在計(jì)算預(yù)算低時(shí),使用高質(zhì)量數(shù)據(jù)更好。

2. 當(dāng)計(jì)算預(yù)算高時(shí),數(shù)據(jù)過濾會(huì)造成妨害。

原因?yàn)楹危?/span>

LAION 過濾會(huì)保留數(shù)據(jù)中大約 10% 的數(shù)據(jù),因此計(jì)算預(yù)算大約為 450M,來自已過濾 LAION 池的每個(gè)樣本會(huì)被使用大約 32 次。這里的關(guān)鍵見解是:對(duì)于同一個(gè)樣本,如果其在訓(xùn)練過程中被多次看見,那么每一次所帶來的效用就會(huì)下降。

之后該團(tuán)隊(duì)又研究了其它兩種數(shù)據(jù)過濾方法:

(1)CLIP 分?jǐn)?shù)過濾,使用了 CLIP L/14 模型;

(2)T-MARS,在掩蔽了圖像中的文本特征(OCR)后基于 CLIP 分?jǐn)?shù)對(duì)數(shù)據(jù)進(jìn)行排名。對(duì)于每種數(shù)據(jù)過濾方法,他們采用了四個(gè)過濾層級(jí)和多種不同的總計(jì)算量。

圖 3 給出了在計(jì)算規(guī)模為 32M、128M、640M 時(shí) Top 10-20%、 Top 30%、Top 40% CLIP 過濾的結(jié)果比較。

在 32M 計(jì)算規(guī)模時(shí),高度激進(jìn)的過濾策略(根據(jù) CLIP 分?jǐn)?shù)僅保留前 10-20%)得到的結(jié)果最好,而最不激進(jìn)的保留前 40% 的過濾方法表現(xiàn)最差。但是,當(dāng)計(jì)算規(guī)模擴(kuò)展到 640M 時(shí),這個(gè)趨勢(shì)就完全反過來了。使用 T-MARS 評(píng)分指標(biāo)也能觀察類似的趨勢(shì)。

數(shù)據(jù)過濾的擴(kuò)展律

該團(tuán)隊(duì)首先用數(shù)學(xué)方式定義了效用(utility)。

他們的做法不是估計(jì) n 的樣本在訓(xùn)練結(jié)束時(shí)的損失,而是考慮一個(gè)樣本在訓(xùn)練階段的任意時(shí)間點(diǎn)的瞬時(shí)效用。其數(shù)學(xué)公式為:

圖片

這表明,一個(gè)樣本的瞬時(shí)效用正比于當(dāng)前損失且反比于目前所見到的樣本數(shù)量。這也符合我們的直觀想法:當(dāng)模型看到的樣本數(shù)量變多,樣本的效用就會(huì)下降。其中的重點(diǎn)是數(shù)據(jù)效用參數(shù) b 。

接下來是數(shù)據(jù)被重復(fù)使用之下的效用。

數(shù)學(xué)上,一個(gè)被見到 k+1 次的樣本的效用參數(shù) b 的定義為:

圖片

其中 τ 是效用參數(shù)的半衰期。τ 值越高,樣本效用隨著重復(fù)而衰減得越慢。δ 則是效用隨重復(fù)的衰減情況的簡(jiǎn)潔寫法。那么,模型在看過 n 個(gè)樣本且每個(gè)樣本都被看過 k 次之后的損失的表達(dá)式就為:

圖片

其中 n_j 是在第 j 輪訓(xùn)練 epoch 結(jié)束時(shí)的模型看到的樣本數(shù)量。這一等式是新提出的擴(kuò)展律的基礎(chǔ)。

最后,還有一層復(fù)雜性,即異構(gòu)的網(wǎng)絡(luò)數(shù)據(jù)。

然后就得到了他們給出的定理:給定隨機(jī)均勻采樣的 p 個(gè)數(shù)據(jù)池,其各自的效用和重復(fù)參數(shù)分別為 (b_1, τ_1)...(b_p, τ_p),則每個(gè) bucket 的新重復(fù)半衰期就為 τ? = p?τ。此外,組合后的數(shù)據(jù)池在第 k 輪重復(fù)時(shí)的有效效用值 b_eff 是各個(gè)效用值的加權(quán)平均值。其數(shù)學(xué)形式為:

圖片

其中圖片,這是新的每 bucket 衰減參數(shù)。

最后,可以在 (3) 式中使用上述定理中的 b_eff,就能估計(jì)出在數(shù)據(jù)池組合上進(jìn)行訓(xùn)練時(shí)的損失。

針對(duì)各種數(shù)據(jù)效用池?cái)M合擴(kuò)展曲線

該團(tuán)隊(duì)用實(shí)驗(yàn)探究了新提出的擴(kuò)展律。

圖 4 給出了擬合后的各種數(shù)據(jù)效用池的擴(kuò)展曲線,其使用的數(shù)據(jù)效用指標(biāo)是 T-MARS 分?jǐn)?shù)。

圖 4 的第 2 列表明各個(gè)數(shù)據(jù)池的效用會(huì)隨 epoch 增多而降低。下面是該團(tuán)隊(duì)給出的一些重要觀察結(jié)果:

1. 網(wǎng)絡(luò)數(shù)據(jù)是異構(gòu)的,無法通過單一一組擴(kuò)展參數(shù)進(jìn)行建模。

2. 不同數(shù)據(jù)池有不同的數(shù)據(jù)多樣性。

3. 具有重復(fù)現(xiàn)象的高質(zhì)量數(shù)據(jù)的效果趕不上直接使用低質(zhì)量數(shù)據(jù)。

結(jié)果:在 QQT 下為數(shù)據(jù)組合估計(jì)擴(kuò)展律

前面針對(duì)不同質(zhì)量的數(shù)據(jù)池推斷了各自相應(yīng)的參數(shù) a、b、d、τ。而這里的目標(biāo)是確定當(dāng)給定了訓(xùn)練計(jì)算預(yù)算時(shí),最有效的數(shù)據(jù)整編策略是什么。

通過前面的定理以及各個(gè)數(shù)據(jù)池的擴(kuò)展參數(shù),現(xiàn)在就能估計(jì)不同池組合的擴(kuò)展律了。舉個(gè)例子,可以認(rèn)為 Top-20% 池是 Top-10% 和 Top 10%-20% 池的組合。然后,這種來自擴(kuò)展曲線的趨勢(shì)就可以用于預(yù)測(cè)給定計(jì)算預(yù)算下的帕累托最優(yōu)數(shù)據(jù)過濾策略。

圖 5 給出了不同數(shù)據(jù)組合的擴(kuò)展曲線,這是在 ImageNet 上評(píng)估的。

這里需要強(qiáng)調(diào),這些曲線是基于上述定理,直接根據(jù)各個(gè)組成池的擴(kuò)展參數(shù)估計(jì)的。他們并未在這些數(shù)據(jù)池組合上訓(xùn)練來估計(jì)這些擴(kuò)展曲線。散點(diǎn)是實(shí)際的測(cè)試性能,其作用是驗(yàn)證估計(jì)得到的結(jié)果。

可以看到:(1)當(dāng)計(jì)算預(yù)算低 / 重復(fù)次數(shù)少時(shí),激進(jìn)的過濾策略是最好的。

(2)數(shù)據(jù)整編不能脫離計(jì)算進(jìn)行。

對(duì)擴(kuò)展曲線進(jìn)行擴(kuò)展

2023 年 Cherti et al. 的論文《Reproducible scaling laws for contrastive language-image learning》研究了針對(duì) CLIP 模型提出的擴(kuò)展律,其中訓(xùn)練了計(jì)算規(guī)模在 3B 到 34B 訓(xùn)練樣本之間的數(shù)十個(gè)模型,并且模型涵蓋不同的 ViT 系列模型。在這樣的計(jì)算規(guī)模上訓(xùn)練模型的成本非常高。Cherti et al. (2023) 的目標(biāo)是為這一系列的模型擬合擴(kuò)展律,但對(duì)于在小數(shù)據(jù)集上訓(xùn)練的模型,其擴(kuò)展曲線有很多錯(cuò)誤。

CMU 這個(gè)團(tuán)隊(duì)認(rèn)為這主要是因?yàn)樗麄儧]考慮到重復(fù)使用數(shù)據(jù)造成的效用下降問題。于是他們使用新提出的擴(kuò)展律估計(jì)了這些模型的誤差。

圖 6 是修正之后擴(kuò)展曲線,其能以很高的準(zhǔn)確度預(yù)測(cè)誤差。

這表明新提出的擴(kuò)展律適用于用 34B 數(shù)據(jù)計(jì)算訓(xùn)練的大型模型,這說明在預(yù)測(cè)模型訓(xùn)練結(jié)果時(shí),新的擴(kuò)展律確實(shí)能考慮到重復(fù)數(shù)據(jù)的效用下降情況。

更多技術(shù)細(xì)節(jié)和實(shí)驗(yàn)結(jié)果請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2019-09-16 12:50:21

云計(jì)算安全人工智能

2017-09-04 17:50:12

2012-11-02 13:44:57

大數(shù)據(jù)語音搜索Google

2010-01-06 13:57:03

解析JSON

2021-03-29 14:53:01

大數(shù)據(jù)人工智能司法

2022-10-11 08:00:00

人工智能機(jī)器學(xué)習(xí)數(shù)據(jù)

2021-06-28 11:17:14

CoutPrintf接口

2021-12-19 13:56:46

機(jī)器學(xué)習(xí)數(shù)據(jù)人工智能

2021-05-12 10:23:02

谷歌Android隱私

2020-06-10 07:49:56

Python代碼開發(fā)工具

2020-11-11 10:12:32

大數(shù)據(jù)

2016-12-07 09:56:32

預(yù)測(cè)模型技巧

2016-12-06 19:29:56

機(jī)器學(xué)習(xí)性能數(shù)據(jù)

2019-03-08 09:45:08

谷歌OpenAI開發(fā)

2011-07-25 10:57:02

信息安全認(rèn)證IT安全學(xué)歷信息安全職業(yè)

2021-03-29 11:02:46

大數(shù)據(jù)司法大數(shù)據(jù)應(yīng)用

2024-09-29 15:35:23

2020-06-10 10:08:35

決策支持系統(tǒng)商業(yè)智能CIO

2023-06-12 15:31:52

物聯(lián)網(wǎng)工信部

2018-11-19 10:30:39

du命令Linux
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)