自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

240萬億巨量數(shù)據(jù)被洗出,足夠訓(xùn)出18個(gè)GPT-4!全球23所機(jī)構(gòu)聯(lián)手,清洗秘籍公開

人工智能 新聞
是時(shí)候把數(shù)據(jù)Scale Down了!Llama 3揭示了這個(gè)可怕的事實(shí):數(shù)據(jù)量從2T增加到15T,就能大力出奇跡,所以要想要有GPT-3到GPT-4的提升,下一代模型至少還要150T的數(shù)據(jù)。好在,最近有團(tuán)隊(duì)從CommonCrawl里洗出了240T數(shù)據(jù)——現(xiàn)在數(shù)據(jù)已經(jīng)不缺了,但你有卡嗎?

是時(shí)候把數(shù)據(jù)Scale Down了!

如今,這個(gè)問題已經(jīng)迫在眉睫。

清華博士秦禹嘉表示,Llama 3就揭示了一個(gè)嚴(yán)峻且悲觀的現(xiàn)實(shí):在不改變模型架構(gòu)的情況下,將數(shù)據(jù)量從2萬億(2T)增加到15萬億(15T),就能大力出奇跡。

圖片

這也就意味著,從長遠(yuǎn)來看,基座模型的發(fā)展機(jī)會,只能獨(dú)屬于大公司。

而考慮到Scalng Law的邊際效應(yīng),如果我們希望在下一代模型身上看到從GPT-3到GPT-4級別的演進(jìn),就需要至少再清洗出至少10個(gè)數(shù)量級的數(shù)據(jù)(比如150T)。

就在最近,好消息來了!

DCLM團(tuán)隊(duì)從CommonCrawl里,清洗出了240T的數(shù)據(jù)。

圖片

論文地址:https://arxiv.org/abs/2406.11794

顯然,這給Scaling Law的支持者們帶來了福音——數(shù)據(jù)是不缺的,然而,你有卡嗎?

后Scaling Law時(shí)代:不要Scale Up,要Scale Down

誠然,擴(kuò)大數(shù)據(jù)規(guī)模非常重要,但如何縮減規(guī)模并提高每單位數(shù)據(jù)的質(zhì)量,也同樣關(guān)鍵。

模型的智能來自于數(shù)據(jù)壓縮;反之,模型也會重新定義數(shù)據(jù)的組織方式。

秦禹嘉總結(jié)了以下多篇論文的內(nèi)容后,給出了非常具有綜合性的高度總結(jié)。

圖片

論文地址:https://arxiv.org/abs/2405.20541


圖片

論文地址 :https://arxiv.org/abs/2406.14491

圖片

項(xiàng)目地址:https://azure.microsoft.com/en-us/products/phi-3

DeepSeekMath::https://arxiv.org/abs/2402.03300

DeepSeek-Coder-V2:https://arxiv.org/abs/2406.11931

首先,最簡單的方法,就是使用模型過濾掉噪聲數(shù)據(jù):

(1)PbP使用小模型的困惑度來過濾數(shù)據(jù),從而獲得了可以顯著提高大模型性能和收斂速度的數(shù)據(jù);

(2)DeepSeek使用fastText清理高質(zhì)量數(shù)據(jù),在數(shù)學(xué)和代碼場景中取得了出色的成果;

(3)DCLM進(jìn)行了更詳細(xì)的消融研究,發(fā)現(xiàn)與BGE嵌入、困惑度等相比,fastText表現(xiàn)最佳。

這些研究無一例外有著相似的發(fā)現(xiàn):「干凈數(shù)據(jù)+小模型」,可以極大地接近「臟數(shù)據(jù)+大模型」的效果。

從這個(gè)角度來看,增加模型規(guī)模,本質(zhì)上就是讓我們看到在臟數(shù)據(jù)上訓(xùn)練的模型能力的上限。

也即是說,大模型在訓(xùn)練過程中通過使用更多冗余參數(shù)自動完成了去噪過程,但如果提前進(jìn)行數(shù)據(jù)去噪,實(shí)際上需要的模型參數(shù)量并不大。

同樣可以得出結(jié)論,通過數(shù)據(jù)微調(diào)把大模型打磨得很好,并不意味著訓(xùn)練大模型效果就會更好。

原因在于:「干凈數(shù)據(jù)+大模型」和「臟數(shù)據(jù)+大模型」的效果,不會有太大差異。

總而言之,在前Scaling Law時(shí)代,我們強(qiáng)調(diào)的是Scale Up,即在數(shù)據(jù)壓縮后爭取模型智能的上限;在后Scaling Law時(shí)代,需要比拼的則是Scale Down,即誰能訓(xùn)出更具「性價(jià)比」的模型。

目前主流的數(shù)據(jù)縮減方法,是基于模型的數(shù)據(jù)去噪。

最近,也有一些研究開始使用訓(xùn)好的模型來改寫預(yù)訓(xùn)練數(shù)據(jù)。這個(gè)過程就需要注意,避免模型在改寫過程中生成虛假信息,同時(shí)還要有效地去除數(shù)據(jù)中的固有噪聲。

Phi-2/Phi-3的成功也驗(yàn)證了這一點(diǎn):如果預(yù)訓(xùn)練級別的數(shù)據(jù)可以被機(jī)器處理,用小模型擊敗大模型是很容易的。

不過,目前的方法仍然專注于單個(gè)數(shù)據(jù)點(diǎn)的質(zhì)量提升,但是在未來,更重要的研究方向就是如何對多個(gè)數(shù)據(jù)點(diǎn)進(jìn)行語義級別的去重和合并。

這雖然困難,但對Scale Down意義重大。

下面就讓我們看一下,DCLM團(tuán)隊(duì)的這篇論文。

DataComp-LM(DCLM)基準(zhǔn)

為了應(yīng)對訓(xùn)練數(shù)據(jù)各種挑戰(zhàn),研究人員引入了DataComp-LM(DCLM),是語言模型訓(xùn)練數(shù)據(jù)管理的「第一個(gè)基準(zhǔn)」。

圖片

傳送門:https://www.datacomp.ai/dclm/

在DCLM中,他們提出了全新的訓(xùn)練集和數(shù)據(jù)管理算法,然后通過使用固定的方法,訓(xùn)練模型以評估數(shù)據(jù)集。

通過測量由此產(chǎn)生的模型在下游任務(wù)上的表現(xiàn),研究人員可以量化相應(yīng)訓(xùn)練集的優(yōu)勢和劣勢。

接下來,為了實(shí)現(xiàn)DCLM,研究人員開發(fā)了一個(gè)全面的實(shí)驗(yàn)測試平臺,包含了多個(gè)重要的組件。

圖片

其中一個(gè)關(guān)鍵的組件,便是最大的語言模型訓(xùn)練語料庫DCLM-POOL。

這是從未經(jīng)過濾的爬蟲網(wǎng)站Common Crawl上,扒下來來足足有240T的數(shù)據(jù)集,涵蓋了2023年之前所有的數(shù)據(jù)。

具體來說,DCLM-POOL包含2000億個(gè)文檔(gzip壓縮后為370TB),產(chǎn)生了240萬億個(gè)GPT-NeoX token。

據(jù)介紹,獲取如此龐大的數(shù)據(jù),是通過resiliparse架構(gòu)從HTML中重新提取文本,與Common Crawl原本預(yù)處理的方法并不相同。

圖片

此外,在訓(xùn)練AI語言模型時(shí),有時(shí)候用來測試模型的數(shù)據(jù)會不小心混入訓(xùn)練數(shù)據(jù)中。這就像LLM在考試前偷看了試卷,這可能會導(dǎo)致測試結(jié)果不準(zhǔn)確。

然而,這些樣本對下游性能的影響,在很大程度上業(yè)界研究人員對此仍不清楚。

為了讓人們更好地理解這一問題,研究人員并沒有去清理數(shù)據(jù),而是發(fā)布了「去數(shù)據(jù)污染」的工具。

這一工具,可以讓參與者檢查自己的測試集和訓(xùn)練集,是否有重疊的情況,并提交相關(guān)的報(bào)告。

對于那些表現(xiàn)最好的AI模型,研究人員會特別檢查它們是否「作弊」。

同樣,論文的研究人員也將這一工具,應(yīng)用在了DCLM-POOL,以評估數(shù)據(jù)污染是否影響模型。

不同參數(shù)LLM都可PK

為了確保DCLM對擁有不同計(jì)算資源的研究人員能夠訪問,并推動對Scaling Law趨勢的研究,研究人員創(chuàng)建了跨越三個(gè)數(shù)量級計(jì)算規(guī)模的不同競賽級別(表1)。

圖片

每個(gè)級別(即400M-1x、1B-1x、1B-5x、7B-1x和7B-2x)指定了模型參數(shù)的數(shù)量和一個(gè)Chinchilla乘數(shù)。

比如,7B-1x中,7B表示模型有70億參數(shù),1x是Chinchilla乘數(shù)。

每個(gè)級別訓(xùn)練token數(shù)量=20×參數(shù)數(shù)量×Chinchilla乘數(shù)。其中,1x乘數(shù)對應(yīng)的計(jì)算資源分配接近Hoffmann等人研究中發(fā)現(xiàn)的最優(yōu)水平。

這樣多種參數(shù)規(guī)模競賽的設(shè)計(jì),存在一個(gè)問題——當(dāng)增加計(jì)算規(guī)模時(shí),數(shù)據(jù)整理方法的排名可能會發(fā)生變化。

由此,研究人員比較了10種方法在不同參數(shù)規(guī)模(400M-1x、1B-1x和7B-1x)下的表現(xiàn)。

結(jié)果發(fā)現(xiàn),小參數(shù)(400M-1x、1B-1x)和大參數(shù)(7B-1x)結(jié)果之間存在高度相關(guān)性。

圖片

兩大賽道

在參與者選擇了參數(shù)規(guī)模后,還需從兩個(gè)基準(zhǔn)測試賽道選擇其一:過濾和混合。

圖片

1)在過濾賽道中,參與者提出算法從候選池中選擇訓(xùn)練數(shù)據(jù)。有五個(gè)不同規(guī)模的數(shù)據(jù)池,對應(yīng)(表1)不同的計(jì)算規(guī)模,這些池是DCLM-POOL的隨機(jī)文檔子集。研究人員根據(jù)參數(shù)規(guī)模限制初始池的大小,以模擬現(xiàn)實(shí)世界的約束。

2)在混合賽道中,允許參與者從多個(gè)來源自由組合數(shù)據(jù),創(chuàng)造出最好的「配方」。比如,他們可以從DCLM-POOL、自定義爬取的數(shù)據(jù)、Stack Overflow和維基百科合成數(shù)據(jù)文檔。

訓(xùn)練

為了單獨(dú)研究數(shù)據(jù)集干預(yù)的效果,研究人員還在每種參數(shù)規(guī)模上固定一個(gè)訓(xùn)練方案。

基于之前對模型架構(gòu)和訓(xùn)練的消融實(shí)驗(yàn),他們采用了一個(gè)僅有解碼器的Transformer模型(例如,GPT-2,Llama),該模型在OpenLM中實(shí)現(xiàn)。

下表中詳細(xì)列出了模型的超參數(shù)。

圖片

評估

研究的完整評估套件基于LLM-Foundry,包含53個(gè)適合基礎(chǔ)模型評估的下游任務(wù)(即無需微調(diào))。

從問答到開放式生成格式,涵蓋了編碼、教科書知識和常識推理等各種領(lǐng)域。

為了評估數(shù)據(jù)整理算法,主要關(guān)注三個(gè)性能指標(biāo): 

1. MMLU 5-shot準(zhǔn)確率 

2. CORE中心準(zhǔn)確率

3. EXTENDED中心準(zhǔn)確率

用DCLM構(gòu)建高質(zhì)量數(shù)據(jù)集

接下來,一起看看研究人員是如何使用DCLM構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù)集,整個(gè)流程如下圖4所示。

圖片

首先,研究人員對表2中幾個(gè)著名的數(shù)據(jù)集進(jìn)行了評價(jià),發(fā)現(xiàn)RefinedWeb在7B-1x規(guī)模的核心和擴(kuò)展指標(biāo)上表現(xiàn)最好。

圖片

有趣的是,RefinedWeb是完全從Common Crawl數(shù)據(jù)中過濾而來。

RefinedWeb采用了以下過濾管線:Common Crawl文本提取、啟發(fā)式數(shù)據(jù)選擇、重復(fù)數(shù)據(jù)內(nèi)容刪除。

圖片

文本提取

文本提取是一個(gè)常見的早期處理步驟,用于從原始HTML中提取內(nèi)容。

為了理解這一步驟的影響,研究人員比較了三種文本提取方法:resiliparse、trafilatura(RefinedWeb使用)和Common Crawl提供的包含預(yù)先提取文本的WET文件。

然后,對每種文本提取結(jié)果應(yīng)用RefinedWeb的啟發(fā)式質(zhì)量過濾器。

圖片

在表3中,研究人員發(fā)現(xiàn)resiliparse和trafilatura都比WET提取至少提高了2.5個(gè)CORE得分。

這很重要,因?yàn)榇蠖鄶?shù)開源數(shù)據(jù)集,包括C4、RedPajama和Dolma-V1,都使用WET提取,這可能部分解釋了它們在表2中表現(xiàn)較差的原因。

雖然resiliparse和trafilatura在下游任務(wù)性能上相似,但resiliparse的運(yùn)行速度快8倍,因此更適合大規(guī)模處理。

圖片

由此,如前文所述,研究人員最終選擇采用了resiliparse策略。

數(shù)據(jù)去重

網(wǎng)絡(luò)爬蟲的數(shù)據(jù)集,通常包含許多復(fù)或接近重復(fù)的數(shù)據(jù)字符串。

而從訓(xùn)練集中刪除這些重復(fù)項(xiàng)有著雙重目的,既可以減輕LLM記憶來提高性能,又可以增加數(shù)據(jù)多樣性。

為了去重,研究人員探索了算法MinHash(作為后綴數(shù)組管線一部分),以及近似重復(fù)的Bloom過濾器(對精確文檔和段落重復(fù)數(shù)據(jù)刪除修改后的方案)。

結(jié)果發(fā)現(xiàn),這兩種方法在下游的表現(xiàn)中,性能相當(dāng)。

在7B-2x參數(shù)規(guī)模下,差異在0.2個(gè)CORE百分點(diǎn)以內(nèi)。不過,修改后的Bloom過濾器更容易擴(kuò)展到10TB的數(shù)據(jù)集。

圖片

質(zhì)量過濾

文獻(xiàn)表明,使用可學(xué)習(xí)模型作為質(zhì)量過濾器,可以帶來下游的改進(jìn)。

研究人員比較了多種基于模型的過濾方法——

1. 使用PageRank得分進(jìn)行過濾,根據(jù)文檔與其他文檔鏈接的可能性來保留文檔;

2. 語義去重(SemDedup),刪除具有相似信息內(nèi)容的文檔;

3. 線性分類器,基于預(yù)訓(xùn)練的BGE文本嵌入;

4. AskLLM,通過提示大語言模型來查看文檔是否有幫助;

5. 困惑度過濾,遵循CCNet保留低困惑度序列,

6. Top-k平均對數(shù):對文檔中所有單詞的top-k模型對數(shù)進(jìn)行平均,以評定模型對k個(gè)合理選擇范圍內(nèi)的正確單詞有多大信心;

7. fastText二元分類器,用于區(qū)分?jǐn)?shù)據(jù)質(zhì)量。

比較表4中的各個(gè)方法后研究人員發(fā)現(xiàn),基于fastText的過濾優(yōu)于所有其他方法。

圖片

為了更好地理解fastText的局限性,研究人員訓(xùn)練了幾個(gè)變體,探索參考數(shù)據(jù)、特征空間和過濾閾值的不同選擇,如表5所示。

圖片

研究人員發(fā)現(xiàn),在控制其他超參數(shù)時(shí),與傳統(tǒng)選擇相比,fastText OH-2.5+ELI5方法的 CORE提升了3.5個(gè)百分點(diǎn)。

那么,使用OH-2.5數(shù)據(jù)進(jìn)行過濾,是否會妨礙指令調(diào)整帶來的額外增益呢?

研究人員發(fā)現(xiàn),情況并非如此。

數(shù)據(jù)混合

業(yè)內(nèi)的常見做法是,將Common Crawl和其他高質(zhì)量數(shù)據(jù)源結(jié)合起來,如Wikipedia、arXiv、Stack Exchange和peS2o。

將高質(zhì)量源添加到僅源自Common Crawl的訓(xùn)練集,有哪些潛在好處?

研究人員將100%過濾的CC數(shù)據(jù)訓(xùn)練的模型,與使用Llama1和RedPajama的混合比例訓(xùn)練的模型進(jìn)行了比較。

表6中的結(jié)果表明,混合可提高性能較低的CC子集;然而,在高性能過濾的情況下,混合可能會適得其反。

圖片

數(shù)據(jù)清洗

隨后,研究人員進(jìn)行了分析,以檢查未經(jīng)評估的預(yù)訓(xùn)練數(shù)據(jù)污染,是否會影響到結(jié)果。他們將重點(diǎn)放在MMLU上。

作為實(shí)驗(yàn),研究人員還嘗試檢測并刪除MMLU中存在于DCLM-BASELINE中的問題。

結(jié)果如表7所示——污染樣品的去除,并不會導(dǎo)致模型的性能下降。

由此可見,MMLU的性能提升并不是由數(shù)據(jù)集中MMLU的增加引起的。

圖片

在Dolma-V1.7和FineWeb-Edu上應(yīng)用上述去除策略可知,DLCM-BASELINE的污染統(tǒng)計(jì)數(shù)據(jù),和其他高性能數(shù)據(jù)集大致相似。

圖片

擴(kuò)展萬億token

最后,研究人員測試了DCLM基準(zhǔn)上,數(shù)據(jù)集在更大參數(shù)規(guī)模(萬億token)下的表現(xiàn)。

為此,確保訓(xùn)練模型廣泛適用,他們還構(gòu)建了一個(gè)4.1T token的數(shù)據(jù)集,將3.8T的DCLM-BASELINE與StarCoder、ProofPile2數(shù)據(jù)相結(jié)合,包含了數(shù)學(xué)和編碼任務(wù)。

得到數(shù)據(jù)集之后,研究人員在其之上訓(xùn)練了一個(gè)7B參數(shù)的模型,使用了2.5T token,以及與最大競賽參數(shù)規(guī)模相同的超參數(shù)。

其中,還采取了特殊的訓(xùn)練策略,包括兩個(gè)冷卻階段(在200B和270B token時(shí)),以及「模型湯」(model soup)。

之后,研究人員采用了持續(xù)預(yù)訓(xùn)練方法,在在相同分布上再訓(xùn)練100B個(gè)token,將上下文長度從2048增加到8192。

在表9中,展示了新模型優(yōu)于所有在公開訓(xùn)練集上訓(xùn)練的7B模型,并接近于訓(xùn)練token更多的閉源模型,如Llama-8B、Mistral-7B和Gemma-7B。

圖片

此外,表26展示了新模型在指令微調(diào)方面也取得了強(qiáng)勁的表現(xiàn)。

在公開可用的IT數(shù)據(jù)集上進(jìn)行指令微調(diào)后,研究人員的模型保持了大部分基準(zhǔn)性能,并在AlpacaEval2.0 LC中獲得了16.6的勝率,超過了Gemma-Instruct(10.4),同時(shí)接近Mistral-v0.2-7B(17.1)和Llama3-Instruct(22.9)的強(qiáng)勁表現(xiàn)。

圖片

局限性

由于計(jì)算資源的限制,研究人員只能單獨(dú)消融設(shè)計(jì)維度,無法在更大參數(shù)規(guī)模上測試所有方法。

此外,還有許多未探索的DCLM-BASELINE變體。

例如,更詳細(xì)地理解分片去重的影響很重要,而且在訓(xùn)練過濾模型方面,無論是架構(gòu)還是訓(xùn)練數(shù)據(jù),都還有很多其他方法。

研究中大多數(shù)實(shí)驗(yàn)也僅使用了一種分詞器(GPT-NeoX),其他分詞器可能在多語言任務(wù)或數(shù)學(xué)方面表現(xiàn)更好。

另一個(gè)局限是,論文無法充分探索不同隨機(jī)種子導(dǎo)致的運(yùn)行間的差異。

盡管在DCLM-BASELINE上訓(xùn)練的7B模型在常見的語言理解評估中具有競爭力,但它們目前在代碼和數(shù)學(xué)方面的表現(xiàn)還不夠理想。

研究人員對此表示,下一步,將會繼續(xù)測試能否擴(kuò)展到更大參數(shù)規(guī)模的模型。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-04-09 09:38:16

OpenAI模型

2024-06-28 13:40:03

2024-07-15 09:00:00

2023-06-19 08:19:50

2025-04-16 09:35:03

2024-04-25 16:56:14

GPT-4大模型人工智能

2023-04-04 09:09:10

GPT-4編程程序員

2023-07-13 12:54:42

GPT-4OpenAI

2024-01-30 20:08:07

谷歌GPT-4Bard

2024-06-07 16:40:53

2023-06-08 08:09:43

2023-03-29 14:58:04

GPT-4技術(shù)

2023-02-02 14:16:39

GPT-4微軟

2023-03-13 00:17:15

GPT-4模型API

2024-05-21 12:23:17

2023-09-27 12:56:09

人工智能訓(xùn)練

2023-09-06 16:44:03

2023-08-29 13:50:00

AI谷歌

2024-03-05 11:17:40

AI模型

2024-03-15 08:30:00

AI數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號