自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="tz4ap"></blockquote>}

<blockquote id="tz4ap"><rt id="tz4ap"></rt></blockquote>

<cite id="tz4ap"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

240萬億巨量數(shù)據(jù)被洗出，足夠訓(xùn)出18個(gè)GPT-4！全球23所機(jī)構(gòu)聯(lián)手，清洗秘籍公開

作者：新智元 2024-06-24 13:31:12

人工智能新聞

是時(shí)候把數(shù)據(jù)Scale Down了！Llama 3揭示了這個(gè)可怕的事實(shí)：數(shù)據(jù)量從2T增加到15T，就能大力出奇跡，所以要想要有GPT-3到GPT-4的提升，下一代模型至少還要150T的數(shù)據(jù)。好在，最近有團(tuán)隊(duì)從CommonCrawl里洗出了240T數(shù)據(jù)——現(xiàn)在數(shù)據(jù)已經(jīng)不缺了，但你有卡嗎？

是時(shí)候把數(shù)據(jù)Scale Down了！

如今，這個(gè)問題已經(jīng)迫在眉睫。

清華博士秦禹嘉表示，Llama 3就揭示了一個(gè)嚴(yán)峻且悲觀的現(xiàn)實(shí)：在不改變模型架構(gòu)的情況下，將數(shù)據(jù)量從2萬億（2T）增加到15萬億（15T），就能大力出奇跡。

這也就意味著，從長遠(yuǎn)來看，基座模型的發(fā)展機(jī)會，只能獨(dú)屬于大公司。

而考慮到Scalng Law的邊際效應(yīng)，如果我們希望在下一代模型身上看到從GPT-3到GPT-4級別的演進(jìn)，就需要至少再清洗出至少10個(gè)數(shù)量級的數(shù)據(jù)（比如150T）。

就在最近，好消息來了！

DCLM團(tuán)隊(duì)從CommonCrawl里，清洗出了240T的數(shù)據(jù)。

論文地址：https://arxiv.org/abs/2406.11794

顯然，這給Scaling Law的支持者們帶來了福音——數(shù)據(jù)是不缺的，然而，你有卡嗎？

后Scaling Law時(shí)代：不要Scale Up，要Scale Down

誠然，擴(kuò)大數(shù)據(jù)規(guī)模非常重要，但如何縮減規(guī)模并提高每單位數(shù)據(jù)的質(zhì)量，也同樣關(guān)鍵。

模型的智能來自于數(shù)據(jù)壓縮；反之，模型也會重新定義數(shù)據(jù)的組織方式。

秦禹嘉總結(jié)了以下多篇論文的內(nèi)容后，給出了非常具有綜合性的高度總結(jié)。

論文地址：https://arxiv.org/abs/2405.20541

論文地址：https://arxiv.org/abs/2406.14491

項(xiàng)目地址：https://azure.microsoft.com/en-us/products/phi-3

DeepSeekMath:：https://arxiv.org/abs/2402.03300

DeepSeek-Coder-V2：https://arxiv.org/abs/2406.11931

首先，最簡單的方法，就是使用模型過濾掉噪聲數(shù)據(jù)：

（1）PbP使用小模型的困惑度來過濾數(shù)據(jù)，從而獲得了可以顯著提高大模型性能和收斂速度的數(shù)據(jù)；

（2）DeepSeek使用fastText清理高質(zhì)量數(shù)據(jù)，在數(shù)學(xué)和代碼場景中取得了出色的成果；

（3）DCLM進(jìn)行了更詳細(xì)的消融研究，發(fā)現(xiàn)與BGE嵌入、困惑度等相比，fastText表現(xiàn)最佳。

這些研究無一例外有著相似的發(fā)現(xiàn)：「干凈數(shù)據(jù)+小模型」，可以極大地接近「臟數(shù)據(jù)+大模型」的效果。

從這個(gè)角度來看，增加模型規(guī)模，本質(zhì)上就是讓我們看到在臟數(shù)據(jù)上訓(xùn)練的模型能力的上限。

也即是說，大模型在訓(xùn)練過程中通過使用更多冗余參數(shù)自動完成了去噪過程，但如果提前進(jìn)行數(shù)據(jù)去噪，實(shí)際上需要的模型參數(shù)量并不大。

同樣可以得出結(jié)論，通過數(shù)據(jù)微調(diào)把大模型打磨得很好，并不意味著訓(xùn)練大模型效果就會更好。

原因在于：「干凈數(shù)據(jù)+大模型」和「臟數(shù)據(jù)+大模型」的效果，不會有太大差異。

總而言之，在前Scaling Law時(shí)代，我們強(qiáng)調(diào)的是Scale Up，即在數(shù)據(jù)壓縮后爭取模型智能的上限；在后Scaling Law時(shí)代，需要比拼的則是Scale Down，即誰能訓(xùn)出更具「性價(jià)比」的模型。

目前主流的數(shù)據(jù)縮減方法，是基于模型的數(shù)據(jù)去噪。

最近，也有一些研究開始使用訓(xùn)好的模型來改寫預(yù)訓(xùn)練數(shù)據(jù)。這個(gè)過程就需要注意，避免模型在改寫過程中生成虛假信息，同時(shí)還要有效地去除數(shù)據(jù)中的固有噪聲。

Phi-2/Phi-3的成功也驗(yàn)證了這一點(diǎn)：如果預(yù)訓(xùn)練級別的數(shù)據(jù)可以被機(jī)器處理，用小模型擊敗大模型是很容易的。

不過，目前的方法仍然專注于單個(gè)數(shù)據(jù)點(diǎn)的質(zhì)量提升，但是在未來，更重要的研究方向就是如何對多個(gè)數(shù)據(jù)點(diǎn)進(jìn)行語義級別的去重和合并。

這雖然困難，但對Scale Down意義重大。

下面就讓我們看一下，DCLM團(tuán)隊(duì)的這篇論文。

DataComp-LM（DCLM）基準(zhǔn)

為了應(yīng)對訓(xùn)練數(shù)據(jù)各種挑戰(zhàn)，研究人員引入了DataComp-LM（DCLM），是語言模型訓(xùn)練數(shù)據(jù)管理的「第一個(gè)基準(zhǔn)」。

傳送門：https://www.datacomp.ai/dclm/

在DCLM中，他們提出了全新的訓(xùn)練集和數(shù)據(jù)管理算法，然后通過使用固定的方法，訓(xùn)練模型以評估數(shù)據(jù)集。

通過測量由此產(chǎn)生的模型在下游任務(wù)上的表現(xiàn)，研究人員可以量化相應(yīng)訓(xùn)練集的優(yōu)勢和劣勢。

接下來，為了實(shí)現(xiàn)DCLM，研究人員開發(fā)了一個(gè)全面的實(shí)驗(yàn)測試平臺，包含了多個(gè)重要的組件。

其中一個(gè)關(guān)鍵的組件，便是最大的語言模型訓(xùn)練語料庫DCLM-POOL。

這是從未經(jīng)過濾的爬蟲網(wǎng)站Common Crawl上，扒下來來足足有240T的數(shù)據(jù)集，涵蓋了2023年之前所有的數(shù)據(jù)。

具體來說，DCLM-POOL包含2000億個(gè)文檔（gzip壓縮后為370TB），產(chǎn)生了240萬億個(gè)GPT-NeoX token。

據(jù)介紹，獲取如此龐大的數(shù)據(jù)，是通過resiliparse架構(gòu)從HTML中重新提取文本，與Common Crawl原本預(yù)處理的方法并不相同。

此外，在訓(xùn)練AI語言模型時(shí)，有時(shí)候用來測試模型的數(shù)據(jù)會不小心混入訓(xùn)練數(shù)據(jù)中。這就像LLM在考試前偷看了試卷，這可能會導(dǎo)致測試結(jié)果不準(zhǔn)確。

然而，這些樣本對下游性能的影響，在很大程度上業(yè)界研究人員對此仍不清楚。

為了讓人們更好地理解這一問題，研究人員并沒有去清理數(shù)據(jù)，而是發(fā)布了「去數(shù)據(jù)污染」的工具。

這一工具，可以讓參與者檢查自己的測試集和訓(xùn)練集，是否有重疊的情況，并提交相關(guān)的報(bào)告。

對于那些表現(xiàn)最好的AI模型，研究人員會特別檢查它們是否「作弊」。

同樣，論文的研究人員也將這一工具，應(yīng)用在了DCLM-POOL，以評估數(shù)據(jù)污染是否影響模型。

不同參數(shù)LLM都可PK

為了確保DCLM對擁有不同計(jì)算資源的研究人員能夠訪問，并推動對Scaling Law趨勢的研究，研究人員創(chuàng)建了跨越三個(gè)數(shù)量級計(jì)算規(guī)模的不同競賽級別（表1）。

每個(gè)級別（即400M-1x、1B-1x、1B-5x、7B-1x和7B-2x）指定了模型參數(shù)的數(shù)量和一個(gè)Chinchilla乘數(shù)。

比如，7B-1x中，7B表示模型有70億參數(shù)，1x是Chinchilla乘數(shù)。

每個(gè)級別訓(xùn)練token數(shù)量=20×參數(shù)數(shù)量×Chinchilla乘數(shù)。其中，1x乘數(shù)對應(yīng)的計(jì)算資源分配接近Hoffmann等人研究中發(fā)現(xiàn)的最優(yōu)水平。

這樣多種參數(shù)規(guī)模競賽的設(shè)計(jì)，存在一個(gè)問題——當(dāng)增加計(jì)算規(guī)模時(shí)，數(shù)據(jù)整理方法的排名可能會發(fā)生變化。

由此，研究人員比較了10種方法在不同參數(shù)規(guī)模（400M-1x、1B-1x和7B-1x）下的表現(xiàn)。

結(jié)果發(fā)現(xiàn)，小參數(shù)（400M-1x、1B-1x）和大參數(shù)（7B-1x）結(jié)果之間存在高度相關(guān)性。

兩大賽道

在參與者選擇了參數(shù)規(guī)模后，還需從兩個(gè)基準(zhǔn)測試賽道選擇其一：過濾和混合。

1）在過濾賽道中，參與者提出算法從候選池中選擇訓(xùn)練數(shù)據(jù)。有五個(gè)不同規(guī)模的數(shù)據(jù)池，對應(yīng)（表1）不同的計(jì)算規(guī)模，這些池是DCLM-POOL的隨機(jī)文檔子集。研究人員根據(jù)參數(shù)規(guī)模限制初始池的大小，以模擬現(xiàn)實(shí)世界的約束。

2）在混合賽道中，允許參與者從多個(gè)來源自由組合數(shù)據(jù)，創(chuàng)造出最好的「配方」。比如，他們可以從DCLM-POOL、自定義爬取的數(shù)據(jù)、Stack Overflow和維基百科合成數(shù)據(jù)文檔。

訓(xùn)練

為了單獨(dú)研究數(shù)據(jù)集干預(yù)的效果，研究人員還在每種參數(shù)規(guī)模上固定一個(gè)訓(xùn)練方案。

基于之前對模型架構(gòu)和訓(xùn)練的消融實(shí)驗(yàn)，他們采用了一個(gè)僅有解碼器的Transformer模型（例如，GPT-2，Llama），該模型在OpenLM中實(shí)現(xiàn)。

下表中詳細(xì)列出了模型的超參數(shù)。

評估

研究的完整評估套件基于LLM-Foundry，包含53個(gè)適合基礎(chǔ)模型評估的下游任務(wù)（即無需微調(diào)）。

從問答到開放式生成格式，涵蓋了編碼、教科書知識和常識推理等各種領(lǐng)域。

為了評估數(shù)據(jù)整理算法，主要關(guān)注三個(gè)性能指標(biāo)：

1. MMLU 5-shot準(zhǔn)確率

2. CORE中心準(zhǔn)確率

3. EXTENDED中心準(zhǔn)確率

用DCLM構(gòu)建高質(zhì)量數(shù)據(jù)集

接下來，一起看看研究人員是如何使用DCLM構(gòu)建高質(zhì)量訓(xùn)練數(shù)據(jù)集，整個(gè)流程如下圖4所示。

首先，研究人員對表2中幾個(gè)著名的數(shù)據(jù)集進(jìn)行了評價(jià)，發(fā)現(xiàn)RefinedWeb在7B-1x規(guī)模的核心和擴(kuò)展指標(biāo)上表現(xiàn)最好。

有趣的是，RefinedWeb是完全從Common Crawl數(shù)據(jù)中過濾而來。

RefinedWeb采用了以下過濾管線：Common Crawl文本提取、啟發(fā)式數(shù)據(jù)選擇、重復(fù)數(shù)據(jù)內(nèi)容刪除。

文本提取

文本提取是一個(gè)常見的早期處理步驟，用于從原始HTML中提取內(nèi)容。

為了理解這一步驟的影響，研究人員比較了三種文本提取方法：resiliparse、trafilatura（RefinedWeb使用）和Common Crawl提供的包含預(yù)先提取文本的WET文件。

然后，對每種文本提取結(jié)果應(yīng)用RefinedWeb的啟發(fā)式質(zhì)量過濾器。

在表3中，研究人員發(fā)現(xiàn)resiliparse和trafilatura都比WET提取至少提高了2.5個(gè)CORE得分。

這很重要，因?yàn)榇蠖鄶?shù)開源數(shù)據(jù)集，包括C4、RedPajama和Dolma-V1，都使用WET提取，這可能部分解釋了它們在表2中表現(xiàn)較差的原因。

雖然resiliparse和trafilatura在下游任務(wù)性能上相似，但resiliparse的運(yùn)行速度快8倍，因此更適合大規(guī)模處理。

由此，如前文所述，研究人員最終選擇采用了resiliparse策略。

數(shù)據(jù)去重

網(wǎng)絡(luò)爬蟲的數(shù)據(jù)集，通常包含許多復(fù)或接近重復(fù)的數(shù)據(jù)字符串。

而從訓(xùn)練集中刪除這些重復(fù)項(xiàng)有著雙重目的，既可以減輕LLM記憶來提高性能，又可以增加數(shù)據(jù)多樣性。

為了去重，研究人員探索了算法MinHash（作為后綴數(shù)組管線一部分），以及近似重復(fù)的Bloom過濾器（對精確文檔和段落重復(fù)數(shù)據(jù)刪除修改后的方案）。

結(jié)果發(fā)現(xiàn)，這兩種方法在下游的表現(xiàn)中，性能相當(dāng)。

在7B-2x參數(shù)規(guī)模下，差異在0.2個(gè)CORE百分點(diǎn)以內(nèi)。不過，修改后的Bloom過濾器更容易擴(kuò)展到10TB的數(shù)據(jù)集。

質(zhì)量過濾

文獻(xiàn)表明，使用可學(xué)習(xí)模型作為質(zhì)量過濾器，可以帶來下游的改進(jìn)。

研究人員比較了多種基于模型的過濾方法——

1. 使用PageRank得分進(jìn)行過濾，根據(jù)文檔與其他文檔鏈接的可能性來保留文檔；

2. 語義去重（SemDedup），刪除具有相似信息內(nèi)容的文檔；

3. 線性分類器，基于預(yù)訓(xùn)練的BGE文本嵌入；

4. AskLLM，通過提示大語言模型來查看文檔是否有幫助；

5. 困惑度過濾，遵循CCNet保留低困惑度序列，

6. Top-k平均對數(shù)：對文檔中所有單詞的top-k模型對數(shù)進(jìn)行平均，以評定模型對k個(gè)合理選擇范圍內(nèi)的正確單詞有多大信心；

7. fastText二元分類器，用于區(qū)分?jǐn)?shù)據(jù)質(zhì)量。

比較表4中的各個(gè)方法后研究人員發(fā)現(xiàn)，基于fastText的過濾優(yōu)于所有其他方法。

為了更好地理解fastText的局限性，研究人員訓(xùn)練了幾個(gè)變體，探索參考數(shù)據(jù)、特征空間和過濾閾值的不同選擇，如表5所示。

研究人員發(fā)現(xiàn)，在控制其他超參數(shù)時(shí)，與傳統(tǒng)選擇相比，fastText OH-2.5+ELI5方法的 CORE提升了3.5個(gè)百分點(diǎn)。

那么，使用OH-2.5數(shù)據(jù)進(jìn)行過濾，是否會妨礙指令調(diào)整帶來的額外增益呢？

研究人員發(fā)現(xiàn)，情況并非如此。

數(shù)據(jù)混合

業(yè)內(nèi)的常見做法是，將Common Crawl和其他高質(zhì)量數(shù)據(jù)源結(jié)合起來，如Wikipedia、arXiv、Stack Exchange和peS2o。

將高質(zhì)量源添加到僅源自Common Crawl的訓(xùn)練集，有哪些潛在好處？

研究人員將100%過濾的CC數(shù)據(jù)訓(xùn)練的模型，與使用Llama1和RedPajama的混合比例訓(xùn)練的模型進(jìn)行了比較。

表6中的結(jié)果表明，混合可提高性能較低的CC子集；然而，在高性能過濾的情況下，混合可能會適得其反。

數(shù)據(jù)清洗

隨后，研究人員進(jìn)行了分析，以檢查未經(jīng)評估的預(yù)訓(xùn)練數(shù)據(jù)污染，是否會影響到結(jié)果。他們將重點(diǎn)放在MMLU上。

作為實(shí)驗(yàn)，研究人員還嘗試檢測并刪除MMLU中存在于DCLM-BASELINE中的問題。

結(jié)果如表7所示——污染樣品的去除，并不會導(dǎo)致模型的性能下降。

由此可見，MMLU的性能提升并不是由數(shù)據(jù)集中MMLU的增加引起的。

在Dolma-V1.7和FineWeb-Edu上應(yīng)用上述去除策略可知，DLCM-BASELINE的污染統(tǒng)計(jì)數(shù)據(jù)，和其他高性能數(shù)據(jù)集大致相似。

擴(kuò)展萬億token

最后，研究人員測試了DCLM基準(zhǔn)上，數(shù)據(jù)集在更大參數(shù)規(guī)模（萬億token）下的表現(xiàn)。

為此，確保訓(xùn)練模型廣泛適用，他們還構(gòu)建了一個(gè)4.1T token的數(shù)據(jù)集，將3.8T的DCLM-BASELINE與StarCoder、ProofPile2數(shù)據(jù)相結(jié)合，包含了數(shù)學(xué)和編碼任務(wù)。

得到數(shù)據(jù)集之后，研究人員在其之上訓(xùn)練了一個(gè)7B參數(shù)的模型，使用了2.5T token，以及與最大競賽參數(shù)規(guī)模相同的超參數(shù)。

其中，還采取了特殊的訓(xùn)練策略，包括兩個(gè)冷卻階段（在200B和270B token時(shí)），以及「模型湯」（model soup）。

之后，研究人員采用了持續(xù)預(yù)訓(xùn)練方法，在在相同分布上再訓(xùn)練100B個(gè)token，將上下文長度從2048增加到8192。

在表9中，展示了新模型優(yōu)于所有在公開訓(xùn)練集上訓(xùn)練的7B模型，并接近于訓(xùn)練token更多的閉源模型，如Llama-8B、Mistral-7B和Gemma-7B。

此外，表26展示了新模型在指令微調(diào)方面也取得了強(qiáng)勁的表現(xiàn)。

在公開可用的IT數(shù)據(jù)集上進(jìn)行指令微調(diào)后，研究人員的模型保持了大部分基準(zhǔn)性能，并在AlpacaEval2.0 LC中獲得了16.6的勝率，超過了Gemma-Instruct（10.4），同時(shí)接近Mistral-v0.2-7B（17.1）和Llama3-Instruct（22.9）的強(qiáng)勁表現(xiàn)。

局限性

由于計(jì)算資源的限制，研究人員只能單獨(dú)消融設(shè)計(jì)維度，無法在更大參數(shù)規(guī)模上測試所有方法。

此外，還有許多未探索的DCLM-BASELINE變體。

例如，更詳細(xì)地理解分片去重的影響很重要，而且在訓(xùn)練過濾模型方面，無論是架構(gòu)還是訓(xùn)練數(shù)據(jù)，都還有很多其他方法。

研究中大多數(shù)實(shí)驗(yàn)也僅使用了一種分詞器（GPT-NeoX），其他分詞器可能在多語言任務(wù)或數(shù)學(xué)方面表現(xiàn)更好。

另一個(gè)局限是，論文無法充分探索不同隨機(jī)種子導(dǎo)致的運(yùn)行間的差異。

盡管在DCLM-BASELINE上訓(xùn)練的7B模型在常見的語言理解評估中具有競爭力，但它們目前在代碼和數(shù)學(xué)方面的表現(xiàn)還不夠理想。

研究人員對此表示，下一步，將會繼續(xù)測試能否擴(kuò)展到更大參數(shù)規(guī)模的模型。

責(zé)任編輯：張燕妮來源：新智元

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="02pq1"></blockquote>