自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟開放3.1T token高質(zhì)量數(shù)據(jù)!通用/代碼/數(shù)學(xué)/問答,全領(lǐng)域超越開源

人工智能 新聞
RedStone是一個(gè)高效構(gòu)建大規(guī)模指定領(lǐng)域數(shù)據(jù)的處理管道,通過優(yōu)化數(shù)據(jù)處理流程,從Common Crawl中提取了RedStone-Web、RedStone-Code、RedStone-Math和RedStone-QA等數(shù)據(jù)集,在多項(xiàng)任務(wù)中超越了現(xiàn)有開源數(shù)據(jù)集,顯著提升了模型性能。

過去幾年,大型語言模型(LLMs)已經(jīng)成為人工智能研究的一個(gè)關(guān)鍵領(lǐng)域,從大規(guī)模的自然語言數(shù)據(jù)中學(xué)習(xí),使其能夠以極高的準(zhǔn)確率執(zhí)行各種與語言相關(guān)的任務(wù)。

得益于模型擴(kuò)展性方面的進(jìn)展,研究人員能夠創(chuàng)建具有前所未有復(fù)雜度的模型。

當(dāng)前的研究趨勢(shì)是致力于構(gòu)建更大、更復(fù)雜的模型,具有數(shù)百/數(shù)千億個(gè)參數(shù),但大型語言模型的訓(xùn)練需要海量的訓(xùn)練數(shù)據(jù),尤其隨著模型參數(shù)量的上升,對(duì)于優(yōu)質(zhì)數(shù)據(jù)數(shù)量的要求也將進(jìn)一步加大,優(yōu)質(zhì)數(shù)據(jù)量的缺乏極大限制了模型能力的進(jìn)一步增長(zhǎng)。

RedStone是一個(gè)高效構(gòu)建大規(guī)模指定領(lǐng)域數(shù)據(jù)的處理管道,結(jié)合了目前主流的數(shù)據(jù)處理工具以及自定義的處理模塊,進(jìn)一步優(yōu)化發(fā)展而來。

通過RedStone,研究人員構(gòu)建了包括RedStone-Web、RedStone-Code、RedStone-Math以及RedStone-QA等多個(gè)數(shù)據(jù)集,均在各類任務(wù)中超越了目前開源的數(shù)據(jù)集,能夠?yàn)榇竽P偷念A(yù)訓(xùn)練以及后訓(xùn)練提供堅(jiān)實(shí)的數(shù)據(jù)支撐。

論文地址:https://arxiv.org/abs/2412.03398

倉庫鏈接:https://github.com/microsoft/RedStone

受限于公司的開源策略,RedStone僅開源了數(shù)據(jù)索引以及所有處理代碼以供社區(qū)復(fù)現(xiàn)。不過隨著受社區(qū)關(guān)注度的逐漸提高,目前已有社區(qū)復(fù)現(xiàn)版本的RedStone,依據(jù)github中項(xiàng)目描述,該復(fù)現(xiàn)的數(shù)據(jù)集在規(guī)模和質(zhì)量上與RedStone內(nèi)部數(shù)據(jù)類似。

圖1 RedStone概覽圖

如圖1所示,RedStone以Common Crawl為原始數(shù)據(jù)源,旨在使用同一的數(shù)據(jù)處理框架清洗各類目標(biāo)數(shù)據(jù)。

RedStone-Web為大規(guī)模通用的預(yù)訓(xùn)練數(shù)據(jù),為模型注入全世界通用知識(shí)。

RedStone-Code和RedStone-Math為網(wǎng)絡(luò)中的各類代碼/數(shù)學(xué)相關(guān)數(shù)據(jù),與其他開源的code、math類型數(shù)據(jù)不同的是,網(wǎng)頁中的code/math天然具有純文本和code/math交錯(cuò)的形式,例如代碼教程、題目講解等等。

因此模型可以像人類一樣借助code/math上下文中的純文本來進(jìn)一步深刻理解code/math。此外RedStone還構(gòu)建了RedStone-QA,這是一個(gè)大規(guī)模的QA數(shù)據(jù)集,最簡(jiǎn)單直接的方式為模型注入各類知識(shí)。

對(duì)于RedStone-Web,RedStone認(rèn)為對(duì)于高質(zhì)量數(shù)據(jù)的定義至關(guān)重要,早期社區(qū)認(rèn)為文本的流暢度等指標(biāo)代表了數(shù)據(jù)的質(zhì)量,近期越來越多研究人員認(rèn)為含有教育意義的數(shù)據(jù)代表了高質(zhì)量數(shù)據(jù)。

RedStone則是在其中找了一個(gè)平衡點(diǎn),包含知識(shí)且文本流暢的,被定義為高質(zhì)量數(shù)據(jù)。其中知識(shí)可以是任何形式的,只要其中包含的內(nèi)容可以讓模型對(duì)世界的認(rèn)識(shí)得到進(jìn)一步發(fā)展。

因此在RedStone-web的構(gòu)建上,主要處理框架參考了refinedweb和redpajama,但刪除了原有的過濾模塊,使用新構(gòu)建的過濾系統(tǒng),最終獲得了總共3.1T token的高質(zhì)量通用預(yù)訓(xùn)練數(shù)據(jù)。各個(gè)其各個(gè)步驟以及對(duì)應(yīng)的數(shù)據(jù)量如圖2所示。

圖2 RedStone-Web處理步驟

除了RedStone-Web這一通用領(lǐng)域的高質(zhì)量數(shù)據(jù)集以外,RedStone認(rèn)為網(wǎng)絡(luò)是一個(gè)蘊(yùn)含豐富寶藏的礦藏之地,足以挖掘各類在通用領(lǐng)域之外被遺漏的各類數(shù)據(jù)(例如對(duì)于RedStone-Web而言有些頁面整體質(zhì)量不高,但其中的某個(gè)片段在特定領(lǐng)域?qū)儆诟哔|(zhì)量),隨后構(gòu)建了RedStone-Code、RedStone-Math以及RedStone-QA等專有數(shù)據(jù)。

其核心仍然是過濾,RedStone提出了多層過濾系統(tǒng),分別對(duì)應(yīng)不同的數(shù)據(jù)規(guī)模。例如采用fasftext對(duì)所有網(wǎng)頁進(jìn)行統(tǒng)一快速過濾,隨后使用更高性能模型精細(xì)過濾以及片段抽取。論文指出RedStone支持構(gòu)建其他類型的專有數(shù)據(jù),只需自定義好過濾器即可。通用領(lǐng)域和特定領(lǐng)域的數(shù)據(jù)構(gòu)建代碼都已開源。

圖3展示了最終各個(gè)數(shù)據(jù)集的規(guī)模。

圖3 數(shù)據(jù)集規(guī)模

為了驗(yàn)證各個(gè)數(shù)據(jù)集的質(zhì)量,作者分別使用這些數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,并與開源數(shù)據(jù)集比較。如圖4所示。RedStone-Web在大部分任務(wù)中都顯著高于其他所有開源數(shù)據(jù)集,并且在平均分指標(biāo)上得到了第一的成績(jī)。這說明RedStone-Web可以顯著提升模型性能,并且使得模型的訓(xùn)練更為高效。

圖4 RedStone-Web與開源預(yù)訓(xùn)練數(shù)據(jù)集的比較

圖5 RedStone-Code結(jié)果展示

考慮到RedStone-Code是來源于網(wǎng)頁,數(shù)據(jù)是文本與代碼交錯(cuò)的形式,目前社區(qū)中并無此類數(shù)據(jù)集開源,因此在RedStone-Web基礎(chǔ)上增加RedStone-Code進(jìn)行了實(shí)驗(yàn)。

可以看到在并沒有顯示添加例如github等純代碼的數(shù)據(jù)情況下,所有數(shù)據(jù)均只來自網(wǎng)頁,RedStone-Code同樣可以顯著提升模型在代碼方面的能力,說明RedStone-Code能夠給模型注入足夠的代碼知識(shí),對(duì)于代碼數(shù)據(jù)已經(jīng)被耗盡的社區(qū)來說,這是一個(gè)能顯著進(jìn)一步擴(kuò)展代碼領(lǐng)域數(shù)據(jù)的數(shù)據(jù)集。

圖6 RedStone-Web與開源數(shù)據(jù)比較

圖6展示了RedStone-Math與社區(qū)開源數(shù)據(jù)OpenWebMath的比較,結(jié)果顯示在同樣的設(shè)置和步數(shù)下,RedStone-Math在得分上高于OpenWebMath,盡管OpenWebMath同樣來源于網(wǎng)絡(luò),但得益于構(gòu)建了更好的過濾器,最終能夠得到更高的數(shù)據(jù)質(zhì)量。

圖7 RedStone-QA與開源數(shù)據(jù)比較

在沒有依賴更多的QA數(shù)據(jù)下,只從網(wǎng)絡(luò)中爬取QA對(duì),RedStone-QA就可以讓模型相對(duì)與其他開源QA數(shù)據(jù)集得到顯著的提升(例如MMLU提升了大約10個(gè)點(diǎn)),這更說明了網(wǎng)絡(luò)是一個(gè)蘊(yùn)含豐富寶藏的礦藏之地。

除了以上這些領(lǐng)域外,RedStone的使用幾乎不受領(lǐng)域的限制,任何人都可以使用開源代碼對(duì)特定領(lǐng)域進(jìn)行爬取。

通過圖4至圖7的結(jié)果可以看到,RedStone構(gòu)建的數(shù)據(jù)在LLM預(yù)訓(xùn)練以及后訓(xùn)練中展現(xiàn)了有前景的能力,使其成為構(gòu)建LLM各類訓(xùn)練數(shù)據(jù)的多功能、實(shí)用pipeline。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-14 09:26:00

2025-04-27 09:16:00

模型AI數(shù)據(jù)

2022-11-03 15:10:24

前端數(shù)據(jù)結(jié)構(gòu)算法

2017-07-14 09:54:47

代碼函數(shù)程序

2015-06-19 16:28:28

InformaticaCRM廣州銀行

2020-12-01 13:56:56

人工智能AI數(shù)據(jù)

2011-03-04 10:11:09

JavascriptAPI

2010-07-06 11:52:59

數(shù)據(jù)庫RationalJazz

2023-09-01 14:42:39

數(shù)據(jù)研究

2024-01-12 13:51:00

數(shù)據(jù)訓(xùn)練

2025-02-11 16:11:12

2015-08-25 08:29:11

編寫高質(zhì)量命名

2011-12-29 15:02:27

JavaScript

2015-08-03 10:40:59

程序員代碼質(zhì)量Quora

2015-08-25 08:42:36

高質(zhì)量代碼命名

2020-09-18 07:57:10

代碼編碼開發(fā)

2022-10-24 08:10:21

SQL代碼業(yè)務(wù)

2011-05-31 13:43:46

外鏈

2017-06-19 07:58:40

2022-06-13 23:30:27

代碼詞匯高質(zhì)量
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)