為大模型惡補(bǔ)數(shù)學(xué),上交開源MathPile語料庫,95億tokens,還可商用
在當(dāng)前智能對話模型的發(fā)展中,強(qiáng)大的底層模型起著至關(guān)重要的作用。這些先進(jìn)模型的預(yù)訓(xùn)練往往依賴于高質(zhì)量且多樣化的語料庫,而如何構(gòu)建這樣的語料庫,已成為行業(yè)中的一大挑戰(zhàn)。
在備受矚目的 AI for Math 領(lǐng)域,由于高質(zhì)量的數(shù)學(xué)語料相對稀缺,這限制了生成式人工智能在數(shù)學(xué)應(yīng)用方面的潛力。
為了應(yīng)對這一挑戰(zhàn),上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室推出了「MathPile」。這是一套專門針對數(shù)學(xué)領(lǐng)域的高質(zhì)量、多樣化預(yù)訓(xùn)練語料庫,其中包含約 95 億 tokens,旨在提升大型模型在數(shù)學(xué)推理方面的能力。
此外,實(shí)驗(yàn)室還推出了 MathPile 的商業(yè)版 ——「MathPile_Commercial」,進(jìn)一步拓寬其應(yīng)用范圍和商業(yè)潛力。
- 論文地址:https://huggingface.co/papers/2312.17120
- 項(xiàng)目地址:https://gair-nlp.github.io/MathPile/
- 代碼地址:https://github.com/GAIR-NLP/MathPile
數(shù)據(jù)集地址:
- 研究使用:https://huggingface.co/datasets/GAIR/MathPile
- 商用版本:https://huggingface.co/datasets/GAIR/MathPile_Commercial
簡介
MathPile 具備以下幾個(gè)特點(diǎn):
1. 以數(shù)學(xué)為中心:不同于過去專注于通用領(lǐng)域的語料,如 Pile, RedPajama, 或者多語言語料 ROOTS 等等,MathPile 專注于數(shù)學(xué)領(lǐng)域。盡管目前已經(jīng)有一些專門的數(shù)學(xué)語料,但要么沒有開源(比如 Google 用來訓(xùn)練 Minerva 的語料,OpenAI 的 MathMix),要么不夠豐富多樣(比如 ProofPile 和最近的 OpenWebMath)。
2. 多樣性:MathPile 的數(shù)據(jù)來源廣泛,比如公開開源的數(shù)學(xué)教科書,課堂筆記,合成的教科書,arXiv 上的數(shù)學(xué)相關(guān)的論文,Wikipedia 上關(guān)于數(shù)學(xué)相關(guān)的條目,ProofWiki 上的引理證明和定義,StackExchange(社區(qū)問答網(wǎng)站)上的高質(zhì)量數(shù)學(xué)問題和答案,以及來自 Common Crawl 上的數(shù)學(xué)網(wǎng)頁。以上內(nèi)容涵蓋了適合中小學(xué),大學(xué),研究生以及數(shù)學(xué)競賽等內(nèi)容。MathPile 首次涵蓋了 0.19B tokens 的高質(zhì)量數(shù)學(xué)教科書。
3. 高質(zhì)量:研究團(tuán)隊(duì)在收集過程中遵循 「less is more」(少即是多) 的理念,堅(jiān)信數(shù)據(jù)質(zhì)量優(yōu)于數(shù)量,即使在預(yù)訓(xùn)練階段也是如此。他們從~520B tokens(大約 2.2TB)的數(shù)據(jù)源中,經(jīng)過一套嚴(yán)謹(jǐn)復(fù)雜的預(yù)處理,預(yù)過濾,語言識(shí)別,清潔,過濾和去重等步驟,來確保語料庫的高質(zhì)量。值得一提的是,OpenAI 所用的 MathMix 也只有 1.5B tokens。
4. 數(shù)據(jù)文檔化:為了增加透明度,研究團(tuán)隊(duì)對 MathPile 進(jìn)行了文檔記錄,提供了 dataset sheet。在數(shù)據(jù)處理過程中,研究團(tuán)隊(duì)還對來自 Web 的文檔進(jìn)行了「質(zhì)量標(biāo)注」。例如,語言識(shí)別的分?jǐn)?shù),文檔中符號(hào)與單詞的比例,方便研究者根據(jù)自身需要進(jìn)一步過濾文檔。他們還對語料進(jìn)行了下游測試集的污染檢測,來消除像來自 MATH,MMLU-STEM 這樣的基準(zhǔn)測試集中的樣本。同時(shí),研究團(tuán)隊(duì)還發(fā)現(xiàn)了 OpenWebMath 中也存在大量的下游測試樣本,這說明在制作預(yù)訓(xùn)練語料時(shí)應(yīng)該格外小心,避免下游的評測失效。
MathPile 的數(shù)據(jù)收集和處理過程。
數(shù)據(jù)處理細(xì)節(jié)
在大模型領(lǐng)域競爭愈演愈烈的今天,很多科技公司都不再公開他們的數(shù)據(jù),還有他們的數(shù)據(jù)來源,配比,更不用說詳細(xì)的預(yù)處理細(xì)節(jié)。相反,MathPile 在前人探索的基礎(chǔ)上總結(jié)了一套適用 Math 領(lǐng)域的數(shù)據(jù)處理方法。
在數(shù)據(jù)的清洗和過濾部分,研究團(tuán)隊(duì)采用的具體步驟是:
- 檢測包含 「lorem ipsum」的行,如果將行中「lorem ipsum」替換掉少于 5 個(gè)字符,便移除掉該行;
- 檢測包含「javescript」并且同時(shí)包含「enable」,「disable」或者「browser」 的行,并且該行的字符數(shù)量小于 200 字符,便過濾掉該行;
- 過濾掉少于 10 個(gè)單詞并且包含「Login」, 「sign-in」, 「read more...」, 或者 「items in cart」 的行;
- 過濾掉大寫單詞占比超過 40% 的文檔;
- 過濾掉以省略號(hào)結(jié)尾的行占比整個(gè)文檔超過 30% 的文檔;
- 過濾掉非字母單詞的比例超過 80% 的文檔;
- 過濾掉文檔平均英文單詞字符長度介于(3,10)區(qū)間以外的文檔;
- 過濾掉不包含至少兩個(gè)停用詞(比如 the, be, to, of, and, that, have 等)的文檔;
- 過濾掉省略號(hào)與單詞比例超過 50% 的文檔;
- 過濾掉項(xiàng)目符號(hào)開始的行占比超過 90% 的文檔;
- 過濾掉移除掉空格和標(biāo)點(diǎn)符號(hào)后少于 200 個(gè)字符的文檔;
- ...
更多處理細(xì)節(jié)可以參見論文。
此外,研究團(tuán)隊(duì)還提供了很多清洗過程中的數(shù)據(jù)樣例。下圖為通過 MinHash LSH 算法去重檢測出來的 Common Crawl 中的近似重復(fù)的文檔(如粉紅色高亮處所示)。
如下圖所示,研究團(tuán)隊(duì)在進(jìn)行數(shù)據(jù)泄露檢測過程中發(fā)現(xiàn)了來自 MATH 測試集的問題(如黃色高亮處所示)。
數(shù)據(jù)集統(tǒng)計(jì)與樣例
下表展示了 MathPile 各個(gè)組成部分的統(tǒng)計(jì)信息,可以發(fā)現(xiàn) arXiv 論文,教科書通常文檔長度較長,wiki 上的文檔相對偏短。
下圖是 MathPile 語料中一個(gè)教科書的樣例文檔,可以看出其中的文檔結(jié)構(gòu)較為清晰,質(zhì)量較高。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)還披露了一些初步的實(shí)驗(yàn)結(jié)果。他們在目前頗受歡迎的 Mistral-7B 模型的基礎(chǔ)上進(jìn)行了進(jìn)一步的預(yù)訓(xùn)練。接著通過少量樣本提示(few-shot prompting)方法,在一些常見的數(shù)學(xué)推理基準(zhǔn)數(shù)據(jù)集上進(jìn)行了評估。目前已獲得的初步實(shí)驗(yàn)數(shù)據(jù)如下:
這些測試基準(zhǔn)覆蓋了各個(gè)層次的數(shù)學(xué)知識(shí),包括小學(xué)數(shù)學(xué)(例如 GSM8K、TAL-SCQ5K-EN 和 MMLU-Math),高中數(shù)學(xué)(如 MATH、SAT-Math、MMLU-Math、AQuA 和 MathQA),以及大學(xué)數(shù)學(xué)(例如 MMLU-Math)。研究團(tuán)隊(duì)初步公布的實(shí)驗(yàn)結(jié)果顯示,通過在 MathPile 中的教科書和維基百科子集上進(jìn)行繼續(xù)預(yù)訓(xùn)練,語言模型在不同難度級別的數(shù)學(xué)推理能力上均實(shí)現(xiàn)了比較可觀的提升。
研究團(tuán)隊(duì)也強(qiáng)調(diào),相關(guān)實(shí)驗(yàn)仍在繼續(xù)進(jìn)行中。
結(jié)語
MathPile 自發(fā)布之日起便受到了廣泛關(guān)注,并被多方轉(zhuǎn)載,目前更是榮登 Huggingface Datasets 趨勢榜單。研究團(tuán)隊(duì)表示,他們將持續(xù)對數(shù)據(jù)集進(jìn)行優(yōu)化和升級,進(jìn)一步提升數(shù)據(jù)質(zhì)量。
MathPile 登 Huggingface Datasets 趨勢榜單。
MathPile 被知名 AI 博主 AK 轉(zhuǎn)發(fā),圖源:https://twitter.com/_akhaliq/status/1740571256234057798。
目前,MathPile 已更新至第二版,旨在為開源社區(qū)的研究發(fā)展貢獻(xiàn)力量。同時(shí),其商業(yè)版數(shù)據(jù)集也已向公眾開放。