用大模型優(yōu)化大模型預(yù)訓(xùn)練數(shù)據(jù)，節(jié)省20倍計(jì)算量，實(shí)現(xiàn)顯著性能提升！

作者：機(jī)器之心 2024-09-27 10:31:22

隨著近期 openai o1 模型的發(fā)布，test time scaling 成為研究者們和業(yè)界關(guān)心的話題。

生成式人工智能研究實(shí)驗(yàn)室（GAIR，主頁：https://plms.ai/）是國內(nèi)首個(gè)聚焦于生成式人工智能的高校研究組。匯聚了來自于 CMU、復(fù)旦、交大（ACM 班、IEEE 試點(diǎn)班等）等頂尖高校的年輕本碩博人才。實(shí)驗(yàn)室專注于三大核心領(lǐng)域：大模型基礎(chǔ)研究、對(duì)齊系統(tǒng)和社會(huì)影響，致力于培養(yǎng)頂尖人工智能人才（具有原創(chuàng)、批判精神等）、開發(fā)尖端的生成式人工智能技術(shù)，賦能人類解決復(fù)雜問題，提升人類生活質(zhì)量。

Program-Every-Example (ProX) 是上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 、上海人工智能實(shí)驗(yàn)室、新加坡 Sea AI Lab 聯(lián)合研究的一個(gè)用于提升大規(guī)模預(yù)訓(xùn)練語料質(zhì)量的數(shù)據(jù)優(yōu)化框架。

1. 背景介紹

在大模型研發(fā)過程中，數(shù)據(jù)質(zhì)量是決定模型成功與否的關(guān)鍵因素之一，而大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)則是構(gòu)建強(qiáng)大語言模型的基礎(chǔ)。業(yè)界的實(shí)踐通常是抓取互聯(lián)網(wǎng)上的海量的網(wǎng)頁數(shù)據(jù)，然后由人類專家設(shè)計(jì)專門的規(guī)則來進(jìn)行數(shù)據(jù)清洗，這些規(guī)則雖然能夠在處理數(shù)千億甚至上萬億 token 級(jí)別的語料時(shí)保持較高的效率，但其局限性也逐漸顯現(xiàn)。數(shù)據(jù)的清洗效果往往決于規(guī)則是否全面，然而這些規(guī)則并不能理解文檔中的上下文語境，同時(shí)也很難為每一個(gè)文檔去定制規(guī)則，故此面對(duì)多樣化的樣本需求，這些靜態(tài)規(guī)則難以靈活應(yīng)對(duì)，導(dǎo)致語料質(zhì)量提升空間有限，制約了模型的進(jìn)一步突破。

為此，上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab)、上海人工智能實(shí)驗(yàn)室以及新加坡 Sea AI Lab 聯(lián)合提出了 Program-Every-Example (ProX) 框架。ProX 通過采用語言模型而非人類規(guī)則進(jìn)行自動(dòng)化的數(shù)據(jù)優(yōu)化，靈活應(yīng)對(duì)多樣化的樣本特征，顯著提升了預(yù)訓(xùn)練語料的質(zhì)量，為大規(guī)模預(yù)訓(xùn)練模型的性能突破提供了一種可能的數(shù)據(jù)優(yōu)化思路

論文: https://huggingface.co/papers/2409.17115

團(tuán)隊(duì)還以開源的方式為社區(qū)提供了：

代碼框架: https://github.com/GAIR-NLP/ProX
預(yù)訓(xùn)練實(shí)驗(yàn)的全實(shí)驗(yàn)細(xì)節(jié)和模型: https://huggingface.co/gair-prox
超過 100B 的高質(zhì)量通用語料和 5B 的高質(zhì)量數(shù)學(xué)語料: https://hf.co/collections/gair-prox/prox-dataset-66e81c9d560911b836bb3704

2. 用語言模型提升語言模型「自己」的數(shù)據(jù)質(zhì)量

傳統(tǒng)的預(yù)訓(xùn)練數(shù)據(jù)清洗和優(yōu)化方法主要依賴人工設(shè)計(jì)的規(guī)則，雖然這些規(guī)則能夠有效過濾低質(zhì)量數(shù)據(jù)，但無法針對(duì)每個(gè)樣本進(jìn)行更細(xì)粒度的處理。這種方式難以處理復(fù)雜的多樣化數(shù)據(jù)，最終可能導(dǎo)致模型性能的瓶頸。Program-Every-Example (ProX) 的出現(xiàn)旨在改變這一局面，它通過利用語言模型自動(dòng)生成優(yōu)化程序，能夠?qū)γ總€(gè)數(shù)據(jù)樣本進(jìn)行個(gè)性化處理，提升數(shù)據(jù)的整體質(zhì)量。ProX 不僅可以識(shí)別低質(zhì)量的文本，還能進(jìn)行更精準(zhǔn)的優(yōu)化和清理，如字符串標(biāo)準(zhǔn)化、噪聲行刪除等操作，確保每個(gè)樣本都能以最佳狀態(tài)進(jìn)入預(yù)訓(xùn)練過程。

圖：ProX 總體框架，利用語言模型生成程序 + 執(zhí)行，提升數(shù)據(jù)質(zhì)量。

3. 如何兼顧效率和質(zhì)量？Program-Every-Example!

在利用語言模型提升數(shù)據(jù)質(zhì)量的同時(shí)，如何提高數(shù)據(jù)處理的成本和效率也是研究中的一大挑戰(zhàn)，特別是考慮到預(yù)訓(xùn)練所需要的語料往往突破了數(shù)萬億級(jí)別 (TB) token。

近期，業(yè)界和各個(gè)研究團(tuán)隊(duì)（如 meta 的 llama 團(tuán)隊(duì)，阿里千問團(tuán)隊(duì)）也在積極研究直接利用大語言模型來選擇和過濾語料，這些方法主要應(yīng)用于文檔級(jí)別的數(shù)據(jù)過濾和選擇，能夠有效識(shí)別低質(zhì)量的文檔并加以排除，提升整體數(shù)據(jù)集的質(zhì)量。然而，這類方法潛在的局限性在于其精細(xì)化處理能力不足，通常只停留在文檔的選擇層面，可能沒有進(jìn)一步對(duì)文檔內(nèi)的細(xì)節(jié)進(jìn)行更深入的優(yōu)化和清理，例如字符級(jí)別的規(guī)范化處理、噪聲行的刪除等操作，從而限制了數(shù)據(jù)優(yōu)化的效果。

同時(shí)，直接的數(shù)據(jù)合成方法正在成為另一個(gè)研究熱點(diǎn)。該方法通過大語言模型（LLM）基于種子數(shù)據(jù)或特定話題，主動(dòng)生成新的高質(zhì)量數(shù)據(jù)。這種合成技術(shù)盡管展示了生成多樣化、豐富語料的潛力，但其挑戰(zhàn)在于需要極大的計(jì)算資源支持，特別是在大規(guī)模生成時(shí)，計(jì)算代價(jià)非常高。此外，LLM 生成的數(shù)據(jù)還面臨幻覺問題，即生成內(nèi)容與事實(shí)不符，無法保證訓(xùn)練數(shù)據(jù)的真實(shí)性和一致性。這些問題給直接數(shù)據(jù)合成方法的實(shí)際應(yīng)用帶來了很大挑戰(zhàn)，特別是在需要高精度和高可信度的領(lǐng)域。

于是在 ProX 中，研究者們提出了 Program-Every-Example 的設(shè)計(jì)。他們通過使用較小的語言模型（如 0.3B 的超小規(guī)模模型）來執(zhí)行數(shù)據(jù)優(yōu)化任務(wù)，并且將數(shù)據(jù)優(yōu)化的過程轉(zhuǎn)變?yōu)檎{(diào)用特定的 python 函數(shù)，對(duì)每個(gè)文檔都生成特定的函數(shù)調(diào)用。ProX 框架會(huì)再通過執(zhí)行這些程序，來對(duì)語料進(jìn)行文檔級(jí)別的過濾和噪聲行、字符級(jí)別的處理。

這樣簡單的 Program 設(shè)計(jì)，大大節(jié)省了輸出端的 token 數(shù)量，相比較于依賴于大語言模型數(shù)據(jù)合成方法（通常依賴于 7B 甚至 70B 規(guī)模的模型）顯著減少了計(jì)算成本，同時(shí)又做到了簡單過濾方法無法實(shí)現(xiàn)的精細(xì)化操作。

圖：ProX 設(shè)計(jì)的函數(shù)接口，覆蓋了文檔級(jí)別過濾、噪聲行去除、字符串清洗等操作。

4. 如何構(gòu)造數(shù)據(jù)優(yōu)化模型？

如何構(gòu)造這樣的數(shù)據(jù)優(yōu)化模型呢？是否要對(duì)不同 domain 都有不同的構(gòu)造方法呢？在這里，ProX 采用了一種統(tǒng)一的構(gòu)造思路，無需對(duì)特定領(lǐng)域進(jìn)行額外設(shè)計(jì)就可以廣泛適用。首先，針對(duì)數(shù)據(jù)優(yōu)化的粒度，ProX 將優(yōu)化分為兩個(gè)階段：文檔級(jí)別和子文檔 / 塊級(jí)別 (將文檔切分成更小的窗口)，分別對(duì)應(yīng)文檔級(jí)別的過濾和更細(xì)粒度的塊內(nèi)優(yōu)化如行級(jí)別和字符級(jí)別的優(yōu)化。

由于直接讓模型，尤其是較小的模型生成這樣上述設(shè)計(jì)的函數(shù)調(diào)用是較為困難的，因此 ProX 合成了對(duì)應(yīng)的微調(diào)數(shù)據(jù)，以便對(duì)基座模型進(jìn)行微調(diào)以處理和優(yōu)化真實(shí)的語料。在文檔級(jí)別操作中，ProX 借鑒了近期紐約大學(xué)的 Self-Rewarding 以及 Hugginface 的 FineWeb-Edu 中所采用的評(píng)分機(jī)制，對(duì)數(shù)萬個(gè)隨機(jī)采樣的種子文檔進(jìn)行了教育價(jià)值評(píng)分、文檔格式評(píng)分，并構(gòu)建出保留高分文檔、去除低分文檔的優(yōu)化程序。在子文檔 / 塊級(jí)別級(jí)別的操作中，ProX 利用了 Llama-3 和少樣本提示的方法，構(gòu)造了對(duì)于多種噪聲的函數(shù)調(diào)用，并對(duì)這些離散的函數(shù)調(diào)用進(jìn)行語法檢查和正確性分析，篩選然后合并為一個(gè)較為復(fù)雜的程序。

最終，ProX 對(duì)兩個(gè)優(yōu)化階段，分別構(gòu)建了適用于通用領(lǐng)域的約 50K 函數(shù)調(diào)用數(shù)據(jù)集，并以相同的方法針對(duì)數(shù)學(xué)領(lǐng)域生成了同等規(guī)模的數(shù)據(jù)集。ProX 隨后通過 SFT（監(jiān)督微調(diào)） 在一個(gè)小模型上進(jìn)行訓(xùn)練，模型快速收斂，且成功應(yīng)用于真實(shí)的大規(guī)模語料處理任務(wù)中，在后續(xù)的大量實(shí)驗(yàn)中展示了其高效的優(yōu)化能力與廣泛的適用性。

圖：ProX 構(gòu)造 SFT 數(shù)據(jù)和數(shù)據(jù)優(yōu)化模型的流程示意圖。

5. 在廣泛數(shù)據(jù)集上得以驗(yàn)證

那么 ProX 得到的數(shù)據(jù)效果到底如何？

超越人工規(guī)則，超越此前的基于語言模型的數(shù)據(jù)選擇方法

初步實(shí)驗(yàn)發(fā)現(xiàn)，ProX 在小于 1B 規(guī)模的模型訓(xùn)練中超越了此前多個(gè)人工設(shè)計(jì)的規(guī)則過濾方法，并且在多數(shù)的標(biāo)準(zhǔn)化測試數(shù)據(jù)集中穩(wěn)定達(dá)到更高的表現(xiàn)。

表：ProX 和人工規(guī)則的對(duì)比，表現(xiàn)出穩(wěn)定且大幅度的增長。

ProX 還和此前利用語言模型選擇預(yù)訓(xùn)練數(shù)據(jù)的方法進(jìn)行了比較。團(tuán)隊(duì)僅采用了文檔級(jí)別的優(yōu)化，以保持和數(shù)據(jù)選擇方法較為公平的優(yōu)化粒度，仍然在 8 個(gè)下游數(shù)據(jù)集上，大幅度提升了之前的利用語言模型進(jìn)行數(shù)據(jù)選擇方法 ( > 2.0%)。

表：Prox 和現(xiàn)有的利用語言模型進(jìn)行數(shù)據(jù)選擇方法對(duì)比，超越了所有基準(zhǔn)方法。

更大規(guī)模的實(shí)驗(yàn)：50B 語料訓(xùn)練媲美 3T 性能？

團(tuán)隊(duì)在 1.7B 模型上訓(xùn)練了 50B ProX 優(yōu)化后的數(shù)據(jù)，發(fā)現(xiàn)其表現(xiàn)已經(jīng)接近于甚至超越一些用超過數(shù)百 B 甚至 TB 級(jí)別語料訓(xùn)練的語言模型，例如 OLMo、Pythia、TinyLlama 等等。且訓(xùn)練后的模型和現(xiàn)有的利用超大模型直接數(shù)據(jù)合成語料上訓(xùn)練更充足的模型，表現(xiàn)也非常接近。這充分說明了 ProX 優(yōu)化數(shù)據(jù)質(zhì)量的有效性。

圖：ProX 和原始數(shù)據(jù)、Tinyllama (3T token)、OLMo (2T token)、Pythia (300B token) 的訓(xùn)練代價(jià)及性能表現(xiàn)對(duì)比。

在這些對(duì)比的模型中，Inst-LM 實(shí)際采用了更大規(guī)模的經(jīng)過重構(gòu)的下游數(shù)據(jù)集 + 微調(diào)的 Mistral-7B 模型，合成了更多的 100B tokens；Cosmo 則采用了更大規(guī)模的 Mistral-8x7B 模型合成了 25B tokens，并重復(fù)訓(xùn)練了 180B 總 tokens；Sheared-Llama 則是通過模型剪枝算法，從 Llama-2-7B 中剪枝并且繼續(xù)訓(xùn)練 50B tokens 得到。相比于 ProX 僅用了 0.3B 的優(yōu)化模型和 50B tokens 的訓(xùn)練代價(jià)，這些模型的數(shù)據(jù)開發(fā)和訓(xùn)練成本都要大得多。而 ProX 取得了和他們十分接近的數(shù)據(jù)集表現(xiàn)，也進(jìn)一步反應(yīng)了 ProX 的高效和節(jié)省計(jì)算量。

圖：ProX 和 LLama-2 模型剪枝方法、其他合成語料訓(xùn)練的模型之間的性能比較。

通過對(duì) FLOPs 的定量分析，團(tuán)隊(duì)發(fā)現(xiàn)隨著訓(xùn)練模型參數(shù)量的擴(kuò)大，ProX 的數(shù)據(jù)優(yōu)化的推理成本占訓(xùn)練成本的比例在不斷下降，達(dá)到相同下游表現(xiàn)的總訓(xùn)練成本也在大幅下降。并且相比于利用大模型，直接進(jìn)行大規(guī)模數(shù)據(jù)合成高質(zhì)量語料所需要的代價(jià)要小得多。

圖：達(dá)到相同性能，使用 / 不使用 ProX 所需的總計(jì)算量成本。

特定領(lǐng)域預(yù)訓(xùn)練：無需額外設(shè)計(jì)，大幅提升數(shù)學(xué)性能

ProX 在數(shù)學(xué)語料上也有相似的提升。ProX 對(duì)現(xiàn)有最好的開源數(shù)學(xué)文本語料 Open-Web-Math 進(jìn)行優(yōu)化，得到了約 5B 高質(zhì)量的數(shù)據(jù)。在對(duì) 7B 模型 (如，CodeLlama，Llama，Mistral）經(jīng)過了 10B～15B 的預(yù)訓(xùn)練后，模型在 9 個(gè)數(shù)學(xué)相關(guān)榜單上最高提升 20% 的性能。注意到 ProX 僅用了約 1/20 的訓(xùn)練代價(jià)，就得到了效果堪比現(xiàn)有的使用開源數(shù)據(jù)訓(xùn)練 50B 甚至 200B 的專用數(shù)學(xué)大模型，再次證明了數(shù)據(jù)質(zhì)量對(duì)于模型的重要性。

值得注意的是，ProX 并未對(duì)數(shù)學(xué)領(lǐng)域的數(shù)據(jù)優(yōu)化模型、優(yōu)化函數(shù)、數(shù)據(jù)收集進(jìn)行額外的設(shè)計(jì)；他們直接使用了和通用領(lǐng)域相同的提示詞、函數(shù)實(shí)現(xiàn)、構(gòu)建策略，就得到了出色的效果；這也極大降低了定制化垂類大模型的開發(fā)成本。

圖：ProX 在數(shù)學(xué)語料上的續(xù)訓(xùn)練以及在 9 個(gè)數(shù)學(xué)任務(wù)上的平均性能表現(xiàn)。

6. 未來展望

ProX 可以怎么樣幫助社區(qū)做下一步的研究？他們?cè)谡撐牡淖詈筮€構(gòu)想中了如下幾點(diǎn)：

設(shè)計(jì)出更靈活的接口，以覆蓋多樣化的數(shù)據(jù)優(yōu)化需求，進(jìn)一步提升數(shù)據(jù)質(zhì)量。
將 ProX 發(fā)展到更多專用 domain：例如代碼領(lǐng)域、多語言語料上，促進(jìn)領(lǐng)域大模型的發(fā)展。
通過進(jìn)一步減小模型尺寸、和其他加速手段，減小推理代價(jià)，使清洗 TB 級(jí)別文檔不再遙遠(yuǎn)。

最后，隨著近期 openai o1 模型的發(fā)布，test time scaling 成為研究者們和業(yè)界關(guān)心的話題。對(duì)此，ProX 團(tuán)隊(duì)也懷有相同的期待：在數(shù)據(jù)優(yōu)化階段投入更多的計(jì)算量來優(yōu)化數(shù)據(jù)，或許同樣能夠成為模型突破瓶頸、邁向通用人工智能（AGI）的重要技術(shù)手段之一。

責(zé)任編輯：張燕妮來源：機(jī)器之心