自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用大模型優(yōu)化大模型預(yù)訓(xùn)練數(shù)據(jù),節(jié)省20倍計(jì)算量,實(shí)現(xiàn)顯著性能提升!

人工智能 新聞
隨著近期 openai o1 模型的發(fā)布,test time scaling 成為研究者們和業(yè)界關(guān)心的話題。

生成式人工智能研究實(shí)驗(yàn)室(GAIR,主頁:https://plms.ai/)是國內(nèi)首個(gè)聚焦于生成式人工智能的高校研究組。匯聚了來自于 CMU、復(fù)旦、交大(ACM 班、IEEE 試點(diǎn)班等)等頂尖高校的年輕本碩博人才。實(shí)驗(yàn)室專注于三大核心領(lǐng)域:大模型基礎(chǔ)研究、對(duì)齊系統(tǒng)和社會(huì)影響,致力于培養(yǎng)頂尖人工智能人才(具有原創(chuàng)、批判精神等)、開發(fā)尖端的生成式人工智能技術(shù),賦能人類解決復(fù)雜問題,提升人類生活質(zhì)量。

Program-Every-Example (ProX) 是上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab) 、上海人工智能實(shí)驗(yàn)室、新加坡 Sea AI Lab 聯(lián)合研究的一個(gè)用于提升大規(guī)模預(yù)訓(xùn)練語料質(zhì)量的數(shù)據(jù)優(yōu)化框架。

1. 背景介紹

在大模型研發(fā)過程中,數(shù)據(jù)質(zhì)量是決定模型成功與否的關(guān)鍵因素之一,而大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)則是構(gòu)建強(qiáng)大語言模型的基礎(chǔ)。業(yè)界的實(shí)踐通常是抓取互聯(lián)網(wǎng)上的海量的網(wǎng)頁數(shù)據(jù),然后由人類專家設(shè)計(jì)專門的規(guī)則來進(jìn)行數(shù)據(jù)清洗,這些規(guī)則雖然能夠在處理數(shù)千億甚至上萬億 token 級(jí)別的語料時(shí)保持較高的效率,但其局限性也逐漸顯現(xiàn)。數(shù)據(jù)的清洗效果往往決于規(guī)則是否全面,然而這些規(guī)則并不能理解文檔中的上下文語境,同時(shí)也很難為每一個(gè)文檔去定制規(guī)則,故此面對(duì)多樣化的樣本需求,這些靜態(tài)規(guī)則難以靈活應(yīng)對(duì),導(dǎo)致語料質(zhì)量提升空間有限,制約了模型的進(jìn)一步突破。

為此,上海交通大學(xué)生成式人工智能實(shí)驗(yàn)室 (GAIR Lab)、上海人工智能實(shí)驗(yàn)室以及新加坡 Sea AI Lab 聯(lián)合提出了 Program-Every-Example (ProX) 框架。ProX 通過采用語言模型而非人類規(guī)則進(jìn)行自動(dòng)化的數(shù)據(jù)優(yōu)化,靈活應(yīng)對(duì)多樣化的樣本特征,顯著提升了預(yù)訓(xùn)練語料的質(zhì)量,為大規(guī)模預(yù)訓(xùn)練模型的性能突破提供了一種可能的數(shù)據(jù)優(yōu)化思路

圖片

  • 論文: https://huggingface.co/papers/2409.17115

團(tuán)隊(duì)還以開源的方式為社區(qū)提供了:

  • 代碼框架: https://github.com/GAIR-NLP/ProX
  • 預(yù)訓(xùn)練實(shí)驗(yàn)的全實(shí)驗(yàn)細(xì)節(jié)和模型: https://huggingface.co/gair-prox
  • 超過 100B 的高質(zhì)量通用語料和 5B 的高質(zhì)量數(shù)學(xué)語料: https://hf.co/collections/gair-prox/prox-dataset-66e81c9d560911b836bb3704

2. 用語言模型提升語言模型 「自己」 的數(shù)據(jù)質(zhì)量

傳統(tǒng)的預(yù)訓(xùn)練數(shù)據(jù)清洗和優(yōu)化方法主要依賴人工設(shè)計(jì)的規(guī)則,雖然這些規(guī)則能夠有效過濾低質(zhì)量數(shù)據(jù),但無法針對(duì)每個(gè)樣本進(jìn)行更細(xì)粒度的處理。這種方式難以處理復(fù)雜的多樣化數(shù)據(jù),最終可能導(dǎo)致模型性能的瓶頸。Program-Every-Example (ProX) 的出現(xiàn)旨在改變這一局面,它通過利用語言模型自動(dòng)生成優(yōu)化程序,能夠?qū)γ總€(gè)數(shù)據(jù)樣本進(jìn)行個(gè)性化處理,提升數(shù)據(jù)的整體質(zhì)量。ProX 不僅可以識(shí)別低質(zhì)量的文本,還能進(jìn)行更精準(zhǔn)的優(yōu)化和清理,如字符串標(biāo)準(zhǔn)化、噪聲行刪除等操作,確保每個(gè)樣本都能以最佳狀態(tài)進(jìn)入預(yù)訓(xùn)練過程。

圖片

圖:ProX 總體框架,利用語言模型生成程序 + 執(zhí)行,提升數(shù)據(jù)質(zhì)量。

3. 如何兼顧效率和質(zhì)量?Program-Every-Example!

在利用語言模型提升數(shù)據(jù)質(zhì)量的同時(shí),如何提高數(shù)據(jù)處理的成本和效率也是研究中的一大挑戰(zhàn),特別是考慮到預(yù)訓(xùn)練所需要的語料往往突破了數(shù)萬億級(jí)別 (TB) token。

近期,業(yè)界和各個(gè)研究團(tuán)隊(duì)(如 meta 的 llama 團(tuán)隊(duì),阿里千問團(tuán)隊(duì))也在積極研究直接利用大語言模型來選擇和過濾語料,這些方法主要應(yīng)用于文檔級(jí)別的數(shù)據(jù)過濾和選擇,能夠有效識(shí)別低質(zhì)量的文檔并加以排除,提升整體數(shù)據(jù)集的質(zhì)量。然而,這類方法潛在的局限性在于其精細(xì)化處理能力不足,通常只停留在文檔的選擇層面,可能沒有進(jìn)一步對(duì)文檔內(nèi)的細(xì)節(jié)進(jìn)行更深入的優(yōu)化和清理,例如字符級(jí)別的規(guī)范化處理、噪聲行的刪除等操作,從而限制了數(shù)據(jù)優(yōu)化的效果。

同時(shí),直接的數(shù)據(jù)合成方法正在成為另一個(gè)研究熱點(diǎn)。該方法通過大語言模型(LLM)基于種子數(shù)據(jù)或特定話題,主動(dòng)生成新的高質(zhì)量數(shù)據(jù)。這種合成技術(shù)盡管展示了生成多樣化、豐富語料的潛力,但其挑戰(zhàn)在于需要極大的計(jì)算資源支持,特別是在大規(guī)模生成時(shí),計(jì)算代價(jià)非常高。此外,LLM 生成的數(shù)據(jù)還面臨幻覺問題,即生成內(nèi)容與事實(shí)不符,無法保證訓(xùn)練數(shù)據(jù)的真實(shí)性和一致性。這些問題給直接數(shù)據(jù)合成方法的實(shí)際應(yīng)用帶來了很大挑戰(zhàn),特別是在需要高精度和高可信度的領(lǐng)域。

于是在 ProX 中,研究者們提出了 Program-Every-Example 的設(shè)計(jì)。 他們通過使用較小的語言模型(如 0.3B 的超小規(guī)模模型)來執(zhí)行數(shù)據(jù)優(yōu)化任務(wù),并且將數(shù)據(jù)優(yōu)化的過程轉(zhuǎn)變?yōu)檎{(diào)用特定的 python 函數(shù),對(duì)每個(gè)文檔都生成特定的函數(shù)調(diào)用。ProX 框架會(huì)再通過執(zhí)行這些程序,來對(duì)語料進(jìn)行文檔級(jí)別的過濾和噪聲行、字符級(jí)別的處理。

這樣簡單的 Program 設(shè)計(jì),大大節(jié)省了輸出端的 token 數(shù)量,相比較于依賴于大語言模型數(shù)據(jù)合成方法(通常依賴于 7B 甚至 70B 規(guī)模的模型)顯著減少了計(jì)算成本,同時(shí)又做到了簡單過濾方法無法實(shí)現(xiàn)的精細(xì)化操作

圖片

圖:ProX 設(shè)計(jì)的函數(shù)接口,覆蓋了文檔級(jí)別過濾、噪聲行去除、字符串清洗等操作。

4. 如何構(gòu)造數(shù)據(jù)優(yōu)化模型?

如何構(gòu)造這樣的數(shù)據(jù)優(yōu)化模型呢?是否要對(duì)不同 domain 都有不同的構(gòu)造方法呢?在這里,ProX 采用了一種統(tǒng)一的構(gòu)造思路,無需對(duì)特定領(lǐng)域進(jìn)行額外設(shè)計(jì)就可以廣泛適用。首先,針對(duì)數(shù)據(jù)優(yōu)化的粒度,ProX 將優(yōu)化分為兩個(gè)階段:文檔級(jí)別和子文檔 / 塊級(jí)別 (將文檔切分成更小的窗口),分別對(duì)應(yīng)文檔級(jí)別的過濾和更細(xì)粒度的塊內(nèi)優(yōu)化如行級(jí)別和字符級(jí)別的優(yōu)化。

由于直接讓模型,尤其是較小的模型生成這樣上述設(shè)計(jì)的函數(shù)調(diào)用是較為困難的,因此 ProX 合成了對(duì)應(yīng)的微調(diào)數(shù)據(jù),以便對(duì)基座模型進(jìn)行微調(diào)以處理和優(yōu)化真實(shí)的語料。在文檔級(jí)別操作中,ProX 借鑒了近期紐約大學(xué)的 Self-Rewarding 以及 Hugginface 的 FineWeb-Edu 中所采用的評(píng)分機(jī)制,對(duì)數(shù)萬個(gè)隨機(jī)采樣的種子文檔進(jìn)行了教育價(jià)值評(píng)分、文檔格式評(píng)分,并構(gòu)建出保留高分文檔、去除低分文檔的優(yōu)化程序。在子文檔 / 塊級(jí)別級(jí)別的操作中,ProX 利用了 Llama-3 和少樣本提示的方法,構(gòu)造了對(duì)于多種噪聲的函數(shù)調(diào)用,并對(duì)這些離散的函數(shù)調(diào)用進(jìn)行語法檢查和正確性分析,篩選然后合并為一個(gè)較為復(fù)雜的程序。

最終,ProX 對(duì)兩個(gè)優(yōu)化階段,分別構(gòu)建了適用于通用領(lǐng)域的約 50K 函數(shù)調(diào)用數(shù)據(jù)集,并以相同的方法針對(duì)數(shù)學(xué)領(lǐng)域生成了同等規(guī)模的數(shù)據(jù)集。ProX 隨后通過 SFT(監(jiān)督微調(diào)) 在一個(gè)小模型上進(jìn)行訓(xùn)練,模型快速收斂,且成功應(yīng)用于真實(shí)的大規(guī)模語料處理任務(wù)中,在后續(xù)的大量實(shí)驗(yàn)中展示了其高效的優(yōu)化能力與廣泛的適用性

圖片

圖:ProX 構(gòu)造 SFT 數(shù)據(jù)和數(shù)據(jù)優(yōu)化模型的流程示意圖。

5. 在廣泛數(shù)據(jù)集上得以驗(yàn)證

那么 ProX 得到的數(shù)據(jù)效果到底如何?

超越人工規(guī)則,超越此前的基于語言模型的數(shù)據(jù)選擇方法

初步實(shí)驗(yàn)發(fā)現(xiàn),ProX 在小于 1B 規(guī)模的模型訓(xùn)練中超越了此前多個(gè)人工設(shè)計(jì)的規(guī)則過濾方法,并且在多數(shù)的標(biāo)準(zhǔn)化測試數(shù)據(jù)集中穩(wěn)定達(dá)到更高的表現(xiàn)。

圖片

圖片

表:ProX 和人工規(guī)則的對(duì)比,表現(xiàn)出穩(wěn)定且大幅度的增長。

ProX 還和此前利用語言模型選擇預(yù)訓(xùn)練數(shù)據(jù)的方法進(jìn)行了比較。團(tuán)隊(duì)僅采用了文檔級(jí)別的優(yōu)化,以保持和數(shù)據(jù)選擇方法較為公平的優(yōu)化粒度,仍然在 8 個(gè)下游數(shù)據(jù)集上,大幅度提升了之前的利用語言模型進(jìn)行數(shù)據(jù)選擇方法 ( > 2.0%)。

圖片

表:Prox 和現(xiàn)有的利用語言模型進(jìn)行數(shù)據(jù)選擇方法對(duì)比,超越了所有基準(zhǔn)方法。

更大規(guī)模的實(shí)驗(yàn):50B 語料訓(xùn)練媲美 3T 性能?

團(tuán)隊(duì)在 1.7B 模型上訓(xùn)練了 50B ProX 優(yōu)化后的數(shù)據(jù),發(fā)現(xiàn)其表現(xiàn)已經(jīng)接近于甚至超越一些用超過數(shù)百 B 甚至 TB 級(jí)別語料訓(xùn)練的語言模型,例如 OLMo、Pythia、TinyLlama 等等。且訓(xùn)練后的模型和現(xiàn)有的利用超大模型直接數(shù)據(jù)合成語料上訓(xùn)練更充足的模型,表現(xiàn)也非常接近。這充分說明了 ProX 優(yōu)化數(shù)據(jù)質(zhì)量的有效性。

圖片

圖:ProX 和原始數(shù)據(jù)、Tinyllama (3T token)、OLMo (2T token)、Pythia (300B token) 的訓(xùn)練代價(jià)及性能表現(xiàn)對(duì)比。

在這些對(duì)比的模型中,Inst-LM 實(shí)際采用了更大規(guī)模的經(jīng)過重構(gòu)的下游數(shù)據(jù)集 + 微調(diào)的 Mistral-7B 模型,合成了更多的 100B tokens;Cosmo 則采用了更大規(guī)模的 Mistral-8x7B 模型合成了 25B tokens,并重復(fù)訓(xùn)練了 180B 總 tokens;Sheared-Llama 則是通過模型剪枝算法,從 Llama-2-7B 中剪枝并且繼續(xù)訓(xùn)練 50B tokens 得到。相比于 ProX 僅用了 0.3B 的優(yōu)化模型和 50B tokens 的訓(xùn)練代價(jià),這些模型的數(shù)據(jù)開發(fā)和訓(xùn)練成本都要大得多。而 ProX 取得了和他們十分接近的數(shù)據(jù)集表現(xiàn),也進(jìn)一步反應(yīng)了 ProX 的高效和節(jié)省計(jì)算量。

圖片

圖:ProX 和 LLama-2 模型剪枝方法、其他合成語料訓(xùn)練的模型之間的性能比較。

通過對(duì) FLOPs 的定量分析,團(tuán)隊(duì)發(fā)現(xiàn)隨著訓(xùn)練模型參數(shù)量的擴(kuò)大,ProX 的數(shù)據(jù)優(yōu)化的推理成本占訓(xùn)練成本的比例在不斷下降,達(dá)到相同下游表現(xiàn)的總訓(xùn)練成本也在大幅下降。并且相比于利用大模型,直接進(jìn)行大規(guī)模數(shù)據(jù)合成高質(zhì)量語料所需要的代價(jià)要小得多。

圖片

圖:達(dá)到相同性能,使用 / 不使用 ProX 所需的總計(jì)算量成本。

特定領(lǐng)域預(yù)訓(xùn)練 :無需額外設(shè)計(jì),大幅提升數(shù)學(xué)性能

ProX 在數(shù)學(xué)語料上也有相似的提升。ProX 對(duì)現(xiàn)有最好的開源數(shù)學(xué)文本語料 Open-Web-Math 進(jìn)行優(yōu)化,得到了約 5B 高質(zhì)量的數(shù)據(jù)。在對(duì) 7B 模型 (如,CodeLlama,Llama,Mistral)經(jīng)過了 10B~15B 的預(yù)訓(xùn)練后,模型在 9 個(gè)數(shù)學(xué)相關(guān)榜單上最高提升 20% 的性能。注意到 ProX 僅用了約 1/20 的訓(xùn)練代價(jià),就得到了效果堪比現(xiàn)有的使用開源數(shù)據(jù)訓(xùn)練 50B 甚至 200B 的專用數(shù)學(xué)大模型,再次證明了數(shù)據(jù)質(zhì)量對(duì)于模型的重要性。

值得注意的是,ProX 并未對(duì)數(shù)學(xué)領(lǐng)域的數(shù)據(jù)優(yōu)化模型、優(yōu)化函數(shù)、數(shù)據(jù)收集進(jìn)行額外的設(shè)計(jì);他們直接使用了和通用領(lǐng)域相同的提示詞、函數(shù)實(shí)現(xiàn)、構(gòu)建策略,就得到了出色的效果;這也極大降低了定制化垂類大模型的開發(fā)成本。

圖片

圖:ProX 在數(shù)學(xué)語料上的續(xù)訓(xùn)練以及在 9 個(gè)數(shù)學(xué)任務(wù)上的平均性能表現(xiàn)。

6. 未來展望

ProX 可以怎么樣幫助社區(qū)做下一步的研究?他們?cè)谡撐牡淖詈筮€構(gòu)想中了如下幾點(diǎn):

  • 設(shè)計(jì)出更靈活的接口,以覆蓋多樣化的數(shù)據(jù)優(yōu)化需求,進(jìn)一步提升數(shù)據(jù)質(zhì)量。
  • 將 ProX 發(fā)展到更多專用 domain:例如代碼領(lǐng)域、多語言語料上,促進(jìn)領(lǐng)域大模型的發(fā)展。
  • 通過進(jìn)一步減小模型尺寸、和其他加速手段,減小推理代價(jià),使清洗 TB 級(jí)別文檔不再遙遠(yuǎn)。

最后,隨著近期 openai o1 模型的發(fā)布,test time scaling 成為研究者們和業(yè)界關(guān)心的話題。對(duì)此,ProX 團(tuán)隊(duì)也懷有相同的期待:在數(shù)據(jù)優(yōu)化階段投入更多的計(jì)算量來優(yōu)化數(shù)據(jù),或許同樣能夠成為模型突破瓶頸、邁向通用人工智能(AGI)的重要技術(shù)手段之一。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-02 10:28:03

2022-03-21 17:56:59

大模型訓(xùn)練訓(xùn)練框架

2022-03-21 15:06:10

模型字節(jié)跳動(dòng)框架

2024-03-14 09:57:35

華為模型

2024-11-04 00:24:56

2023-05-26 10:15:34

模型訓(xùn)練

2024-11-01 20:25:28

2024-01-03 18:53:13

語言模型LLM

2025-03-17 08:34:00

模型代碼開發(fā)

2023-04-14 14:42:07

騰訊人工智能

2024-07-01 20:45:55

2025-02-20 09:27:46

2024-03-11 12:20:56

AI訓(xùn)練

2024-11-27 14:30:00

模型訓(xùn)練

2024-11-01 13:30:56

2024-04-07 14:28:48

邊緣計(jì)算LLM人工智能

2014-10-08 10:37:41

SQLite

2024-08-20 07:55:03

2023-05-19 07:25:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)