美歐亞三洲開發(fā)者聯(lián)手,全球首個組團訓(xùn)練的大模型來了,全流程開源
11 月 22 日,Prime Intellect 宣布通過去中心化方式訓(xùn)練完成了一個 10B 模型。30 號,他們開源了一切,包括基礎(chǔ)模型、檢查點、后訓(xùn)練模型、數(shù)據(jù)、PRIME 訓(xùn)練框架和技術(shù)報告。據(jù)了解,這應(yīng)該是有史以來首個以去中心化形式訓(xùn)練得到的 10B 大模型。
- 技術(shù)報告:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
- Hugging Face 頁面:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
- GitHub 地址:https://github.com/PrimeIntellect-ai/prime
- 體驗鏈接:chat.primeintellect.ai
Prime Intellect 表示,相比此前的研究,INTELLECT-1 實現(xiàn)了 10 倍的規(guī)模提升。這一突破證明,大規(guī)模模型訓(xùn)練已不再是大公司的專利,通過去中心化的、社區(qū)驅(qū)動的方式同樣可以實現(xiàn)。
他們的下一步計劃是將模型進一步擴展到前沿規(guī)模,最終目標是實現(xiàn)開源 AGI。這一點在其在線 Demo 的模型選項中已有暗示 —— 其中包含開放推理模型甚至 AGI 和 ASI 的潛在選項??雌饋磉@確實是一個雄心勃勃的團隊。
模型發(fā)布后,雖也有質(zhì)疑聲音,但 AI 社區(qū)總體上還是給出了非常積極的肯定。
機器之心也用幾個經(jīng)典問題簡單嘗試了其在線 Demo 版本的模型。
首先是經(jīng)典的草莓問題,INTELLECT-1 一開始答對了,但繼續(xù)提問就又變成了常見的錯誤答案。
該模型也具備還不錯的文本理解能力,但總體而言和 Llama 和 Qwen 等前沿開源模型還有所差距。
下面我們看看它的漢語能力。從多次測試的結(jié)果來看,這個模型的漢語能力并不好,并且幻覺現(xiàn)象似乎也挺嚴重的,比如下圖中,即使該模型暫時并不具備讀取鏈接的能力,也會根據(jù)上下文強行作答。
不管怎樣,INTELLECT-1 都是 AI 歷史上一次頗具開創(chuàng)性的實驗。下面我們就來看看這個系統(tǒng)是如何煉成的。
大規(guī)模去中心化訓(xùn)練
Prime Intellect 的這場去中心化訓(xùn)練的規(guī)模其實相當大,涉及到 3 個大洲的 5 個國家,同時運行了 112 臺 H100 GPU。
全球 30 位貢獻者的基本信息
該團隊表示:「我們在各大洲實現(xiàn)了 83% 的總體計算利用率。當僅在分布于整個美國的節(jié)點上進行訓(xùn)練時,實現(xiàn)了 96% 的計算利用率。與中心化訓(xùn)練方法相比,開銷極小。」
這樣的結(jié)果表明 INTELLECT-1 在存在嚴重的帶寬限制和節(jié)點波動的情況下,依然能維持訓(xùn)練收斂性和高計算利用率,這昭示了一種新的可能性:能夠以去中心化、社區(qū)驅(qū)動的方式訓(xùn)練出前沿的基礎(chǔ)模型!
一萬億 token 的訓(xùn)練過程,這里給出了訓(xùn)練過程中損失、困惑度、訓(xùn)練速度等信息
訓(xùn)練細節(jié)與數(shù)據(jù)集
INTELLECT-1 基于 Llama-3 架構(gòu),它包含:
- 42 層,隱藏維度為 4,096
- 32 個注意力頭
- 序列長度為 8,192
- 詞表大小為 128,256
模型在經(jīng)過精心篩選的 1 萬億 token 數(shù)據(jù)集上訓(xùn)練,數(shù)據(jù)構(gòu)成如下:
數(shù)據(jù)集 Huggingface 鏈接:https://huggingface.co/datasets/HuggingFaceFW/fineweb-edu
- 55% FineWeb-Edu
- 20% Stack v2(Stack Overflow 等技術(shù)問答數(shù)據(jù))
- 10% FineWeb(精選網(wǎng)頁數(shù)據(jù))
- 10% DCLM-baseline(基準通用語料)
- 5% OpenWebMath(數(shù)學(xué)數(shù)據(jù))
模型訓(xùn)練持續(xù)了 42 天,采用了以下技術(shù):
- 采用 WSD 動態(tài)調(diào)整學(xué)習(xí)速度,讓模型學(xué)習(xí)更高效
- 精細調(diào)教的學(xué)習(xí)參數(shù):內(nèi)層學(xué)習(xí)率設(shè)為 7.5e-5
- 引入特殊的損失函數(shù)(max-z-loss)來確保訓(xùn)練過程的穩(wěn)定性
- 使用 Nesterov 動量優(yōu)化算法,幫助模型更快更好地學(xué)習(xí)
- 支持訓(xùn)練機器的靈活接入和退出,最多可同時使用 14 臺機器協(xié)同訓(xùn)練
從訓(xùn)練過程的監(jiān)控圖表可以看出,PRIME 系統(tǒng)表現(xiàn)出色:即使參與訓(xùn)練的機器數(shù)量經(jīng)常變化(從最少 4 臺逐漸增加到最多 14 臺),整個訓(xùn)練過程依然保持穩(wěn)定,充分證明了系統(tǒng)的可靠性。
訓(xùn)練動態(tài)圖展示了整個訓(xùn)練過程中模型困惑度和學(xué)習(xí)率的變化,包括預(yù)熱階段、穩(wěn)定階段和退火階段。
Prime:一個去中心化訓(xùn)練框架
該團隊使用的訓(xùn)練框架名為 Prime,這基于他們開發(fā)的 OpenDiLoCo。而 OpenDiLoCo 又基于 DeepMind 之前開發(fā)的 Distributed Low-Communication(DiLoCo)方法。
項目地址:https://github.com/PrimeIntellect-ai/OpenDiLoCo
在此之前,Prime Intellect 已經(jīng)在 1B 參數(shù)規(guī)模上實驗了去中心化 AI 模型訓(xùn)練。該團隊表示:「這讓我們到達了我們的 masterplan 的第三步:合作訓(xùn)練用于語言、智能體和科學(xué)的開放式基礎(chǔ)模型?!?/span>
Prime Intellect 的 masterplan
相比于之前開源的 OpenDiLoCo,Prime 有兩大關(guān)鍵提升。
一是在算法方面,他們在 OpenDiLoCo 上執(zhí)行了許多消融研究,發(fā)現(xiàn)還能進一步降低通信要求。值得注意的是,他們將偽梯度的 int8 量化與每 500 步進行一次的外部優(yōu)化器同步相結(jié)合,從而將帶寬要求降低了多達 2000 倍。這些結(jié)果不僅在較小規(guī)模下是有效的,該團隊也將它們擴展到了更大的模型。
在具體的大規(guī)模擴展方面,我們知道,去中心化訓(xùn)練既是工程挑戰(zhàn),也是研究挑戰(zhàn)。當今最大的 AI 實驗室也還沒有徹底解決在多個分布式數(shù)據(jù)中心上的容錯訓(xùn)練。該團隊表示,Prime 這種全新的去中心化訓(xùn)練框架支持容錯訓(xùn)練,支持計算資源的動態(tài)開啟/關(guān)閉,還能優(yōu)化全球分布式 GPU 網(wǎng)絡(luò)中的通信和路由。
Prime 中用于容錯訓(xùn)練的 ElasticDeviceMesh 的拓撲結(jié)構(gòu)
該團隊在博客中寫道:「該框架構(gòu)成了我們開源技術(shù)堆棧的基礎(chǔ),其目標是支持我們自己的算法以及 OpenDiLoCo 之外的其他去中心化訓(xùn)練算法。通過在此基礎(chǔ)架構(gòu)上構(gòu)建,我們的目標是突破全球分布式 AI 訓(xùn)練的極限。」
具體來說,Prime 框架包含以下關(guān)鍵特性:
- 用于容錯訓(xùn)練的 ElasticDeviceMesh
- 異步分布式檢查點
- 實時檢查點恢復(fù)
- 自定義 Int8 All-Reduce 內(nèi)核
- 最大化帶寬利用率
- PyTorch FSDP2 / DTensor ZeRO-3 實現(xiàn)
- CPU 卸載
計算效率
雖然訓(xùn)練散作滿天星,但計算效率仍保持「聚是一團火」的高水準:在美國境內(nèi)集群部署時,計算資源利用率高達 96%(中位數(shù)同步延遲僅 103s);跨越大西洋的部署場景下依然維持在 85.6% 的優(yōu)異水平(中位數(shù)同步延遲 382s);即便是在全球分布式節(jié)點配置下,計算利用率也能穩(wěn)定保持在 83%(中位數(shù)同步延遲 469s)。
這一系列亮眼的數(shù)據(jù)充分證明了該去中心化訓(xùn)練框架的容錯性和擴展性,不僅能夠從容應(yīng)對不同地理位置的網(wǎng)絡(luò)延遲挑戰(zhàn),更在確保訓(xùn)練穩(wěn)定性的同時實現(xiàn)了高效計算。
后訓(xùn)練
在完成分布在全球的預(yù)訓(xùn)練階段后,Prime Intellect 與 Arcee AI 合作開展了一系列后訓(xùn)練,以提升 INTELLECT-1 的整體能力和特定任務(wù)表現(xiàn)。主要包含三個階段:
- SFT(監(jiān)督微調(diào),16 輪)
- DPO(直接偏好優(yōu)化,8 輪)
- 使用 MergeKit 整合訓(xùn)練成果
更多信息請查看詳細技術(shù)報告:
論文鏈接:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
未來計劃:長期目標是 AGI
INTELLECT-1 的成功讓我們看到了去中心化訓(xùn)練的巨大潛力。至于如何將開源的 PRIME 框架擴展到目前動輒 70B 的規(guī)模呢?Prime Intellect 提了三點規(guī)劃:
- 繼續(xù)擴大全球計算網(wǎng)絡(luò)
- 用更多獎金激勵推動社區(qū)參與
- 進一步優(yōu)化 PRIME 去中心化訓(xùn)練架構(gòu)以支持更大的模型
在博客結(jié)尾,Prime Intellect 寫道:「為了防止 AI 能力被少數(shù)組織壟斷,我們誠邀全球 AI 社區(qū)通過 GitHub 或 Discord 加入我們。讓我們攜手共建一個更開放、更具協(xié)作性的 AI 發(fā)展未來。」