INTELLECT-1:全球首個去中心化訓(xùn)練的 10B 參數(shù)大模型
近日,Prime Intellect 團(tuán)隊發(fā)布了全球首個由全球協(xié)作訓(xùn)練的 10B 參數(shù)語言模型——INTELLECT-1 。這一突破性成果不僅標(biāo)志著大規(guī)模模型訓(xùn)練不再局限于大型企業(yè),而是可以通過分布式、社區(qū)驅(qū)動的方式實現(xiàn),為未來的 AI 發(fā)展開辟了新的道路。
項目亮點
INTELLECT-1 的成功訓(xùn)練涉及五大洲、五個國家,同時使用了 112 臺H100 GPU,由全球 30 位貢獻(xiàn)者共同完成。這一壯舉不僅展示了分布式訓(xùn)練的巨大潛力,還實現(xiàn)了高計算利用率:在美國境內(nèi)達(dá)到 96%,跨洋訓(xùn)練也有 83%的效率,整個訓(xùn)練過程僅耗時 42 天。
技術(shù)細(xì)節(jié)
INTELLECT-1 基于 Llama-3 架構(gòu),擁有 42 層、 4,096 個隱藏維度、 32 個注意力頭和 8,192 的序列長度。模型訓(xùn)練使用了 1萬億個 token 的數(shù)據(jù)集,包括 FineWeb-Edu 、Stack v2 等多種數(shù)據(jù)源。
Prime Intellect 團(tuán)隊開發(fā)的 PRIME 框架是這一項目的核心。該框架包括ElasticDeviceMesh,用于動態(tài)管理全球和本地進(jìn)程組,確保通信的容錯性;還實現(xiàn)了 live checkpoint recovery 和hybrid DiLoCo-FSDP2,大幅降低了通信帶寬需求。
同時,Prime Intellect 慷慨的開源了所有相關(guān)資源:
- 詳細(xì)技術(shù)報告:https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
- INTELLECT-1 基礎(chǔ)模型、檢查點和后訓(xùn)練模型:https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct
在線聊天體驗:https://chat.primeintellect.ai/,
- 預(yù)訓(xùn)練數(shù)據(jù)集:https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407
- 后訓(xùn)練數(shù)據(jù)集:https://huggingface.co/datasets/arcee-ai/EvolKit-75K
- PRIME 框架:https://github.com/PrimeIntellect-ai/prime
小結(jié)
開放、去中心是模型民主化的最重要的一步,INTELLECT-1 已經(jīng)做到了。我們期待Prime Intellect 能夠進(jìn)一步優(yōu)化分布式訓(xùn)練架構(gòu),跟上主流模型的模型性能表現(xiàn),更早落地應(yīng)用。
本文轉(zhuǎn)載自AI工程化,作者: ully ????
