自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="0haq6"></em>

<thead id="0haq6"></thead>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

INTELLECT-1：全球首個去中心化訓(xùn)練的 10B 參數(shù)大模型

發(fā)布于 2024-12-4 11:58

瀏覽

0收藏

近日，Prime Intellect 團(tuán)隊發(fā)布了全球首個由全球協(xié)作訓(xùn)練的 10B 參數(shù)語言模型——INTELLECT-1 。這一突破性成果不僅標(biāo)志著大規(guī)模模型訓(xùn)練不再局限于大型企業(yè)，而是可以通過分布式、社區(qū)驅(qū)動的方式實現(xiàn)，為未來的 AI 發(fā)展開辟了新的道路。

INTELLECT-1：全球首個去中心化訓(xùn)練的 10B 參數(shù)大模型-AI.x社區(qū)

項目亮點

INTELLECT-1 的成功訓(xùn)練涉及五大洲、五個國家，同時使用了 112 臺H100 GPU，由全球 30 位貢獻(xiàn)者共同完成。這一壯舉不僅展示了分布式訓(xùn)練的巨大潛力，還實現(xiàn)了高計算利用率：在美國境內(nèi)達(dá)到 96%，跨洋訓(xùn)練也有 83%的效率，整個訓(xùn)練過程僅耗時 42 天。

技術(shù)細(xì)節(jié)

INTELLECT-1 基于 Llama-3 架構(gòu)，擁有 42 層、 4,096 個隱藏維度、 32 個注意力頭和 8,192 的序列長度。模型訓(xùn)練使用了 1萬億個 token 的數(shù)據(jù)集，包括 FineWeb-Edu 、Stack v2 等多種數(shù)據(jù)源。

INTELLECT-1：全球首個去中心化訓(xùn)練的 10B 參數(shù)大模型-AI.x社區(qū)

Prime Intellect 團(tuán)隊開發(fā)的 PRIME 框架是這一項目的核心。該框架包括ElasticDeviceMesh，用于動態(tài)管理全球和本地進(jìn)程組，確保通信的容錯性；還實現(xiàn)了 live checkpoint recovery 和hybrid DiLoCo-FSDP2，大幅降低了通信帶寬需求。

同時，Prime Intellect 慷慨的開源了所有相關(guān)資源：

詳細(xì)技術(shù)報告：https://github.com/PrimeIntellect-ai/prime/blob/main/INTELLECT_1_Technical_Report.pdf
INTELLECT-1 基礎(chǔ)模型、檢查點和后訓(xùn)練模型：https://huggingface.co/PrimeIntellect/INTELLECT-1-Instruct

在線聊天體驗：https://chat.primeintellect.ai/，

INTELLECT-1：全球首個去中心化訓(xùn)練的 10B 參數(shù)大模型-AI.x社區(qū)

似乎不太聰明

預(yù)訓(xùn)練數(shù)據(jù)集：https://huggingface.co/collections/PrimeIntellect/intellect-1-dataset-6704f3d3a9dee8678da3d407
后訓(xùn)練數(shù)據(jù)集：https://huggingface.co/datasets/arcee-ai/EvolKit-75K
PRIME 框架：https://github.com/PrimeIntellect-ai/prime

小結(jié)

開放、去中心是模型民主化的最重要的一步，INTELLECT-1 已經(jīng)做到了。我們期待Prime Intellect 能夠進(jìn)一步優(yōu)化分布式訓(xùn)練架構(gòu)，跟上主流模型的模型性能表現(xiàn)，更早落地應(yīng)用。

本文轉(zhuǎn)載自AI工程化，作者： ully ????

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

2萬億訓(xùn)練數(shù)據(jù)，120億參數(shù)！開源大模型Stable LM 2-12B

Aceryt ? 3561瀏覽 ? 0回復(fù)
Meta無限長文本大模型來了：參數(shù)僅7B，已開源

輕薄滴假象 ? 2573瀏覽 ? 0回復(fù)
大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.2w瀏覽 ? 0回復(fù)
什么是超參數(shù)？大模型的超參數(shù)是做什么用的？超參數(shù)和大模型參數(shù)有什么關(guān)系？

AI探索時代 ? 5416瀏覽 ? 0回復(fù)
大模型所謂的參數(shù)是什么？大模型為什么需要訓(xùn)練？大模型訓(xùn)練到底干了什么？

AI探索時代 ? 6081瀏覽 ? 0回復(fù)
自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用

xuxiangda ? 4636瀏覽 ? 0回復(fù)
Mistral開源首個多模態(tài)大模型—Pixtral 12B

Aceryt ? 2414瀏覽 ? 0回復(fù)
全球首個帶背景音樂，文生1080超高清視頻模型

Aceryt ? 2406瀏覽 ? 0回復(fù)
阿里國際發(fā)布首個大規(guī)模商用翻譯大模型Marco，效果超Google、DeepL等，全球開放！

51CTO技術(shù)棧 ? 3109瀏覽 ? 0回復(fù)
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓(xùn)練技術(shù)對比大解密！

51CTO技術(shù)棧 ? 4693瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
全球首個AI CUDA工程師來了！將PyTorch原生實現(xiàn)提速10-100倍

輕薄滴假象 ? 1646瀏覽 ? 0回復(fù)
全球首個混合推理模型Claude 3.7 Sonnet發(fā)布，編碼能力直接起飛！

AI博物院 ? 2100瀏覽 ? 0回復(fù)
阿里開源QwQ-32B，性能與Deepseek R1持平。一個擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2132瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 1703瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2431瀏覽 ? 0回復(fù)
音樂界的DeepSeek來了！全球首個音樂推理大模型Mureka O1上線，音樂領(lǐng)域要迎來大變革了？

算家計算 ? 1218瀏覽 ? 0回復(fù)
UB-Mesh：一種分層局部化的n維全互連數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)

chengganfei ? 4371瀏覽 ? 0回復(fù)
國產(chǎn)大模型崛起！智譜發(fā)布GLM-4-32B-0414系列模型，以32B模型參數(shù)比肩GPT-4o和DeepSeek V3/R1

AIGCStudio ? 762瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

大模型靠強(qiáng)化學(xué)習(xí)就能無限變強(qiáng)？清華潑了一盆冷水 18h前發(fā)布
METR發(fā)現(xiàn) AI 編碼的“摩爾定律”？指數(shù)級增長或顛覆軟件開發(fā) 18h前發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： AI 推理市場全景解析：戰(zhàn)火從云端到邊緣端

下一篇：微軟 Phi-4 震撼發(fā)布：14B 參數(shù)模型性能超越一眾大模型，數(shù)學(xué)推理性能提升顯著

社區(qū)精華內(nèi)容

目錄

<blockquote id="1wkvk"></blockquote>