全球開發(fā)者組團(tuán)訓(xùn)練,首個(gè)異步強(qiáng)化學(xué)習(xí)32B推理模型震撼來襲!數(shù)據(jù)已開源
最近,全球第一個(gè)用去中心化強(qiáng)化學(xué)習(xí)訓(xùn)練的32B模型——INTELLECT-2正式發(fā)布!
任何人都能用自己的異構(gòu)計(jì)算資源參與,無需授權(quán)。
這種全新的范式,讓去中心化訓(xùn)練在編碼、數(shù)學(xué)和科學(xué)領(lǐng)域,邁向前沿的推理性能。
INTELLECT-2是大規(guī)模去中心化強(qiáng)化學(xué)習(xí)的開端,他們的下一步計(jì)劃是用強(qiáng)化學(xué)習(xí)訓(xùn)練端到端智能體。
去中心化強(qiáng)化學(xué)習(xí)正處于起步階段,若能匯聚社區(qū)和各方貢獻(xiàn),開源AI有望超越閉源實(shí)驗(yàn)室。
AI社區(qū)對這項(xiàng)工作給出了非常積極的肯定。
隨著OpenAI o1和DeepSeek R1的發(fā)布,出現(xiàn)了預(yù)訓(xùn)練以外的擴(kuò)展范式,借助RL進(jìn)行優(yōu)化,讓模型有更多時(shí)間進(jìn)行推理。
之前發(fā)布的成果曾探討,為何通過RL訓(xùn)練的推理模型,相比標(biāo)準(zhǔn)的LLM預(yù)訓(xùn)練,更適合去中心化訓(xùn)練。
INTELLECT-2將有力地證實(shí)這一觀點(diǎn)。
博客鏈接:https://www.primeintellect.ai/blog/intellect-2
全球首個(gè)去中心化強(qiáng)化學(xué)習(xí)32B模型
過去一年,研究者致力于構(gòu)建所有關(guān)鍵的開源組件,讓INTELLECT-2具備前沿的推理性能,支持異構(gòu)計(jì)算節(jié)點(diǎn),并允許無需授權(quán)的貢獻(xiàn),能對32B參數(shù)模型進(jìn)行去中心化RL訓(xùn)練:
- prime-RL:新推出的開源庫,用于完全異步的去中心化RL,基于具備容錯(cuò)的去中心化訓(xùn)練框架prime開發(fā)。
- SYNTHETIC-1 & GENESYS:用于RL任務(wù)眾包和驗(yàn)證環(huán)境的庫。
- TOPLOC:實(shí)現(xiàn)高效、可驗(yàn)證的推理方法,用于驗(yàn)證INTELLECT-2中所有去中心化rollout節(jié)點(diǎn)的計(jì)算。
- 協(xié)議測試網(wǎng):提供基礎(chǔ)設(shè)施和經(jīng)濟(jì)激勵(lì),用于聚合和協(xié)調(diào)全球計(jì)算資源,打造真正自主的開源AI生態(tài)系統(tǒng)。
Prime-RL:去中心化訓(xùn)練框架
INTELLECT-2基礎(chǔ)設(shè)施主要由三個(gè)組件構(gòu)成:
- 推理采樣節(jié)點(diǎn)(Inference Rollout Workers):一組去中心化節(jié)點(diǎn),用最新的策略模型,從環(huán)境中收集推理軌跡(reasoning rollouts),并計(jì)算相應(yīng)的獎(jiǎng)勵(lì)。
- TOPLOC驗(yàn)證節(jié)點(diǎn)(TOPLOC Validators):負(fù)責(zé)高效驗(yàn)證無需授權(quán)的rollout工作節(jié)點(diǎn)的推理計(jì)算,打造無需信任的系統(tǒng)。
- GRPO訓(xùn)練節(jié)點(diǎn)(GRPO Training Workers):從去中心化推理采樣節(jié)點(diǎn)收集到新生成的數(shù)據(jù)后,采用DeepSeek的GRPO訓(xùn)練方法進(jìn)行訓(xùn)練。訓(xùn)練完成后,這些訓(xùn)練節(jié)點(diǎn)會(huì)通過Shardcast庫,將更新后的權(quán)重廣播給所有推理節(jié)點(diǎn),以啟動(dòng)下一輪數(shù)據(jù)收集。
該基礎(chǔ)設(shè)施具備以下特性:
- 完全消除通信開銷:通過異步強(qiáng)化學(xué)習(xí),新策略模型的廣播與正在進(jìn)行的推理和訓(xùn)練完全重疊,通信不再成為瓶頸。
- 支持異構(gòu)推理節(jié)點(diǎn):允許任何人按自己的節(jié)奏生成推理軌跡(reasoning traces),跨節(jié)點(diǎn)處理速度沒有統(tǒng)一要求。
- 資源需求低:在這種訓(xùn)練設(shè)置中,占計(jì)算資源大頭的推理節(jié)點(diǎn)可以在消費(fèi)級(jí)GPU上運(yùn)行。例如,配備4塊RTX 3090 GPU的機(jī)器,足以支持32B參數(shù)模型的訓(xùn)練。
- 實(shí)現(xiàn)高效驗(yàn)證:推理計(jì)算的驗(yàn)證過程,不會(huì)引入訓(xùn)練瓶頸。
異步強(qiáng)化學(xué)習(xí)
RL在本質(zhì)上比傳統(tǒng)的LLM預(yù)訓(xùn)練更具異步性。在去中心化RL中,數(shù)據(jù)收集和網(wǎng)絡(luò)訓(xùn)練可以分開進(jìn)行。
多個(gè)節(jié)點(diǎn)在并行環(huán)境中運(yùn)行,各自異步收集經(jīng)驗(yàn)數(shù)據(jù),中央學(xué)習(xí)器負(fù)責(zé)接收和處理這些數(shù)據(jù)。
由于經(jīng)驗(yàn)數(shù)據(jù)到達(dá)的時(shí)間不同,且來自狀態(tài)空間的不同部分,每個(gè)步驟的發(fā)生速率也有所不同。
異步強(qiáng)化學(xué)習(xí)在Tulu 3和Llama 4中得到了成功應(yīng)用,采用單步異步強(qiáng)化學(xué)習(xí)方法,提升了訓(xùn)練效率。
消融實(shí)驗(yàn)表明,即使采用四步異步訓(xùn)練(即推理節(jié)點(diǎn)使用的策略模型落后四步),也能復(fù)現(xiàn)DeepScaleR的結(jié)果,且不會(huì)降低模型性能。
這樣的異步程度,在去中心化RL訓(xùn)練中,即使全局互聯(lián)較弱,也能將通信時(shí)間完全隱藏在計(jì)算過程中。
同步DeepScaleR訓(xùn)練與異步Prime-RL的比較:即使延遲增加(最多四步),Prime-RL的性能仍能與同步基線媲美
此外,異步強(qiáng)化學(xué)習(xí)不僅實(shí)現(xiàn)了去中心化訓(xùn)練設(shè)置,還通過分別優(yōu)化訓(xùn)練和推理引擎,進(jìn)一步提高了效率。
例如,在prime-rl庫中,rollout節(jié)點(diǎn)可以利用vLLM,及全套推理優(yōu)化技術(shù)。
完全異步的在線RL訓(xùn)練框架prime-rl已開源,任何人都能借此開啟全球去中心化RL訓(xùn)練。
Shardcast
基礎(chǔ)設(shè)施中的一個(gè)關(guān)鍵組件,Shardcast是能盡快將新策略模型從訓(xùn)練節(jié)點(diǎn)廣播到所有去中心化推理節(jié)點(diǎn)的機(jī)制。
Shardcast是一個(gè)通過基于HTTP的樹狀拓?fù)渚W(wǎng)絡(luò)分發(fā)大型文件的庫,由以下部分組成:
- 源服務(wù)器(Origin Server):作為根節(jié)點(diǎn),將大文件分片,并通過HTTP提供分片服務(wù)。
- 中間節(jié)點(diǎn)(Middle Nodes):作為中間服務(wù)器,從上游服務(wù)器下載分片,并以流水線方式轉(zhuǎn)發(fā)。
- 客戶端節(jié)點(diǎn)(Client Nodes):下載分片并重新組裝成原始文件。
TOPLOC驗(yàn)證
TOPLOC是一種用于可驗(yàn)證推理的局部敏感哈希方案,旨在檢測推理過程中的惡意修改。
它能實(shí)現(xiàn)以下功能:
- 檢測推理過程中對模型、提示或精度的修改。
- 有效應(yīng)對GPU硬件的不確定性,這是可驗(yàn)證計(jì)算中的主要挑戰(zhàn)之一。TOPLOC在不同類型的GPU、張量并行配置和注意力內(nèi)核上都能可靠運(yùn)行。
- 驗(yàn)證速度比生成速度快得多。
在INTELLECT-2中對TOPLOC進(jìn)行生產(chǎn)環(huán)境測試,任何人都能以無需授權(quán)的方式貢獻(xiàn)GPU資源。
協(xié)議測試網(wǎng)
幾周前,團(tuán)隊(duì)宣布了公共協(xié)議測試網(wǎng)的啟動(dòng),旨在實(shí)現(xiàn)真正自主的開源AI生態(tài)系統(tǒng)。
今天,首個(gè)無需授權(quán)的計(jì)算池開放,任何人都能在自己的GPU上運(yùn)行協(xié)議測試網(wǎng)節(jié)點(diǎn)。
注冊、計(jì)算資源驗(yàn)證、對惡意行為的懲罰等操作,都在公共以太坊Base測試網(wǎng)上完成。這帶來了諸多好處:
- 全球規(guī)模的計(jì)算資源聚合:節(jié)點(diǎn)設(shè)計(jì)允許任何人在全球任何計(jì)算設(shè)備上運(yùn)行,加入去中心化網(wǎng)絡(luò),并最終因節(jié)點(diǎn)所做的貢獻(xiàn)獲得獎(jiǎng)勵(lì)。這有助于擴(kuò)展規(guī)模,無授權(quán)地整合來自全球的數(shù)據(jù)中心資源。
- 為完全去中心化訓(xùn)練奠定基礎(chǔ):所有加入計(jì)算池的節(jié)點(diǎn)都以點(diǎn)對點(diǎn)(peer-to-peer)的方式進(jìn)行通信和協(xié)調(diào)。這為完全去中心化、無授權(quán)地訓(xùn)練和微調(diào)開源模型奠定了基礎(chǔ),對構(gòu)建真正自主的開源AI生態(tài)系統(tǒng)至關(guān)重要。
除了對基礎(chǔ)設(shè)施進(jìn)行多項(xiàng)改進(jìn),在協(xié)議層面也有其他關(guān)鍵進(jìn)展。
- 檢測和防范攻擊與欺詐的機(jī)制:將TOPLOC驗(yàn)證集成到節(jié)點(diǎn)中,實(shí)現(xiàn)高效驗(yàn)證,有助于識(shí)別偽造GPU或污染數(shù)據(jù)集的行為。
- 鼓勵(lì)誠實(shí)行為的激勵(lì):為減少不誠信行為,嘗試采用經(jīng)濟(jì)激勵(lì),抑制偽造GPU或提交虛假數(shù)據(jù)等惡意行為。具體做法是要求節(jié)點(diǎn)預(yù)先抵押一定的資金,如果節(jié)點(diǎn)被認(rèn)定存在不誠信行為,這些抵押資金將被扣除。
此外,團(tuán)隊(duì)為節(jié)點(diǎn)的工作設(shè)定了24小時(shí)的驗(yàn)證期,期間若發(fā)現(xiàn)問題,節(jié)點(diǎn)工作將被判定無效并扣除相應(yīng)獎(jiǎng)勵(lì)。如果節(jié)點(diǎn)出現(xiàn)惡意行為或試圖鉆機(jī)制的空子,最多會(huì)扣除24小時(shí)的獎(jiǎng)勵(lì)。
模型訓(xùn)練詳情
INTELLECT-2的目標(biāo)是訓(xùn)練出一個(gè)具有可控思考預(yù)算的前沿推理模型。
用戶和開發(fā)者可通過系統(tǒng)提示詞,指定模型在得出最終解決方案前,對一個(gè)問題應(yīng)思考的token數(shù)量。
這種方法能讓訓(xùn)練出的模型在實(shí)際應(yīng)用中更加高效。
近期的研究(如ThinkPrune、L1和Deepscaler)表明,經(jīng)過專門訓(xùn)練、在嚴(yán)格約束下進(jìn)行推理訓(xùn)練的模型,幾乎能解決所有無約束推理模型可解決的問題,且速度更快,推理成本也更降低。
通過提示控制推理預(yù)算,用戶既能利用這一優(yōu)勢,又能在遇到極具挑戰(zhàn)性的問題時(shí),選擇更長的推理時(shí)間。
「L1:利用RL控制推理模型的思考時(shí)長」的研究結(jié)果表明,推理模型可以被訓(xùn)練來遵循其提示詞中指定的token數(shù)量,且模型性能會(huì)隨推理預(yù)算的增加而可預(yù)測地提升;團(tuán)隊(duì)用自研框架prime-rl獨(dú)立復(fù)現(xiàn)了論文結(jié)果
為訓(xùn)練出這樣的模型,團(tuán)隊(duì)以QwQ-32B為基模型,遵循Deepseek-R1的方法,應(yīng)用GRPO算法,結(jié)合數(shù)學(xué)和編程領(lǐng)域的可驗(yàn)證獎(jiǎng)勵(lì)。
在初步實(shí)驗(yàn)中,以下幾個(gè)部分對控制模型思考預(yù)算、提升模型性能起到了重要作用:
通過長度獎(jiǎng)勵(lì)實(shí)現(xiàn)可控思考預(yù)算
除了根據(jù)輸出的正確性給予任務(wù)獎(jiǎng)勵(lì)外,還引入了長度獎(jiǎng)勵(lì),以引導(dǎo)模型遵循提示詞中指定的思維預(yù)算。
團(tuán)隊(duì)參考了L1的研究思路,從指定范圍內(nèi)采樣目標(biāo)長度,將其加入提示詞,根據(jù)目標(biāo)長度與實(shí)際響應(yīng)長度的差異來分配獎(jiǎng)勵(lì)。
與L1不同,團(tuán)隊(duì)沒有從一個(gè)連續(xù)的值范圍中采樣目標(biāo)長度,而是從一小組預(yù)定義的值中采樣,更有利于模型學(xué)習(xí)。
通過長度控制進(jìn)行訓(xùn)練,不僅讓模型更實(shí)用,還能更高效地利用異構(gòu)推理硬件。
對于每個(gè)rollout過程,為GPU顯存和算力較低的推理節(jié)點(diǎn)分配較小的思考預(yù)算,為計(jì)算能力更強(qiáng)的節(jié)點(diǎn)分配較大的思考預(yù)算。
這樣,可以在較慢的節(jié)點(diǎn)設(shè)置較低的最大生成長度,從而在使用異構(gòu)硬件時(shí),各個(gè)rollout的處理時(shí)間基本一致。
離線數(shù)據(jù)過濾
實(shí)驗(yàn)中發(fā)現(xiàn)仔細(xì)篩選數(shù)據(jù)對模型性能至關(guān)重要。
用原始的Deepscaler數(shù)據(jù)集和方法訓(xùn)練DeepSeek-R1-Distill-Qwen-7B模型時(shí),模型性能并未提升。
對數(shù)據(jù)難度進(jìn)行嚴(yán)格篩選,只保留模型無法100%正確解答的問題。訓(xùn)練過程中的獎(jiǎng)勵(lì)增加,最終模型在數(shù)學(xué)基準(zhǔn)測試中的表現(xiàn)也有提高。
在Deepscaler數(shù)據(jù)集的未過濾版本(左)和經(jīng)難度過濾版本(右)上訓(xùn)練DeepSeek-R1-Distill-Qwen-7B的獎(jiǎng)勵(lì)軌跡
為篩選INTELLECT-2的訓(xùn)練數(shù)據(jù)集,用DeepSeek-R1-Distill-Qwen-7B對所有問題進(jìn)行8次采樣,以評估問題的難度。為確保訓(xùn)練集中只保留具有挑戰(zhàn)性的問題,僅采用解答率為75%及以下的問題。
在線優(yōu)勢過濾:訓(xùn)練過程中,如果所有完成結(jié)果都獲得相同的獎(jiǎng)勵(lì),這些問題就不會(huì)產(chǎn)生訓(xùn)練信號(hào),因?yàn)槠鋬?yōu)勢值(以及相應(yīng)的損失)為零。
團(tuán)隊(duì)會(huì)過濾掉這些問題,繼續(xù)進(jìn)行推理,直到獲得一整批具有非零優(yōu)勢的問題。
這提高了訓(xùn)練效率,避免在無意義的樣本上浪費(fèi)計(jì)算資源。此外,這意味著推理所需時(shí)間多于訓(xùn)練,因此非常適合用去中心化推理節(jié)點(diǎn)。
訓(xùn)練任務(wù)與驗(yàn)證器
對于INTELLECT-2,團(tuán)隊(duì)主要關(guān)注可驗(yàn)證的數(shù)學(xué)和編程問題,從SYNTHETIC-1中選取了經(jīng)過嚴(yán)格質(zhì)量和難度篩選的任務(wù)子集。
完整的訓(xùn)練數(shù)據(jù)集可在Hugging Face上獲取。
數(shù)據(jù)集地址:https://huggingface.co/datasets/PrimeIntellect/Intellect-2-RL-Dataset
如何貢獻(xiàn)計(jì)算資源
INTELLECT-2是首個(gè)真正意義上允許任何人用自己的計(jì)算資源參與的項(xiàng)目。
由于大家的熱情極高,計(jì)算池的容量早早就已經(jīng)滿了。
現(xiàn)在想要貢獻(xiàn)算力,還得提申請排隊(duì)才行。
當(dāng)然,并不是隨便什么算力他們都接受——
- GPU必須是A100(80GB),H100(80GB),H200(141GB)
- 算力節(jié)點(diǎn)需要是4卡或者8卡為一組
訓(xùn)練進(jìn)度和算力貢獻(xiàn)情況長這樣:
儀表盤:https://app.primeintellect.ai/intelligence
總結(jié)來看,INTELLECT-2的發(fā)布是大規(guī)模去中心化強(qiáng)化學(xué)習(xí)的開端。
基礎(chǔ)架構(gòu)現(xiàn)已搭建完畢,接下來需要共同努力,將其擴(kuò)展到更具影響力的應(yīng)用領(lǐng)域。