1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero,沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法
DeepSeek啥都開源了,就是沒有開源訓(xùn)練代碼和數(shù)據(jù)。
現(xiàn)在,開源RL訓(xùn)練方法只需要用1/30的訓(xùn)練步驟就能趕上相同尺寸的DeepSeek-R1-Zero蒸餾Qwen。
國內(nèi)大模型六小強之一的階躍星辰聯(lián)與清華聯(lián)合發(fā)布Open Reasoner Zero(ORZ),由AI大拿沈向洋、階躍星辰創(chuàng)始人/CEO姜大昕、ResNet作者張祥雨等一眾大佬親自署名。
在響應(yīng)長度上,用約17%的訓(xùn)練步驟就能趕上DeepSeek-R1-Zero 671B。
值得關(guān)注的是,團(tuán)隊還發(fā)現(xiàn)了一個重要的轉(zhuǎn)折點——
在訓(xùn)練步驟約680步時,模型的訓(xùn)練獎勵值、反思能力和回答長度同時出現(xiàn)顯著提升,疑似出現(xiàn)了DeepSeek-R1-Zero論文中類似的“頓悟時刻”(aha moment)。
目前,研究訓(xùn)練數(shù)據(jù)、訓(xùn)練代碼、論文、模型全都100%開源,開源許可證用的也是寬松的MIT Lisence。
開源48小時,就已速攬700+星星。
以下是更多細(xì)節(jié)。
復(fù)雜的獎勵函數(shù)不必要?!
通過廣泛的實驗,團(tuán)隊證明了一種極簡主義的方法,帶有GAE的原版PPO就可以有效地擴展RL訓(xùn)練(關(guān)鍵的參數(shù)設(shè)置是GAE λ= 1,折扣因子γ=1)。
再加上基于規(guī)則的獎勵函數(shù),足以在推理任務(wù)上同時擴大響應(yīng)長度和基準(zhǔn)性能,類似于DeepSeek-R1-Zero中觀察到的現(xiàn)象。
這一結(jié)果表明復(fù)雜的獎勵函數(shù)是不必要的。
另外,團(tuán)隊在不依賴任何基于KL的正則化技術(shù)的情況下實現(xiàn)了穩(wěn)定的訓(xùn)練,這與RLHF和推理模型領(lǐng)域目前的認(rèn)知不同,這也為進(jìn)一步擴大強化學(xué)習(xí)規(guī)模提供了希望。
同時擴大數(shù)據(jù)數(shù)量和多樣性對于Open Reasoner Zero的訓(xùn)練至關(guān)重要。雖然在像MATH這樣有限的學(xué)術(shù)數(shù)據(jù)集上訓(xùn)練會導(dǎo)致性能快速達(dá)到平臺期,但精心策劃的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴展,在訓(xùn)練集和測試集上都沒有飽和的跡象。
在以Qwen2.5-Base-7B為基礎(chǔ)模型的實驗中,所有基準(zhǔn)測試在某個時間點都會經(jīng)歷獎勵和響應(yīng)長度的突然增加,這種現(xiàn)象類似于涌現(xiàn)行為。
在整個訓(xùn)練過程中,Average Correct Reflection Length始終高于 Average Response Length。一個特別值得注意的現(xiàn)象出現(xiàn)在第 680步附近,可以觀察到三個指標(biāo)同時加速。
最終,Open-Reasoner-Zero模型在MMLU和MMLU_PRO基準(zhǔn)測試中,無需任何額外的指令調(diào)整即可超越 Qwen2.5 Instruct。
One More Thing
昨天,在階躍星辰生態(tài)開放日上,階躍星辰創(chuàng)始人兼CEO姜大昕就有簡單提及這項研究。
只提了一嘴,是因為研究還未完全完成(Working in Progress),隨時可能有新進(jìn)展,感興趣的盆友可以關(guān)注一哈。
項目地址:
https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/