清華團(tuán)隊(duì)靠強(qiáng)化學(xué)習(xí)讓 7B 模型打敗 GPT-4o 數(shù)學(xué)推理
OpenAI o1 和 o3 模型的發(fā)布證明了強(qiáng)化學(xué)習(xí)能夠讓大模型擁有像人一樣的快速迭代試錯(cuò)、深度思考的高階推理能力,在基于模仿學(xué)習(xí)的Scaling Law 逐漸受到質(zhì)疑的今天,基于探索的強(qiáng)化學(xué)習(xí)有望帶來新的 Scaling Law。
近日,清華大學(xué) NLP 實(shí)驗(yàn)室聯(lián)合上海 AI Lab,清華大學(xué)電子系及 OpenBMB 社區(qū)提出一種新的結(jié)合過程獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法—— PRIME(Process Reinforcement through IMplicit REwards),采用 PRIME 方法,研究人員不依賴任何蒸餾數(shù)據(jù)和模仿學(xué)習(xí),僅用 8 張 A100,花費(fèi)一萬塊錢左右,不到 10天 時(shí)間,就能高效訓(xùn)練出一個(gè)數(shù)學(xué)能力超過 GPT-4o、Llama-3.1-70B的 7B 模型 Eurus-2-7B-PRIME。
具體而言,研究人員利用 Qwen2.5-Math-7B-Base 作為基座模型,訓(xùn)練出了新模型 Eurus-2-7B-PRIME ,并在美國(guó) IMO 選拔考試 AIME 2024 上的準(zhǔn)確率達(dá)到 26.7%,大幅超越 GPT-4o,Llama3.1-70B 和 Qwen2.5-Math-7B-Instruct,且僅使用了 Qwen Math 數(shù)據(jù)的 1/10。其中,強(qiáng)化學(xué)習(xí)方法 PRIME 為模型帶來了 16.7% 的絕對(duì)提升,遠(yuǎn)超已知的任何開源方案。
該項(xiàng)目一經(jīng)開源就在海外 AI 社區(qū)爆火,短短幾天 Github 取得 300+ star。
未來,基于 PRIME 方法和更強(qiáng)的基座模型有潛力訓(xùn)練出接近 OpenAI o1 的模型。
? 技術(shù) Blog 鏈接:
? GitHub 鏈接:
?? ??https://github.com/PRIME-RL/PRIME??
PRIME 方法介紹
長(zhǎng)久以來,開源社區(qū)嚴(yán)重依賴數(shù)據(jù)驅(qū)動(dòng)的模仿學(xué)習(xí)來增強(qiáng)模型推理能力,但這種方法的局限也顯而易見——更強(qiáng)的推理能力需要更高質(zhì)量的數(shù)據(jù),但高質(zhì)量數(shù)據(jù)總是稀缺,使得模仿和蒸餾難以持續(xù)。雖然 OpenAI o1 和 o3 的成功證明了強(qiáng)化學(xué)習(xí)有著更高的上限,但強(qiáng)化學(xué)習(xí)有著兩個(gè)關(guān)鍵挑戰(zhàn):(1)如何獲得精準(zhǔn)且可擴(kuò)展的密集獎(jiǎng)勵(lì);(2)如何設(shè)計(jì)可以充分利用這些獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法。
PRIME 算法從隱式過程獎(jiǎng)勵(lì)(implicit process reward)的思想出發(fā)解決這兩個(gè)問題。隱式過程獎(jiǎng)勵(lì)模型可以僅在輸出獎(jiǎng)勵(lì)模型(outcome reward model, ORM)的數(shù)據(jù),即答案的最終對(duì)錯(cuò)上進(jìn)行訓(xùn)練,而隱式地建模過程獎(jiǎng)勵(lì),最終自動(dòng)訓(xùn)練出一個(gè)過程獎(jiǎng)勵(lì)模型,這整個(gè)過程都有嚴(yán)格的理論保證。
詳細(xì)推導(dǎo)見:https://huggingface.co/papers/2412.01981
基于隱式過程獎(jiǎng)勵(lì)模型的這種性質(zhì),研究人員指出將其應(yīng)用于強(qiáng)化學(xué)習(xí)有三大優(yōu)勢(shì):
1. 過程獎(jiǎng)勵(lì):隱式過程獎(jiǎng)勵(lì)模型能夠?yàn)槊總€(gè) token 提供價(jià)值估計(jì),在提供過程獎(jiǎng)勵(lì)的同時(shí)無需訓(xùn)練額外的價(jià)值模型(value model)
2. 可擴(kuò)展性:隱式過程獎(jiǎng)勵(lì)模型只需結(jié)果標(biāo)簽即可在線更新。所以,我們可以結(jié)合策略模型采樣與結(jié)果驗(yàn)證器來直接更新PRM,有效緩解分布偏移與可擴(kuò)展性問題。
3. 簡(jiǎn)潔性:隱式過程獎(jiǎng)勵(lì)模型本質(zhì)上就是一種語言模型。在實(shí)踐中,研究人員發(fā)現(xiàn)可以直接用初始的策略模型初始化 PRM。
隱式過程獎(jiǎng)勵(lì)解決了PRM在大模型強(qiáng)化學(xué)習(xí)中怎么用,怎么訓(xùn),怎么擴(kuò)展的三大問題,甚至不需要訓(xùn)練額外的獎(jiǎng)勵(lì)模型就可以開始強(qiáng)化學(xué)習(xí),易用性和可擴(kuò)展性極佳。
具體的PRIME算法流程如下圖所示,它是一種在線強(qiáng)化學(xué)習(xí)算法,能夠?qū)⒚總€(gè)token的過程獎(jiǎng)勵(lì)無縫應(yīng)用于強(qiáng)化學(xué)習(xí)流程中。
圖片
實(shí)驗(yàn)結(jié)果
研究人員詳細(xì)比較了PRIME算法和基線方法。
相比于僅用結(jié)果監(jiān)督,PRIME有著 2.5 倍的采樣效率提升,在下游任務(wù)上也有著顯著提升。
研究人員還驗(yàn)證了PRM在線更新的重要性,可以看到,在線的PRM更新要顯著優(yōu)于固定不更新的PRM,這也證明了PRIME算法設(shè)計(jì)和合理性。
此外,研究人員還額外收集數(shù)據(jù),基于 Qwen2.5-Math-Instruct 訓(xùn)練了 SOTA 水平的 EurusPRM,能夠在 Best-of-N 采樣中達(dá)到開源領(lǐng)先水平。
Showcase 介紹
Question1:
AIME 2024試題,Claude-3.5-Sonnet做錯(cuò)
Answer1:
Question2:
Which number is larger? 9.11 or 9.9?
Answer2:
強(qiáng)化學(xué)習(xí)是連接已有智能體(大模型)和現(xiàn)實(shí)世界(世界模型,具身智能)的橋梁,以及將世界反饋內(nèi)化為模型智能的路徑,將在下一代人工智能的發(fā)展中起到重要作用。PRIME 算法創(chuàng)新性地將隱式過程獎(jiǎng)勵(lì)與強(qiáng)化學(xué)習(xí)結(jié)合,解決了大模型強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)稀疏問題,有望推動(dòng)大模型復(fù)雜推理能力的進(jìn)一步提升。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
