自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

僅需一萬塊錢!清華團隊靠強化學(xué)習(xí)讓7B模型數(shù)學(xué)打敗GPT-4o

人工智能 新聞
近日,清華大學(xué)NLP實驗室、上海AI Lab、清華大學(xué)電子系、OpenBMB社區(qū)等團隊提出一種新的結(jié)合過程獎勵的強化學(xué)習(xí)方法——PRIME(Process Reinforcement through IMplicit REwards)。

OpenAI o1和o3模型的發(fā)布證明了強化學(xué)習(xí)能夠讓大模型擁有像人一樣的快速迭代試錯、深度思考的高階推理能力,在基于模仿學(xué)習(xí)的Scaling Law逐漸受到質(zhì)疑的今天,基于探索的強化學(xué)習(xí)有望帶來新的Scaling Law。

近日,清華大學(xué)NLP實驗室、上海AI Lab、清華大學(xué)電子系、OpenBMB社區(qū)等團隊提出一種新的結(jié)合過程獎勵的強化學(xué)習(xí)方法——PRIME(Process Reinforcement through IMplicit REwards)。

圖片

采用PRIME方法,研究人員不依賴任何蒸餾數(shù)據(jù)和模仿學(xué)習(xí),僅用8張A100,花費一萬塊錢左右,不到10天時間,就能高效訓(xùn)練出一個數(shù)學(xué)能力超過 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。

具體而言,研究人員利用Qwen2.5-Math-7B-Base作為基座模型,訓(xùn)練出了新模型Eurus-2-7B-PRIME,并在美國IMO選拔考試AIME 2024上的準(zhǔn)確率達到26.7%,大幅超越GPT-4o,Llama3.1-70B和Qwen2.5-Math-7B-Instruct,且僅使用了Qwen Math數(shù)據(jù)的 1/10。其中,強化學(xué)習(xí)方法PRIME為模型帶來了16.7%的絕對提升,遠超已知的任何開源方案。

圖片
圖片

該項目一經(jīng)開源就在海外AI社區(qū)爆火,短短幾天Github取得近300star。

未來,基于PRIME方法和更強的基座模型有潛力訓(xùn)練出接近OpenAI o1的模型。

PRIME方法介紹

長久以來,開源社區(qū)嚴(yán)重依賴數(shù)據(jù)驅(qū)動的模仿學(xué)習(xí)來增強模型推理能力,但這種方法的局限也顯而易見——更強的推理能力需要更高質(zhì)量的數(shù)據(jù),但高質(zhì)量數(shù)據(jù)總是稀缺,使得模仿和蒸餾難以持續(xù)。

雖然OpenAI o1和o3的成功證明了強化學(xué)習(xí)有著更高的上限,但強化學(xué)習(xí)有著兩個關(guān)鍵挑戰(zhàn):(1)如何獲得精準(zhǔn)且可擴展的密集獎勵;(2)如何設(shè)計可以充分利用這些獎勵的強化學(xué)習(xí)算法。

PRIME算法從隱式過程獎勵(implicit process reward)的思想出發(fā)解決這兩個問題。隱式過程獎勵模型可以僅在輸出獎勵模型(outcome reward model, ORM)的數(shù)據(jù),即答案的最終對錯上進行訓(xùn)練,而隱式地建模過程獎勵,最終自動訓(xùn)練出一個過程獎勵模型,這整個過程都有嚴(yán)格的理論保證。

詳細推導(dǎo)見:https://huggingface.co/papers/2412.01981

圖片

基于隱式過程獎勵模型的這種性質(zhì),研究人員指出將其應(yīng)用于強化學(xué)習(xí)有三大優(yōu)勢:

  • 過程獎勵:隱式過程獎勵模型能夠為每個 token 提供價值估計,在提供過程獎勵的同時無需訓(xùn)練額外的價值模型(value model)
  • 可擴展性:隱式過程獎勵模型只需結(jié)果標(biāo)簽即可在線更新。所以,我們可以結(jié)合策略模型采樣與結(jié)果驗證器來直接更新PRM,有效緩解分布偏移與可擴展性問題。
  • 簡潔性:隱式過程獎勵模型本質(zhì)上就是一種語言模型。在實踐中,研究人員發(fā)現(xiàn)可以直接用初始的策略模型初始化PRM。

隱式過程獎勵解決了PRM在大模型強化學(xué)習(xí)中怎么用,怎么訓(xùn),怎么擴展的三大問題,甚至不需要訓(xùn)練額外的獎勵模型就可以開始強化學(xué)習(xí),易用性和可擴展性極佳。

具體的PRIME算法流程如下圖所示,它是一種在線強化學(xué)習(xí)算法,能夠?qū)⒚總€token的過程獎勵無縫應(yīng)用于強化學(xué)習(xí)流程中。

圖片

實驗結(jié)果

研究人員詳細比較了PRIME算法和基線方法。

相比于僅用結(jié)果監(jiān)督,PRIME有著2.5倍的采樣效率提升,在下游任務(wù)上也有著顯著提升。

圖片
圖片

研究人員還驗證了PRM在線更新的重要性,可以看到,在線的PRM更新要顯著優(yōu)于固定不更新的PRM,這也證明了PRIME算法設(shè)計和合理性。

圖片

此外,研究人員還額外收集數(shù)據(jù),基于Qwen2.5-Math-Instruct訓(xùn)練了SOTA水平的EurusPRM,能夠在Best-of-N采樣中達到開源領(lǐng)先水平。

圖片

Showcase演示

Question (AIME 2024試題,Claude-3.5-Sonnet做錯)

圖片

Answer

圖片

Question

Which number is larger? 9.11 or 9.9?

Answer

圖片

強化學(xué)習(xí)是連接已有智能體(大模型)和現(xiàn)實世界(世界模型,具身智能)的橋梁,以及將世界反饋內(nèi)化為模型智能的路徑,將在下一代人工智能的發(fā)展中起到重要作用。PRIME 算法創(chuàng)新性地將隱式過程獎勵與強化學(xué)習(xí)結(jié)合,解決了大模型強化學(xué)習(xí)的獎勵稀疏問題,有望推動大模型復(fù)雜推理能力的進一步提升。

blog鏈接:https://curvy-check-498.notion.site/Process-Reinforcement-through-Implicit-Rewards-15f4fcb9c42180f1b498cc9b2eaf896fGitHub鏈接:https://github.com/PRIME-RL/PRIME

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-02-07 12:39:00

AI數(shù)據(jù)

2025-02-25 12:30:00

2025-03-11 13:07:58

2024-09-23 15:04:16

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2025-03-10 01:00:00

2025-04-11 09:10:00

模型開源AI

2025-01-02 13:00:00

2024-05-09 08:33:33

2024-09-23 15:10:00

2025-02-27 13:45:00

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2024-05-21 11:35:48

阿里云通義千問

2024-06-11 14:30:18

2024-09-23 08:30:00

AI模型

2024-05-07 13:07:03

AI模型

2024-08-05 08:46:00

模型測評

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2024-09-03 14:30:00

機器人模型

2024-05-21 12:23:17

點贊
收藏

51CTO技術(shù)棧公眾號