自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個o1復(fù)現(xiàn)開源RL框架OpenR來了,UCL、上交等高校聯(lián)合團隊發(fā)布

人工智能 開源 新聞
倫敦大學(xué)學(xué)院(UCL)、上海交通大學(xué)、利物浦大學(xué)、香港科技大學(xué)(廣州)、西湖大學(xué)聯(lián)合開源了首個類 o1 全鏈條訓(xùn)練框架「OpenR」,一個開源代碼庫,幫助用戶快速實現(xiàn)構(gòu)建自己的復(fù)雜推斷模型 。

OpenR 研究團隊成員包括:汪軍教授,倫敦大學(xué)學(xué)院(UCL)計算機系教授,阿蘭?圖靈研究所 Turing Fellow,其指導(dǎo)的 UCL 一年級博士生宋研。利物浦大學(xué)助理教授方蒙。上海交通大學(xué) Apex 和多智能體實驗室張偉楠教授(上海交通大學(xué)計算機系教授、博士生導(dǎo)師、副系主任),溫穎副教授(上海交通大學(xué)約翰?霍普克羅夫特計算機科學(xué)中心副教授)以及其指導(dǎo)的博士生萬梓煜、溫睦寧、朱家琛。張偉楠教授和溫穎副教授博士期間就讀于 UCL,指導(dǎo)教師為汪軍教授。香港科技大學(xué)(廣州)創(chuàng)校校長,倪明選(Lionel M. Ni),香港工程科學(xué)院院士,香港科技大學(xué)(廣州)講席教授。陳雷,香港科技大學(xué)(廣州)信息樞紐院長,講席教授。香港科技大學(xué)(廣州)一年級博士生劉安杰、龔子欽受汪軍教授和楊林易博士聯(lián)合執(zhí)導(dǎo),以及西湖大學(xué)工學(xué)院助理教授(研究)楊林易。

o1 作為 OpenAI 在推理領(lǐng)域的最新模型,大幅度提升了 GPT-4o 在推理任務(wù)上的表現(xiàn),甚至超過了平均人類水平。o1 背后的技術(shù)到底是什么?OpenAI 技術(shù)報告中所強調(diào)的強化學(xué)習(xí)和推斷階段的 Scaling Law 如何實現(xiàn)?

為了嘗試回答這些問題,倫敦大學(xué)學(xué)院(UCL)、上海交通大學(xué)、利物浦大學(xué)、香港科技大學(xué)(廣州)、西湖大學(xué)聯(lián)合開源了首個類 o1 全鏈條訓(xùn)練框架「OpenR」,一個開源代碼庫,幫助用戶快速實現(xiàn)構(gòu)建自己的復(fù)雜推斷模型 。整個項目由 UCL 汪軍教授發(fā)起和指導(dǎo),實驗主要由上海交大團隊完成。

圖片

我們介紹了 OpenR,首個集過程獎勵模型(PRM)訓(xùn)練、強化學(xué)習(xí)、多種搜索框架為一身的類 o1 開源框架,旨在增強大型語言模型(LLM)的復(fù)雜推理能力。

  • 論文鏈接:https://github.com/openreasoner/openr/blob/main/reports/OpenR-Wang.pdf
  • 代碼鏈接:https://github.com/openreasoner/openr
  • 教程鏈接:https://openreasoner.github.io/

OpenR 將數(shù)據(jù)獲取、強化學(xué)習(xí)訓(xùn)練(包括在線和離線訓(xùn)練)以及非自回歸解碼集成到一個統(tǒng)一的平臺中。受到 OpenAI 的 o1 模型成功的啟發(fā), OpenR 采用了一種基于模型的方法,超越了傳統(tǒng)的自回歸方法。我們通過在 MATH 數(shù)據(jù)集上的評估來展示 OpenR 的有效性,利用公開的數(shù)據(jù)和搜索方法。初步實驗表明,相對改進達到了顯著提升。我們開源了 OpenR 框架,包括代碼、模型和數(shù)據(jù)集,我們旨在推動推理領(lǐng)域開源社區(qū)的發(fā)展,歡迎感興趣的從業(yè)人員加入到我們的開源社區(qū)。代碼、文檔、教程可通過 https://openreasoner.github.io 訪問。

圖片

圖 1: 系統(tǒng)設(shè)計圖

系統(tǒng)設(shè)計。過程獎勵模型 (PRM) 在兩個關(guān)鍵方面增強了 LLM 的策略。首先,在訓(xùn)練期間,PRM 通過策略優(yōu)化技術(shù)(如上圖所示的策略迭代)改進 LLM 策略。其次,在解碼階段,PRM 引導(dǎo) LLM 的搜索過程,使推理朝著更有效的結(jié)果發(fā)展(如上圖所示)。接下來我們將展示,LLM 策略還可以幫助識別缺失的中間推理步驟,這反過來又可以進一步訓(xùn)練和改進 PRM。正如上圖所示,這種迭代的互動使 LLM 和 PRM 能夠持續(xù)地釋放各自的潛力以改進推理。

圖片

圖 2 代碼結(jié)構(gòu)圖

數(shù)據(jù)增強.在使用 LLM 進行推理時,我們不僅僅依賴最終答案的反饋,而是使用更詳細的反饋方式,逐步收集和標(biāo)注數(shù)據(jù)。這樣可以在問題解決的過程中,識別出具體的錯誤位置并給出反饋,從而幫助模型更好地學(xué)習(xí)和改進。

MATH-APS.我們通過自動生成合成樣本來增強數(shù)據(jù)。與依賴昂貴且難以擴展的人工標(biāo)注的 PRM800k 數(shù)據(jù)集不同,我們引入了一個新數(shù)據(jù)集 MATH-APS。這個數(shù)據(jù)集基于 MATH 數(shù)據(jù)集,并使用 OmegaPRM 等自動化方法來生成樣本,從而減少了對人工標(biāo)注的依賴,更易于大規(guī)模收集數(shù)據(jù)。自動化方法如 OmegaPRM、Math-Shepherd 和 MiPS 可以高效地收集高質(zhì)量的過程監(jiān)督數(shù)據(jù)。雖然 Math-Shepherd 和 MiPS 提供了過程監(jiān)督的自動化標(biāo)注,但它們需要大量的策略調(diào)用,計算成本較高。OmegaPRM 改進了這個過程,通過迭代地劃分解決方案、回溯分析并找出模型推理中的第一個錯誤步驟來提高效率。

我們通過自動生成合成樣本來增強數(shù)據(jù)。與依賴昂貴且難以擴展的人工標(biāo)注的 PRM800k 數(shù)據(jù)集不同,我們引入了一個新數(shù)據(jù)集 MATH-APS。這個數(shù)據(jù)集基于 MATH 數(shù)據(jù)集,并使用 OmegaPRM 等自動化方法來生成樣本,從而減少了對人工標(biāo)注的依賴,更易于大規(guī)模收集數(shù)據(jù)。自動化方法如 OmegaPRM、Math-Shepherd 和 MiPS 可以高效地收集高質(zhì)量的過程監(jiān)督數(shù)據(jù)。雖然 Math-Shepherd 和 MiPS 提供了過程監(jiān)督的自動化標(biāo)注,但它們需要大量的策略調(diào)用,計算成本較高。OmegaPRM 改進了這個過程,通過迭代地劃分解決方案、回溯分析并找出模型推理中的第一個錯誤步驟來提高效率。

PRM 的監(jiān)督訓(xùn)練。在過程獎勵模型 (PRM) 中,主要目的是判斷解決方案的步驟是否在正確的軌道上。因此,PRM 會輸出一個 0 到 1 之間的分數(shù),作為當(dāng)前解決過程的正確性指標(biāo)。具體來說,給定一個問題及其解決步驟序列,PRM 會為每一步計算出一個分數(shù),這可以視為一個二元分類任務(wù):是否正確。我們通過在大型語言模型 (LLM) 上的監(jiān)督微調(diào)來訓(xùn)練 PRM,將正確或錯誤的判定作為分類標(biāo)簽,并進一步使用 LLM 來預(yù)測每一步的后續(xù)標(biāo)記。

Math-psa PRM 通過在 LLM 上的監(jiān)督微調(diào)來訓(xùn)練,正確 / 錯誤的區(qū)分作為分類標(biāo)簽。我們使用數(shù)據(jù)集如 PRM800K,Math-Shepherd 以及我們自己的 MATH-APS 數(shù)據(jù)集來訓(xùn)練一個名為 Math-psa 的 PRM。這些數(shù)據(jù)集由三個部分組成:問題、過程 和 標(biāo)簽。輸入由 問題 和 過程 的拼接組成。在 過程 中,解決方案被分為多個步驟,每個步驟用一個特殊的步驟標(biāo)記分隔,以標(biāo)記每個步驟結(jié)束的位置,PRM 可以在此處進行預(yù)測。標(biāo)簽對整個過程進行分類,根據(jù)解決方案的正確性將每個步驟標(biāo)記為 + 或 -。

在訓(xùn)練過程中,模型會在每個步驟標(biāo)記之后預(yù)測正或負標(biāo)簽。輸入的拼接格式包含了 問題 和各個步驟之間的標(biāo)記符。標(biāo)簽僅分配在步驟標(biāo)記符的位置,并在計算損失時忽略其他位置。這種方式確保模型訓(xùn)練時主要關(guān)注輸入序列,而不會被步驟標(biāo)記符干擾,從而更好地識別和分類正確性。

LLM 的策略學(xué)習(xí)。我們將數(shù)學(xué)問題轉(zhuǎn)換為一個語言增強的決策過程,用來逐步解決問題。這個過程叫做馬爾可夫決策過程 (MDP),它由狀態(tài)、動作和獎勵組成。在這個框架中,每一個數(shù)學(xué)問題就是初始狀態(tài),模型生成推理步驟作為動作,然后根據(jù)當(dāng)前狀態(tài)和動作來決定下一個狀態(tài)。

模型每完成一個步驟,就會得到一個獎勵或反饋,用來評估該步驟是否正確。這個獎勵幫助模型判斷是否朝著正確方向前進。整個過程重復(fù)進行,模型會不斷調(diào)整其推理路徑,目標(biāo)是獲得盡可能多的正面反饋或獎勵。

我們將這種 MDP 實現(xiàn)為一個強化學(xué)習(xí)環(huán)境,類似 OpenAI 的 Gym 環(huán)境。在這里,每個數(shù)學(xué)問題都被看作一個任務(wù),模型通過一系列連續(xù)的推理步驟來解決這些問題。正確的步驟獲得獎勵,錯誤的步驟則受到懲罰。通過這種方式,模型可以在不斷試錯中優(yōu)化其策略,從而逐漸提高其解決數(shù)學(xué)問題的能力。

在線強化學(xué)習(xí)訓(xùn)練。在使用強化學(xué)習(xí)訓(xùn)練大型語言模型 (LLM) 時,通常使用近端策略優(yōu)化 (PPO) 來使生成的語言輸出與預(yù)期的動作對齊。PPO 可以幫助模型生成既符合語境又達到目標(biāo)的響應(yīng),填補了語言理解和操作輸出之間的空隙。我們提供了傳統(tǒng)的 PPO 和一種更高效的變體,即群體相對策略優(yōu)化 (GRPO)。這兩者主要在優(yōu)勢值的計算方法上不同:PPO 使用一個網(wǎng)絡(luò)來估算狀態(tài)值,并通過廣義優(yōu)勢估算 (GAE) 技術(shù)來計算優(yōu)勢值;而 GRPO 則簡化了這個過程,直接使用標(biāo)準(zhǔn)化的獎勵信號來估算動作的優(yōu)勢,從而減少了訓(xùn)練資源的消耗,同時更加注重獎勵模型的穩(wěn)定性。

解碼:推理時的引導(dǎo)搜索和規(guī)劃

我們使用 PRM 來評估每個解決步驟的準(zhǔn)確性。一旦訓(xùn)練出高質(zhì)量的過程獎勵模型,我們就可以將其與語言模型結(jié)合到解碼過程中,從而實現(xiàn)引導(dǎo)搜索和多次生成的評分或投票。

為了將 PRM 用作驗證器,我們定義了評估 LLM 生成的解決方案正確性的方法,將每一步的得分轉(zhuǎn)換為最終分數(shù)。主要有兩種方法:

  • PRM-Min:選擇所有步驟中得分最低的作為最終分數(shù)。
  • PRM-Last:選擇最后一步的得分作為最終分數(shù)。這種方法已經(jīng)被證明效果與 PRM-Min 相當(dāng)。

當(dāng)通過擴大推理時計算生成多個答案后,我們需要基于分數(shù)選擇最佳答案。我們采用了三種策略:

1. 多數(shù)投票:通過統(tǒng)計出現(xiàn)最多的答案作為最終答案。

2. RM-Max:根據(jù)結(jié)果獎勵模型,選擇最終獎勵最高的答案。

3. RM-Vote:根據(jù)結(jié)果獎勵模型,選擇獎勵總和最高的答案。

通過結(jié)合這些策略,可以形成多種加權(quán)方法,例如 PRM-Last-Max,即使用 PRM-Last 和 RM-Max 組合進行選擇。我們的框架允許我們在多種搜索算法中進行選擇,例如 Beam Search、Best-of-N, 蒙特卡洛樹搜索等。每種算法在 PRM 的質(zhì)量上有其獨特的優(yōu)勢。復(fù)雜的搜索算法在處理更難的任務(wù)時可能表現(xiàn)更好,而簡單的方法如最佳 N 則常能在難度較低的情況下表現(xiàn)良好。

解碼階段的 Scaling Law

我們觀察到了和 OpenAI o1 以及 Deepmind 論文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》趨勢相近的 Test-time Scaling Law,參見:

圖片

圖 3 推斷階段新的縮放率實驗效果圖

圖 3 (a) 比較了這些搜索和投票方法在推理過程中的性能。y 軸表示 MATH500 數(shù)據(jù)集上的測試準(zhǔn)確率,而 x 軸顯示生成預(yù)算(每個問題的平均標(biāo)記數(shù)),反映了每個問題的計算消耗或標(biāo)記使用情況。該圖表明,隨著生成預(yù)算的增加,最佳 N 選擇和束搜索方法的性能顯著優(yōu)于多數(shù)投票,與之前的發(fā)現(xiàn)表現(xiàn)出相似的模式。在低推理時計算預(yù)算下,最佳 N 選擇方法表現(xiàn)優(yōu)于束搜索,而束搜索在較高預(yù)算下可以達到相同的性能。另一方面,圖 (b) 顯示我們的 PRM (Math-aps) 能在所有測試的計算預(yù)算下達到最高的測試準(zhǔn)確率。這確實驗證了我們的 PRM 訓(xùn)練能夠有效地學(xué)習(xí)過程監(jiān)督。

詳細的文檔結(jié)束。OpenR 支持使用幾行代碼即可實現(xiàn) PRM 的訓(xùn)練、強化學(xué)習(xí)訓(xùn)練,以及不同的解碼方法,使用戶能夠方便地進行實驗和測試。我們還提供了詳細的代碼文檔供大家參考,參見: https://openreasoner.github.io/ 。我們所支持的算法如下圖所示:

圖片

圖 4 開源代碼算法實現(xiàn)框圖

圖片

圖 5 OpenR 技術(shù)文檔圖

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-10-09 13:42:29

2024-09-13 10:06:21

2024-09-18 09:17:00

OpenAI模型開源

2024-11-19 15:00:00

模型開源

2023-10-12 17:27:21

算法AI

2024-12-17 12:30:00

2024-10-17 14:10:00

模型訓(xùn)練

2023-05-19 11:00:19

數(shù)據(jù)集開源

2023-06-16 13:38:37

上海昇思AI框架昇思

2024-11-25 08:30:00

2024-09-23 09:20:00

2025-01-21 09:00:00

2024-11-07 15:40:00

2024-10-18 13:01:24

2025-02-03 14:17:27

2024-03-18 15:01:58

SoraAI人工智能

2024-11-11 07:03:00

HK-O1aw人工智能法律推理大模型

2024-11-21 14:00:00

模型AI

2024-11-05 14:20:00

AI模型

2024-01-19 16:35:00

模型動畫
點贊
收藏

51CTO技術(shù)棧公眾號