OpenAI | Let’s Verify Step by Step詳細解讀
一、概述
title:Let’s Verify Step by Step
論文地址:https://arxiv.org/abs/2305.20050
代碼:https://github.com/openai/prm800k
1.1 Motivation
- 近期大模型的出現(xiàn)極大的提升了復雜問題的多步推理能力,例如可以通過逐步思考(CoT)改善推理任務,但是即使最先進的模型也會產(chǎn)生邏輯錯誤。
- 如何訓練一個更好的reward model,來做大模型的alignment對齊研究也是一個具有挑戰(zhàn)的問題。
- 結果監(jiān)督(只提供最終的結果作為監(jiān)督信號)和過程監(jiān)督(提供每一個中間推理結果的反饋)哪個好,還有待詳細對比和研究。
1.2 Methods
- 實驗步驟和方法:
- 訓練最可靠的reward model:對GPT-4模型進行微調,拿到最可靠的ORM和PRM。
- 生成器:通過GPT-4生成所有候選解決方法,此步GPT-4沒經(jīng)過RL來alignment優(yōu)化。
- 評價:對生成的結果進行N選1,最終根據(jù)答案來評分。
- 兩種不同規(guī)模的模型:所有大模型是通過GPT-4微調,沒有經(jīng)過RL訓練,小規(guī)模模型和GPT4類似,但是計算量少200倍,模型在15億數(shù)學相關的數(shù)據(jù)集MathMix上進行了微調。
- 過程反饋數(shù)據(jù)收集方法:
- 數(shù)據(jù)收集方案【基礎方案】:對于每一步收集人類反饋結果
- 優(yōu)化策略【高價值負樣本挖掘】:標注數(shù)據(jù)的時候,盡可能對更有可能欺騙reward模型的數(shù)據(jù)來進行標注,如果展示明顯錯誤的解決方案,獲得的反饋價值沒那么大
- 迭代訓練獎勵模型【高價值負樣本挖掘】:在每次迭代中,對每個問題生成N個解決方案,并僅向數(shù)據(jù)標注者展示得分最高的K個具有說服力的錯誤答案解決方案。作者嘗試將此top-K過濾應用于問題級別(每個問題K個解決方案)或全局級別(總共K個解決方案,在問題之間不均勻分布)
- ORM以及PRM建模方法
- Outcome-supervised Reward Models (ORMs):直接判斷一個solution最終結果是正確還是錯誤的【有可能中間推理錯誤,最終結果正確的現(xiàn)象】。
- Process-supervised Reward Models (PRMs):在每一步都加入監(jiān)督信號,訓練PRMs去預測每一step是否正確。同時加入了每一步step的標記,這樣可以直接在自回歸模型進行訓練,也方便在遇到結束位置標記時來進行監(jiān)督反饋。
- 如何解決ORM和PRM監(jiān)督信號不對等的問題:在提供過程監(jiān)督時,他們有意選擇只監(jiān)督到第一個錯誤的步驟。這樣做使得結果監(jiān)督和過程監(jiān)督之間的比較更加簡單明了。對于正確的解決方案,兩種方法提供相同的信息,即每個步驟都是正確的。對于不正確的解決方案,兩種方法都揭示了至少存在一個錯誤,而過程監(jiān)督還揭示了該錯誤的具體位置。如果他們在第一個錯誤之后提供額外的過程監(jiān)督,那么過程監(jiān)督將具有更大的信息優(yōu)勢。這個決策還保持了對人類的標注成本相似:在不依賴于易于檢查的最終答案的情況下,確定解決方案的正確性等價于確定其第一個錯誤。
說明:左邊是正確的slutions,右邊有部分推理是錯誤的,PRM(過程監(jiān)督)正確地指出了錯誤答案中的錯誤
1.3 Conclusion
- 過程監(jiān)督比結果監(jiān)督好很多,在數(shù)學領域,能極大的提升performance,訓練更可靠的reward model,本文訓練的過程監(jiān)督模型在MATH子數(shù)據(jù)集解決了78%的問題,消除這一重大進入障礙將促進對大型語言模型對齊的相關研究。
- 主動學習(active learning)可以極大提升過程監(jiān)督的效率(data efficiency提升2.6倍)。
- 放出了PRM800K數(shù)據(jù)集:80萬 step-level人類反饋的標簽(本文訓練reward model的數(shù)據(jù)集)
二、詳細內(nèi)容
1 大規(guī)模監(jiān)督學習
目的:比較PRM(過程監(jiān)督) vs ORM(結果監(jiān)督)最佳表現(xiàn)與N(每個問題N個solution的數(shù)量選一個最終的結果)的關系
- N:每個問題solution的個數(shù)
- ORM:結果監(jiān)督,解決72.4%,比投票好一點,說明加上監(jiān)督信號的reward 模型還是有用的。
- PRM:過程監(jiān)督,解決78.2%的問題,比ORM好不少。
- Majority Voting:投票,感覺也不錯,需要產(chǎn)生多個結果來投票,有點類似模型融合。
- 與N的關系:隨著N的增大,PRM和ORM的gap越來越大,說明相對于ORM和Majority Voting,PRM能更有效的在眾多答案中找到正確的答案。
2 小規(guī)模合成監(jiān)督學習【公平對比ORM和PRM】
背景:由于數(shù)據(jù)集構建,監(jiān)督方法的不同,以及結果評判方法的不同,直接對比ORM和PRM有點不太好比較
原因:(1)ORM和PRM的訓練集無法直接進行比較:PRM訓練集是通過主動學習構建的,偏向于錯誤答案的解決方案,并且規(guī)模小了一個數(shù)量級。(2)ORM最終答案的評分正確但可能推理過程錯誤帶來評判不公平。(3)收集人工反饋的成本很高,無法輕易地通過人工標注者去除這些因素
解決方法:使用大規(guī)模的PRM(PRMlarge)來監(jiān)督較小的模型來進行相關的消融實驗。這個設置可以以較低的成本模擬大量的數(shù)據(jù)收集。
- solution生成:從一個小規(guī)模的生成器中隨機選取每個問題1到200個解決方案。
- 三種監(jiān)督方式:相當于利用大的PRMlarge來做小模型的PRM或者ORM,控制PRM或者ORM作為變量,監(jiān)督模型PRMlarge保持不變的:
PRM(PRMlarge supervised):利用PRMlarge(即大規(guī)模PRM,以下簡稱PRMlarge)來做過程監(jiān)督
ORM(PRMlarge supervised):利用PRMlarge(即大規(guī)模PRM,以下簡稱PRMlarge)來做結果監(jiān)督
ORM(final-answer supervised):不看過程,只看最終結果,相當于只拿最終結果來進行監(jiān)督
- 結論:
圖(a)根據(jù)500個最佳選擇來評估每個獎勵模型。我們看到,在所有數(shù)據(jù)收集規(guī)模上,PRM過程監(jiān)督的表現(xiàn)都大大優(yōu)于兩種形式的結果監(jiān)督(ORM(PRMlarge supervised)和 ORM(final-answer supervised))。
圖(b)通過其在N個不同值中的最佳表現(xiàn)來評估每個系列的最佳獎勵模型。我們看到,使用PRMlarge進行結果監(jiān)督明顯比最終答案檢查更有效。這可以解釋為,PRMlarge為使用不正確的推理得出正確最終答案【結果正確,推理錯誤】的解決方案提供了更好的監(jiān)督。
3 主動學習
- 背景:主動學習是一種機器學習技術,它可以通過選擇最具價值的樣本來優(yōu)化模型訓練過程。
- 方法步驟:
使用一種小規(guī)模的獎勵模型PRMselector,每個問題評分1000個樣本。
從每個問題選擇N個樣本,其中80%是最令人信服的錯誤答案樣本,20%是剩下的最令人信服的樣本(正確或錯誤答案)
使用PRMlarge對所選樣本進行評分并基于這些評分并進行訓練
- 結論:
性能如圖4a所示。通過比較具有和不具有主動學習的最佳擬合線的斜率,這種數(shù)據(jù)標記方案的性能比均勻數(shù)據(jù)標記大約高效2.6倍。
當使用最大主動學習數(shù)據(jù)集(每個問題200個樣本)訓練模型時,結果略低于預期的趨勢線,可能是因為200個樣本代表了整體選擇池(1000個樣本)的相當大比例,導致相對缺乏多樣性限制了主動學習的潛在優(yōu)勢。
4 泛化能力
- 方法:一個包含224個STEM問題的保留集上評估了大規(guī)模ORM和PRM,這些問題來自最近的AP物理學、AP微積分、AP化學、AMC10和AMC12考試。這些測試是在預訓練數(shù)據(jù)集編制之后發(fā)布的,因此可以高度確信模型沒有見過這些問題。
- 結論:PRM的泛化能力表現(xiàn)優(yōu)于ORM和多數(shù)投票。這向我們表明,PRM可以容忍適度的distribution shift,其強勁的表現(xiàn)在新的測試問題上保持不變。
三、參考文獻
- OpenAI最新研究Let's verify step-by-step,過程勝于結果?。??https://mp.weixin.qq.com/s/bvrJKy8dufRF0KfC90PDMA??
- Let's Verify Step by Step:??https://mp.weixin.qq.com/s/6ELuM8gkrp1RP1wE47hi0Q???
本文轉載自??NLP PaperWeekly??,作者: 胡翔
