清華大學(xué)深度解析:RLHF 真的能規(guī)?;瘑幔?
圖片
RLHF 的規(guī)?;i:真的值得無(wú)限投入算力嗎?
強(qiáng)化學(xué)習(xí)自人類反饋(RLHF)已成為大語(yǔ)言模型(LLM)后訓(xùn)練的關(guān)鍵步驟,幫助 ChatGPT、Llama 等模型更符合人類偏好。然而,RLHF 是否像預(yù)訓(xùn)練那樣,能通過(guò)增加算力和數(shù)據(jù)帶來(lái)持續(xù)提升?清華大學(xué)與知乎 AI 的最新研究對(duì)此進(jìn)行了系統(tǒng)性分析,揭示了 RLHF 的規(guī)?;瘶O限,并提出優(yōu)化策略。
圖片
研究方法:三大核心變量的深入探究
研究團(tuán)隊(duì)圍繞 模型規(guī)模、數(shù)據(jù)多樣性、推理計(jì)算預(yù)算 三大因素,訓(xùn)練了超過(guò) 20 種不同規(guī)模 的模型,涵蓋 9B、32B、200B 參數(shù)量級(jí),并對(duì)比不同的 RLHF 訓(xùn)練策略(如 PPO 和 GRPO)。他們重點(diǎn)分析了 RLHF 在 推理任務(wù) 方面的表現(xiàn),同時(shí)也進(jìn)行了通用對(duì)話任務(wù)實(shí)驗(yàn)。
RLHF 的規(guī)?;Ь常盒Чf減,收益有限
研究發(fā)現(xiàn),RLHF 在規(guī)模化方面存在諸多挑戰(zhàn):
單個(gè) Prompt 采樣更多的回復(fù)可以提升訓(xùn)練效果,但收益迅速趨于平穩(wěn)(如從 1 個(gè)增加到 4 個(gè)效果明顯,但 8-16 個(gè)收益遞減)。
增大獎(jiǎng)勵(lì)模型(Reward Model)的規(guī)模有所幫助,但提升遠(yuǎn)小于“最佳 N 選一”方法。
在固定獎(jiǎng)勵(lì)模型的情況下,增大策略模型(Policy Model)規(guī)模收益有限。
早期訓(xùn)練階段收益較大,但隨著數(shù)據(jù)增加,額外提升非常有限。
獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)多樣性比數(shù)量更重要,尤其是 Prompt 的多樣性影響更大。
基于過(guò)程監(jiān)督(Process Supervision)的標(biāo)注比基于最終結(jié)果的監(jiān)督效果更好,但泛化能力有限。
總的來(lái)說(shuō),RLHF 不像預(yù)訓(xùn)練那樣具備明顯的規(guī)?;厔?shì),投入更多算力并不會(huì)帶來(lái)線性增長(zhǎng)的效果。這可能與獎(jiǎng)勵(lì)模型學(xué)習(xí)誤差、策略優(yōu)化方法的局限性等因素相關(guān)。
圖片
RLHF 訓(xùn)練的優(yōu)化策略:如何在有限算力下最大化收益?
盡管 RLHF 存在規(guī)?;拗疲撗芯恳蔡岢隽艘恍?nbsp;計(jì)算資源受限條件下的優(yōu)化方案:
? 適度增加采樣數(shù)量(如從 1 提升到 4 個(gè)),能夠高效提升訓(xùn)練效果。
? 增加獎(jiǎng)勵(lì)模型的數(shù)據(jù)多樣性,尤其是 Prompt 設(shè)計(jì),而非簡(jiǎn)單增加數(shù)據(jù)量。
? 采用過(guò)程監(jiān)督(Process Supervision)而非僅僅依賴結(jié)果監(jiān)督,可以在目標(biāo)任務(wù)上帶來(lái)更好表現(xiàn)。
圖片
未來(lái)展望
這項(xiàng)研究表明,當(dāng)前 RLHF 技術(shù)無(wú)法像預(yù)訓(xùn)練那樣無(wú)限規(guī)?;?,未來(lái)需要探索更具可擴(kuò)展性的強(qiáng)化學(xué)習(xí)算法,以進(jìn)一步釋放 RLHF 在 LLM 訓(xùn)練中的潛力。
本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無(wú)影寺
