自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人類偏好就是尺!SPPO對齊技術(shù)讓大語言模型左右互搏、自我博弈 精華

發(fā)布于 2024-5-13 09:25
瀏覽
0收藏

Richard Sutton 在 「The Bitter Lesson」中做過這樣的評價:「從70年的人工智能研究中可以得出的最重要教訓(xùn)是,那些利用計算的通用方法最終是最有效的,而且優(yōu)勢巨大?!?/p>


自我博弈(self play)就是這樣一種同時利用搜索和學(xué)習(xí)從而充分利用和擴大計算規(guī)模的方法。


今年年初,加利福尼亞大學(xué)洛杉磯分校(UCLA)的顧全全教授團隊提出了一種自我博弈微調(diào)方法 (Self-Play Fine-Tuning, SPIN),可不使用額外微調(diào)數(shù)據(jù),僅靠自我博弈就能大幅提升 LLM 的能力。


最近,顧全全教授團隊和卡內(nèi)基梅隆大學(xué)(CMU)Yiming Yang教授團隊合作開發(fā)了一種名為「自我博弈偏好優(yōu)化(Self-Play Preference Optimization, SPPO)」的對齊技術(shù),這一新方法旨在通過自我博弈的框架來優(yōu)化大語言模型的行為,使其更好地符合人類的偏好。左右互搏再顯神通!


人類偏好就是尺!SPPO對齊技術(shù)讓大語言模型左右互搏、自我博弈-AI.x社區(qū)

  • 論文標(biāo)題:Self-Play Preference Optimization for Language Model Alignment
  • 論文鏈接:https://arxiv.org/pdf/2405.00675.pdf


技術(shù)背景與挑戰(zhàn)


大語言模型(LLM)正成為人工智能領(lǐng)域的重要推動力,憑借其出色的文本生成和理解能力在種任務(wù)中表現(xiàn)卓越。盡管LLM的能力令人矚目,但要使這些模型的輸出行為更符合實際應(yīng)用中的需求,通常需要通過對齊(alignment)過程進行微調(diào)。


這個過程關(guān)鍵在于調(diào)整模型以更好地反映人類的偏好和行為準(zhǔn)則。常見的方法包括基于人類反饋的強化學(xué)習(xí)(RLHF)或者直接偏好優(yōu)化(Direct Preference Optimization,DPO)。


基于人類反饋的強化學(xué)習(xí)(RLHF)依賴于顯式的維護一個獎勵模型用來調(diào)整和細化大語言模型。換言之,例如,InstructGPT就是基于人類偏好數(shù)據(jù)先訓(xùn)練一個服從Bradley-Terry模型的獎勵函數(shù),然后使用像近似策略優(yōu)化(Proximal Policy Optimization,PPO)的強化學(xué)習(xí)算法去優(yōu)化大語言模型。去年,研究者們提出了直接偏好優(yōu)化(Direct Preference Optimization,DPO)。


不同于RLHF維護一個顯式的獎勵模型,DPO算法隱含的服從Bradley-Terry模型,但可以直接用于大語言模型優(yōu)化。已有工作試圖通過多次迭代的使用DPO來進一步微調(diào)大模型 (圖1)。

人類偏好就是尺!SPPO對齊技術(shù)讓大語言模型左右互搏、自我博弈-AI.x社區(qū)

圖1.基于Bradley-Terry模型的迭代優(yōu)化方法缺乏理論理解和保證


如Bradley-Terry這樣的參數(shù)模型會為每個選擇提供一個數(shù)值分數(shù)。這些模型雖然提供了合理的人類偏好近似,但未能完全捕獲人類行為的復(fù)雜性。


這些模型往往假設(shè)不同選擇之間的偏好關(guān)系是單調(diào)和傳遞的,而實證證據(jù)卻常常顯示出人類決策的非一致性和非線性,例如Tversky的研究觀察到人類決策可能會受到多種因素的影響,并表現(xiàn)出不一致性。


SPPO的理論基礎(chǔ)與方法


人類偏好就是尺!SPPO對齊技術(shù)讓大語言模型左右互搏、自我博弈-AI.x社區(qū)

圖2.假想的兩個語言模型進行常和博弈。


在這些背景下,作者提出了一個新的自我博弈框架 SPPO,該框架不僅具有解決兩玩家常和博弈(two-player constant-sum game)的可證明保證,而且可以擴展到大規(guī)模的高效微調(diào)大型語言模型。


具體來說,文章將RLHF問題嚴(yán)格定義為一個兩玩家常和博弈 (圖2)。該工作的目標(biāo)是識別納什均衡策略,這種策略在平均意義上始終能提供比其他任何策略更受偏好的回復(fù)。


為了近似地識別納什均衡策略,作者采用了具有乘法權(quán)重的經(jīng)典在線自適應(yīng)算法作為解決兩玩家博弈的高層框架算法。


在該框架的每一步內(nèi),算法可以通過自我博弈機制來近似乘法權(quán)重更新,其中在每一輪中,大語言模型都在針對上一輪的自身進行微調(diào),通過模型生成的合成數(shù)據(jù)和偏好模型的注釋來進行優(yōu)化。


具體來說,大語言模型在每一輪回會針對每個提示生成若干回復(fù);依據(jù)偏好模型的標(biāo)注,算法可以估計出每個回復(fù)的勝率;算法從而可以進一步微調(diào)大語言模型的參數(shù)使得那些勝率高的回復(fù)擁有更高的出現(xiàn)概率(圖3)。


人類偏好就是尺!SPPO對齊技術(shù)讓大語言模型左右互搏、自我博弈-AI.x社區(qū)

圖3.自我博弈算法的目標(biāo)是微調(diào)自身從而勝過上一輪的語言模型


實驗設(shè)計與成果


在實驗中,研究團隊采用了一種Mistral-7B作為基線模型,并使用了UltraFeedback數(shù)據(jù)集的60,000個提示(prompt)進行無監(jiān)督訓(xùn)練。他們發(fā)現(xiàn),通過自我博弈的方式,模型能夠顯著提高在多個評估平臺上的表現(xiàn),例如AlpacaEval 2.0和MT-Bench。這些平臺廣泛用于評估模型生成文本的質(zhì)量和相關(guān)性。


通過SPPO方法,模型不僅在生成文本的流暢性準(zhǔn)確性上得到了改進,更重要的是:「它在符合人類價值和偏好方面表現(xiàn)得更加出色」。


人類偏好就是尺!SPPO對齊技術(shù)讓大語言模型左右互搏、自我博弈-AI.x社區(qū)

圖4.SPPO模型在AlpacaEval 2.0上的效果提升顯著,且高于如 Iterative DPO 的其他基準(zhǔn)方法。


在AlpacaEval 2.0的測試中(圖4),經(jīng)過SPPO優(yōu)化的模型在長度控制勝率方面從基線模型的17.11%提升到了28.53%,顯示了其對人類偏好理解的顯著提高。經(jīng)過三輪SPPO優(yōu)化的模型在AlpacaEval2.0上顯著優(yōu)于多輪迭代的DPO, IPO和自我獎勵的語言模型(Self-Rewarding LM)。


此外,該模型在MT-Bench上的表現(xiàn)也超過了傳統(tǒng)通過人類反饋調(diào)優(yōu)的模型。這證明了SPPO在自動調(diào)整模型行為以適應(yīng)復(fù)雜任務(wù)方面的有效性。


結(jié)論與未來展望


自我博弈偏好優(yōu)化(SPPO)為大語言模型提供了一個全新的優(yōu)化路徑,不僅提高了模型的生成質(zhì)量,更重要的是提高了模型與人類偏好的對齊度。


隨著技術(shù)的不斷發(fā)展和優(yōu)化,預(yù)計SPPO及其衍生技術(shù)將在人工智能的可持續(xù)發(fā)展和社會應(yīng)用中發(fā)揮更大的作用,為構(gòu)建更加智能和負責(zé)任的AI系統(tǒng)鋪平道路。


本文轉(zhuǎn)自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/ulVGoBkCtFyV_mwSBdzgQg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦