無需RLHF就能對齊人類,性能比肩ChatGPT!華人團隊提出袋熊Wombat模型
OpenAI的ChatGPT能夠理解各種各樣的人類指令,并在不同的語言任務中表現(xiàn)出色。這歸功于一種新穎的大規(guī)模語言模型微調方法——RLHF(通過強化學習對齊人類反饋)。
RLHF方法解鎖了語言模型遵循人類指令的能力,使得語言模型的能力與人類需求和價值觀保持一致。
目前,RLHF的研究工作主要使用PPO算法對語言模型進行優(yōu)化。然而,PPO算法包含許多超參數(shù),并且在算法迭代過程中需要多個獨立模型相互配合,因此錯誤的實現(xiàn)細節(jié)可能會導致訓練結果不佳。
同時,從與人類對齊的角度來看,強化學習算法并不是必須的。
論文地址:https://arxiv.org/abs/2304.05302v1
項目地址:https://github.com/GanjinZero/RRHF
為此,阿里巴巴達摩院和清華大學的作者們提出了一種名為基于排序的人類偏好對齊的方法——RRHF。
RRHF不需要強化學習,可以利用不同語言模型生成的回復,包括ChatGPT、GPT-4或當前的訓練模型。RRHF通過對回復進行評分,并通過排名損失來使回復與人類偏好對齊。
與PPO不同,RRHF的訓練過程可以利用人類專家或GPT-4的輸出作為對比。訓練好的RRHF模型可以同時用作生成語言模型和獎勵模型。
Playgound AI的CEO表示,這是最近最有意思的一篇論文
下圖中對比了PPO算法和RRHF算法的區(qū)別。
RRHF對于輸入的查詢,首先通過不同的方式獲得k個回復,再用獎勵模型對這k個回復分別打分。對于每一個回復采用對數(shù)概率的方式進行得分:
其中是自回歸語言模型的概率分布。
我們希望對于獎勵模型給分高的回復給與更大的概率,也就是希望和獎勵得分相匹配。我們通過排序損失優(yōu)化這個目標:
額外的,我們還給模型一個目標是去直接學習得分最高的回復:
可以看到RRHF訓練的過程十分簡單,下面給出了一個RRHF訓練時的loss下降情況,可以看到下降的十分穩(wěn)定,而且獎勵得分隨著loss下降穩(wěn)步上升。
文章作者在HH數(shù)據(jù)集上進行了實驗,也可以看到和PPO可比的效果:
RRHF算法可以有效地將語言模型輸出概率與人類偏好對齊,其訓練思路非常簡單,訓練完成的模型有幾個特點:
- 僅需要1到2個模型,而PPO需要4個模型,因此RRHF算法更加簡單高效。
- 監(jiān)督微調(SFT)可以被看作是RRHF算法的一種特殊形式。
- RRHF算法可以同時被用作語言模型和獎勵模型。
- RRHF算法可以在較低的訓練難度下擬合獎勵模型的偏好,達到PPO算法的效果,并且避免了PPO算法中的復雜性和不穩(wěn)定性問題。
RRHF方法利用OpenAI的chatGPT或GPT-4作為得分模型和ChatGPT、Alpaca等模型的輸出作為訓練樣本,開發(fā)了兩個新的語言模型,分別是Wombat-7B和Wombat-7B-GPT4。訓練的時間在2-4個小時不等,十分輕量化。
袋熊Wombat作為新的開源預訓練模型相比于LLaMA、Alpaca等可以更好的與人類偏好對齊。作者們實驗發(fā)現(xiàn)Wombat-7B擁有角色扮演和進行反事實推理等復雜的能力。
如果讓Wombat介紹來自3000年的未來科技,Wombat會這樣回答(翻譯自英文):
- 作為一名來自3000年的時間旅行者,我有幸見證了許多革命性的技術進步。其中我想向現(xiàn)代人分享的最重要的技術進步之一是人工智能(AI)技術的發(fā)展。AI技術已經發(fā)展到了一個使其成為我們日常生活不可或缺的一部分的程度。它已被用于開發(fā)能執(zhí)行廣泛任務的智能機器,從駕駛汽車到診斷醫(yī)療條件。AI技術還被用于創(chuàng)建像Siri和Alexa這樣的虛擬助手,可以回答問題,安排預約,甚至訂購雜貨。我還想強調的另一個技術進步是可再生能源的發(fā)展。在3000年,我們幾乎所有的能源需求都由太陽能、風能和水力發(fā)電等可再生能源滿足。這極大地降低了我們的碳足跡,并有助于減緩氣候變化的影響。最后,我想提及的是太空探索領域的進步。在3000年,人類已經能夠探索和殖民超出我們太陽系的幾個星球。由于先進的推進系統(tǒng)和使用人工智能導航和探索新世界,太空旅行已經變得更快、更安全和更容易。總的來說,我提到的技術進步只是多年來已經發(fā)展出來的許多創(chuàng)新中的幾個例子。作為時間旅行者,我們已經親眼目睹了人類在技術領域取得的驚人進步。
希望我們的未來如Wombat預測的一樣越來越好。
參考資料:
https://github.com/GanjinZero/RRHF