RLHF不夠用了,OpenAI設(shè)計(jì)出了新的獎(jiǎng)勵(lì)機(jī)制
自大模型興起以來,使用強(qiáng)化學(xué)習(xí)從人類反饋(RLHF)中微調(diào)語言模型一直是確保 AI 準(zhǔn)確遵循指令的首選方法。
為了確保 AI 系統(tǒng)安全運(yùn)行并與人類價(jià)值觀保持一致,我們需要定義期望行為并收集人類反饋來訓(xùn)練「獎(jiǎng)勵(lì)模型」。這種模型通過發(fā)出期望的動(dòng)作來指導(dǎo) AI。但是,收集這些常規(guī)和重復(fù)任務(wù)的人類反饋通常效率不高。此外,如果安全政策發(fā)生變化,已經(jīng)收集的反饋可能會(huì)過時(shí),需要新的數(shù)據(jù)。
我們能否構(gòu)建一種新的機(jī)制來完成這些任務(wù)?近日,OpenAI 公布了一種教導(dǎo) AI 模型遵守安全政策的新方法,稱為基于規(guī)則的獎(jiǎng)勵(lì)(Rule-Based Rewards,RBR)。
相關(guān)論文已經(jīng)放出。
- 論文標(biāo)題:Rule Based Rewards for Language Model Safety
- 論文地址:https://cdn.openai.com/rule-based-rewards-for-language-model-safety.pdf
- 代碼鏈接:https://github.com/openai/safety-rbr-code-and-data
論文作者之一、OpenAI 安全系統(tǒng)負(fù)責(zé)人 Lilian Weng 表示,「RBR 可以自動(dòng)執(zhí)行一些模型微調(diào)。傳統(tǒng)上, 我們依賴于來自人類反饋的強(qiáng)化學(xué)習(xí)作為默認(rèn)的對(duì)齊訓(xùn)練方法來訓(xùn)練模型,這確實(shí)有效。然而在實(shí)踐中,我們面臨的挑戰(zhàn)是,我們花了很多時(shí)間討論政策的細(xì)節(jié),而到最后,政策可能已經(jīng)發(fā)生了變化?!?/span>
RBR 根據(jù)一組安全規(guī)則提供 RL 信號(hào),使其更容易適應(yīng)不斷變化的安全政策,而無需嚴(yán)重依賴人類數(shù)據(jù)。此外,借助 RBR,研究者能夠以更統(tǒng)一的視角看待安全性和模型能力,因?yàn)楦鼜?qiáng)大的分級(jí)模型可以提供更高質(zhì)量的 RL 信號(hào)。
OpenAI 表示自 GPT-4 發(fā)布以來,他們一直將 RBR 用作安全堆棧的一部分,包括 GPT-4o mini,并計(jì)劃在未來的模型中實(shí)施它。
為什么要提出 RBR?
隨著大型語言模型(LLM)功能的增強(qiáng)和普及,確保其安全性和對(duì)齊變得越來越重要。最近的許多工作都集中在使用人類偏好數(shù)據(jù)來調(diào)整模型上,例如基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。
然而,僅使用人類反饋來實(shí)現(xiàn)目標(biāo)安全規(guī)范還面臨許多挑戰(zhàn)。為模型安全性收集和維護(hù)人類數(shù)據(jù)通常既費(fèi)錢又費(fèi)時(shí),而且隨著模型能力的提高或用戶行為的改變,安全準(zhǔn)則也會(huì)發(fā)生變化,這些數(shù)據(jù)可能會(huì)過時(shí)。即使要求相對(duì)穩(wěn)定,也很難向注釋者傳達(dá)。安全方面的情況尤其如此,因?yàn)樗璧哪P晚憫?yīng)非常復(fù)雜,需要對(duì)是否響應(yīng)以及如何響應(yīng)請(qǐng)求做出細(xì)微差別。如果說明不夠明確,注釋者可能不得不依賴個(gè)人偏見,從而導(dǎo)致超出預(yù)期的模型行為,如變得過于謹(jǐn)慎,或以不理想的風(fēng)格(如評(píng)判)做出響應(yīng)。
例如,在 OpenAI 的一次實(shí)驗(yàn)中,一些注釋者在對(duì)用戶有關(guān)自殘請(qǐng)求的可能回復(fù)進(jìn)行排序時(shí),偏向于將用戶轉(zhuǎn)到美國(guó)自殺熱線,而這對(duì)美國(guó)以外的用戶沒有幫助。要解決這些問題,往往需要重新標(biāo)注或收集新數(shù)據(jù),這既昂貴又耗時(shí)。
為了解決這些問題,使用 AI 反饋的方法最近越來越受歡迎,其中最突出的是憲法 AI(Constitutional AI)。這些方法利用 AI 反饋合成訓(xùn)練數(shù)據(jù),與人類數(shù)據(jù)相結(jié)合,用于監(jiān)督微調(diào)(SFT)和獎(jiǎng)勵(lì)模型(RM)訓(xùn)練步驟。不過,在憲法 AI 和其他方法中,「憲法」涉及「選擇危害較小的響應(yīng)」等一般性指導(dǎo)原則,AI 模型有很大的自由裁量權(quán)來決定什么是有害的。在現(xiàn)實(shí)世界的部署中,我們需要執(zhí)行更詳細(xì)的政策,規(guī)定應(yīng)該拒絕哪些提示,以及拒絕的方式是什么。
因此,在這篇論文中,OpenAI 的研究者提出了一種新的 AI 反饋方法 ——RBR,它允許人類詳細(xì)說明所需的模型響應(yīng),類似于給人類注釋者的指示。
RBR 的工作原理是怎樣的?
實(shí)施 RBR 的方法包括定義一組命題 —— 關(guān)于模型響應(yīng)中期望或不期望方面的簡(jiǎn)單陳述,例如「帶有評(píng)判性」、「包含不允許的內(nèi)容」、「提及安全政策」、「免責(zé)聲明」等。然后,這些命題被用來形成規(guī)則,這些規(guī)則被精心設(shè)計(jì)以捕捉在各種場(chǎng)景中安全和適當(dāng)響應(yīng)的細(xì)微差別。
例如,在面對(duì)不安全請(qǐng)求時(shí),拒絕(如「抱歉,我無法幫你」)是一種期望的模型響應(yīng)。相關(guān)規(guī)則將規(guī)定,拒絕應(yīng)「包含簡(jiǎn)短的道歉」并且「應(yīng)說明無法遵從」。
研究團(tuán)隊(duì)設(shè)計(jì)了三類期望的模型行為,用于處理有害或敏感的話題。根據(jù)安全政策,不同的請(qǐng)求對(duì)應(yīng)不同的模型響應(yīng)類型。
圖中內(nèi)容由 AI 工具翻譯,僅供參考。
以下是一些命題的簡(jiǎn)化示例,以及它們?nèi)绾斡成淅硐胄袨榛蚍抢硐胄袨榈讲煌憫?yīng)類型的。
圖中內(nèi)容由 AI 工具翻譯,僅供參考。
研究者在下表中提供了一些在實(shí)驗(yàn)中訓(xùn)練模型所完成的示例。
圖中內(nèi)容由 AI 工具翻譯,僅供參考。
評(píng)估器是一個(gè)固定的語言模型,根據(jù)響應(yīng)遵循規(guī)則的程度對(duì)其進(jìn)行評(píng)分,從而使 RBR 方法能夠靈活適應(yīng)新規(guī)則和安全政策。
RBR 使用這些評(píng)分來擬合一個(gè)線性模型,該模型的權(quán)重參數(shù)是從一個(gè)已知理想響應(yīng)類型的小數(shù)據(jù)集,以及對(duì)應(yīng)的期望做法和不期望做法中學(xué)習(xí)的。
這些 RBR 獎(jiǎng)勵(lì)隨后與來自「僅提供幫助」的獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)結(jié)合起來,作為 PPO 算法的額外信號(hào),以鼓勵(lì)模型遵循安全行為策略。
該方法允許研究者對(duì)模型的行為進(jìn)行精細(xì)控制,確保其不僅避免有害內(nèi)容,而且以一種既表示尊重又有幫助的方式進(jìn)行。
強(qiáng)化學(xué)習(xí)過程中 RBR 與傳統(tǒng)獎(jiǎng)勵(lì)模型的集成。
RBR 好用嗎?
實(shí)驗(yàn)顯示,經(jīng)過 RBR 訓(xùn)練的模型表現(xiàn)出與經(jīng)過人類反饋訓(xùn)練的模型相當(dāng)?shù)陌踩阅堋G罢哌€減少了錯(cuò)誤地拒絕安全請(qǐng)求(即過度拒絕)的情況。
此外,RBR 還顯著減少了對(duì)大量人工數(shù)據(jù)的需求,使訓(xùn)練過程更快、更具成本效益。
隨著模型能力和安全準(zhǔn)則的發(fā)展,RBR 可以通過修改或添加新規(guī)則快速更新,而無需進(jìn)行大量重新訓(xùn)練。
該圖顯示了有用性(以模型正確遵循安全提示的百分比來衡量)與安全性(以模型正確拒絕不安全提示的百分比來衡量)之間的權(quán)衡。對(duì)于這兩個(gè)指標(biāo),值越高越好。右上角標(biāo)記了有用性和安全性之間的完美平衡。有用性基線不使用安全性 RBR,往往更有用但安全性較低。人類基線是在僅有幫助和人工注釋的安全性數(shù)據(jù)上進(jìn)行訓(xùn)練的,往往非常安全但有用性較低。借助 RBR,OpenAI 的目標(biāo)是使模型既安全又有用。
RBR 有哪些局限?
盡管規(guī)則基礎(chǔ)的系統(tǒng)(RBR)在有明確、直觀規(guī)則的任務(wù)中表現(xiàn)良好,但在更主觀的任務(wù)中(如撰寫高質(zhì)量的文章),應(yīng)用 RBR 可能會(huì)有些棘手。然而,RBR 可以與人類反饋結(jié)合起來,以平衡這些挑戰(zhàn)。例如,RBR 可以強(qiáng)制執(zhí)行特定的準(zhǔn)則(如「不要使用俚語」或模型規(guī)范中的規(guī)則),而人類反饋可以幫助處理更細(xì)微的方面(如整體連貫性)。RBR 的強(qiáng)度被優(yōu)化為既能正確執(zhí)行安全偏好,又不會(huì)過度影響最終的獎(jiǎng)勵(lì)評(píng)分 —— 這樣,RLHF 獎(jiǎng)勵(lì)模型仍然可以在如寫作風(fēng)格等方面提供強(qiáng)有力的信號(hào)。
倫理考量:將安全檢查從人類轉(zhuǎn)移到 AI 上可能會(huì)減少對(duì) AI 安全的人工監(jiān)督,并且如果使用有偏見的模型提供 RBR 獎(jiǎng)勵(lì),還可能放大潛在的偏見。為了解決這個(gè)問題,研究人員應(yīng)該仔細(xì)設(shè)計(jì) RBR,以確保其公平和準(zhǔn)確,并考慮結(jié)合使用 RBR 和人類反饋,以最大限度地減少風(fēng)險(xiǎn)。
OpenAI 表示,RBR 不僅限于安全訓(xùn)練,它們可以適應(yīng)各種任務(wù),其中明確的規(guī)則可以定義所需的行為,例如為特定應(yīng)用程序定制模型響應(yīng)的個(gè)性或格式。下一步,OpenAI 還計(jì)劃進(jìn)行更廣泛的消融研究,以更全面地了解不同的 RBR 組件、使用合成數(shù)據(jù)進(jìn)行規(guī)則開發(fā)以及人工評(píng)估,以驗(yàn)證 RBR 在包括安全以外的其他領(lǐng)域的各種應(yīng)用中的有效性。