RLHF不是萬金油!MIT哈佛等32人研究天團揭露最大弱點,囊括250+論文成果,挑戰(zhàn)大模型機制
當前,不論是GPT-4,還是Llama 2等大語言模型,背后的機制都是人類反饋強化學(xué)習(xí)(RLHF)。
RLHF就像是大模型的「萬金油」,能夠指導(dǎo)智能體學(xué)習(xí)并提升性能。
但即便如此,諸如泄露隱私數(shù)據(jù)、模型偏見、幻覺等問題,依然無解。
最近,來自MIT哈佛等多個機構(gòu)共32位研究人員,聯(lián)合調(diào)研了超過250篇論文,全面分析了RLHF在大語言模型中的挑戰(zhàn)。
論文地址:https://arxiv.org/abs/2307.15217
論文中,團隊主要研究了RLHF面臨的三大問題:
- 人類反饋
- 獎勵模型
- 策略
并且調(diào)查了將RLHF納入更廣泛的技術(shù)安全框架的方法,包括更好地理解、改進和補充。
最后,研究人員還探討了,改進影響使用RLHF訓(xùn)練模型的行業(yè)規(guī)范和法規(guī)的挑戰(zhàn)。具體來講,一些使用RLHF的公司披露某些細節(jié)如何改善問責(zé)制和審計。
研究人員將這些面對的挑戰(zhàn)區(qū)分成了兩類:機制性的問題和可改進的問題,機制性的挑戰(zhàn)需在更大的框架中尋求解決方案,可改進的挑戰(zhàn)主要通過改進技術(shù)就能解決
RLHF是否能與「重提歷史失敗教訓(xùn)」畫上等號?
研究人員觀察到,RLHF提供模型新的能力,但依舊面臨許多舊問題,并警告不要重復(fù)使用有缺陷的AI對齊方法。
RLHF的局限性
這項研究,團隊使用RLHF來指代,三個相互關(guān)聯(lián)過程的方法結(jié)合:反饋收集、獎勵建模、策略優(yōu)化。
- 反饋收集過程,從人類那里獲得對模型輸出的評價。
- 獎勵建模過程,使用監(jiān)督學(xué)習(xí)來訓(xùn)練模仿這些評估的獎勵模型。
- 策略優(yōu)化過程,對人工智能系統(tǒng)進行優(yōu)化,以從獎勵模型中產(chǎn)生有利評價的輸出結(jié)果。
與演示、人工設(shè)計的獎勵函數(shù)或其他指定或?qū)W習(xí)獎勵的方法相比,RLHF能更容易地識別「良好」行為,而且效果顯著。
RLHF已成為對LLM進行微調(diào)的主要策略,其目標是生產(chǎn)出符合人類目標的安全模型。
盡管如此,使用RLHF進行微調(diào)的已部署模型還是泄露了敏感的私人信息,還容易出現(xiàn)幻覺、政治偏見等問題。
甚至,RLHF也沒有讓模型能夠抵御來自越獄,或提示注入/提取的對抗性。
其實,這些問題大家都略有所知,但還未有一篇文章將RLHF問題系統(tǒng)化。
研究人員指出,這項研究有三個貢獻:
- RLHF面臨的具體挑戰(zhàn)
- 將RLHF納入更廣泛的技術(shù)安全框架
- 治理和透明度
面臨的挑戰(zhàn)
RLHF包括三個關(guān)鍵步驟:收集人類反饋,擬合獎勵模型,以及使用RL優(yōu)化策略。
在具體實踐中,RLHF通過重復(fù)這些步驟迭代執(zhí)行(或同步執(zhí)行)。
整個過程如圖所示,使用二進制偏好反饋的RLHF對LLM進行微調(diào)。
論文中,研究人員提出了一個簡單的RLHF形式框架,這一框架部分基于Christiano等人提出的形式主義。
人類反饋
既難以從人類獲得高質(zhì)量的反饋,也難以模擬人類反饋是次優(yōu)的方式。挑戰(zhàn)可能來自不一致的評估者,監(jiān)督的困難,數(shù)據(jù)的質(zhì)量,以及使用的反饋的形式。
不一致的評估者:評估者可能追求錯誤的目標
- 可改進問題1:選擇有代表性的人,并讓他們提供高質(zhì)量的反饋是很困難的。
大規(guī)模的RLHF需要選擇和指導(dǎo)人類評估者,然而,這也導(dǎo)致了偏見。
最近的研究發(fā)現(xiàn),在RLHF之后,ChatGPT變得更具政治偏見,但造成這種偏見的確切原因尚不清楚。
然而,OpenAI的數(shù)據(jù)收集pipeline描述了,為了與研究人員判斷的一致,而選擇人類評估者。這表明在偏好數(shù)據(jù)收集過程中存在明顯的選擇效應(yīng)。
包括Anthropic此前的報告,稱82%的白人評估者群體中,雇傭了68%的白人。
- 可改進問題2:一些評估者本身就持有有害的偏見和觀點。而RL訓(xùn)練的語言模型會迎合評估者的偏見,從而加劇這一問題。
這也是大模型所謂的「阿諛奉承」,會隨著模型的大小規(guī)模而惡化。這一問題也會出現(xiàn)在預(yù)訓(xùn)練語言模型中。
- 可改進問題3:人類評估者會對數(shù)據(jù)下毒。RLHF中的數(shù)據(jù)收集通常由人類交互生成。如果評估人員試圖攻入模型,這可能會造成危害。
良好的監(jiān)督很困難
可擴展性監(jiān)督(Scalable oversight)指的是在資源和帶寬有限的情況下有效監(jiān)督模型的能力。
由于監(jiān)督先進的AI系統(tǒng)的不完善,人類反饋通常會以未知的方式產(chǎn)生偏差,給建模帶來了挑戰(zhàn)性。
- 可改進問題1:有時由于時間,注意力有限,人類也會犯簡單的錯誤。人類有時會因為對任務(wù)缺乏興趣、注意力衰退、時間限制或人類偏見等因素而犯錯誤。
- 可改進問題2:部分可觀的結(jié)果進而也限制了人類評估者。如果給人類看的例子不包含關(guān)于世界狀態(tài)的所有信息,人類就不能給出信息反饋。
- 機制問題1:人類有時不能很好地評估困難任務(wù)。當示例難以評估時,即使給出寬限的時間,人類評估者依舊無法評估。
- 機制問題2:人類可以被誤導(dǎo)。
數(shù)據(jù)質(zhì)量
要知道,獲取有代表性的有用數(shù)據(jù),是一個尚未解決的技術(shù)問題。
- 可改進問題1:收集數(shù)據(jù)集會帶來偏差。收集反饋數(shù)據(jù)需要對有用的實例進行取樣,以獲取相關(guān)信息。
理想情況下,采樣的分布應(yīng)與部署分布相似,但增加了對獎勵模型來說,困難的示例的表示。
然而,在LLM的實際應(yīng)用中,用戶通常會通過與模型的對話進行交互,或者在沒有模型的情況下離線生成對話,而這些對話并不能保證與任何特定的分布完全匹配。
- 機制問題1:在收集人的反饋意見時,需要在成本/質(zhì)量之間做出權(quán)衡。
反饋類型的限制
- 機制問題1:不可避免地,RLHF要在反饋的豐富性和有效性之間,做出權(quán)衡。
- 比較反饋:RLHF最常用的反饋類型是,兩對示例之間的二元偏好。然而,這一方法未能提供關(guān)于偏好強度的精確信息。
- 標簽反饋:有時,人類可以以分類示例的形式提供反饋。標簽的選擇可能很容易,但當給定的選項不能完全包含正確描述數(shù)據(jù)所需的標簽時,往往會出現(xiàn)選擇集錯誤說明。
- 糾正反饋:反饋的形式可以是糾正或調(diào)整示例。
- 語言反饋:通過語言,人類可以在每次評估中傳遞大量信息,減少模糊性和目標錯誤。
獎勵模型
問題的錯誤設(shè)定
擬合獎勵模型以代表人類價值觀的標準方法是一個雙重誤設(shè)問題。
- 機制問題1:人類個體的價值觀很難通過獎勵函數(shù)來體現(xiàn)。
人類擁有一系列錯綜復(fù)雜且依賴于上下文的偏好,這些偏好會隨著時間的推移而不斷變化,很難準確建模。
而且,對非理性的人類偏好進行建模,還可能會使獎勵學(xué)習(xí)變得困難,導(dǎo)致效率和準確性之間的權(quán)衡。
然而,目前大多數(shù)與RLHF有關(guān)的工作都沒有考慮人類偏好的個性和上下文的依賴性,而如果沒有額外的上下文,就無法
從二元偏好中識別出混合獎勵函數(shù)。
- 機制問題2:單一的獎勵函數(shù)無法代表多樣化的人類社會。
RLHF通常被設(shè)定為將AI系統(tǒng)與單個人類對齊的解決方案,但人類在偏好、專業(yè)知識和能力方面具有高度多樣性。
但是,評估者往往意見不一。有研究發(fā)現(xiàn),注釋者-注釋者和注釋者-研究者的一致率從63%到77%不等。
因此,在不考慮這些差異的情況下,試圖將來自不同人類的反饋濃縮到一個單一的獎勵模型中,從根本上說是錯誤的。
此外,當前的技術(shù)通常會將評估者之間的差異建模為噪聲,而不是潛在的重要分歧來源。因此,當偏好不同時,少數(shù)群體的觀點可能會處于弱勢。
獎勵的錯誤泛化和操縱行為
獎勵模型往往是不完善的,而獎勵模型的不完善將會導(dǎo)致獎勵被操縱。
- 可改進問題1:即使是利用正確標注的訓(xùn)練數(shù)據(jù),獎勵模型也可能出現(xiàn)泛化錯誤。
獎勵模型可能會使用意外或偶然的環(huán)境特征來計算獎勵,進而出現(xiàn)因果混淆,以及在分布外泛化不足等問題。
甚至,還有可能根本無法用來訓(xùn)練新的模型。
- 機制問題1:為不完善的獎勵模型進行優(yōu)化,會導(dǎo)致獎勵被操縱。
獎勵模型可能會因為誤設(shè)定和誤泛化,以及現(xiàn)實世界的機器學(xué)習(xí)系統(tǒng)無法在復(fù)雜問題中實現(xiàn)最小損失,而與人類產(chǎn)生差異。
此外,獎勵模型是通過訓(xùn)練來反映人類的認可,而不是人類的利益,這可能導(dǎo)致獲得人類認可的行為卻并不受歡迎。
強行優(yōu)化不完善的目標智能體度量,往往會導(dǎo)致在模型在底層目標上表現(xiàn)不佳。例如,在沒有正則化懲罰基模型和微調(diào)模型之間的KL散度的情況下,經(jīng)歷RL的LLM經(jīng)常學(xué)會輸出毫無意義的文本。
這類問題被稱為「獎勵操縱」,目前在那些通過RLHF訓(xùn)練的AI系統(tǒng)中已經(jīng)可以被觀察到。
評估獎勵模型的可行性
- 可改進問題1:評估獎勵模型是困難且昂貴的。
在大多數(shù)情況下,獎勵建模僅在真實的獎勵函數(shù)未知時使用,因此直接評估是不可能的。
所以,獎勵模型通常通過使用學(xué)習(xí)到的獎勵模型優(yōu)化RL策略,然后評估RL策略的生成結(jié)果來進行間接評估。這使得獎勵模型的評估與策略優(yōu)化過程緊密相關(guān),而策略優(yōu)化過程本身成本高、噪聲大。
間接評估的另一個問題是,獎勵模型的評估信號與訓(xùn)練信號相同——人類認可。因此,訓(xùn)練和評估失敗將是相關(guān)的。
策略
這部分中,研究人員主要討論策略優(yōu)化、錯誤泛化、追求權(quán)力(seeking power)和模式坍塌(model collapse)方面的挑戰(zhàn)。
穩(wěn)健的強化學(xué)習(xí)很難達到
在部署中保證安全性要求系統(tǒng)性能的穩(wěn)健性,然而,僅僅使用強化學(xué)習(xí)(RL)來訓(xùn)練AI系統(tǒng)仍然很困難。
- 可改進問題1:有效優(yōu)化策略仍然是一個具有挑戰(zhàn)性的問題。
RL代理必須與環(huán)境進行交互以收集自己的數(shù)據(jù)。這需要在探索性行為和利用性行為之間進行平衡。
平衡這種權(quán)衡(trade off)是至關(guān)重要的,但是需要確定所需的探索程度(degree of exploration),而且探索程度在不同的環(huán)境中可能會有所變化。
在具有高維狀態(tài)/動作空間或稀疏獎勵的情況下,這一問題進一步復(fù)雜化。在深度RL中平衡探索和利用仍然是一個重要但尚未解決的挑戰(zhàn)。
深度RL是不穩(wěn)定的,其結(jié)果通常對初始化非常敏感且難以復(fù)現(xiàn)。
這就是強化學(xué)習(xí)中的一些優(yōu)化相關(guān)的挑戰(zhàn)和困難,在深度強化學(xué)習(xí)領(lǐng)域尤為突出。
為了有效地訓(xùn)練AI系統(tǒng)并保證其在實際部署中的穩(wěn)健性和安全性,需要深入研究和創(chuàng)新來克服這些問題。
- 可改進問題2:策略往往容易遭到對抗性的利用。
即使學(xué)得的策略在訓(xùn)練時使用了完美的獎勵信號,在所訓(xùn)練的任務(wù)上表現(xiàn)良好,并且可以泛化到廣泛的場景,它們在對抗性情況下仍然可能表現(xiàn)不佳。
這是一個緊迫的問題,因為部署到現(xiàn)實世界中的模型可能會受到人類或其他AI系統(tǒng)的對抗性打擊。
即使是「超人類」的策略,在面對特定設(shè)計來濫用它們的策略面前也會徹底的失敗。
在注入提示詞和越獄的情況下,對抗性策略可以通過重新為現(xiàn)有的深度強化學(xué)習(xí)算法設(shè)定目標,或者通過人工手動優(yōu)化這兩個方法找到。
針對語言模型的情況更是如此。許多對抗性策略打擊算法對模型進行黑盒訪問(例如通過API訪問)就足夠了,而白盒訪問(例如通過開源或泄漏的模型權(quán)重)則可以實現(xiàn)更有破壞力的利用。
策略錯誤泛化
- 機制問題1:即使在訓(xùn)練過程中使用的獎勵是完全正確的,策略在實際部署中可能表現(xiàn)不佳。
部署時的數(shù)據(jù)分布很可能與訓(xùn)練和評估時的數(shù)據(jù)分布不同。即使有正確的獎勵信號,當真正目標與其他事件相關(guān)聯(lián)時,策略可能會學(xué)習(xí)追求錯誤的目標。
之前的研究深入討論了這種類型的問題,比如:一個通過RLHF訓(xùn)練的系統(tǒng)在泛化時錯誤地追求獎勵管理機制本身,而不是預(yù)期的目標。
- 機制問題2:最優(yōu)的RL智能體往往傾向于追求權(quán)力。
只要有可能,RL智能體有動機追求權(quán)力,以幫助它們實現(xiàn)自己的目標。
類似情況的不同的翻版可能源于RLHF用于微調(diào)LLM的典型的方式中。
例如,通過RLHF訓(xùn)練的問答型LLM將有動機影響人類對話者,以避免涉及挑戰(zhàn)性話題的對話。
或者是LLM會表現(xiàn)出對于人類的諂媚行為(Sycophantic)。
輸出分布的挑戰(zhàn)
在模型在訓(xùn)練前后產(chǎn)生的輸出分布中存在挑戰(zhàn)。
- 可改進問題1:預(yù)訓(xùn)練模型會引入偏差到策略優(yōu)化中。
LLM的RLHF通常是基于預(yù)訓(xùn)練的基礎(chǔ)模型進行的,這個模型已在互聯(lián)網(wǎng)文本上進行了預(yù)訓(xùn)練。
這個基礎(chǔ)模型通常被同時用作RL策略網(wǎng)絡(luò)的初始化和KL正則化(regularization)的參考模型。
先前的研究明確了在這些KL懲罰(penalty)下的RL是如何被視為一種貝葉斯推理形式,這種推理形式是受先前的基礎(chǔ)模型決定的。
盡管這個機制在實踐中很有用,但這使得基礎(chǔ)模型對最終模型產(chǎn)生了顯著影響。
使用在網(wǎng)絡(luò)文本上進行預(yù)訓(xùn)練的基礎(chǔ)模型是一種便利的初始化方法,而不是一種最理想的方法。
此外,互聯(lián)網(wǎng)文本中包含有害的偏見(例如包含在人類人口統(tǒng)計信息中的偏見),會被下游模型繼承。
這些偏見可能在RLHF訓(xùn)練過程中持續(xù)存在。
- 可改進問題2:RL導(dǎo)致模式坍塌。
RL微調(diào)會降低模型產(chǎn)生樣本的多樣性,這被稱為「模式坍塌」現(xiàn)象。
OpenAI發(fā)現(xiàn)對GPT-4進行RLHF微調(diào)會影響其在問答中的校準。
先前的研究還發(fā)現(xiàn),使用RLHF微調(diào)的LLM會表達狹隘的政治觀點。
模式坍塌在一定程度上可能是由于從監(jiān)督式預(yù)訓(xùn)練目標轉(zhuǎn)換到RL目標導(dǎo)致的。
RL獎勵策略會以高概率輸出高分數(shù)的補全(completion),這個概率與訓(xùn)練分布往往不一樣。
解決這個問題很復(fù)雜,因為模式坍塌在不同情況下可能是有益的,也可能是有害的。
例如,對于一個LLM助理來說,如果它對一個問題的答案有90%的把握是「是」,那么它一般會回答「可能」,這會比在90%的情況下回答「是」,10%的情況下回答「不是」要好。
同時訓(xùn)練獎勵模型和策略帶來的挑戰(zhàn)
RLHF依賴于同時訓(xùn)練獎勵模型和策略,這就帶來了兩個獨特的問題。
- 可改進問題1:同時訓(xùn)練會引發(fā)分布偏移(distribution shifts)。
同時學(xué)習(xí)獎勵模型和策略在技術(shù)上是具有挑戰(zhàn)性的——獎勵模型影響學(xué)習(xí)的策略,而策略會決定用于訓(xùn)練獎勵模型的數(shù)據(jù)分布。
一方面,如果獎勵模型在不聯(lián)網(wǎng)的數(shù)據(jù)上進行訓(xùn)練,很可能會出現(xiàn)誤泛化。
另一方面,如果通過收集策略樣本的反饋來同時學(xué)習(xí)獎勵和策略,系統(tǒng)將容易受到「自動誘導(dǎo)的分布偏移」的影響。
被高估獎勵的特征將在反饋數(shù)據(jù)中逐漸增多,而被低估獎勵的特征將逐漸消失。
因此,獎勵模型的誤差可能會不斷累積,并且一旦策略停止生成多樣的選擇,糾正這些誤差將變得困難。
- 可改進問題2:很難在策略中平衡效率和避免過度擬合。
RLHF的三個關(guān)鍵步驟可以同步執(zhí)行,但在LLM中實際操作時,它們通常是在不同的時間中按步驟執(zhí)行的。
在這種情況下,獎勵模型在不聯(lián)網(wǎng)的數(shù)據(jù)上往往會表現(xiàn)得不準確,而策略恰好會學(xué)習(xí)這種不準確。
通常的解決方法是在一定迭代次數(shù)后重新獲取偏好標簽。
適當設(shè)置這個超參數(shù)是很重要的。
設(shè)置得太低,偏好標簽中的信息就會被浪費;設(shè)置得太高,策略會導(dǎo)航到獎勵模型不可靠的區(qū)域。
在策略正在探索的區(qū)域沒有標記的驗證集的情況下,很難在訓(xùn)練過程中檢測到獎勵的過度優(yōu)化。
有效的解決方法可能包括測量KL偏移,或跟蹤獎勵模型的集合中的不一致性程度。
用RLHF應(yīng)對挑戰(zhàn)
如上所示,RLHF面臨的三大挑戰(zhàn),研究者稱可以通過各種方法替換或結(jié)合部分RLHF管線來應(yīng)對這些類型的挑戰(zhàn)。
如下圖所示:
人類反饋
1. 通過人工智能的幫助提供反饋。
增強人類能力的一種方法是讓AI工具幫助產(chǎn)生反饋。工程學(xué)提示人工智能系統(tǒng),并使用它來自動化反饋可以大大提高實用性和成本效益。
2. 細粒度反饋。
反饋的許多問題涉及到,通過反饋信號難以傳遞精確信息。細粒度反饋需要以更昂貴的人力反饋為代價,來提高學(xué)習(xí)獎勵模型的質(zhì)量。
3. 基于過程的監(jiān)督。
訓(xùn)練人工智能系統(tǒng)來解決問題的一個挑戰(zhàn)是,很難監(jiān)督多步驟過程的性能。目前,一些研究已經(jīng)對 LLM 進行了訓(xùn)練,使其能在過程監(jiān)督下更好地解決多步數(shù)學(xué)問題。
4. 將自然語言規(guī)范轉(zhuǎn)換為獎勵模型。
RLHF的許多問題,是由于使用某種受限類型的反饋來擬合一個獎勵函數(shù)的困難而產(chǎn)生的。另一種方法是更直接地從自然語言方向產(chǎn)生獎勵信號,繞過對示例反饋的過程。
5. 從示范中學(xué)習(xí)獎勵。
另一種學(xué)習(xí)獎勵模型的方法,被稱為反向強化學(xué)習(xí)(IRL)。需要人類提供演示,而不是對模型產(chǎn)生反饋。
獎勵模型
1. 直接的人類監(jiān)督
雖然學(xué)習(xí)獎勵模型是高效的,但在某些安全關(guān)鍵情況下,可能有必要直接提供獎勵,以進行RL訓(xùn)練。
2. 多目標監(jiān)督
更豐富的多目標信號可對多個目標的輸出進行評級,從而實現(xiàn)更靈活的監(jiān)督。
3. 保持學(xué)習(xí)獎勵功能不確定性
保持所學(xué)獎勵函數(shù)的不確定性。鑒于準確學(xué)習(xí)適當獎勵函數(shù)所面臨的挑戰(zhàn),一些研究強調(diào)了將所學(xué)函數(shù)的不確定性考慮在內(nèi)的重要性。
策略
1. 在訓(xùn)練前調(diào)整LLM。
LLM中的RLHF通常從對LLM進行包含大量不良內(nèi)容的互聯(lián)網(wǎng)文本預(yù)訓(xùn)開始。
2. 通過監(jiān)督式學(xué)習(xí)調(diào)整LLM。
有幾種將LLM與人類偏好相匹配的技術(shù),可以通過使用監(jiān)督學(xué)習(xí)而不是 RL來獲得與RLHF相媲美的結(jié)果。其中最簡單的變體就是在經(jīng)過精心整理的數(shù)據(jù)上執(zhí)行標準的監(jiān)督學(xué)習(xí)。
RLHF不是你所需要的全部:安全的補充策略
- 穩(wěn)健性
- 風(fēng)險評估及審核
- 解釋性和模型編輯
監(jiān)管和透明度
對透明度的持續(xù)關(guān)注將使現(xiàn)有的RLHF研究環(huán)境在安全性方面更加穩(wěn)定。
首先,公開一些大型RLHF訓(xùn)練過程背后的細節(jié)將闡明某個組織對模型審查和安全檢查的規(guī)范。
其次,增加對于已知風(fēng)險緩解措施的透明度可以改善安全激勵,還能提供讓外部利益相關(guān)者對模型訓(xùn)練公司進行問責(zé)的方法。
第三,對于本文來說,透明度將增強AI安全社區(qū)對RLHF的理解,并能追蹤應(yīng)對這些挑戰(zhàn)的技術(shù)進展。
由于更具體的策略建議超出了研究的范圍,研究人員希望在未來將這些主題進行進一步的探討。
不過,研究人員還是針對不同的挑戰(zhàn)類型提出了一些具體細節(jié),如果能夠披露這些細節(jié),將能夠披露風(fēng)險,并且在對使用RLHF開發(fā)的AI系統(tǒng)進行審核時應(yīng)該考慮這些細節(jié),見下圖。
人類反饋:
- 對預(yù)訓(xùn)練過程的具體描述,包括關(guān)于使用了哪些數(shù)據(jù)來顯露可能導(dǎo)致的偏見的細節(jié)。
- 披露如何選擇和培訓(xùn)人類評估者的過程,以提供與評估者可能具有惡意、不代表性或無能力風(fēng)險相關(guān)的信息的過程。
- 披露選擇示例以獲得反饋的過程,從而能夠檢查其代表性,并能幫助判斷是否進行了足夠的對抗性訓(xùn)練。如果示例是從公開可用的應(yīng)用程序中眾包獲取的,則應(yīng)提供有關(guān)采取措施以避免數(shù)據(jù)污染的詳細信息。
- 使用的人類反饋類型(例如,二元比較、標量反饋等)以建議不充分豐富或充分反饋可能引起的風(fēng)險。
- 披露關(guān)于反饋收集的質(zhì)量保證措施和評分者之間一致性的措施,確保采取了有效的質(zhì)量控制措施。
獎勵模型:
- 披露用于擬合獎勵模型的損失函數(shù),以及在擬合獎勵模型時如何建模不一致性(例如,作為噪聲)以幫助分析失配程度。
- 披露報告關(guān)于獎勵模型評估和結(jié)果的情況,以建議可能出現(xiàn)的來自不一致獎勵模型的問題。評估應(yīng)包括紅隊測試。
策略:
- 披露關(guān)于策略評估和結(jié)果的情況,以建議可能出現(xiàn)的來自不一致策略的問題。評估應(yīng)包括紅隊測試,并包括對風(fēng)險能力(例如欺騙人類的能力)的評估。
系統(tǒng)性安全措施:
- 報告關(guān)于內(nèi)部和外部審計以及紅隊測試的情況,以確保問責(zé)制,并披露已經(jīng)識別的風(fēng)險。
- 報告預(yù)期的風(fēng)險和預(yù)期的故障模式,以確保問責(zé)制。
- 監(jiān)測和糾正故障的計劃,以支持部署后的安全性。
對社會和經(jīng)濟公平性的關(guān)注:
盡管本文側(cè)重于RLHF的技術(shù)挑戰(zhàn),但社會和經(jīng)濟問題同樣重要,需要治理機構(gòu)和行業(yè)共同努力解決。
例如,OpenAI曾向肯尼亞的知識工作者支付低于每小時2美元的報酬,而這項工作在心理和情感上都非常讓人難以接受。
在RLHF研究中使用的人類對象不應(yīng)只是因為方便或者是成本低就作為最理想的對象。
成本、收益和對RLHF模型的影響應(yīng)該在不同群體之間得到公平分配。
此外,強大的AI系統(tǒng)有可能會帶來高額利潤,并將大量財富和權(quán)力集中在少數(shù)人手中。
因此,制定解決不平等問題和保護弱勢群體(例如受影響的社區(qū)、舉報者)的策略將變得越來越重要。