自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RLHF不是萬金油!MIT哈佛等32人研究天團揭露最大弱點,囊括250+論文成果,挑戰(zhàn)大模型機制

人工智能 新聞
RLHF成為當前大語言模型背后的「功臣」。來自MIT哈佛等機構(gòu)團隊,調(diào)研250+論文后,對RLHF當前的問題和限制進行了探討。

當前,不論是GPT-4,還是Llama 2等大語言模型,背后的機制都是人類反饋強化學(xué)習(xí)(RLHF)。

RLHF就像是大模型的「萬金油」,能夠指導(dǎo)智能體學(xué)習(xí)并提升性能。

但即便如此,諸如泄露隱私數(shù)據(jù)、模型偏見、幻覺等問題,依然無解。

最近,來自MIT哈佛等多個機構(gòu)共32位研究人員,聯(lián)合調(diào)研了超過250篇論文,全面分析了RLHF在大語言模型中的挑戰(zhàn)。

論文地址:https://arxiv.org/abs/2307.15217

論文中,團隊主要研究了RLHF面臨的三大問題:

- 人類反饋

- 獎勵模型

- 策略

并且調(diào)查了將RLHF納入更廣泛的技術(shù)安全框架的方法,包括更好地理解、改進和補充。

最后,研究人員還探討了,改進影響使用RLHF訓(xùn)練模型的行業(yè)規(guī)范和法規(guī)的挑戰(zhàn)。具體來講,一些使用RLHF的公司披露某些細節(jié)如何改善問責(zé)制和審計。

研究人員將這些面對的挑戰(zhàn)區(qū)分成了兩類:機制性的問題和可改進的問題,機制性的挑戰(zhàn)需在更大的框架中尋求解決方案,可改進的挑戰(zhàn)主要通過改進技術(shù)就能解決

RLHF是否能與「重提歷史失敗教訓(xùn)」畫上等號?

研究人員觀察到,RLHF提供模型新的能力,但依舊面臨許多舊問題,并警告不要重復(fù)使用有缺陷的AI對齊方法。

RLHF的局限性

這項研究,團隊使用RLHF來指代,三個相互關(guān)聯(lián)過程的方法結(jié)合:反饋收集、獎勵建模、策略優(yōu)化。

- 反饋收集過程,從人類那里獲得對模型輸出的評價。

- 獎勵建模過程,使用監(jiān)督學(xué)習(xí)來訓(xùn)練模仿這些評估的獎勵模型。

- 策略優(yōu)化過程,對人工智能系統(tǒng)進行優(yōu)化,以從獎勵模型中產(chǎn)生有利評價的輸出結(jié)果。

與演示、人工設(shè)計的獎勵函數(shù)或其他指定或?qū)W習(xí)獎勵的方法相比,RLHF能更容易地識別「良好」行為,而且效果顯著。

RLHF已成為對LLM進行微調(diào)的主要策略,其目標是生產(chǎn)出符合人類目標的安全模型。

盡管如此,使用RLHF進行微調(diào)的已部署模型還是泄露了敏感的私人信息,還容易出現(xiàn)幻覺、政治偏見等問題。

甚至,RLHF也沒有讓模型能夠抵御來自越獄,或提示注入/提取的對抗性。

其實,這些問題大家都略有所知,但還未有一篇文章將RLHF問題系統(tǒng)化。

研究人員指出,這項研究有三個貢獻:

- RLHF面臨的具體挑戰(zhàn)

- 將RLHF納入更廣泛的技術(shù)安全框架

- 治理和透明度

面臨的挑戰(zhàn)

RLHF包括三個關(guān)鍵步驟:收集人類反饋,擬合獎勵模型,以及使用RL優(yōu)化策略。

在具體實踐中,RLHF通過重復(fù)這些步驟迭代執(zhí)行(或同步執(zhí)行)。

整個過程如圖所示,使用二進制偏好反饋的RLHF對LLM進行微調(diào)。

論文中,研究人員提出了一個簡單的RLHF形式框架,這一框架部分基于Christiano等人提出的形式主義。

人類反饋

既難以從人類獲得高質(zhì)量的反饋,也難以模擬人類反饋是次優(yōu)的方式。挑戰(zhàn)可能來自不一致的評估者,監(jiān)督的困難,數(shù)據(jù)的質(zhì)量,以及使用的反饋的形式。

不一致的評估者:評估者可能追求錯誤的目標

- 可改進問題1:選擇有代表性的人,并讓他們提供高質(zhì)量的反饋是很困難的。

大規(guī)模的RLHF需要選擇和指導(dǎo)人類評估者,然而,這也導(dǎo)致了偏見。

最近的研究發(fā)現(xiàn),在RLHF之后,ChatGPT變得更具政治偏見,但造成這種偏見的確切原因尚不清楚。

然而,OpenAI的數(shù)據(jù)收集pipeline描述了,為了與研究人員判斷的一致,而選擇人類評估者。這表明在偏好數(shù)據(jù)收集過程中存在明顯的選擇效應(yīng)。

包括Anthropic此前的報告,稱82%的白人評估者群體中,雇傭了68%的白人。

- 可改進問題2:一些評估者本身就持有有害的偏見和觀點。而RL訓(xùn)練的語言模型會迎合評估者的偏見,從而加劇這一問題。

這也是大模型所謂的「阿諛奉承」,會隨著模型的大小規(guī)模而惡化。這一問題也會出現(xiàn)在預(yù)訓(xùn)練語言模型中。

- 可改進問題3:人類評估者會對數(shù)據(jù)下毒。RLHF中的數(shù)據(jù)收集通常由人類交互生成。如果評估人員試圖攻入模型,這可能會造成危害。

良好的監(jiān)督很困難

可擴展性監(jiān)督(Scalable oversight)指的是在資源和帶寬有限的情況下有效監(jiān)督模型的能力。

由于監(jiān)督先進的AI系統(tǒng)的不完善,人類反饋通常會以未知的方式產(chǎn)生偏差,給建模帶來了挑戰(zhàn)性。

- 可改進問題1:有時由于時間,注意力有限,人類也會犯簡單的錯誤。人類有時會因為對任務(wù)缺乏興趣、注意力衰退、時間限制或人類偏見等因素而犯錯誤。

- 可改進問題2:部分可觀的結(jié)果進而也限制了人類評估者。如果給人類看的例子不包含關(guān)于世界狀態(tài)的所有信息,人類就不能給出信息反饋。

- 機制問題1:人類有時不能很好地評估困難任務(wù)。當示例難以評估時,即使給出寬限的時間,人類評估者依舊無法評估。

- 機制問題2:人類可以被誤導(dǎo)

數(shù)據(jù)質(zhì)量

要知道,獲取有代表性的有用數(shù)據(jù),是一個尚未解決的技術(shù)問題。

- 可改進問題1:收集數(shù)據(jù)集會帶來偏差。收集反饋數(shù)據(jù)需要對有用的實例進行取樣,以獲取相關(guān)信息。

理想情況下,采樣的分布應(yīng)與部署分布相似,但增加了對獎勵模型來說,困難的示例的表示。

然而,在LLM的實際應(yīng)用中,用戶通常會通過與模型的對話進行交互,或者在沒有模型的情況下離線生成對話,而這些對話并不能保證與任何特定的分布完全匹配。

- 機制問題1:在收集人的反饋意見時,需要在成本/質(zhì)量之間做出權(quán)衡。

反饋類型的限制

- 機制問題1:不可避免地,RLHF要在反饋的豐富性和有效性之間,做出權(quán)衡。

- 比較反饋:RLHF最常用的反饋類型是,兩對示例之間的二元偏好。然而,這一方法未能提供關(guān)于偏好強度的精確信息。

- 標簽反饋:有時,人類可以以分類示例的形式提供反饋。標簽的選擇可能很容易,但當給定的選項不能完全包含正確描述數(shù)據(jù)所需的標簽時,往往會出現(xiàn)選擇集錯誤說明。

- 糾正反饋:反饋的形式可以是糾正或調(diào)整示例。

- 語言反饋:通過語言,人類可以在每次評估中傳遞大量信息,減少模糊性和目標錯誤。

獎勵模型

問題的錯誤設(shè)定

擬合獎勵模型以代表人類價值觀的標準方法是一個雙重誤設(shè)問題。

- 機制問題1:人類個體的價值觀很難通過獎勵函數(shù)來體現(xiàn)。

人類擁有一系列錯綜復(fù)雜且依賴于上下文的偏好,這些偏好會隨著時間的推移而不斷變化,很難準確建模。

而且,對非理性的人類偏好進行建模,還可能會使獎勵學(xué)習(xí)變得困難,導(dǎo)致效率和準確性之間的權(quán)衡。

然而,目前大多數(shù)與RLHF有關(guān)的工作都沒有考慮人類偏好的個性和上下文的依賴性,而如果沒有額外的上下文,就無法

從二元偏好中識別出混合獎勵函數(shù)。

- 機制問題2:單一的獎勵函數(shù)無法代表多樣化的人類社會。

RLHF通常被設(shè)定為將AI系統(tǒng)與單個人類對齊的解決方案,但人類在偏好、專業(yè)知識和能力方面具有高度多樣性。

但是,評估者往往意見不一。有研究發(fā)現(xiàn),注釋者-注釋者和注釋者-研究者的一致率從63%到77%不等。

因此,在不考慮這些差異的情況下,試圖將來自不同人類的反饋濃縮到一個單一的獎勵模型中,從根本上說是錯誤的。

此外,當前的技術(shù)通常會將評估者之間的差異建模為噪聲,而不是潛在的重要分歧來源。因此,當偏好不同時,少數(shù)群體的觀點可能會處于弱勢。

獎勵的錯誤泛化和操縱行為

獎勵模型往往是不完善的,而獎勵模型的不完善將會導(dǎo)致獎勵被操縱。

- 可改進問題1:即使是利用正確標注的訓(xùn)練數(shù)據(jù),獎勵模型也可能出現(xiàn)泛化錯誤。

獎勵模型可能會使用意外或偶然的環(huán)境特征來計算獎勵,進而出現(xiàn)因果混淆,以及在分布外泛化不足等問題。

甚至,還有可能根本無法用來訓(xùn)練新的模型。

- 機制問題1:為不完善的獎勵模型進行優(yōu)化,會導(dǎo)致獎勵被操縱。

獎勵模型可能會因為誤設(shè)定和誤泛化,以及現(xiàn)實世界的機器學(xué)習(xí)系統(tǒng)無法在復(fù)雜問題中實現(xiàn)最小損失,而與人類產(chǎn)生差異。

此外,獎勵模型是通過訓(xùn)練來反映人類的認可,而不是人類的利益,這可能導(dǎo)致獲得人類認可的行為卻并不受歡迎。

強行優(yōu)化不完善的目標智能體度量,往往會導(dǎo)致在模型在底層目標上表現(xiàn)不佳。例如,在沒有正則化懲罰基模型和微調(diào)模型之間的KL散度的情況下,經(jīng)歷RL的LLM經(jīng)常學(xué)會輸出毫無意義的文本。

這類問題被稱為「獎勵操縱」,目前在那些通過RLHF訓(xùn)練的AI系統(tǒng)中已經(jīng)可以被觀察到。

評估獎勵模型的可行性

- 可改進問題1:評估獎勵模型是困難且昂貴的。

在大多數(shù)情況下,獎勵建模僅在真實的獎勵函數(shù)未知時使用,因此直接評估是不可能的。

所以,獎勵模型通常通過使用學(xué)習(xí)到的獎勵模型優(yōu)化RL策略,然后評估RL策略的生成結(jié)果來進行間接評估。這使得獎勵模型的評估與策略優(yōu)化過程緊密相關(guān),而策略優(yōu)化過程本身成本高、噪聲大。

間接評估的另一個問題是,獎勵模型的評估信號與訓(xùn)練信號相同——人類認可。因此,訓(xùn)練和評估失敗將是相關(guān)的。

策略

這部分中,研究人員主要討論策略優(yōu)化、錯誤泛化、追求權(quán)力(seeking power)和模式坍塌(model collapse)方面的挑戰(zhàn)。

穩(wěn)健的強化學(xué)習(xí)很難達到

在部署中保證安全性要求系統(tǒng)性能的穩(wěn)健性,然而,僅僅使用強化學(xué)習(xí)(RL)來訓(xùn)練AI系統(tǒng)仍然很困難。

- 可改進問題1:有效優(yōu)化策略仍然是一個具有挑戰(zhàn)性的問題。

RL代理必須與環(huán)境進行交互以收集自己的數(shù)據(jù)。這需要在探索性行為和利用性行為之間進行平衡。

平衡這種權(quán)衡(trade off)是至關(guān)重要的,但是需要確定所需的探索程度(degree of exploration),而且探索程度在不同的環(huán)境中可能會有所變化。

在具有高維狀態(tài)/動作空間或稀疏獎勵的情況下,這一問題進一步復(fù)雜化。在深度RL中平衡探索和利用仍然是一個重要但尚未解決的挑戰(zhàn)。

深度RL是不穩(wěn)定的,其結(jié)果通常對初始化非常敏感且難以復(fù)現(xiàn)。

這就是強化學(xué)習(xí)中的一些優(yōu)化相關(guān)的挑戰(zhàn)和困難,在深度強化學(xué)習(xí)領(lǐng)域尤為突出。

為了有效地訓(xùn)練AI系統(tǒng)并保證其在實際部署中的穩(wěn)健性和安全性,需要深入研究和創(chuàng)新來克服這些問題。

- 可改進問題2:策略往往容易遭到對抗性的利用。

即使學(xué)得的策略在訓(xùn)練時使用了完美的獎勵信號,在所訓(xùn)練的任務(wù)上表現(xiàn)良好,并且可以泛化到廣泛的場景,它們在對抗性情況下仍然可能表現(xiàn)不佳。

這是一個緊迫的問題,因為部署到現(xiàn)實世界中的模型可能會受到人類或其他AI系統(tǒng)的對抗性打擊。

即使是「超人類」的策略,在面對特定設(shè)計來濫用它們的策略面前也會徹底的失敗。

在注入提示詞和越獄的情況下,對抗性策略可以通過重新為現(xiàn)有的深度強化學(xué)習(xí)算法設(shè)定目標,或者通過人工手動優(yōu)化這兩個方法找到。

針對語言模型的情況更是如此。許多對抗性策略打擊算法對模型進行黑盒訪問(例如通過API訪問)就足夠了,而白盒訪問(例如通過開源或泄漏的模型權(quán)重)則可以實現(xiàn)更有破壞力的利用。

策略錯誤泛化

- 機制問題1:即使在訓(xùn)練過程中使用的獎勵是完全正確的,策略在實際部署中可能表現(xiàn)不佳。

部署時的數(shù)據(jù)分布很可能與訓(xùn)練和評估時的數(shù)據(jù)分布不同。即使有正確的獎勵信號,當真正目標與其他事件相關(guān)聯(lián)時,策略可能會學(xué)習(xí)追求錯誤的目標。

之前的研究深入討論了這種類型的問題,比如:一個通過RLHF訓(xùn)練的系統(tǒng)在泛化時錯誤地追求獎勵管理機制本身,而不是預(yù)期的目標。

- 機制問題2:最優(yōu)的RL智能體往往傾向于追求權(quán)力。

只要有可能,RL智能體有動機追求權(quán)力,以幫助它們實現(xiàn)自己的目標。

類似情況的不同的翻版可能源于RLHF用于微調(diào)LLM的典型的方式中。

例如,通過RLHF訓(xùn)練的問答型LLM將有動機影響人類對話者,以避免涉及挑戰(zhàn)性話題的對話。

或者是LLM會表現(xiàn)出對于人類的諂媚行為(Sycophantic)。

輸出分布的挑戰(zhàn)

在模型在訓(xùn)練前后產(chǎn)生的輸出分布中存在挑戰(zhàn)。

- 可改進問題1:預(yù)訓(xùn)練模型會引入偏差到策略優(yōu)化中。

LLM的RLHF通常是基于預(yù)訓(xùn)練的基礎(chǔ)模型進行的,這個模型已在互聯(lián)網(wǎng)文本上進行了預(yù)訓(xùn)練。

這個基礎(chǔ)模型通常被同時用作RL策略網(wǎng)絡(luò)的初始化和KL正則化(regularization)的參考模型。

先前的研究明確了在這些KL懲罰(penalty)下的RL是如何被視為一種貝葉斯推理形式,這種推理形式是受先前的基礎(chǔ)模型決定的。

盡管這個機制在實踐中很有用,但這使得基礎(chǔ)模型對最終模型產(chǎn)生了顯著影響。

使用在網(wǎng)絡(luò)文本上進行預(yù)訓(xùn)練的基礎(chǔ)模型是一種便利的初始化方法,而不是一種最理想的方法。

此外,互聯(lián)網(wǎng)文本中包含有害的偏見(例如包含在人類人口統(tǒng)計信息中的偏見),會被下游模型繼承。

這些偏見可能在RLHF訓(xùn)練過程中持續(xù)存在。

- 可改進問題2:RL導(dǎo)致模式坍塌。

RL微調(diào)會降低模型產(chǎn)生樣本的多樣性,這被稱為「模式坍塌」現(xiàn)象。

OpenAI發(fā)現(xiàn)對GPT-4進行RLHF微調(diào)會影響其在問答中的校準。

先前的研究還發(fā)現(xiàn),使用RLHF微調(diào)的LLM會表達狹隘的政治觀點。

模式坍塌在一定程度上可能是由于從監(jiān)督式預(yù)訓(xùn)練目標轉(zhuǎn)換到RL目標導(dǎo)致的。

RL獎勵策略會以高概率輸出高分數(shù)的補全(completion),這個概率與訓(xùn)練分布往往不一樣。

解決這個問題很復(fù)雜,因為模式坍塌在不同情況下可能是有益的,也可能是有害的。

例如,對于一個LLM助理來說,如果它對一個問題的答案有90%的把握是「是」,那么它一般會回答「可能」,這會比在90%的情況下回答「是」,10%的情況下回答「不是」要好。

同時訓(xùn)練獎勵模型和策略帶來的挑戰(zhàn)

RLHF依賴于同時訓(xùn)練獎勵模型和策略,這就帶來了兩個獨特的問題。

- 可改進問題1:同時訓(xùn)練會引發(fā)分布偏移(distribution shifts)。

同時學(xué)習(xí)獎勵模型和策略在技術(shù)上是具有挑戰(zhàn)性的——獎勵模型影響學(xué)習(xí)的策略,而策略會決定用于訓(xùn)練獎勵模型的數(shù)據(jù)分布。

一方面,如果獎勵模型在不聯(lián)網(wǎng)的數(shù)據(jù)上進行訓(xùn)練,很可能會出現(xiàn)誤泛化。

另一方面,如果通過收集策略樣本的反饋來同時學(xué)習(xí)獎勵和策略,系統(tǒng)將容易受到「自動誘導(dǎo)的分布偏移」的影響。

被高估獎勵的特征將在反饋數(shù)據(jù)中逐漸增多,而被低估獎勵的特征將逐漸消失。

因此,獎勵模型的誤差可能會不斷累積,并且一旦策略停止生成多樣的選擇,糾正這些誤差將變得困難。

- 可改進問題2:很難在策略中平衡效率和避免過度擬合。

RLHF的三個關(guān)鍵步驟可以同步執(zhí)行,但在LLM中實際操作時,它們通常是在不同的時間中按步驟執(zhí)行的。

在這種情況下,獎勵模型在不聯(lián)網(wǎng)的數(shù)據(jù)上往往會表現(xiàn)得不準確,而策略恰好會學(xué)習(xí)這種不準確。

通常的解決方法是在一定迭代次數(shù)后重新獲取偏好標簽。

適當設(shè)置這個超參數(shù)是很重要的。

設(shè)置得太低,偏好標簽中的信息就會被浪費;設(shè)置得太高,策略會導(dǎo)航到獎勵模型不可靠的區(qū)域。

在策略正在探索的區(qū)域沒有標記的驗證集的情況下,很難在訓(xùn)練過程中檢測到獎勵的過度優(yōu)化。

有效的解決方法可能包括測量KL偏移,或跟蹤獎勵模型的集合中的不一致性程度。

用RLHF應(yīng)對挑戰(zhàn)

如上所示,RLHF面臨的三大挑戰(zhàn),研究者稱可以通過各種方法替換或結(jié)合部分RLHF管線來應(yīng)對這些類型的挑戰(zhàn)。

如下圖所示:

人類反饋

1. 通過人工智能的幫助提供反饋。

增強人類能力的一種方法是讓AI工具幫助產(chǎn)生反饋。工程學(xué)提示人工智能系統(tǒng),并使用它來自動化反饋可以大大提高實用性和成本效益。

2. 細粒度反饋。

反饋的許多問題涉及到,通過反饋信號難以傳遞精確信息。細粒度反饋需要以更昂貴的人力反饋為代價,來提高學(xué)習(xí)獎勵模型的質(zhì)量。

3. 基于過程的監(jiān)督。

訓(xùn)練人工智能系統(tǒng)來解決問題的一個挑戰(zhàn)是,很難監(jiān)督多步驟過程的性能。目前,一些研究已經(jīng)對 LLM 進行了訓(xùn)練,使其能在過程監(jiān)督下更好地解決多步數(shù)學(xué)問題。

4. 將自然語言規(guī)范轉(zhuǎn)換為獎勵模型。

RLHF的許多問題,是由于使用某種受限類型的反饋來擬合一個獎勵函數(shù)的困難而產(chǎn)生的。另一種方法是更直接地從自然語言方向產(chǎn)生獎勵信號,繞過對示例反饋的過程。

5. 從示范中學(xué)習(xí)獎勵。

另一種學(xué)習(xí)獎勵模型的方法,被稱為反向強化學(xué)習(xí)(IRL)。需要人類提供演示,而不是對模型產(chǎn)生反饋。

獎勵模型

1. 直接的人類監(jiān)督

雖然學(xué)習(xí)獎勵模型是高效的,但在某些安全關(guān)鍵情況下,可能有必要直接提供獎勵,以進行RL訓(xùn)練。

2. 多目標監(jiān)督

更豐富的多目標信號可對多個目標的輸出進行評級,從而實現(xiàn)更靈活的監(jiān)督。

3. 保持學(xué)習(xí)獎勵功能不確定性

保持所學(xué)獎勵函數(shù)的不確定性。鑒于準確學(xué)習(xí)適當獎勵函數(shù)所面臨的挑戰(zhàn),一些研究強調(diào)了將所學(xué)函數(shù)的不確定性考慮在內(nèi)的重要性。

策略

1. 在訓(xùn)練前調(diào)整LLM。

LLM中的RLHF通常從對LLM進行包含大量不良內(nèi)容的互聯(lián)網(wǎng)文本預(yù)訓(xùn)開始。

2. 通過監(jiān)督式學(xué)習(xí)調(diào)整LLM。

有幾種將LLM與人類偏好相匹配的技術(shù),可以通過使用監(jiān)督學(xué)習(xí)而不是 RL來獲得與RLHF相媲美的結(jié)果。其中最簡單的變體就是在經(jīng)過精心整理的數(shù)據(jù)上執(zhí)行標準的監(jiān)督學(xué)習(xí)。

RLHF不是你所需要的全部:安全的補充策略

- 穩(wěn)健性

- 風(fēng)險評估及審核

- 解釋性和模型編輯

監(jiān)管和透明度

對透明度的持續(xù)關(guān)注將使現(xiàn)有的RLHF研究環(huán)境在安全性方面更加穩(wěn)定。

首先,公開一些大型RLHF訓(xùn)練過程背后的細節(jié)將闡明某個組織對模型審查和安全檢查的規(guī)范。

其次,增加對于已知風(fēng)險緩解措施的透明度可以改善安全激勵,還能提供讓外部利益相關(guān)者對模型訓(xùn)練公司進行問責(zé)的方法。

第三,對于本文來說,透明度將增強AI安全社區(qū)對RLHF的理解,并能追蹤應(yīng)對這些挑戰(zhàn)的技術(shù)進展。

由于更具體的策略建議超出了研究的范圍,研究人員希望在未來將這些主題進行進一步的探討。

不過,研究人員還是針對不同的挑戰(zhàn)類型提出了一些具體細節(jié),如果能夠披露這些細節(jié),將能夠披露風(fēng)險,并且在對使用RLHF開發(fā)的AI系統(tǒng)進行審核時應(yīng)該考慮這些細節(jié),見下圖。

人類反饋:

- 對預(yù)訓(xùn)練過程的具體描述,包括關(guān)于使用了哪些數(shù)據(jù)來顯露可能導(dǎo)致的偏見的細節(jié)。

- 披露如何選擇和培訓(xùn)人類評估者的過程,以提供與評估者可能具有惡意、不代表性或無能力風(fēng)險相關(guān)的信息的過程。

- 披露選擇示例以獲得反饋的過程,從而能夠檢查其代表性,并能幫助判斷是否進行了足夠的對抗性訓(xùn)練。如果示例是從公開可用的應(yīng)用程序中眾包獲取的,則應(yīng)提供有關(guān)采取措施以避免數(shù)據(jù)污染的詳細信息。

- 使用的人類反饋類型(例如,二元比較、標量反饋等)以建議不充分豐富或充分反饋可能引起的風(fēng)險。

- 披露關(guān)于反饋收集的質(zhì)量保證措施和評分者之間一致性的措施,確保采取了有效的質(zhì)量控制措施。

獎勵模型:

- 披露用于擬合獎勵模型的損失函數(shù),以及在擬合獎勵模型時如何建模不一致性(例如,作為噪聲)以幫助分析失配程度。

- 披露報告關(guān)于獎勵模型評估和結(jié)果的情況,以建議可能出現(xiàn)的來自不一致獎勵模型的問題。評估應(yīng)包括紅隊測試。

策略:

- 披露關(guān)于策略評估和結(jié)果的情況,以建議可能出現(xiàn)的來自不一致策略的問題。評估應(yīng)包括紅隊測試,并包括對風(fēng)險能力(例如欺騙人類的能力)的評估。

系統(tǒng)性安全措施:

- 報告關(guān)于內(nèi)部和外部審計以及紅隊測試的情況,以確保問責(zé)制,并披露已經(jīng)識別的風(fēng)險。

- 報告預(yù)期的風(fēng)險和預(yù)期的故障模式,以確保問責(zé)制。

- 監(jiān)測和糾正故障的計劃,以支持部署后的安全性。

對社會和經(jīng)濟公平性的關(guān)注:

盡管本文側(cè)重于RLHF的技術(shù)挑戰(zhàn),但社會和經(jīng)濟問題同樣重要,需要治理機構(gòu)和行業(yè)共同努力解決。

例如,OpenAI曾向肯尼亞的知識工作者支付低于每小時2美元的報酬,而這項工作在心理和情感上都非常讓人難以接受。

在RLHF研究中使用的人類對象不應(yīng)只是因為方便或者是成本低就作為最理想的對象。

成本、收益和對RLHF模型的影響應(yīng)該在不同群體之間得到公平分配。

此外,強大的AI系統(tǒng)有可能會帶來高額利潤,并將大量財富和權(quán)力集中在少數(shù)人手中。

因此,制定解決不平等問題和保護弱勢群體(例如受影響的社區(qū)、舉報者)的策略將變得越來越重要。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-04-28 17:13:12

箭頭函數(shù)ES6函數(shù)

2020-11-02 17:34:22

數(shù)據(jù)分析人工智能技術(shù)

2024-12-26 09:58:18

2023-06-30 07:19:25

電源供電顯卡

2023-10-24 08:01:38

String傳統(tǒng)

2023-08-05 12:50:18

AI技術(shù)

2025-04-24 08:25:00

2021-06-29 07:19:06

Redis容器化K8S

2021-06-29 15:39:16

容器技術(shù)Redis

2021-01-28 14:41:08

麥肯錫數(shù)字化項目

2021-12-15 10:20:08

緩存架構(gòu)開發(fā)

2018-07-01 08:34:09

緩存數(shù)據(jù)服務(wù)

2022-06-07 17:01:31

UI框架前端

2013-02-22 09:43:41

面向?qū)ο?/a>面向?qū)ο缶幊?/a>

2020-09-24 10:03:54

Python開發(fā)語言

2017-09-04 16:20:38

Linuxshell命令

2021-11-08 11:21:18

redis 淘汰算法

2012-09-21 10:12:24

SaaS廠商SLA評估SaaS應(yīng)用

2019-04-30 13:54:55

大數(shù)據(jù)Hadoop數(shù)據(jù)清洗

2020-07-09 14:20:30

人工智能機器學(xué)習(xí)技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號