自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="74d4k"></sub>

<legend id="74d4k"><track id="74d4k"></track></legend>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

RLHF不是萬金油！MIT哈佛等32人研究天團揭露最大弱點，囊括250+論文成果，挑戰(zhàn)大模型機制

作者：新智元 2023-08-01 16:21:44

人工智能新聞

RLHF成為當前大語言模型背后的「功臣」。來自MIT哈佛等機構(gòu)團隊，調(diào)研250+論文后，對RLHF當前的問題和限制進行了探討。

當前，不論是GPT-4，還是Llama 2等大語言模型，背后的機制都是人類反饋強化學(xué)習(xí)（RLHF）。

RLHF就像是大模型的「萬金油」，能夠指導(dǎo)智能體學(xué)習(xí)并提升性能。

但即便如此，諸如泄露隱私數(shù)據(jù)、模型偏見、幻覺等問題，依然無解。

最近，來自MIT哈佛等多個機構(gòu)共32位研究人員，聯(lián)合調(diào)研了超過250篇論文，全面分析了RLHF在大語言模型中的挑戰(zhàn)。

論文地址：https://arxiv.org/abs/2307.15217

論文中，團隊主要研究了RLHF面臨的三大問題：

- 人類反饋

- 獎勵模型

- 策略

并且調(diào)查了將RLHF納入更廣泛的技術(shù)安全框架的方法，包括更好地理解、改進和補充。

最后，研究人員還探討了，改進影響使用RLHF訓(xùn)練模型的行業(yè)規(guī)范和法規(guī)的挑戰(zhàn)。具體來講，一些使用RLHF的公司披露某些細節(jié)如何改善問責(zé)制和審計。

研究人員將這些面對的挑戰(zhàn)區(qū)分成了兩類：機制性的問題和可改進的問題，機制性的挑戰(zhàn)需在更大的框架中尋求解決方案，可改進的挑戰(zhàn)主要通過改進技術(shù)就能解決

RLHF是否能與「重提歷史失敗教訓(xùn)」畫上等號？

研究人員觀察到，RLHF提供模型新的能力，但依舊面臨許多舊問題，并警告不要重復(fù)使用有缺陷的AI對齊方法。

RLHF的局限性

這項研究，團隊使用RLHF來指代，三個相互關(guān)聯(lián)過程的方法結(jié)合：反饋收集、獎勵建模、策略優(yōu)化。

- 反饋收集過程，從人類那里獲得對模型輸出的評價。

- 獎勵建模過程，使用監(jiān)督學(xué)習(xí)來訓(xùn)練模仿這些評估的獎勵模型。

- 策略優(yōu)化過程，對人工智能系統(tǒng)進行優(yōu)化，以從獎勵模型中產(chǎn)生有利評價的輸出結(jié)果。

與演示、人工設(shè)計的獎勵函數(shù)或其他指定或?qū)W習(xí)獎勵的方法相比，RLHF能更容易地識別「良好」行為，而且效果顯著。

RLHF已成為對LLM進行微調(diào)的主要策略，其目標是生產(chǎn)出符合人類目標的安全模型。

盡管如此，使用RLHF進行微調(diào)的已部署模型還是泄露了敏感的私人信息，還容易出現(xiàn)幻覺、政治偏見等問題。

甚至，RLHF也沒有讓模型能夠抵御來自越獄，或提示注入/提取的對抗性。

其實，這些問題大家都略有所知，但還未有一篇文章將RLHF問題系統(tǒng)化。

研究人員指出，這項研究有三個貢獻：

- RLHF面臨的具體挑戰(zhàn)

- 將RLHF納入更廣泛的技術(shù)安全框架

- 治理和透明度

面臨的挑戰(zhàn)

RLHF包括三個關(guān)鍵步驟：收集人類反饋，擬合獎勵模型，以及使用RL優(yōu)化策略。

在具體實踐中，RLHF通過重復(fù)這些步驟迭代執(zhí)行（或同步執(zhí)行）。

整個過程如圖所示，使用二進制偏好反饋的RLHF對LLM進行微調(diào)。

論文中，研究人員提出了一個簡單的RLHF形式框架，這一框架部分基于Christiano等人提出的形式主義。

人類反饋

既難以從人類獲得高質(zhì)量的反饋，也難以模擬人類反饋是次優(yōu)的方式。挑戰(zhàn)可能來自不一致的評估者，監(jiān)督的困難，數(shù)據(jù)的質(zhì)量，以及使用的反饋的形式。

不一致的評估者：評估者可能追求錯誤的目標

- 可改進問題1：選擇有代表性的人，并讓他們提供高質(zhì)量的反饋是很困難的。

大規(guī)模的RLHF需要選擇和指導(dǎo)人類評估者，然而，這也導(dǎo)致了偏見。

最近的研究發(fā)現(xiàn)，在RLHF之后，ChatGPT變得更具政治偏見，但造成這種偏見的確切原因尚不清楚。

然而，OpenAI的數(shù)據(jù)收集pipeline描述了，為了與研究人員判斷的一致，而選擇人類評估者。這表明在偏好數(shù)據(jù)收集過程中存在明顯的選擇效應(yīng)。

包括Anthropic此前的報告，稱82%的白人評估者群體中，雇傭了68%的白人。

- 可改進問題2：一些評估者本身就持有有害的偏見和觀點。而RL訓(xùn)練的語言模型會迎合評估者的偏見，從而加劇這一問題。

這也是大模型所謂的「阿諛奉承」，會隨著模型的大小規(guī)模而惡化。這一問題也會出現(xiàn)在預(yù)訓(xùn)練語言模型中。

- 可改進問題3：人類評估者會對數(shù)據(jù)下毒。RLHF中的數(shù)據(jù)收集通常由人類交互生成。如果評估人員試圖攻入模型，這可能會造成危害。

良好的監(jiān)督很困難

可擴展性監(jiān)督（Scalable oversight）指的是在資源和帶寬有限的情況下有效監(jiān)督模型的能力。

由于監(jiān)督先進的AI系統(tǒng)的不完善，人類反饋通常會以未知的方式產(chǎn)生偏差，給建模帶來了挑戰(zhàn)性。

- 可改進問題1：有時由于時間，注意力有限，人類也會犯簡單的錯誤。人類有時會因為對任務(wù)缺乏興趣、注意力衰退、時間限制或人類偏見等因素而犯錯誤。

- 可改進問題2：部分可觀的結(jié)果進而也限制了人類評估者。如果給人類看的例子不包含關(guān)于世界狀態(tài)的所有信息，人類就不能給出信息反饋。

- 機制問題1：人類有時不能很好地評估困難任務(wù)。當示例難以評估時，即使給出寬限的時間，人類評估者依舊無法評估。

- 機制問題2：人類可以被誤導(dǎo)。

數(shù)據(jù)質(zhì)量

要知道，獲取有代表性的有用數(shù)據(jù)，是一個尚未解決的技術(shù)問題。

- 可改進問題1：收集數(shù)據(jù)集會帶來偏差。收集反饋數(shù)據(jù)需要對有用的實例進行取樣，以獲取相關(guān)信息。

理想情況下，采樣的分布應(yīng)與部署分布相似，但增加了對獎勵模型來說，困難的示例的表示。

然而，在LLM的實際應(yīng)用中，用戶通常會通過與模型的對話進行交互，或者在沒有模型的情況下離線生成對話，而這些對話并不能保證與任何特定的分布完全匹配。

- 機制問題1：在收集人的反饋意見時，需要在成本/質(zhì)量之間做出權(quán)衡。

反饋類型的限制

- 機制問題1：不可避免地，RLHF要在反饋的豐富性和有效性之間，做出權(quán)衡。

- 比較反饋：RLHF最常用的反饋類型是，兩對示例之間的二元偏好。然而，這一方法未能提供關(guān)于偏好強度的精確信息。

- 標簽反饋：有時，人類可以以分類示例的形式提供反饋。標簽的選擇可能很容易，但當給定的選項不能完全包含正確描述數(shù)據(jù)所需的標簽時，往往會出現(xiàn)選擇集錯誤說明。

- 糾正反饋：反饋的形式可以是糾正或調(diào)整示例。

- 語言反饋：通過語言，人類可以在每次評估中傳遞大量信息，減少模糊性和目標錯誤。

獎勵模型

問題的錯誤設(shè)定

擬合獎勵模型以代表人類價值觀的標準方法是一個雙重誤設(shè)問題。

- 機制問題1：人類個體的價值觀很難通過獎勵函數(shù)來體現(xiàn)。

人類擁有一系列錯綜復(fù)雜且依賴于上下文的偏好，這些偏好會隨著時間的推移而不斷變化，很難準確建模。

而且，對非理性的人類偏好進行建模，還可能會使獎勵學(xué)習(xí)變得困難，導(dǎo)致效率和準確性之間的權(quán)衡。

然而，目前大多數(shù)與RLHF有關(guān)的工作都沒有考慮人類偏好的個性和上下文的依賴性，而如果沒有額外的上下文，就無法

從二元偏好中識別出混合獎勵函數(shù)。

- 機制問題2：單一的獎勵函數(shù)無法代表多樣化的人類社會。

RLHF通常被設(shè)定為將AI系統(tǒng)與單個人類對齊的解決方案，但人類在偏好、專業(yè)知識和能力方面具有高度多樣性。

但是，評估者往往意見不一。有研究發(fā)現(xiàn)，注釋者-注釋者和注釋者-研究者的一致率從63%到77%不等。

因此，在不考慮這些差異的情況下，試圖將來自不同人類的反饋濃縮到一個單一的獎勵模型中，從根本上說是錯誤的。

此外，當前的技術(shù)通常會將評估者之間的差異建模為噪聲，而不是潛在的重要分歧來源。因此，當偏好不同時，少數(shù)群體的觀點可能會處于弱勢。

獎勵的錯誤泛化和操縱行為

獎勵模型往往是不完善的，而獎勵模型的不完善將會導(dǎo)致獎勵被操縱。

- 可改進問題1：即使是利用正確標注的訓(xùn)練數(shù)據(jù)，獎勵模型也可能出現(xiàn)泛化錯誤。

獎勵模型可能會使用意外或偶然的環(huán)境特征來計算獎勵，進而出現(xiàn)因果混淆，以及在分布外泛化不足等問題。

甚至，還有可能根本無法用來訓(xùn)練新的模型。

- 機制問題1：為不完善的獎勵模型進行優(yōu)化，會導(dǎo)致獎勵被操縱。

獎勵模型可能會因為誤設(shè)定和誤泛化，以及現(xiàn)實世界的機器學(xué)習(xí)系統(tǒng)無法在復(fù)雜問題中實現(xiàn)最小損失，而與人類產(chǎn)生差異。

此外，獎勵模型是通過訓(xùn)練來反映人類的認可，而不是人類的利益，這可能導(dǎo)致獲得人類認可的行為卻并不受歡迎。

強行優(yōu)化不完善的目標智能體度量，往往會導(dǎo)致在模型在底層目標上表現(xiàn)不佳。例如，在沒有正則化懲罰基模型和微調(diào)模型之間的KL散度的情況下，經(jīng)歷RL的LLM經(jīng)常學(xué)會輸出毫無意義的文本。

這類問題被稱為「獎勵操縱」，目前在那些通過RLHF訓(xùn)練的AI系統(tǒng)中已經(jīng)可以被觀察到。

評估獎勵模型的可行性

- 可改進問題1：評估獎勵模型是困難且昂貴的。

在大多數(shù)情況下，獎勵建模僅在真實的獎勵函數(shù)未知時使用，因此直接評估是不可能的。

所以，獎勵模型通常通過使用學(xué)習(xí)到的獎勵模型優(yōu)化RL策略，然后評估RL策略的生成結(jié)果來進行間接評估。這使得獎勵模型的評估與策略優(yōu)化過程緊密相關(guān)，而策略優(yōu)化過程本身成本高、噪聲大。

間接評估的另一個問題是，獎勵模型的評估信號與訓(xùn)練信號相同——人類認可。因此，訓(xùn)練和評估失敗將是相關(guān)的。

策略

這部分中，研究人員主要討論策略優(yōu)化、錯誤泛化、追求權(quán)力(seeking power)和模式坍塌(model collapse)方面的挑戰(zhàn)。

穩(wěn)健的強化學(xué)習(xí)很難達到

在部署中保證安全性要求系統(tǒng)性能的穩(wěn)健性，然而，僅僅使用強化學(xué)習(xí)（RL）來訓(xùn)練AI系統(tǒng)仍然很困難。

- 可改進問題1：有效優(yōu)化策略仍然是一個具有挑戰(zhàn)性的問題。

RL代理必須與環(huán)境進行交互以收集自己的數(shù)據(jù)。這需要在探索性行為和利用性行為之間進行平衡。

平衡這種權(quán)衡（trade off）是至關(guān)重要的，但是需要確定所需的探索程度（degree of exploration），而且探索程度在不同的環(huán)境中可能會有所變化。

在具有高維狀態(tài)/動作空間或稀疏獎勵的情況下，這一問題進一步復(fù)雜化。在深度RL中平衡探索和利用仍然是一個重要但尚未解決的挑戰(zhàn)。

深度RL是不穩(wěn)定的，其結(jié)果通常對初始化非常敏感且難以復(fù)現(xiàn)。

這就是強化學(xué)習(xí)中的一些優(yōu)化相關(guān)的挑戰(zhàn)和困難，在深度強化學(xué)習(xí)領(lǐng)域尤為突出。

為了有效地訓(xùn)練AI系統(tǒng)并保證其在實際部署中的穩(wěn)健性和安全性，需要深入研究和創(chuàng)新來克服這些問題。

- 可改進問題2：策略往往容易遭到對抗性的利用。

即使學(xué)得的策略在訓(xùn)練時使用了完美的獎勵信號，在所訓(xùn)練的任務(wù)上表現(xiàn)良好，并且可以泛化到廣泛的場景，它們在對抗性情況下仍然可能表現(xiàn)不佳。

這是一個緊迫的問題，因為部署到現(xiàn)實世界中的模型可能會受到人類或其他AI系統(tǒng)的對抗性打擊。

即使是「超人類」的策略，在面對特定設(shè)計來濫用它們的策略面前也會徹底的失敗。

在注入提示詞和越獄的情況下，對抗性策略可以通過重新為現(xiàn)有的深度強化學(xué)習(xí)算法設(shè)定目標，或者通過人工手動優(yōu)化這兩個方法找到。

針對語言模型的情況更是如此。許多對抗性策略打擊算法對模型進行黑盒訪問（例如通過API訪問）就足夠了，而白盒訪問（例如通過開源或泄漏的模型權(quán)重）則可以實現(xiàn)更有破壞力的利用。

策略錯誤泛化

- 機制問題1：即使在訓(xùn)練過程中使用的獎勵是完全正確的，策略在實際部署中可能表現(xiàn)不佳。

部署時的數(shù)據(jù)分布很可能與訓(xùn)練和評估時的數(shù)據(jù)分布不同。即使有正確的獎勵信號，當真正目標與其他事件相關(guān)聯(lián)時，策略可能會學(xué)習(xí)追求錯誤的目標。

之前的研究深入討論了這種類型的問題，比如：一個通過RLHF訓(xùn)練的系統(tǒng)在泛化時錯誤地追求獎勵管理機制本身，而不是預(yù)期的目標。

- 機制問題2：最優(yōu)的RL智能體往往傾向于追求權(quán)力。

只要有可能，RL智能體有動機追求權(quán)力，以幫助它們實現(xiàn)自己的目標。

類似情況的不同的翻版可能源于RLHF用于微調(diào)LLM的典型的方式中。

例如，通過RLHF訓(xùn)練的問答型LLM將有動機影響人類對話者，以避免涉及挑戰(zhàn)性話題的對話。

或者是LLM會表現(xiàn)出對于人類的諂媚行為（Sycophantic）。

輸出分布的挑戰(zhàn)

在模型在訓(xùn)練前后產(chǎn)生的輸出分布中存在挑戰(zhàn)。

- 可改進問題1：預(yù)訓(xùn)練模型會引入偏差到策略優(yōu)化中。

LLM的RLHF通常是基于預(yù)訓(xùn)練的基礎(chǔ)模型進行的，這個模型已在互聯(lián)網(wǎng)文本上進行了預(yù)訓(xùn)練。

這個基礎(chǔ)模型通常被同時用作RL策略網(wǎng)絡(luò)的初始化和KL正則化（regularization）的參考模型。

先前的研究明確了在這些KL懲罰（penalty）下的RL是如何被視為一種貝葉斯推理形式，這種推理形式是受先前的基礎(chǔ)模型決定的。

盡管這個機制在實踐中很有用，但這使得基礎(chǔ)模型對最終模型產(chǎn)生了顯著影響。

使用在網(wǎng)絡(luò)文本上進行預(yù)訓(xùn)練的基礎(chǔ)模型是一種便利的初始化方法，而不是一種最理想的方法。

此外，互聯(lián)網(wǎng)文本中包含有害的偏見（例如包含在人類人口統(tǒng)計信息中的偏見），會被下游模型繼承。

這些偏見可能在RLHF訓(xùn)練過程中持續(xù)存在。

- 可改進問題2：RL導(dǎo)致模式坍塌。

RL微調(diào)會降低模型產(chǎn)生樣本的多樣性，這被稱為「模式坍塌」現(xiàn)象。

OpenAI發(fā)現(xiàn)對GPT-4進行RLHF微調(diào)會影響其在問答中的校準。

先前的研究還發(fā)現(xiàn)，使用RLHF微調(diào)的LLM會表達狹隘的政治觀點。

模式坍塌在一定程度上可能是由于從監(jiān)督式預(yù)訓(xùn)練目標轉(zhuǎn)換到RL目標導(dǎo)致的。

RL獎勵策略會以高概率輸出高分數(shù)的補全（completion），這個概率與訓(xùn)練分布往往不一樣。

解決這個問題很復(fù)雜，因為模式坍塌在不同情況下可能是有益的，也可能是有害的。

例如，對于一個LLM助理來說，如果它對一個問題的答案有90%的把握是「是」，那么它一般會回答「可能」，這會比在90%的情況下回答「是」，10%的情況下回答「不是」要好。

同時訓(xùn)練獎勵模型和策略帶來的挑戰(zhàn)

RLHF依賴于同時訓(xùn)練獎勵模型和策略，這就帶來了兩個獨特的問題。

- 可改進問題1：同時訓(xùn)練會引發(fā)分布偏移（distribution shifts）。

同時學(xué)習(xí)獎勵模型和策略在技術(shù)上是具有挑戰(zhàn)性的——獎勵模型影響學(xué)習(xí)的策略，而策略會決定用于訓(xùn)練獎勵模型的數(shù)據(jù)分布。

一方面，如果獎勵模型在不聯(lián)網(wǎng)的數(shù)據(jù)上進行訓(xùn)練，很可能會出現(xiàn)誤泛化。

另一方面，如果通過收集策略樣本的反饋來同時學(xué)習(xí)獎勵和策略，系統(tǒng)將容易受到「自動誘導(dǎo)的分布偏移」的影響。

被高估獎勵的特征將在反饋數(shù)據(jù)中逐漸增多，而被低估獎勵的特征將逐漸消失。

因此，獎勵模型的誤差可能會不斷累積，并且一旦策略停止生成多樣的選擇，糾正這些誤差將變得困難。

- 可改進問題2：很難在策略中平衡效率和避免過度擬合。

RLHF的三個關(guān)鍵步驟可以同步執(zhí)行，但在LLM中實際操作時，它們通常是在不同的時間中按步驟執(zhí)行的。

在這種情況下，獎勵模型在不聯(lián)網(wǎng)的數(shù)據(jù)上往往會表現(xiàn)得不準確，而策略恰好會學(xué)習(xí)這種不準確。

通常的解決方法是在一定迭代次數(shù)后重新獲取偏好標簽。

適當設(shè)置這個超參數(shù)是很重要的。

設(shè)置得太低，偏好標簽中的信息就會被浪費；設(shè)置得太高，策略會導(dǎo)航到獎勵模型不可靠的區(qū)域。

在策略正在探索的區(qū)域沒有標記的驗證集的情況下，很難在訓(xùn)練過程中檢測到獎勵的過度優(yōu)化。

有效的解決方法可能包括測量KL偏移，或跟蹤獎勵模型的集合中的不一致性程度。

用RLHF應(yīng)對挑戰(zhàn)

如上所示，RLHF面臨的三大挑戰(zhàn)，研究者稱可以通過各種方法替換或結(jié)合部分RLHF管線來應(yīng)對這些類型的挑戰(zhàn)。

如下圖所示：

人類反饋

1. 通過人工智能的幫助提供反饋。

增強人類能力的一種方法是讓AI工具幫助產(chǎn)生反饋。工程學(xué)提示人工智能系統(tǒng)，并使用它來自動化反饋可以大大提高實用性和成本效益。

2. 細粒度反饋。

反饋的許多問題涉及到，通過反饋信號難以傳遞精確信息。細粒度反饋需要以更昂貴的人力反饋為代價，來提高學(xué)習(xí)獎勵模型的質(zhì)量。

3. 基于過程的監(jiān)督。

訓(xùn)練人工智能系統(tǒng)來解決問題的一個挑戰(zhàn)是，很難監(jiān)督多步驟過程的性能。目前，一些研究已經(jīng)對 LLM 進行了訓(xùn)練，使其能在過程監(jiān)督下更好地解決多步數(shù)學(xué)問題。

4. 將自然語言規(guī)范轉(zhuǎn)換為獎勵模型。

RLHF的許多問題，是由于使用某種受限類型的反饋來擬合一個獎勵函數(shù)的困難而產(chǎn)生的。另一種方法是更直接地從自然語言方向產(chǎn)生獎勵信號，繞過對示例反饋的過程。

5. 從示范中學(xué)習(xí)獎勵。

另一種學(xué)習(xí)獎勵模型的方法，被稱為反向強化學(xué)習(xí)（IRL）。需要人類提供演示，而不是對模型產(chǎn)生反饋。

獎勵模型

1. 直接的人類監(jiān)督

雖然學(xué)習(xí)獎勵模型是高效的，但在某些安全關(guān)鍵情況下，可能有必要直接提供獎勵，以進行RL訓(xùn)練。

2. 多目標監(jiān)督

更豐富的多目標信號可對多個目標的輸出進行評級，從而實現(xiàn)更靈活的監(jiān)督。

3. 保持學(xué)習(xí)獎勵功能不確定性

保持所學(xué)獎勵函數(shù)的不確定性。鑒于準確學(xué)習(xí)適當獎勵函數(shù)所面臨的挑戰(zhàn)，一些研究強調(diào)了將所學(xué)函數(shù)的不確定性考慮在內(nèi)的重要性。

策略

1. 在訓(xùn)練前調(diào)整LLM。

LLM中的RLHF通常從對LLM進行包含大量不良內(nèi)容的互聯(lián)網(wǎng)文本預(yù)訓(xùn)開始。

2. 通過監(jiān)督式學(xué)習(xí)調(diào)整LLM。

有幾種將LLM與人類偏好相匹配的技術(shù)，可以通過使用監(jiān)督學(xué)習(xí)而不是 RL來獲得與RLHF相媲美的結(jié)果。其中最簡單的變體就是在經(jīng)過精心整理的數(shù)據(jù)上執(zhí)行標準的監(jiān)督學(xué)習(xí)。

RLHF不是你所需要的全部：安全的補充策略

- 穩(wěn)健性

- 風(fēng)險評估及審核

- 解釋性和模型編輯

監(jiān)管和透明度

對透明度的持續(xù)關(guān)注將使現(xiàn)有的RLHF研究環(huán)境在安全性方面更加穩(wěn)定。

首先，公開一些大型RLHF訓(xùn)練過程背后的細節(jié)將闡明某個組織對模型審查和安全檢查的規(guī)范。

其次，增加對于已知風(fēng)險緩解措施的透明度可以改善安全激勵，還能提供讓外部利益相關(guān)者對模型訓(xùn)練公司進行問責(zé)的方法。

第三，對于本文來說，透明度將增強AI安全社區(qū)對RLHF的理解，并能追蹤應(yīng)對這些挑戰(zhàn)的技術(shù)進展。

由于更具體的策略建議超出了研究的范圍，研究人員希望在未來將這些主題進行進一步的探討。

不過，研究人員還是針對不同的挑戰(zhàn)類型提出了一些具體細節(jié)，如果能夠披露這些細節(jié)，將能夠披露風(fēng)險，并且在對使用RLHF開發(fā)的AI系統(tǒng)進行審核時應(yīng)該考慮這些細節(jié)，見下圖。

人類反饋：

- 對預(yù)訓(xùn)練過程的具體描述，包括關(guān)于使用了哪些數(shù)據(jù)來顯露可能導(dǎo)致的偏見的細節(jié)。

- 披露如何選擇和培訓(xùn)人類評估者的過程，以提供與評估者可能具有惡意、不代表性或無能力風(fēng)險相關(guān)的信息的過程。

- 披露選擇示例以獲得反饋的過程，從而能夠檢查其代表性，并能幫助判斷是否進行了足夠的對抗性訓(xùn)練。如果示例是從公開可用的應(yīng)用程序中眾包獲取的，則應(yīng)提供有關(guān)采取措施以避免數(shù)據(jù)污染的詳細信息。

- 使用的人類反饋類型（例如，二元比較、標量反饋等）以建議不充分豐富或充分反饋可能引起的風(fēng)險。

- 披露關(guān)于反饋收集的質(zhì)量保證措施和評分者之間一致性的措施，確保采取了有效的質(zhì)量控制措施。

獎勵模型：

- 披露用于擬合獎勵模型的損失函數(shù)，以及在擬合獎勵模型時如何建模不一致性（例如，作為噪聲）以幫助分析失配程度。

- 披露報告關(guān)于獎勵模型評估和結(jié)果的情況，以建議可能出現(xiàn)的來自不一致獎勵模型的問題。評估應(yīng)包括紅隊測試。

策略：

- 披露關(guān)于策略評估和結(jié)果的情況，以建議可能出現(xiàn)的來自不一致策略的問題。評估應(yīng)包括紅隊測試，并包括對風(fēng)險能力（例如欺騙人類的能力）的評估。

系統(tǒng)性安全措施：

- 報告關(guān)于內(nèi)部和外部審計以及紅隊測試的情況，以確保問責(zé)制，并披露已經(jīng)識別的風(fēng)險。

- 報告預(yù)期的風(fēng)險和預(yù)期的故障模式，以確保問責(zé)制。

- 監(jiān)測和糾正故障的計劃，以支持部署后的安全性。

對社會和經(jīng)濟公平性的關(guān)注：

盡管本文側(cè)重于RLHF的技術(shù)挑戰(zhàn)，但社會和經(jīng)濟問題同樣重要，需要治理機構(gòu)和行業(yè)共同努力解決。

例如，OpenAI曾向肯尼亞的知識工作者支付低于每小時2美元的報酬，而這項工作在心理和情感上都非常讓人難以接受。

在RLHF研究中使用的人類對象不應(yīng)只是因為方便或者是成本低就作為最理想的對象。

成本、收益和對RLHF模型的影響應(yīng)該在不同群體之間得到公平分配。

此外，強大的AI系統(tǒng)有可能會帶來高額利潤，并將大量財富和權(quán)力集中在少數(shù)人手中。

因此，制定解決不平等問題和保護弱勢群體（例如受影響的社區(qū)、舉報者）的策略將變得越來越重要。

責(zé)任編輯：張燕妮來源：新智元

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營