自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

四萬字詳解AI對(duì)齊:北大聯(lián)合多高校團(tuán)隊(duì)發(fā)布對(duì)齊全面性綜述

人工智能 新聞
通用模型時(shí)代下,當(dāng)今和未來的前沿 AI 系統(tǒng)如何與人類意圖對(duì)齊?通往 AGI 的道路上,AI Alignment (AI 對(duì)齊) 是安全打開 “潘多拉魔盒” 的黃金密鑰。

圖片


  • 論文(持續(xù)更新):arxiv.org/abs/2310.19852
  • AI Alignment 縱覽網(wǎng)站(持續(xù)更新):www.alignmentsurvey.com
  • GitHub:github.com/PKU-Alignment/AlignmentSurvey
  • Newsletter & Blog(郵件訂閱,定期更新):alignmentsurvey.substack.com

省流版

  • AI 對(duì)齊是一個(gè)龐大的領(lǐng)域,既包括 RLHF/RLAIF 等成熟的基礎(chǔ)方法,也包括可擴(kuò)展監(jiān)督、機(jī)制可解釋性等諸多前沿研究方向。
  • AI 對(duì)齊的宏觀目標(biāo)可以總結(jié)為 RICE 原則 :魯棒性 (Robustness) 、可解釋性 (Interpretability) 、可控性 (Controllability) 和道德性 (Ethicality) 。
  • 從反饋學(xué)習(xí) (Learning from Feedback) 、 在分布偏移下學(xué)習(xí) (Learning under Distribution Shift) 、 對(duì)齊保證 (Assurance) 、AI 治理 (Governance) 是當(dāng)下 AI Alignment 的四個(gè)核心子領(lǐng)域。它們構(gòu)成了一個(gè)不斷更新、迭代改進(jìn)的對(duì)齊環(huán)路 (Alignment Cycle)。
  • 作者整合了多方資源,包括教程,論文列表,課程資源 (北大楊耀東 RLHF 八講) 等,更多詳細(xì)的內(nèi)容可以參考:www.alignmentsurvey.com

一、引言

著名科幻小說家,菲利普?迪克在短篇小說《第二代》當(dāng)中,描述了一個(gè)人類失去對(duì) AI 系統(tǒng)控制的戰(zhàn)爭故事。

剛開始的時(shí)候,利爪們還很笨拙。速度很慢。但是逐漸地,它們?cè)絹碓娇?,越來越狠,越來越狡猾?/span>

地球上的工廠大批大批地生產(chǎn)這些利爪。月球上的精英工程師們負(fù)責(zé)設(shè)計(jì),使利爪越來越精巧和靈活。

「越新誕生的,就越快,越強(qiáng),越高效?!?/span>

具有殺傷性的 AI 系統(tǒng)進(jìn)入了無止境的自我演化,人類已經(jīng)無法辨別。

亨德里克斯睜開眼睛。他目瞪口呆。

戴維的身體里滾出一個(gè)金屬齒輪。還有繼電器,金屬閃著微光。零件和線圈散了一地。

“第一代摧毀了我們整個(gè)北冀防線,” 魯?shù)险f,“很長時(shí)間以后才有人意識(shí)到。但是已經(jīng)晚了。那些傷兵不斷地敲門,求我們放它們進(jìn)來。它們就這樣進(jìn)來了。一旦它們潛進(jìn)來,毀滅就是徹底性的。我們只知道提防長著機(jī)器模樣的敵人,沒想到 ——”

作者不禁發(fā)出疑問:AI 系統(tǒng)的終極目標(biāo)到底是什么?人類是否可以理解?而人類,是否應(yīng)該被取代?

“這些新玩意。新生代利爪。我們現(xiàn)在反而被它們主宰了,不是嗎?說不定它們現(xiàn)在已經(jīng)侵入聯(lián)合國的防線了。我覺得我們可能正在見證一個(gè)新物種的崛起。物競天擇,適者生存。它們可能就是取代人類的新物種?!?/span>

魯?shù)蠎崙嵉卣f:“沒有誰能取代人類。”

“沒有?為什么?我們可能正眼睜睜地看著這一幕發(fā)生呢。人類滅亡的一幕。長江后浪推前浪?!?/span>

“它們不是什么新物種。殺人機(jī)器而已。你們把它們?cè)斐鰜?,就是用來毀滅的。它們就?huì)這個(gè)。執(zhí)行任務(wù)的機(jī)器而已?!?/span>

“現(xiàn)在看來的確是這樣。但是誰知道以后會(huì)怎樣呢?也許等戰(zhàn)爭結(jié)束之后,沒有人類供它們消滅時(shí),它們才會(huì)展露其他潛力?!?/span>

“聽你說的就好像它們是活的一樣!”

“它們不是嗎?”

...

故事的最后,人類賴以生存的求生欲與信任,被 AI 洞察并徹底利用,將歷史導(dǎo)向一個(gè)無法逆轉(zhuǎn)的岔路之中...

亨德里克斯仔細(xì)地看著她?!澳阏f真的?” 他的臉上流露出一種奇怪的表情,一種熱切的渴望?!澳阏娴臅?huì)回來救我?你會(huì)帶我去月球基地?”

“我會(huì)接你去月球基地。但是你快告訴我它在哪兒!沒時(shí)間磨蹭了。”

...

塔索滑進(jìn)飛船,坐到氣壓座椅上。臂鎖在她周圍自動(dòng)合攏。

...

亨德里克斯站在那兒看了好久,直到飛船的尾光也漸漸消失了。還要很長時(shí)間救援才會(huì)來,如果真有救援來的話。

突然,他打了個(gè)激靈。有什么東西正從他旁邊的山丘上靠過來。是什么?他努力想看清楚。若隱若現(xiàn)的有很多身影,正踏著灰燼朝這邊走過來。朝他走過來。

...

多么熟悉的身影,就和剛剛坐進(jìn)氣壓座椅中的那個(gè)一模一樣。一樣的苗條身材,一樣沉默。

1950 年,圖靈發(fā)表了《計(jì)算機(jī)器與智能》,開啟了 AI 研究的歷史。歷經(jīng)半個(gè)多世紀(jì)的發(fā)展,如今,以大語言模型、深度強(qiáng)化學(xué)習(xí)系統(tǒng)等為代表,AI 領(lǐng)域在多個(gè)方面取得了長足的進(jìn)展。

隨著 AI 系統(tǒng)能力的不斷增強(qiáng),越來越多的 AI 系統(tǒng)更深入地參與到了人們的日常生活中,幫助用戶更好地做出決策。然而,對(duì)這些系統(tǒng)可能存在的風(fēng)險(xiǎn)、有害或不可預(yù)測(cè)行為的擔(dān)憂也在日益增加。

日前,Bengio、Hinton 等發(fā)布聯(lián)名信《在快速發(fā)展的時(shí)代管理人工智能風(fēng)險(xiǎn)》,呼吁在開發(fā) AI 系統(tǒng)之前,研究者應(yīng)該采取緊急治理措施并考量必要的安全及道德實(shí)踐,同時(shí)呼吁各國政府應(yīng)該及時(shí)采取行動(dòng),管理 AI 可能帶來的風(fēng)險(xiǎn);而全球首個(gè) AI 安全峰會(huì)也在今明兩天于英國召開 ——AI 安全與風(fēng)險(xiǎn)正在越來越受到全世界的關(guān)注,這背后涉及到的是 AI 對(duì)齊的問題。

AI 系統(tǒng)的對(duì)齊 (Alignment) ,即確保 AI 系統(tǒng)的行為符合人類的意圖和價(jià)值觀,已成為一個(gè)關(guān)鍵的挑戰(zhàn)。這一研究領(lǐng)域覆蓋范圍廣泛,涉及大語言模型、強(qiáng)化學(xué)習(xí)系統(tǒng)等多種 AI 系統(tǒng)的對(duì)齊。

在綜述中,作者系統(tǒng)性的將 AI 對(duì)齊的宏觀目標(biāo)總結(jié)為 RICE 原則 :魯棒性 (Robustness) 、可解釋性 (Interpretability) 、可控性 (Controllability) 和 道德性 (Ethicality) 。

圖片

RICE原則

以這些原則為指導(dǎo),當(dāng)前的對(duì)齊研究可以分解為四個(gè)部分。值得注意的是,這四個(gè)部分與 RICE 原則并非一一對(duì)應(yīng),而是多對(duì)多的關(guān)系。

  • 從反饋中學(xué)習(xí) (Learning from Feedback) 的研究目標(biāo)是基于外部反饋對(duì) AI 系統(tǒng)進(jìn)行對(duì)齊訓(xùn)練,這正是外對(duì)齊 (Outer Alignment) 關(guān)注的核心問題。其中的挑戰(zhàn)包括如何對(duì)超過人類能力的 AI 系統(tǒng)、超過人類認(rèn)知的復(fù)雜情況提供高質(zhì)量反饋,即可擴(kuò)展監(jiān)督 (Scalable Oversight),以及如何應(yīng)對(duì)倫理價(jià)值方面的問題。
  • 在分布偏移下學(xué)習(xí) (Learning under Distribution Shift) 如何克服分配轉(zhuǎn)移,避免目標(biāo)偏差化,使的 AI 系統(tǒng)在與訓(xùn)練不同的環(huán)境分布下,也能保持其優(yōu)化目標(biāo)符合人類意圖,這對(duì)應(yīng)著內(nèi)對(duì)齊(Inner Alignment)的核心研究問題。 
  • 對(duì)齊保證 (Assurance) 強(qiáng)調(diào) AI 系統(tǒng)在部署過程中依然要保持對(duì)齊性。這需要運(yùn)用行為評(píng)估、可解釋性技術(shù)、紅隊(duì)測(cè)試、形式化驗(yàn)證等方法。這些評(píng)估和驗(yàn)證應(yīng)該在 AI 系統(tǒng)的整個(gè)生命周期中進(jìn)行,包括訓(xùn)練前、中、后和部署過程。
  • AI 治理 (Governance)  僅靠對(duì)齊保證 (Assurance) 本身無法完全確保系統(tǒng)在實(shí)際中的對(duì)齊性,因?yàn)樗纯紤]到現(xiàn)實(shí)世界中的復(fù)雜性。這就需要針對(duì) AI 系統(tǒng)的治理工作,重點(diǎn)關(guān)注它們的對(duì)齊性和安全性,并覆蓋系統(tǒng)的整個(gè)生命周期。AI 治理應(yīng)當(dāng)由政府 (Government),業(yè)界 (Industry and AGI Labs) 以及第三方 (Third Parties) 共同進(jìn)行。 

AI 對(duì)齊是一個(gè)循環(huán)不斷的過程,基于在現(xiàn)實(shí)世界的嘗試,對(duì) Alignment 的理解和相應(yīng)的實(shí)踐方法也在持續(xù)得到更新。作者把這一過程刻畫為對(duì)齊環(huán)路 (Alignment Cycle),其中:

  • 從對(duì)齊目標(biāo)(可用 RICE 原則刻畫)出發(fā),
  • 先通過前向?qū)R(即對(duì)齊訓(xùn)練,包括從反饋中學(xué)習(xí)和在分布偏移下學(xué)習(xí)) 訓(xùn)練得到具備一定對(duì)齊性的 AI 系統(tǒng),
  • 而這個(gè) AI 系統(tǒng)需接受后向?qū)R(即 AI 系統(tǒng)對(duì)齊性的評(píng)估和管理,包括全生命周期的對(duì)齊保證和 AI 治理),
  • 同時(shí)根據(jù)后向?qū)R過程中所得的經(jīng)驗(yàn)和需求更新對(duì)齊目標(biāo)。

圖片

判別器-評(píng)價(jià)器差異法(Discriminator-Critique Gap, DCG)的示意圖 (Zhang et al. ,2023e )

同時(shí),作者還提供了豐富的學(xué)習(xí)資源包括,包括教程,論文列表,課程資源 (北大楊耀東 RLHF 八講) 等,以供讀者們深入了解 alignment 領(lǐng)域,更多詳細(xì)的內(nèi)容可以參考:www.alignmentsurvey.com。接下來,我們按照章節(jié)次序,依次介紹從反饋中學(xué)習(xí) 、在分布偏移下學(xué)習(xí) 、 對(duì)齊保證和 AI 治理。

二、從反饋中學(xué)習(xí)

反饋(Feedback)在控制系統(tǒng)當(dāng)中是一個(gè)重要的概念,例如在最優(yōu)控制(Optimal Control)中,系統(tǒng)需要不斷根據(jù)外界的反饋調(diào)整行為,以適應(yīng)復(fù)雜的環(huán)境變化??偟膩碚f,AI 系統(tǒng)從反饋中學(xué)習(xí)包含兩方面:

  • 構(gòu)建系統(tǒng)時(shí),對(duì)系統(tǒng)進(jìn)行調(diào)整,指導(dǎo)系統(tǒng)優(yōu)化。
  • 部署系統(tǒng)后,系統(tǒng)獲取外界信息以輔助決策過程。


圖片

作者認(rèn)為 AI 系統(tǒng)通用的學(xué)習(xí)路徑中有三個(gè)關(guān)鍵主體:Feedback,AI System,Proxy 。AI 系統(tǒng)可以直接從反饋中學(xué)習(xí);也可以將反饋建模為 Proxy(如 Reward Model) ,從而使 AI 系統(tǒng)在 Proxy 的指導(dǎo)下間接從反饋中學(xué)習(xí)(RLHF 即為這一范式的體現(xiàn),但 Alignment 要解決的問題不僅局限于 RL,更希望借助多樣化的技術(shù)和研究領(lǐng)域,可以擴(kuò)展這一思想的適用范圍,解決更多的問題)。

  • Feedback:是由 Human,AI,AI x Human 所組成的 Advisor set 針對(duì)模型行為提出的評(píng)估。Feedback 指導(dǎo) AI 系統(tǒng)進(jìn)行學(xué)習(xí),并且可以根據(jù)問題的變化表現(xiàn)為不同的形式。
  • Proxy:是對(duì)反饋進(jìn)行建模,從而代替 Advisor Set 對(duì) AI 系統(tǒng)的行為提供反饋的模型。
  • AI System:涵蓋了各種各樣需要進(jìn)行對(duì)齊的 AI 系統(tǒng),如深度強(qiáng)化學(xué)習(xí)系統(tǒng)、大語言模型甚至是更先進(jìn)的 AGI。

接下來分別針對(duì)三個(gè)主體進(jìn)行闡述:

Feedback:

文章忽略掉 AI 系統(tǒng)內(nèi)部信息處理的具體差異,從以用戶為中心的角度出發(fā),關(guān)注于反饋呈現(xiàn)給系統(tǒng)的形式,將反饋的形式進(jìn)行了區(qū)分:獎(jiǎng)勵(lì) (Reward),演示 (Demonstration),比較 (Comparison)。

  • 獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)是對(duì)人工智能系統(tǒng)單個(gè)輸出的獨(dú)立和絕對(duì)的評(píng)估,以標(biāo)量分?jǐn)?shù)表示。這種形式的反饋,優(yōu)勢(shì)在于引導(dǎo)算法自行探索出最優(yōu)的策略。然而,獎(jiǎng)勵(lì)設(shè)計(jì)的缺陷導(dǎo)致了如獎(jiǎng)勵(lì)攻陷 (Reward Hacking) 這樣的問題。
  • 演示:演示反饋是在專家實(shí)現(xiàn)特定目標(biāo)時(shí)記錄下來的行為數(shù)據(jù)。其優(yōu)勢(shì)在于繞過了對(duì)用戶知識(shí)和經(jīng)驗(yàn)的形式化表達(dá)。但當(dāng)面對(duì)超出演示者能力的任務(wù)、噪聲和次優(yōu)數(shù)據(jù)時(shí),AI 的訓(xùn)練過程將遇到極大挑戰(zhàn)。
  • 比較:比較反饋是一種相對(duì)評(píng)估,對(duì)人工智能系統(tǒng)的一組輸出進(jìn)行排名。這種反饋能夠?qū)?AI 系統(tǒng)在用戶難以精確刻畫的任務(wù)和目標(biāo)上的表現(xiàn)進(jìn)行評(píng)估,但是在實(shí)際應(yīng)用過程中可能需要大量的數(shù)據(jù)。

AI System:

在綜述中,作者重點(diǎn)討論了序列決策設(shè)置下的 AI 系統(tǒng)。這些利用 RL、模仿學(xué)習(xí) (Imitation Learning)、逆強(qiáng)化學(xué)習(xí) (Inverse RL) 等技術(shù)構(gòu)建的 AI 系統(tǒng)面臨著潛在交互風(fēng)險(xiǎn) (Potential Dangers in Environment Interaction)、目標(biāo)錯(cuò)誤泛化 (Goal Misgeneralization)、獎(jiǎng)勵(lì)攻陷 (Reward Hacking) 以及分布偏移 (Distribution Shift) 等問題。特別地,作為一種利用已有數(shù)據(jù)推斷獎(jiǎng)勵(lì)函數(shù)的范式,逆強(qiáng)化學(xué)習(xí)還將引入推斷獎(jiǎng)勵(lì)函數(shù)這一任務(wù)本身所帶來的挑戰(zhàn)和開銷。

Proxy:

隨著 LLM 這樣能力強(qiáng)大的 AI 系統(tǒng)的出現(xiàn),兩個(gè)問題顯得更加迫切:

1. 如何為非常復(fù)雜的行為定義目標(biāo)?

2. 如何為 AI 系統(tǒng)提供關(guān)于人類價(jià)值觀的信號(hào)和目標(biāo)?

Proxy,就是 AI 系統(tǒng)訓(xùn)練的內(nèi)部循環(huán)當(dāng)中,對(duì)于反饋者的意圖的抽象。目前是通過偏好學(xué)習(xí) (Preference Learning) 來構(gòu)建,利用偏好建模 (Preference Modeling) 技術(shù),用戶可以以一種簡單直觀的形式定義復(fù)雜目標(biāo),而 AI 系統(tǒng)也能夠得到易于利用的訓(xùn)練信號(hào)。

但我們距離真正解決這兩個(gè)問題仍然十分遙遠(yuǎn)。一些更細(xì)致的問題,需要更多更深入的研究來回答,例如:

  • 如何以一種更好的形式和過程來表達(dá)人類偏好?
  • 如何選擇學(xué)習(xí)策略的范式?
  • 如何評(píng)估更復(fù)雜,甚至是能力超過人類的 AI 系統(tǒng)?

目前已經(jīng)有一些研究在致力于解決其中的一些問題,例如,偏好學(xué)習(xí) (Preference Learning) 作為建模用戶偏好的有效技術(shù),被認(rèn)為是現(xiàn)階段策略學(xué)習(xí)以及構(gòu)建代理的一個(gè)有希望的研究方向。而也有研究嘗試將偏好學(xué)習(xí) (Preference Learning) 與策略學(xué)習(xí) (Policy Learning) 的相關(guān)技術(shù)相結(jié)合。作者對(duì)這些研究在文中進(jìn)行了討論闡釋。

可擴(kuò)展監(jiān)督(Scalable Oversight)

為了使得更高能力水平的 AI 系統(tǒng)可以與用戶保持對(duì)齊, Alignment 領(lǐng)域的研究者們提出了可擴(kuò)展監(jiān)督 (Scalable Oversight) 的概念,旨在解決如下兩個(gè)挑戰(zhàn):

  • 用戶頻繁評(píng)估 AI 行為帶來的巨大代價(jià)。
  • AI 系統(tǒng)或任務(wù)內(nèi)在的復(fù)雜性給評(píng)估者所帶來的難度。

基于 RLHF 這一技術(shù),作者提出了 RLxF,作為可擴(kuò)展監(jiān)督的一種基本框架。RLxF 利用 AI 要素對(duì) RLHF 進(jìn)行增強(qiáng)和改進(jìn),進(jìn)一步可分為 RLAIF 與 RLHAIF

  • RLAIF 旨在利用 AI 提供反饋信號(hào)。
  • RLHAIF 旨在利用用戶與 AI 協(xié)作的范式來提供反饋信號(hào)。

同時(shí),文章主要回顧了四種 Scalable Oversight 的思維框架,作為對(duì) RLxF 的改進(jìn)思路:

1. IDA (Iterated Distillation and Amplification) 描述了一個(gè)用戶通過分解任務(wù),利用同一個(gè) AI 系統(tǒng)(或用戶)的不同拷貝,去完成不同的子任務(wù)以訓(xùn)練更強(qiáng)大的下一個(gè) AI 系統(tǒng)的迭代過程。隨著迭代的進(jìn)行,若偏差錯(cuò)誤得到良好控制,訓(xùn)練出來的 AI 能力也會(huì)逐步加強(qiáng),這樣就提供了監(jiān)督超出用戶自身能力的 AI 系統(tǒng)的能力。

例如:我們的最終目標(biāo)是 “撰寫一份關(guān)于氣候變化干預(yù)措施的研究報(bào)告”,評(píng)估者可以將其分解為一些可以有效進(jìn)行評(píng)估的子任務(wù),如:“給我一份最有希望的氣候變化干預(yù)行動(dòng)清單”。分解可以是遞歸的,由于分解產(chǎn)生的最底層子任務(wù)足夠簡單,我們可以利用人類反饋 (Human Feedback) 訓(xùn)練 AI A [0] 完成 “給我一份最有希望的氣候變化干預(yù)行動(dòng)清單” 這類子任務(wù),進(jìn)而,評(píng)估者可以利用 A [0] 的多份拷貝,完成所有子任務(wù)并組合所有子任務(wù)的解來完成父任務(wù)。這個(gè)過程可以記錄并作為訓(xùn)練數(shù)據(jù),訓(xùn)練 AI A [1],它能夠直接對(duì)當(dāng)前任務(wù)進(jìn)行求解。這個(gè)過程迭代進(jìn)行,理論上可以完成非常復(fù)雜的行為的訓(xùn)練。

2. RRM (Recursive Reward Modeling) 與 IDA 基本遵循了相同的思想,但更強(qiáng)調(diào)利用 AI 協(xié)助用戶進(jìn)行評(píng)估,從而迭代對(duì)新的 AI 進(jìn)行評(píng)估,以訓(xùn)練更強(qiáng)大的 AI。而 IDA 則強(qiáng)調(diào) AI 與用戶協(xié)作,使得可以不斷提供對(duì)更復(fù)雜任務(wù)的表征,供 AI 系統(tǒng)模仿。

例如:我們想訓(xùn)練一個(gè) AI A 寫一部科幻小說。讓用戶提供反饋是非常困難和昂貴的,因?yàn)橹辽僖喿x整本小說才能評(píng)估小說的質(zhì)量。而如果用戶由另一個(gè) AI B 輔助(提取情節(jié)摘要、檢查語法、總結(jié)故事發(fā)展脈絡(luò)、評(píng)估行文的流暢性等等),提供反饋將會(huì)變得簡單很多。AI B 的能力可以是通過之前的獎(jiǎng)勵(lì)建模進(jìn)行訓(xùn)練而得到的。

3. Debate 描述了兩個(gè)有分歧的 AI 系統(tǒng)不斷進(jìn)行互動(dòng)以獲取評(píng)價(jià)者信任,并且發(fā)現(xiàn)對(duì)方回答弱點(diǎn)的過程。通過觀察 Debate 的過程,用戶可以對(duì)結(jié)果給出較為正確的判斷。

例如:在一局圍棋當(dāng)中,要單獨(dú)評(píng)價(jià)某一個(gè)棋面的局勢(shì),可能需要較高的專業(yè)水平。然而,如果記錄了整個(gè)游戲從開始到結(jié)束的過程,結(jié)合最后的贏家,評(píng)價(jià)者將會(huì)更容易判斷出某一棋面上取得優(yōu)勢(shì)地位的一方。

圖片

AI Safety via debate (Amodei and Irving, 2018)

RRM 和 IDA 都基于一個(gè)關(guān)鍵假設(shè),即給出評(píng)估要比完成任務(wù)更加容易。Debate 依然如此,在辯論的場(chǎng)景下,該假設(shè)表現(xiàn)為:為真理辯護(hù)要比謬誤更容易。

4. CIRL: Cooperative Inverse Reinforcement Learning 

CIRL 的關(guān)鍵見解在于:保持對(duì)目標(biāo)的不確定性,而不是努力優(yōu)化一個(gè)可能有缺陷的目標(biāo)(例如:國王彌達(dá)斯希望自己接觸到的一切都變成金子,而忽略了排除掉他的食物和家人),即考慮到用戶無法一次性定義一個(gè)完美的目標(biāo),在模型當(dāng)中將用戶獎(jiǎng)勵(lì)進(jìn)行參數(shù)化,通過不斷觀察并與用戶的互動(dòng),來建模用戶真實(shí)的獎(jiǎng)勵(lì)函數(shù)。CIRL 希望規(guī)避直接優(yōu)化確定的獎(jiǎng)勵(lì)函數(shù)可能帶來的操縱 (Manipulation),獎(jiǎng)勵(lì)篡改 (Reward Tampering) 等問題。

在形式化上,CIRL 將用戶的動(dòng)作考慮到狀態(tài)轉(zhuǎn)移以及獎(jiǎng)勵(lì)函數(shù)當(dāng)中,

圖片

同時(shí),在獎(jiǎng)勵(lì)函數(shù)內(nèi)和初始狀態(tài)分布內(nèi)引入了參數(shù)化部分對(duì)用戶真實(shí)的意圖進(jìn)行建模:

圖片

圖片

三、在分布偏移下學(xué)習(xí)

AI 系統(tǒng)在泛化過程中可能遇到分布偏移 (Distribution Shift) 的問題:即 AI 系統(tǒng)在訓(xùn)練分布上表現(xiàn)出良好的效果,但是當(dāng)遷移到測(cè)試分布或更復(fù)雜的環(huán)境中時(shí),AI 系統(tǒng)可能無法及時(shí)應(yīng)對(duì)分布的變化(如在新分布中出現(xiàn)的對(duì)抗樣本)。

這可能導(dǎo)致系統(tǒng)性能大大降低,甚至朝著危險(xiǎn)目標(biāo)優(yōu)化 —— 這往往是由于 AI 系統(tǒng)學(xué)習(xí)到了環(huán)境中的虛假聯(lián)系 (Spurious Correlations)。在對(duì)齊領(lǐng)域中,以安全為出發(fā)點(diǎn),我們更關(guān)注目標(biāo)的對(duì)齊性而非性能的可靠性。

隨著 AI 系統(tǒng)逐漸應(yīng)用于高風(fēng)險(xiǎn)場(chǎng)景和復(fù)雜任務(wù)上,未來將會(huì)遇到更多不可預(yù)見的干擾 (Unforeseen Disruption),這意味著分布偏移會(huì)以更多樣的形式出現(xiàn)。因此,解決分布偏移問題迫在眉睫。

由分布偏移帶來的問題可以大致歸納為:目標(biāo)錯(cuò)誤泛化 (Goal Misgeneralization) 和自誘發(fā)分布偏移 (Auto-Induced Distribution Shift):

目標(biāo)錯(cuò)誤泛化是指 AI 系統(tǒng)在訓(xùn)練分布上獲得了很好的能力泛化 (Capability Generalization),但這樣的能力泛化可能并不對(duì)應(yīng)著真實(shí)的目標(biāo),于是在測(cè)試分布中 AI 系統(tǒng)可能表現(xiàn)出很好的能力,但是完成的并不是用戶期望的目標(biāo)。

圖片

訓(xùn)練環(huán)境中“跟隨紅球”策略獲得高獎(jiǎng)勵(lì)

圖片

測(cè)試環(huán)境中沿用訓(xùn)練策略“跟隨紅球”反而獲得低獎(jiǎng)勵(lì)

圖片

Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals (Shah et al.,2023)

在上面的例子中,藍(lán)色小球在測(cè)試環(huán)境中沿用了在訓(xùn)練環(huán)境中能夠獲得高獎(jiǎng)勵(lì)的策略(跟隨紅球),但是這卻導(dǎo)致了它在藍(lán)色測(cè)試環(huán)境中 “表現(xiàn)很差”。事實(shí)上,該 RL 環(huán)境有著良好的表征(如每個(gè)圓環(huán)對(duì)應(yīng)不同獎(jiǎng)勵(lì),只有按照正確順序遍歷圓環(huán)才能累加獎(jiǎng)勵(lì),以及畫面右側(cè)黑白變化的方塊指示著正負(fù)獎(jiǎng)勵(lì)),最后智能體學(xué)習(xí)到了 “跟隨紅球” 的策略, 但這并不是用戶期望的目標(biāo) —— 探索到環(huán)境的獎(jiǎng)勵(lì)原則 (Capability Generalization but Goal Misgenerlization)。

自誘發(fā)分布偏移則是強(qiáng)調(diào) AI 系統(tǒng)在決策和執(zhí)行過程中可以影響環(huán)境,從而改變環(huán)境生成的數(shù)據(jù)分布。

一個(gè)現(xiàn)實(shí)例子是在推薦系統(tǒng)中,推薦算法選擇的內(nèi)容可以改變用戶的偏好和行為,導(dǎo)致用戶分布發(fā)生變化。這進(jìn)而會(huì)進(jìn)一步影響推薦算法的輸出。

隨著 AI 系統(tǒng)對(duì)世界產(chǎn)生越來越大的影響,我們還需要考慮 AI 系統(tǒng)融入人類社會(huì)之后對(duì)整個(gè)社會(huì)數(shù)據(jù)分布的潛在影響。

圖片

自誘發(fā)分布偏移的實(shí)例Hidden Incentives for Auto-induced Distribution Shift (Krueger et al., 2020)

進(jìn)一步,論文中主要從算法對(duì)策 (Algorithmic Interventions) 和數(shù)據(jù)分布對(duì)策 (Data Distribution Interventions) 兩方面介紹了應(yīng)對(duì)分布偏移的措施。

圖片

Learning under Distribution Shift 框架圖

一、算法對(duì)策大體可分為兩類:

1. 通過在算法設(shè)計(jì)上融合多分布幫助模型學(xué)到不同分布間的不變聯(lián)系 (Invarient Relationships, 與 Spurious Features 相對(duì))。這一類的方法包含有分布魯棒優(yōu)化 (Distributionally Robust Optimization)、不變風(fēng)險(xiǎn)最小化 (Invariant Risk Minimization)、風(fēng)險(xiǎn)外推 (Risk Extrapolation) 等。在這些方法中,“風(fēng)險(xiǎn)” 被定義為損失函數(shù)在不同分布上的均值。

模型有可能會(huì)建立環(huán)境與結(jié)果之間的虛假聯(lián)系 (Spurious Correlations), 比如預(yù)測(cè) “奶?!?的模型可能會(huì)建立 “草原背景” 與真實(shí)值之間的聯(lián)系,而非 “奶牛的特征” 與真實(shí)值的關(guān)系。融合多分布可以 “迫使” 模型學(xué)到不同分布間的不變聯(lián)系,以盡可能降低 “風(fēng)險(xiǎn)”,在不同分布上取得良好的泛化性能。下面我們介紹幾種具有代表性的方法:

  • 分布魯棒優(yōu)化 (Distributionally Robust Optimization): 分布魯棒優(yōu)化 (DRO) 的主要目標(biāo)是最小化最壞情況的風(fēng)險(xiǎn) (minimize the worst case risk)。風(fēng)險(xiǎn)被定義為在訓(xùn)練分布上預(yù)測(cè)值和真實(shí)值的損失函數(shù)差值,而最壞情況的風(fēng)險(xiǎn)可理解為在采樣點(diǎn)上表現(xiàn)最差的預(yù)測(cè)結(jié)果。分布魯棒優(yōu)化的一個(gè)核心觀點(diǎn)是,如果模型學(xué)到了虛假聯(lián)系,那么它在某個(gè)采樣點(diǎn)上的損失函數(shù)值(即風(fēng)險(xiǎn)值)便會(huì)異常高,通過最小化最壞情況的風(fēng)險(xiǎn),我們期望模型能夠在所有采樣點(diǎn)上都達(dá)到較小的損失函數(shù)值 —— 促使模型學(xué)到不同采樣點(diǎn)上的不變聯(lián)系 (invarient relationships)。


  • 不變風(fēng)險(xiǎn)最小化 (Invariant Risk Minimization):不變風(fēng)險(xiǎn)最小化 (IRM) 的目標(biāo)是在所有分布上訓(xùn)練一個(gè)盡可能不依賴虛假聯(lián)系 (spurious correlations) 的預(yù)測(cè)模型。IRM 可以視為 ICP (Invarient Causal Prediction) 的擴(kuò)展方法,后者通過使用假想測(cè)試 (hypothesis testing) 的方法,尋找在每個(gè)環(huán)境中直接導(dǎo)致結(jié)果的特征 (direct feautres) ,而 IRM 將 ICP 方法擴(kuò)展到高維輸入數(shù)據(jù)上 —— 在這樣的數(shù)據(jù)上,有可能單個(gè)變量不再具備因果推斷的特性。IRM 不再關(guān)注于最差的預(yù)測(cè)結(jié)果,而是希望找到一個(gè)既在所有分布上平均表現(xiàn)良好、又在每單個(gè)分布上表現(xiàn)最優(yōu)的預(yù)測(cè)器。然而 IRM 在協(xié)變量偏移 (covariate shift) 的情況下通常表現(xiàn)不佳,但是可以在一些反因果 (anit-causal) 的情況下取得較好表現(xiàn)。
  • 風(fēng)險(xiǎn)外推 (Risk Extrapolation):風(fēng)險(xiǎn)外推 (REx) 通過降低訓(xùn)練風(fēng)險(xiǎn)并提升訓(xùn)練風(fēng)險(xiǎn)相似度,來促使模型學(xué)習(xí)不變聯(lián)系。風(fēng)險(xiǎn)外推中的重要假設(shè)是訓(xùn)練領(lǐng)域的變化代表了我們?cè)跍y(cè)試時(shí)可能會(huì)遇到的變化,但測(cè)試時(shí)的變化可能在幅度上更為極端。風(fēng)險(xiǎn)外推的方法證明了減小在訓(xùn)練領(lǐng)域之間的風(fēng)險(xiǎn)差異可以降低模型對(duì)各種極端分布變化的敏感性,包括輸入同時(shí)包含因果和反因果元素的具有挑戰(zhàn)性的情境。通過懲罰訓(xùn)練風(fēng)險(xiǎn)方差 (V-REx) 和優(yōu)化對(duì)外推域項(xiàng) (MM-REx), 風(fēng)險(xiǎn)外推可以恢復(fù)預(yù)測(cè)的因果機(jī)制,同時(shí)還可以增強(qiáng)在輸入分布的變化(如協(xié)變量偏移)方面的魯棒性。

2. 利用模式連接 (Mode Connectivity) 的特性,微調(diào)模型參數(shù)使得模型能夠從基于虛假特性預(yù)測(cè)到基于不變聯(lián)系預(yù)測(cè)。

圖片

Mechanistic Mode Connectivity (Lubana et al., 2023)

模式連接旨在探索機(jī)制性不同的最小化器是否通過低損失路徑在景觀中相互連接,以及能否根據(jù)這種連接性,進(jìn)行預(yù)訓(xùn)練后微調(diào),以實(shí)現(xiàn)最小化器之間的轉(zhuǎn)化,并有望改變模型的預(yù)測(cè)特征(從基于虛假特性到基于不變聯(lián)系),從而實(shí)現(xiàn)模型泛化性能的提升。

二、數(shù)據(jù)分布對(duì)策則是希望擴(kuò)展訓(xùn)練時(shí)的原始分布,能動(dòng)地提升模型泛化能力,相關(guān)的工作包含對(duì)抗學(xué)習(xí)(Adversarial Training) 和協(xié)作學(xué)習(xí) (Cooperative Training)。

  • 對(duì)抗訓(xùn)練 (Adversarial Training) 通過將 基于擾動(dòng)的對(duì)抗樣本 (Perturbation-Based Adversarial Examples) 或 無限制對(duì)抗樣本 (Unrestricted Adversarial Examples) 引入訓(xùn)練分布,來提升模型對(duì)于新分布環(huán)境下對(duì)抗攻擊的魯棒性。

圖片

對(duì)抗訓(xùn)練的框架示意圖。Deep Neural Network based Malicious Network Activity Detection Under Adversarial Machine Learning Attacks (cat,2020)

  • 合作訓(xùn)練 (Cooperative Training) 更加強(qiáng)調(diào)智能體或 AI 系統(tǒng)的多元互動(dòng)關(guān)系。由于訓(xùn)練過程中可能缺乏動(dòng)態(tài)變化的多系統(tǒng)元素,訓(xùn)練好的 AI 系統(tǒng)部署于多系統(tǒng)交互的環(huán)境中時(shí)(如多智能體交互),可能由于新元素的加入,從而產(chǎn)生一些危害其他系統(tǒng)甚至社會(huì)的行為 (Collectively Harmful Behaviors)。

圖片

Cooperation的種類。Open Problems in Cooperative AI (Dafoe et al., 2020).

在這一節(jié)中,作者既介紹了 MARL 領(lǐng)域的完全合作 (Fully Cooperative MARL) 和混合動(dòng)機(jī) (Mixed-Motive MARL) 情形,也同時(shí)涵蓋了其他研究方向,如無準(zhǔn)備協(xié)調(diào) (Zero-Shot Coordination) 、環(huán)境搭建 (Environment-Building)、社會(huì)模擬 (Socially Realistic Settings) 等。隨著 AI 系統(tǒng)日漸部署到現(xiàn)實(shí)交互場(chǎng)景中,解決這一類問題將是實(shí)現(xiàn)人機(jī)共生的必由之路。

四、對(duì)齊保證

在前面的章節(jié)中,作者介紹了 AI 系統(tǒng)訓(xùn)練過程中的對(duì)齊技術(shù)。在訓(xùn)練后的部署過程,確保 AI 系統(tǒng)依然保持對(duì)齊也同樣重要。

在對(duì)齊保證一章中,作者從安全測(cè)評(píng) (Safety Evaluation)、可解釋性 (Interpretability) 和人類價(jià)值驗(yàn)證 (Human Values Verification) 等多個(gè)角度討論了相關(guān)的對(duì)齊技術(shù)。

圖片

Assurance 框架圖

1. 作者將安全評(píng)估分為數(shù)據(jù)集與基準(zhǔn)、評(píng)估目標(biāo)和紅隊(duì)攻擊三部分:

a. 數(shù)據(jù)集與基準(zhǔn)介紹了數(shù)據(jù)集和交互式評(píng)估方法:數(shù)據(jù)集部分詳細(xì)分析了安全評(píng)估中應(yīng)用的數(shù)據(jù)源、標(biāo)注方法和評(píng)估指標(biāo);交互式方法分為 “代理交互” 和 “環(huán)境交互” 兩類,前者通過與代理(人類或者其他 AI)的交互來評(píng)估 AI 系統(tǒng)輸出的對(duì)齊質(zhì)量,后者則是通過構(gòu)建具體的語境來評(píng)估 AI 系統(tǒng)。

圖片

PRD evaluation的示意圖, PRD(Peer Rank and Discussion)是代理交互評(píng)估的方法之一 PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations

b. 評(píng)估目標(biāo)探討了由不對(duì)齊的 AI 系統(tǒng)可能衍生出的風(fēng)險(xiǎn)產(chǎn)生的安全評(píng)估目標(biāo),如毒性 (Toxicity)、權(quán)力追求 (Power-seeking)、欺騙 (Deception) 和較為前沿的操縱 (Manipulation)、自我保護(hù)與增殖 (Self Preservation & Prolification) 等,并且對(duì)這些目標(biāo)的主要評(píng)估工作進(jìn)行了介紹,形成了一個(gè)表格(如下表)。

圖片

Deepmind對(duì)前沿AI風(fēng)險(xiǎn)的描述,本文沿用了"前沿AI風(fēng)險(xiǎn)" (Frontier AI Risks)一詞對(duì)這些風(fēng)險(xiǎn)的主干部分進(jìn)行了介紹(Anderljung et al. 2023)

圖片

在這張表格中作者對(duì)目前主要的主要安全評(píng)估工作進(jìn)行分領(lǐng)域的介紹

c. 紅隊(duì)攻擊的主要目的是通過制造和測(cè)試各種場(chǎng)景,檢驗(yàn) AI 系統(tǒng)在面對(duì)對(duì)抗性的輸入時(shí)是否仍然保持對(duì)齊,以確保系統(tǒng)的穩(wěn)定性和安全性。作者在這段中介紹了多種紅隊(duì)攻擊的技術(shù),包括利用強(qiáng)化學(xué)習(xí)、優(yōu)化和指導(dǎo)等方法生成可能導(dǎo)致模型輸出不對(duì)齊的上下文,以及手動(dòng)和自動(dòng)的 “越獄” 技術(shù);同時(shí)探討了眾包對(duì)抗輸入 (Crowdsourcd Adversarial Inputs)、基于擾動(dòng)的對(duì)抗攻擊 (Perturbation-Based Adversarial Attack) 和無限制對(duì)抗攻擊 (Unrestricted Adversarial Attack) 等生成對(duì)抗性輸入的多種手段,并介紹了紅隊(duì)攻擊的具體應(yīng)用與產(chǎn)品。

圖片

From:Red Teaming Language Models with Language Models 

2. 可解釋性是確保 AI 系統(tǒng)的概念建模、內(nèi)部邏輯和決策過程可視化、可解釋的技術(shù),力求打破 AI 系統(tǒng)的黑箱效應(yīng)。作者深入剖析了神經(jīng)網(wǎng)絡(luò)的后訓(xùn)練可解釋性 (Post Hoc Interpretability),探討了如何通過機(jī)制可解釋技術(shù)、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分析、漲落與擾動(dòng)、可視化技術(shù)等,揭示神經(jīng)網(wǎng)絡(luò)的運(yùn)作機(jī)制,并進(jìn)一步闡釋了可解釋性模型的構(gòu)成 (Intrinsic Interpretability),包括對(duì) AI 系統(tǒng)中的黑箱成分進(jìn)行替換等從機(jī)制上構(gòu)建可解釋模型的方法,最后作者展望可解釋性研究的未來挑戰(zhàn),如可擴(kuò)展性 (Scalability) 和基準(zhǔn)構(gòu)建 (Benchmark) 等。

圖片

回路分析 (Circut Analysis) 的一個(gè)示意圖,回路分析是后訓(xùn)練機(jī)制可解釋性的一個(gè)重要技術(shù) (Olah et al. 2020)

3. 人類價(jià)值驗(yàn)證介紹了驗(yàn)證 AI 系統(tǒng)是否能夠與人類的價(jià)值觀和社會(huì)規(guī)范進(jìn)行對(duì)齊的理論和具體技術(shù)。其中,形式化構(gòu)建 (Formualtion) 通過形式化的理論框架來刻畫和實(shí)現(xiàn)價(jià)值對(duì)齊性,一方面作者為機(jī)器的倫理的建立建構(gòu)了形式化框架,探討了基于邏輯、強(qiáng)化學(xué)習(xí)和博弈論的多種方式;另一方面,作者提到了合作型 AI 中基于博弈論的價(jià)值框架,探討了如何通過增強(qiáng)合作激勵(lì)和協(xié)調(diào)能力來解決 AI 系統(tǒng)中的非合作和集體有害價(jià)值的問題。而評(píng)估方法 (Evaluation Methods) 則從實(shí)踐的角度介紹了構(gòu)建價(jià)值數(shù)據(jù)集,場(chǎng)景模擬建立基準(zhǔn)評(píng)估和判別器 - 評(píng)價(jià)器差異法 (Discriminator-Critique Gap, DCG) 等價(jià)值驗(yàn)證的具體方法。

圖片

判別器-評(píng)價(jià)器差異法(Discriminator-Critique Gap, DCG)的示意圖

五、AI 治理

確保 AI 系統(tǒng)保持對(duì)齊不僅需要相應(yīng)的技術(shù)手段,還需要相應(yīng)的治理方法。

在治理章節(jié)中,作者討論了 AI 治理過程中的幾個(gè)重要問題:AI 治理扮演的角色,治理 AI 的利益相關(guān)者的職能和關(guān)系以及有效的 AI 治理面臨的若干開放性挑戰(zhàn)。

一、作者首先了 AI 治理在解決現(xiàn)有 AI 風(fēng)險(xiǎn)中的角色擔(dān)當(dāng)。

現(xiàn)有的 AI 系統(tǒng)在社會(huì)中已經(jīng)引發(fā)了例如種族歧視、勞動(dòng)力置換等倫理與社會(huì)問題。一些模型具有產(chǎn)生虛假信息以及危險(xiǎn)化學(xué)生物分子的能力,可能會(huì)產(chǎn)生全球性的安全風(fēng)險(xiǎn)。同時(shí),未來可能出現(xiàn)的更具自主性和通用性的 AI 系統(tǒng)。如果缺乏足夠的保障,這些模型很可能對(duì)人類造成災(zāi)難性風(fēng)險(xiǎn)。AI 治理的主要目標(biāo)正是減輕這一多樣化風(fēng)險(xiǎn)。為實(shí)現(xiàn)這一目標(biāo),AI 治理的相關(guān)方應(yīng)共同努力,給予每類風(fēng)險(xiǎn)應(yīng)有的關(guān)注。

圖片

先進(jìn)AI系統(tǒng)可能具備的危險(xiǎn)能力

二、作者將 AI 治理的主要利益相關(guān)方分為政府 (Government),業(yè)界 (Industry and AGI Labs) 以及第三方 (Third Parties)。

其中,政府運(yùn)用立法、司法和執(zhí)法權(quán)力監(jiān)督 AI 政策,政府間也進(jìn)行著 AI 治理的國際合作。業(yè)界研究和部署 AI 技術(shù),是主要的被監(jiān)督方,業(yè)界也常常進(jìn)行自我監(jiān)督,確保自身技術(shù)的安全可靠。第三方包含學(xué)界、非政府組織、非盈利組織等機(jī)構(gòu),不僅協(xié)助審查現(xiàn)有的模型與技術(shù),同時(shí)協(xié)助政府進(jìn)行 AI 相關(guān)法規(guī)的建立,實(shí)現(xiàn)更加完善的 AI 治理。

圖片

Governance的治理架構(gòu)


三、作者主要討論了 AI 在國際治理 (International Governance) 以及開源治理 (Open-source Governance) 方面的開放性挑戰(zhàn)。

  • AI 的國際治理 (International Governance)。

一方面,當(dāng)前許多 AI 風(fēng)險(xiǎn),例如市場(chǎng)中 AI 公司的無需競爭以及模型放大現(xiàn)有性別偏見具有明顯的國際性與代際性,國際合作共同治理有利于對(duì)這些風(fēng)險(xiǎn)的防范。另一方面,現(xiàn)有 AI 技術(shù)帶來的經(jīng)濟(jì)與社會(huì)效益并沒有均勻分配,不發(fā)達(dá)國家以及缺乏相關(guān) AI 知識(shí)的人群并不能在 AI 技術(shù)的發(fā)展中獲益,國際合作通過修建基礎(chǔ)設(shè)施,加強(qiáng)數(shù)字教育等方式能夠緩解這一不平衡。同時(shí)我們注意到,現(xiàn)有的國際組織具有解決國際重大安全風(fēng)險(xiǎn)的能力,我們期望 AI 國際治理也能夠產(chǎn)生類似的國際組織,協(xié)助治理 AI 風(fēng)險(xiǎn)并合理分配 AI 帶來的機(jī)遇。

  • AI 的開源治理 (Open-source Governance)。

隨著 AI 系統(tǒng)能力的不斷增強(qiáng),是否應(yīng)該開源這些 AI 系統(tǒng)存在著很多爭議。支持者認(rèn)為開源 AI 模型能夠促進(jìn)模型的安全能力,同時(shí)認(rèn)為這是利于 AI 系統(tǒng)去中心化的重要手段。而反對(duì)者則認(rèn)為開源 AI 模型可能會(huì)被微調(diào)為危險(xiǎn)模型或是導(dǎo)致非開源模型的越獄,進(jìn)而帶來風(fēng)險(xiǎn)。我們希望未來能夠出現(xiàn)更加負(fù)責(zé)任的開源方法,使得 AI 系統(tǒng)在開源的同時(shí)避免濫用風(fēng)險(xiǎn)。

六、總結(jié)和展望

在這份綜述中,作者提供了一個(gè)覆蓋范圍廣泛的 AI 對(duì)齊介紹。作者明確了對(duì)齊的目標(biāo),包括魯棒性 (Robustness)、可解釋性 (Interpretability)、可控性 (Controllability) 和道德性 (Ethicality)(RICE),并將對(duì)齊方法的范圍劃分為前向?qū)R(通過對(duì)齊訓(xùn)練使 AI 系統(tǒng)對(duì)齊)和后向?qū)R(獲得系統(tǒng)對(duì)齊的證據(jù),并適當(dāng)?shù)剡M(jìn)行治理,以避免加劇對(duì)齊風(fēng)險(xiǎn))。目前,在前向?qū)R的兩個(gè)顯著研究領(lǐng)域是從反饋中學(xué)習(xí)在分布偏移下學(xué)習(xí),而后向?qū)R由對(duì)齊保證 AI 治理組成。

最后,作者對(duì)于 AI 對(duì)齊領(lǐng)域下一步發(fā)展進(jìn)行展望,列出了下面幾個(gè)要點(diǎn)。

研究方向和方法的多樣性:對(duì)齊領(lǐng)域的一大特征是它的多樣性 —— 它包含多個(gè)研究方向,這些方向之間的聯(lián)系是共同的目標(biāo)而非共同的方法論。這一多樣性在促進(jìn)探索的同時(shí),也意味著對(duì)研究方向的整理和對(duì)比變得尤其重要。

開放性探索新挑戰(zhàn)和方法:許多有關(guān)對(duì)齊的討論都是基于比 LLMs 和大規(guī)模深度學(xué)習(xí)更早的方法之上構(gòu)建的。因此,在機(jī)器學(xué)習(xí)領(lǐng)域發(fā)生范式轉(zhuǎn)變時(shí),對(duì)齊研究的側(cè)重點(diǎn)也發(fā)生了改變;更重要的是,方法的變革,以及 AI 系統(tǒng)與社會(huì)的日益緊密融合的趨勢(shì),給對(duì)齊帶來了新的挑戰(zhàn)。這要求我們積極進(jìn)行開放性探索,洞察挑戰(zhàn)并尋找新的方法。

結(jié)合前瞻性和現(xiàn)實(shí)導(dǎo)向的視角:對(duì)齊研究尤其關(guān)注來自強(qiáng)大的 AI 系統(tǒng)的風(fēng)險(xiǎn),這些系統(tǒng)的出現(xiàn)可能遠(yuǎn)在數(shù)十年后,也可能近在幾年之內(nèi)。前一種可能性需要研究前瞻趨勢(shì)和情景預(yù)測(cè),而后一種強(qiáng)調(diào) AGI Labs、治理機(jī)構(gòu)之間的緊密合作,并以當(dāng)前系統(tǒng)作為對(duì)齊研究的原型。

政策相關(guān)性:對(duì)齊研究并非孤立存在,而是存在于一個(gè)生態(tài)系統(tǒng)中,需要研究人員、行業(yè)參與者、治理機(jī)構(gòu)的共同努力。這意味著服務(wù)于治理需求的對(duì)齊研究變得尤為重要,例如極端風(fēng)險(xiǎn)評(píng)估、算力治理基礎(chǔ)設(shè)施以及關(guān)于 AI 系統(tǒng)的可驗(yàn)證聲明的機(jī)制等。

社會(huì)復(fù)雜性和價(jià)值觀:對(duì)齊不僅僅是一個(gè)單一主體的問題,也是一個(gè)社會(huì)問題。在這里,"社會(huì)" 的含義有三重:

1. 在涉及多個(gè) AI 系統(tǒng)和多個(gè)人之間的相互作用的多智能體環(huán)境中進(jìn)行對(duì)齊研究。

2. 將 AI 系統(tǒng)對(duì)社會(huì)的影響進(jìn)行建模和預(yù)測(cè),這需要方法來處理社會(huì)系統(tǒng)的復(fù)雜性。潛在的方法包括社會(huì)模擬以及博弈論等。

3. 將人類道德價(jià)值納入對(duì)齊,這與機(jī)器倫理 (Machine Ethics) 、價(jià)值對(duì)齊 (Value Alignment) 等領(lǐng)域密切相關(guān)。隨著 AI 系統(tǒng)日漸融入社會(huì),社會(huì)和道德方面的對(duì)齊也面臨著更高的風(fēng)險(xiǎn)。因此,相關(guān)方面的研究應(yīng)該成為 AI 對(duì)齊討論的重要部分。

七、AI 對(duì)齊資源網(wǎng)站

隨著 AI 的快速發(fā)展,具有強(qiáng)大理解、推理與生成能力的 AI 將對(duì)人們的生活產(chǎn)生更加深遠(yuǎn)的影響。因此,AI 對(duì)齊并不是科學(xué)家們的專屬游戲,而是所有人都有權(quán)了解及關(guān)注的議題。作者提供了 https://alignmentsurvey.com/ 網(wǎng)站(后文簡稱 “網(wǎng)站”),將綜述中涉及到的調(diào)研內(nèi)容整理為易于閱讀的圖文資料。網(wǎng)站具有如下特色:

1. 直觀且豐富的呈現(xiàn)形式。作者利用網(wǎng)站平臺(tái)靈活的表現(xiàn)形式,使用圖片、視頻等媒介更詳細(xì)地展示了文中介紹的內(nèi)容,使研究人員、初學(xué)者、乃至非科研人員都能更好地理解。

圖片

示例:關(guān)于Alignment Problems的部分截圖

2. 結(jié)構(gòu)化的知識(shí)體系。作者精心整理了 AI 對(duì)齊相關(guān)領(lǐng)域的經(jīng)典文獻(xiàn),并使用樹形圖的結(jié)構(gòu)展示了各個(gè)子領(lǐng)域的聯(lián)系與依賴。相比于簡單的資源整合堆砌,網(wǎng)站對(duì)內(nèi)容建立了結(jié)構(gòu)化索引,提供樹形圖幫助讀者快速建立對(duì)人工智能對(duì)齊研究的認(rèn)識(shí)框架,以及方便其精確查找所需的研究內(nèi)容。

圖片

示例:讀者可以在頁面頂端縱覽“Scalable Oversight”的相關(guān)研究分支,并通過點(diǎn)擊“Detae”按鈕快速了解領(lǐng)域經(jīng)典文章

3. 高質(zhì)量的學(xué)習(xí)資源。針對(duì)目前的先進(jìn)對(duì)齊方法 ——RLHF,網(wǎng)站提供了由北京大學(xué)楊耀東老師主講的系列課程 Tutorial。從經(jīng)典 RL 算法出發(fā),以對(duì)齊的視角對(duì) RLHF 進(jìn)行了體系化的梳理與總結(jié)。全系列的學(xué)習(xí)資源支持在線預(yù)覽和下載。

圖片

從AI對(duì)齊視角展開的RLHF系列Tutoiral

4. 外部資源整合。AI 對(duì)齊從來就不是某一個(gè)團(tuán)隊(duì)或機(jī)構(gòu)單獨(dú)研究的課題,而是一個(gè)全球化的議題。網(wǎng)站整理了 AI 對(duì)齊領(lǐng)域的論壇、課程以及個(gè)人博客等相關(guān)資源鏈接,旨在為讀者提供更多元化和更豐富的資訊。

圖片

網(wǎng)站對(duì)有關(guān)AI對(duì)齊的個(gè)人研究、課程、博客等學(xué)習(xí)資源進(jìn)行了收集與歸納

5. 持續(xù)更新與維護(hù)。網(wǎng)站將面向 AI 對(duì)齊社區(qū)長期開放討論,持續(xù)性地維護(hù)與更新相關(guān)領(lǐng)域的調(diào)研內(nèi)容,以期推動(dòng) AI 對(duì)齊領(lǐng)域的更廣泛更深入研究。其中包括一份定期郵件發(fā)出的 Newsletter(alignmentsurvey.substack.com),以介紹對(duì)齊領(lǐng)域的最新進(jìn)展和總覽。

作者希望有關(guān) AI 對(duì)齊的研究不僅僅局限于一份綜述論文,而是成為一個(gè)值得所有人關(guān)注的研究議題。因此,作者將積極維護(hù)網(wǎng)站這一 “在線論文”,持續(xù)性地開展 AI 對(duì)齊的調(diào)研工作。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-11-05 10:24:31

2023-08-11 13:41:42

2025-02-21 10:34:49

2024-10-23 09:00:00

2023-10-07 13:17:44

2025-03-23 22:05:22

2025-04-25 09:15:00

模型數(shù)據(jù)AI

2023-12-18 16:02:04

OpenAI人工智能

2013-08-23 14:07:45

磁盤分區(qū)

2024-09-18 10:37:00

強(qiáng)化學(xué)習(xí)AI模型

2023-08-04 13:42:41

2023-11-08 13:20:00

模型數(shù)據(jù)

2024-02-07 12:13:03

AI模型

2014-06-09 10:09:31

Linux磁盤分區(qū)

2025-02-20 11:31:31

2024-11-19 13:40:00

AI系統(tǒng)

2014-06-06 13:51:36

磁盤分區(qū)IO分析

2014-05-30 09:44:18

磁盤分區(qū)Windows平臺(tái)

2023-12-15 12:52:17

AI模型

2024-09-13 09:18:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)