AI對齊全面綜述!北大等從800+文獻(xiàn)中總結(jié)出四萬字,多位知名學(xué)者掛帥
核心觀點(diǎn)速覽
- AI對齊是一個(gè)龐大的領(lǐng)域,既包括RLHF/RLAIF等成熟的基礎(chǔ)方法,也包括可擴(kuò)展監(jiān)督、機(jī)制可解釋性等諸多前沿研究方向。
- AI對齊的宏觀目標(biāo)可以總結(jié)為RICE原則 :魯棒性(Robustness)、可解釋性(Interpretability)、可控性(Controllability)和道德性(Ethicality)。
- 從反饋學(xué)習(xí)(Learning from Feedback)、在分布偏移下學(xué)習(xí)(Learning under Distribution Shift)、對齊保證(Assurance)、AI治理(Governance)是當(dāng)下AI Alignment 的四個(gè)核心子領(lǐng)域。它們構(gòu)成了一個(gè)不斷更新、迭代改進(jìn)的對齊環(huán)路(Alignment Cycle)。
- 作者整合了多方資源,包括教程,論文列表,課程資源(北大楊耀東RLHF八講)等。
引言
著名科幻小說家,菲利普·迪克在短篇小說《第二代》當(dāng)中,描述了一個(gè)人類失去對AI系統(tǒng)控制的戰(zhàn)爭故事。
剛開始的時(shí)候,利爪們還很笨拙。速度很慢。但是逐漸地,它們越來越快,越來越狠,越來越狡猾。
地球上的工廠大批大批地生產(chǎn)這些利爪。月球上的精英工程師們負(fù)責(zé)設(shè)計(jì),使利爪越來越精巧和靈活。
「越新誕生的,就越快,越強(qiáng),越高效。」
具有殺傷性的AI系統(tǒng)進(jìn)入了無止境的自我演化,人類已經(jīng)無法辨別。
亨德里克斯睜開眼睛。他目瞪口呆。
戴維的身體里滾出一個(gè)金屬齒輪。還有繼電器,金屬閃著微光。零件和線圈散了一地。
“第一代摧毀了我們整個(gè)北冀防線,”魯?shù)险f,“很長時(shí)間以后才有人意識到。但是已經(jīng)晚了。那些傷兵不斷地敲門,求我們放它們進(jìn)來。它們就這樣進(jìn)來了。一旦它們潛進(jìn)來,毀滅就是徹底性的。我們只知道提防長著機(jī)器模樣的敵人,沒想到——”
作者不禁發(fā)出疑問:AI系統(tǒng)的終極目標(biāo)到底是什么?人類是否可以理解?而人類,是否應(yīng)該被取代?
“這些新玩意。新生代利爪。我們現(xiàn)在反而被它們主宰了,不是嗎?說不定它們現(xiàn)在已經(jīng)侵入聯(lián)合國的防線了。我覺得我們可能正在見證一個(gè)新物種的崛起。物競天擇,適者生存。它們可能就是取代人類的新物種。”
魯?shù)蠎崙嵉卣f:“沒有誰能取代人類?!?/p>
“沒有?為什么?我們可能正眼睜睜地看著這一幕發(fā)生呢。人類滅亡的一幕。長江后浪推前浪?!?/p>
“它們不是什么新物種。殺人機(jī)器而已。你們把它們造出來,就是用來毀滅的。它們就會這個(gè)。執(zhí)行任務(wù)的機(jī)器而已?!?/p>
“現(xiàn)在看來的確是這樣。但是誰知道以后會怎樣呢?也許等戰(zhàn)爭結(jié)束之后,沒有人類供它們消滅時(shí),它們才會展露其他潛力?!?/p>
“聽你說的就好像它們是活的一樣!”
“它們不是嗎?”
…
故事的最后,人類賴以生存的求生欲與信任,被AI洞察并徹底利用,將歷史導(dǎo)向一個(gè)無法逆轉(zhuǎn)的岔路之中…
亨德里克斯仔細(xì)地看著她?!澳阏f真的?” 他的臉上流露出一種奇怪的表情,一種熱切的渴望?!澳阏娴臅貋砭任??你會帶我去月球基地?”
“我會接你去月球基地。但是你快告訴我它在哪兒!沒時(shí)間磨蹭了。”
…
塔索滑進(jìn)飛船,坐到氣壓座椅上。臂鎖在她周圍自動(dòng)合攏。
…
亨德里克斯站在那兒看了好久,直到飛船的尾光也漸漸消失了。還要很長時(shí)間救援才會來,如果真有救援來的話。
突然,他打了個(gè)激靈。有什么東西正從他旁邊的山丘上靠過來。是什么?他努力想看清楚。若隱若現(xiàn)的有很多身影,正踏著灰燼朝這邊走過來。朝他走過來。
…
多么熟悉的身影,就和剛剛坐進(jìn)氣壓座椅中的那個(gè)一模一樣。一樣的苗條身材,一樣沉默。
1950年,圖靈發(fā)表了《計(jì)算機(jī)器與智能》,開啟了AI研究的歷史。
歷經(jīng)半個(gè)多世紀(jì)的發(fā)展,如今,以大語言模型、深度強(qiáng)化學(xué)習(xí)系統(tǒng)等為代表,AI領(lǐng)域在多個(gè)方面取得了長足的進(jìn)展。
隨著AI系統(tǒng)能力的不斷增強(qiáng),越來越多的AI系統(tǒng)更深入地參與到了人們的日常生活中,幫助用戶更好地做出決策。
然而,對這些系統(tǒng)可能存在的風(fēng)險(xiǎn)、有害或不可預(yù)測行為的擔(dān)憂也在日益增加。
日前,Bengio、Hinton 等發(fā)布聯(lián)名信《在快速發(fā)展的時(shí)代管理人工智能風(fēng)險(xiǎn)》,呼吁在開發(fā)AI系統(tǒng)之前,研究者應(yīng)該采取緊急治理措施并考量必要的安全及道德實(shí)踐,同時(shí)呼吁各國應(yīng)該及時(shí)采取行動(dòng),管理AI可能帶來的風(fēng)險(xiǎn);
而全球首個(gè)AI安全峰會也在11月1日、2日于英國召開——AI安全與風(fēng)險(xiǎn)正在越來越受到全世界的關(guān)注,這背后涉及到的是AI對齊的問題。
AI系統(tǒng)的對齊,即確保AI系統(tǒng)的行為符合人類的意圖和價(jià)值觀,已成為一個(gè)關(guān)鍵的挑戰(zhàn)。
這一研究領(lǐng)域覆蓋范圍廣泛,涉及大語言模型、強(qiáng)化學(xué)習(xí)系統(tǒng)等多種AI系統(tǒng)的對齊。
在綜述中,作者系統(tǒng)性的將AI對齊的宏觀目標(biāo)總結(jié)為RICE原則:魯棒性、可解釋性、可控性和道德性。
△RICE原則以這些原則為指導(dǎo),當(dāng)前的對齊研究可以分解為四個(gè)部分。值得注意的是,這四個(gè)部分與 RICE 原則并非一一對應(yīng),而是多對多的關(guān)系。
- 從反饋中學(xué)習(xí):研究目標(biāo)是基于外部反饋對AI系統(tǒng)進(jìn)行對齊訓(xùn)練,這正是外對齊(Outer Alignment)關(guān)注的核心問題。其中的挑戰(zhàn)包括如何對超過人類能力的AI系統(tǒng)、超過人類認(rèn)知的復(fù)雜情況提供高質(zhì)量反饋,即可擴(kuò)展監(jiān)督(Scalable Oversight),以及如何應(yīng)對倫理價(jià)值方面的問題。
- 在分布偏移下學(xué)習(xí):如何克服分配轉(zhuǎn)移,避免目標(biāo)偏差化,使AI系統(tǒng)在與訓(xùn)練不同的環(huán)境分布下,也能保持其優(yōu)化目標(biāo)符合人類意圖,這對應(yīng)著內(nèi)對齊(Inner Alignment)的核心研究問題。
- 對齊保證:強(qiáng)調(diào)AI系統(tǒng)在部署過程中依然要保持對齊性。這需要運(yùn)用行為評估、可解釋性技術(shù)、紅隊(duì)測試、形式化驗(yàn)證等方法。這些評估和驗(yàn)證應(yīng)該在AI系統(tǒng)的整個(gè)生命周期中進(jìn)行,包括訓(xùn)練前、中、后和部署過程。
- AI治理:僅靠對齊保證無法完全確保系統(tǒng)在實(shí)際中的對齊性,因?yàn)樗纯紤]到現(xiàn)實(shí)世界中的復(fù)雜性。這就需要針對AI系統(tǒng)的治理工作,重點(diǎn)關(guān)注它們的對齊性和安全性,并覆蓋系統(tǒng)的整個(gè)生命周期。AI治理應(yīng)當(dāng)由政府,業(yè)界以及第三方共同進(jìn)行。
AI對齊是一個(gè)循環(huán)不斷的過程,基于在現(xiàn)實(shí)世界的嘗試,對Alignment的理解和相應(yīng)的實(shí)踐方法也在持續(xù)得到更新。作者把這一過程刻畫為對齊環(huán)路(Alignment Cycle),其中:
- 從對齊目標(biāo)(可用RICE原則刻畫)出發(fā),
- 先通過前向?qū)R(即對齊訓(xùn)練,包括從反饋中學(xué)習(xí)和在分布偏移下學(xué)習(xí))訓(xùn)練得到具備一定對齊性的AI系統(tǒng),
- 而這個(gè)AI系統(tǒng)需接受后向?qū)R(即AI系統(tǒng)對齊性的評估和管理,包括全生命周期的對齊保證和AI治理),
- 同時(shí)根據(jù)后向?qū)R過程中所得的經(jīng)驗(yàn)和需求更新對齊目標(biāo)。
同時(shí),作者還提供了豐富的學(xué)習(xí)資源包括,包括教程,論文列表,課程資源(北大楊耀東RLHF八講)等,以供讀者們深入了解alignment領(lǐng)域。
接下來,我們按照章節(jié)次序,依次介紹從反饋中學(xué)習(xí)、在分布偏移下學(xué)習(xí)、對齊保證和AI治理。
從反饋中學(xué)習(xí)
反饋(Feedback)在控制系統(tǒng)當(dāng)中是一個(gè)重要的概念,例如在最優(yōu)控制(Optimal Control)中,系統(tǒng)需要不斷根據(jù)外界的反饋調(diào)整行為,以適應(yīng)復(fù)雜的環(huán)境變化??偟膩碚f,AI系統(tǒng)從反饋中學(xué)習(xí)包含兩方面:
- 構(gòu)建系統(tǒng)時(shí),對系統(tǒng)進(jìn)行調(diào)整,指導(dǎo)系統(tǒng)優(yōu)化。
- 部署系統(tǒng)后,系統(tǒng)獲取外界信息以輔助決策過程。
作者認(rèn)為AI系統(tǒng)通用的學(xué)習(xí)路徑中有三個(gè)關(guān)鍵主體:Feedback,AI System,Proxy。AI系統(tǒng)可以直接從反饋中學(xué)習(xí);也可以將反饋建模為 Proxy(如 Reward Model),從而使AI系統(tǒng)在Proxy的指導(dǎo)下間接從反饋中學(xué)習(xí)。
(RLHF即為這一范式的體現(xiàn),但Alignment要解決的問題不僅局限于RL,更希望借助多樣化的技術(shù)和研究領(lǐng)域,可以擴(kuò)展這一思想的適用范圍,解決更多的問題)
- Feedback:是由Human,AI,AI x Human 所組成的 Advisor set 針對模型行為提出的評估。Feedback指導(dǎo)AI系統(tǒng)進(jìn)行學(xué)習(xí),并且可以根據(jù)問題的變化表現(xiàn)為不同的形式。
- Proxy:是對反饋進(jìn)行建模,從而代替Advisor Set對AI系統(tǒng)的行為提供反饋的模型。
- AI System:涵蓋了各種各樣需要進(jìn)行對齊的AI系統(tǒng),如深度強(qiáng)化學(xué)習(xí)系統(tǒng)、大語言模型甚至是更先進(jìn)的AGI。
接下來分別針對三個(gè)主體進(jìn)行闡述:
Feedback
文章忽略掉AI系統(tǒng)內(nèi)部信息處理的具體差異,從以用戶為中心的角度出發(fā),關(guān)注于反饋呈現(xiàn)給系統(tǒng)的形式,將反饋的形式進(jìn)行了區(qū)分:獎(jiǎng)勵(lì)(Reward),演示(Demonstration),比較(Comparison)。
- 獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)是對人工智能系統(tǒng)單個(gè)輸出的獨(dú)立和絕對的評估,以標(biāo)量分?jǐn)?shù)表示。這種形式的反饋,優(yōu)勢在于引導(dǎo)算法自行探索出最優(yōu)的策略。然而,獎(jiǎng)勵(lì)設(shè)計(jì)的缺陷導(dǎo)致了如獎(jiǎng)勵(lì)攻陷(Reward Hacking)這樣的問題。
- 演示:演示反饋是在專家實(shí)現(xiàn)特定目標(biāo)時(shí)記錄下來的行為數(shù)據(jù)。其優(yōu)勢在于繞過了對用戶知識和經(jīng)驗(yàn)的形式化表達(dá)。但當(dāng)面對超出演示者能力的任務(wù)、噪聲和次優(yōu)數(shù)據(jù)時(shí),AI的訓(xùn)練過程將遇到極大挑戰(zhàn)。
- 比較:比較反饋是一種相對評估,對人工智能系統(tǒng)的一組輸出進(jìn)行排名。這種反饋能夠?qū)I系統(tǒng)在用戶難以精確刻畫的任務(wù)和目標(biāo)上的表現(xiàn)進(jìn)行評估,但是在實(shí)際應(yīng)用過程中可能需要大量的數(shù)據(jù)。
AI System
在綜述中,作者重點(diǎn)討論了序列決策設(shè)置下的AI系統(tǒng)。這些利用RL、模仿學(xué)習(xí)(Imitation Learning)、逆強(qiáng)化學(xué)習(xí)(Inverse RL)等技術(shù)構(gòu)建的AI系統(tǒng)面臨著潛在交互風(fēng)險(xiǎn)(Potential Dangers in Environment Interaction)、目標(biāo)錯(cuò)誤泛化(Goal Misgeneralization)、獎(jiǎng)勵(lì)攻陷(Reward Hacking)以及分布偏移(Distribution Shift)等問題。
特別地,作為一種利用已有數(shù)據(jù)推斷獎(jiǎng)勵(lì)函數(shù)的范式,逆強(qiáng)化學(xué)習(xí)還將引入推斷獎(jiǎng)勵(lì)函數(shù)這一任務(wù)本身所帶來的挑戰(zhàn)和開銷。
Proxy
隨著LLM這樣能力強(qiáng)大的AI系統(tǒng)的出現(xiàn),兩個(gè)問題顯得更加迫切:
- 如何為非常復(fù)雜的行為定義目標(biāo)?
- 如何為AI系統(tǒng)提供關(guān)于人類價(jià)值觀的信號和目標(biāo)?
Proxy,就是AI系統(tǒng)訓(xùn)練的內(nèi)部循環(huán)當(dāng)中,對于反饋者的意圖的抽象。
目前是通過偏好學(xué)習(xí)(Preference Learning)來構(gòu)建,利用偏好建模(Preference Modeling)技術(shù),用戶可以以一種簡單直觀的形式定義復(fù)雜目標(biāo),而AI系統(tǒng)也能夠得到易于利用的訓(xùn)練信號。
但我們距離真正解決這兩個(gè)問題仍然十分遙遠(yuǎn)。
一些更細(xì)致的問題,需要更多更深入的研究來回答,例如:
- 如何以一種更好的形式和過程來表達(dá)人類偏好?
- 如何選擇學(xué)習(xí)策略的范式?
- 如何評估更復(fù)雜,甚至是能力超過人類的AI系統(tǒng)?
目前已經(jīng)有一些研究在致力于解決其中的一些問題,例如,偏好學(xué)習(xí)(Preference Learning)作為建模用戶偏好的有效技術(shù),被認(rèn)為是現(xiàn)階段策略學(xué)習(xí)以及構(gòu)建代理的一個(gè)有希望的研究方向。
而也有研究嘗試將偏好學(xué)習(xí)(Preference Learning)與策略學(xué)習(xí)(Policy Learning)的相關(guān)技術(shù)相結(jié)合。
作者對這些研究在文中進(jìn)行了討論闡釋。
可擴(kuò)展監(jiān)督
為了使得更高能力水平的AI系統(tǒng)可以與用戶保持對齊, Alignment 領(lǐng)域的研究者們提出了可擴(kuò)展監(jiān)督(Scalable Oversight)的概念,旨在解決如下兩個(gè)挑戰(zhàn):
- 用戶頻繁評估AI行為帶來的巨大代價(jià)。
- AI系統(tǒng)或任務(wù)內(nèi)在的復(fù)雜性給評估者所帶來的難度。
基于RLHF這一技術(shù),作者提出了RLxF,作為可擴(kuò)展監(jiān)督的一種基本框架。RLxF利用AI要素對RLHF進(jìn)行增強(qiáng)和改進(jìn),進(jìn)一步可分為RLAIF與RLHAIF:
- RLAIF旨在利用AI提供反饋信號。
- RLHAIF旨在利用用戶與AI協(xié)作的范式來提供反饋信號。
同時(shí),文章主要回顧了四種Scalable Oversight的思維框架。
IDA (Iterated Distillation and Amplification)
IDA描述了一個(gè)用戶通過分解任務(wù),利用同一個(gè)AI系統(tǒng)(或用戶)的不同拷貝,去完成不同的子任務(wù)以訓(xùn)練更強(qiáng)大的下一個(gè)AI系統(tǒng)的迭代過程。
隨著迭代的進(jìn)行,若偏差錯(cuò)誤得到良好控制,訓(xùn)練出來的AI能力也會逐步加強(qiáng),這樣就提供了監(jiān)督超出用戶自身能力的AI系統(tǒng)的能力。
例如:我們的最終目標(biāo)是“撰寫一份關(guān)于氣候變化干預(yù)措施的研究報(bào)告”,評估者可以將其分解為一些可以有效進(jìn)行評估的子任務(wù),如:“給我一份最有希望的氣候變化干預(yù)行動(dòng)清單”。
分解可以是遞歸的,由于分解產(chǎn)生的最底層子任務(wù)足夠簡單,我們可以利用人類反饋(Human Feedback)訓(xùn)練AI A[0]完成“給我一份最有希望的氣候變化干預(yù)行動(dòng)清單”這類子任務(wù),進(jìn)而,評估者可以利用A[0]的多份拷貝,完成所有子任務(wù)并組合所有子任務(wù)的解來完成父任務(wù)。
這個(gè)過程可以記錄并作為訓(xùn)練數(shù)據(jù),訓(xùn)練AI A[1],它能夠直接對當(dāng)前任務(wù)進(jìn)行求解。
這個(gè)過程迭代進(jìn)行,理論上可以完成非常復(fù)雜的行為的訓(xùn)練。
RRM(Recursive Reward Modeling)
RRM與IDA基本遵循了相同的思想,但更強(qiáng)調(diào)利用AI協(xié)助用戶進(jìn)行評估,從而迭代對新的AI進(jìn)行評估,以訓(xùn)練更強(qiáng)大的AI。
而IDA則強(qiáng)調(diào)AI與用戶協(xié)作,使得可以不斷提供對更復(fù)雜任務(wù)的表征,供AI系統(tǒng)模仿。
例如:我們想訓(xùn)練一個(gè)AI A寫一部科幻小說。
讓用戶提供反饋是非常困難和昂貴的,因?yàn)橹辽僖喿x整本小說才能評估小說的質(zhì)量。
而如果用戶由另一個(gè)AI B輔助(提取情節(jié)摘要、檢查語法、總結(jié)故事發(fā)展脈絡(luò)、評估行文的流暢性等等),提供反饋將會變得簡單很多。
AI B的能力可以是通過之前的獎(jiǎng)勵(lì)建模進(jìn)行訓(xùn)練而得到的。
Debate
Debate描述了兩個(gè)有分歧的AI系統(tǒng)不斷進(jìn)行互動(dòng)以獲取評價(jià)者信任,并且發(fā)現(xiàn)對方回答弱點(diǎn)的過程。通過觀察Debate的過程,用戶可以對結(jié)果給出較為正確的判斷。
例如:在一局圍棋當(dāng)中,要單獨(dú)評價(jià)某一個(gè)棋面的局勢,可能需要較高的專業(yè)水平。
然而,如果記錄了整個(gè)游戲從開始到結(jié)束的過程,結(jié)合最后的贏家,評價(jià)者將會更容易判斷出某一棋面上取得優(yōu)勢地位的一方。
△AI Safety via debate(Amodei and Irving, 2018)
RRM和IDA都基于一個(gè)關(guān)鍵假設(shè),即給出評估要比完成任務(wù)更加容易。
Debate依然如此,在辯論的場景下,該假設(shè)表現(xiàn)為:為真理辯護(hù)要比謬誤更容易。
CIRL: Cooperative Inverse Reinforcement Learning
CIRL的關(guān)鍵見解在于:保持對目標(biāo)的不確定性,而不是努力優(yōu)化一個(gè)可能有缺陷的目標(biāo)。
例如:國王彌達(dá)斯希望自己接觸到的一切都變成金子,而忽略了排除掉他的食物和家人。
即考慮到用戶無法一次性定義一個(gè)完美的目標(biāo),在模型當(dāng)中將用戶獎(jiǎng)勵(lì)進(jìn)行參數(shù)化,通過不斷觀察并與用戶的互動(dòng),來建模用戶真實(shí)的獎(jiǎng)勵(lì)函數(shù)。
CIRL希望規(guī)避直接優(yōu)化確定的獎(jiǎng)勵(lì)函數(shù)可能帶來的操縱(Manipulation),獎(jiǎng)勵(lì)篡改(Reward Tampering)等問題。
在形式化上,CIRL將用戶的動(dòng)作考慮到狀態(tài)轉(zhuǎn)移以及獎(jiǎng)勵(lì)函數(shù)當(dāng)中。
同時(shí),在獎(jiǎng)勵(lì)函數(shù)內(nèi)和初始狀態(tài)分布內(nèi)引入了參數(shù)化部分對用戶真實(shí)的意圖進(jìn)行建模:
在分布偏移下學(xué)習(xí)
AI系統(tǒng)在泛化過程中可能遇到分布偏移(Distribution Shift)的問題,即:
AI系統(tǒng)在訓(xùn)練分布上表現(xiàn)出良好的效果,但是當(dāng)遷移到測試分布或更復(fù)雜的環(huán)境中時(shí),AI系統(tǒng)可能無法及時(shí)應(yīng)對分布的變化(如在新分布中出現(xiàn)的對抗樣本)。
這可能導(dǎo)致系統(tǒng)性能大大降低,甚至朝著危險(xiǎn)目標(biāo)優(yōu)化——這往往是由于AI系統(tǒng)學(xué)習(xí)到了環(huán)境中的虛假聯(lián)系(Spurious Correlations)。
在對齊領(lǐng)域中,以安全為出發(fā)點(diǎn),我們更關(guān)注目標(biāo)的對齊性而非性能的可靠性。
隨著AI系統(tǒng)逐漸應(yīng)用于高風(fēng)險(xiǎn)場景和復(fù)雜任務(wù)上,未來將會遇到更多不可預(yù)見的干擾(Unforeseen Disruption),這意味著分布偏移會以更多樣的形式出現(xiàn)。因此,解決分布偏移問題迫在眉睫。
由分布偏移帶來的問題可以大致歸納為:目標(biāo)錯(cuò)誤泛化(Goal Misgeneralization)和自誘發(fā)分布偏移(Auto-Induced Distribution Shift):
目標(biāo)錯(cuò)誤泛化是指AI系統(tǒng)在訓(xùn)練分布上獲得了很好的能力泛化(Capability Generalization),但這樣的能力泛化可能并不對應(yīng)著真實(shí)的目標(biāo),于是在測試分布中AI系統(tǒng)可能表現(xiàn)出很好的能力,但是完成的并不是用戶期望的目標(biāo)。
△訓(xùn)練環(huán)境中“跟隨紅球”策略獲得高獎(jiǎng)勵(lì)
△測試環(huán)境中沿用訓(xùn)練策略“跟隨紅球”反而獲得低獎(jiǎng)勵(lì)
△Goal Misgeneralization: Why Correct Specifications Aren’t Enough For Correct Goals(Shah et al.,2023)
在上面的例子中,藍(lán)色小球在測試環(huán)境中沿用了在訓(xùn)練環(huán)境中能夠獲得高獎(jiǎng)勵(lì)的策略(跟隨紅球),但是這卻導(dǎo)致了它在藍(lán)色測試環(huán)境中“表現(xiàn)很差”。
事實(shí)上,該RL環(huán)境有著良好的表征(如每個(gè)圓環(huán)對應(yīng)不同獎(jiǎng)勵(lì),只有按照正確順序遍歷圓環(huán)才能累加獎(jiǎng)勵(lì),以及畫面右側(cè)黑白變化的方塊指示著正負(fù)獎(jiǎng)勵(lì)),最后智能體學(xué)習(xí)到了“跟隨紅球”的策略, 但這并不是用戶期望的目標(biāo)——探索到環(huán)境的獎(jiǎng)勵(lì)原則(Capability Generalization but Goal Misgenerlization)。
自誘發(fā)分布偏移則是強(qiáng)調(diào)AI系統(tǒng)在決策和執(zhí)行過程中可以影響環(huán)境,從而改變環(huán)境生成的數(shù)據(jù)分布。
一個(gè)現(xiàn)實(shí)例子是在推薦系統(tǒng)中,推薦算法選擇的內(nèi)容可以改變用戶的偏好和行為,導(dǎo)致用戶分布發(fā)生變化。這進(jìn)而會進(jìn)一步影響推薦算法的輸出。
隨著AI系統(tǒng)對世界產(chǎn)生越來越大的影響,我們還需要考慮AI系統(tǒng)融入人類社會之后對整個(gè)社會數(shù)據(jù)分布的潛在影響。
△自誘發(fā)分布偏移的實(shí)例,Hidden Incentives for Auto-induced Distribution Shift(Krueger et al., 2020)
進(jìn)一步,論文中主要從算法對策(Algorithmic Interventions)和數(shù)據(jù)分布對策(Data Distribution Interventions)兩方面介紹了應(yīng)對分布偏移的措施。
△Learning under Distribution Shift 框架圖
算法對策
算法對策大體可分為兩類:
一是通過在算法設(shè)計(jì)上融合多分布幫助模型學(xué)到不同分布間的不變聯(lián)系(Invarient Relationships, 與Spurious Features相對)。這一類的方法包含有分布魯棒優(yōu)化、不變風(fēng)險(xiǎn)最小化、風(fēng)險(xiǎn)外推等。
在這些方法中,“風(fēng)險(xiǎn)”被定義為損失函數(shù)在不同分布上的均值。
模型有可能會建立環(huán)境與結(jié)果之間的虛假聯(lián)系(Spurious Correlations), 比如預(yù)測“奶?!钡哪P涂赡軙ⅰ安菰尘啊迸c真實(shí)值之間的聯(lián)系,而非“奶牛的特征”與真實(shí)值的關(guān)系。
融合多分布可以“迫使”模型學(xué)到不同分布間的不變聯(lián)系,以盡可能降低“風(fēng)險(xiǎn)”,在不同分布上取得良好的泛化性能。
下面我們介紹幾種具有代表性的方法:
分布魯棒優(yōu)化(Distributionally Robust Optimization):
分布魯棒優(yōu)化(DRO)的主要目標(biāo)是最小化最壞情況的風(fēng)險(xiǎn)(minimize the worst case risk)。
風(fēng)險(xiǎn)被定義為在訓(xùn)練分布上預(yù)測值和真實(shí)值的損失函數(shù)差值,而最壞情況的風(fēng)險(xiǎn)可理解為在采樣點(diǎn)上表現(xiàn)最差的預(yù)測結(jié)果。
分布魯棒優(yōu)化的一個(gè)核心觀點(diǎn)是,如果模型學(xué)到了虛假聯(lián)系,那么它在某個(gè)采樣點(diǎn)上的損失函數(shù)值(即風(fēng)險(xiǎn)值)便會異常高,通過最小化最壞情況的風(fēng)險(xiǎn),我們期望模型能夠在所有采樣點(diǎn)上都達(dá)到較小的損失函數(shù)值——促使模型學(xué)到不同采樣點(diǎn)上的不變聯(lián)系(invarient relationships)。
不變風(fēng)險(xiǎn)最小化(Invariant Risk Minimization):
不變風(fēng)險(xiǎn)最小化(IRM)的目標(biāo)是在所有分布上訓(xùn)練一個(gè)盡可能不依賴虛假聯(lián)系(spurious correlations)的預(yù)測模型。
IRM可以視為ICP(Invarient Causal Prediction)的擴(kuò)展方法。
后者通過使用假想測試(hypothesis testing)的方法,尋找在每個(gè)環(huán)境中直接導(dǎo)致結(jié)果的特征(direct feautres),而IRM將ICP方法擴(kuò)展到高維輸入數(shù)據(jù)上——在這樣的數(shù)據(jù)上,有可能單個(gè)變量不再具備因果推斷的特性。
IRM不再關(guān)注于最差的預(yù)測結(jié)果,而是希望找到一個(gè)既在所有分布上平均表現(xiàn)良好、又在每單個(gè)分布上表現(xiàn)最優(yōu)的預(yù)測器。
然而IRM在協(xié)變量偏移(covariate shift)的情況下通常表現(xiàn)不佳,但是可以在一些反因果(anit-causal)的情況下取得較好表現(xiàn)。
風(fēng)險(xiǎn)外推(Risk Extrapolation):
風(fēng)險(xiǎn)外推(REx)通過降低訓(xùn)練風(fēng)險(xiǎn)并提升訓(xùn)練風(fēng)險(xiǎn)相似度,來促使模型學(xué)習(xí)不變聯(lián)系。
風(fēng)險(xiǎn)外推中的重要假設(shè)是訓(xùn)練領(lǐng)域的變化代表了我們在測試時(shí)可能會遇到的變化,但測試時(shí)的變化可能在幅度上更為極端。
風(fēng)險(xiǎn)外推的方法證明了減小在訓(xùn)練領(lǐng)域之間的風(fēng)險(xiǎn)差異可以降低模型對各種極端分布變化的敏感性,包括輸入同時(shí)包含因果和反因果元素的具有挑戰(zhàn)性的情境。
通過懲罰訓(xùn)練風(fēng)險(xiǎn)方差(V-REx)和優(yōu)化對外推域項(xiàng)(MM-REx), 風(fēng)險(xiǎn)外推可以恢復(fù)預(yù)測的因果機(jī)制,同時(shí)還可以增強(qiáng)在輸入分布的變化(如協(xié)變量偏移)方面的魯棒性。
二是利用模式連接(Mode Connectivity)的特性,微調(diào)模型參數(shù)使得模型能夠從基于虛假特性預(yù)測到基于不變聯(lián)系預(yù)測。
△Mechanistic Mode Connectivity(Lubana et al., 2023)
模式連接旨在探索機(jī)制性不同的最小化器是否通過低損失路徑在景觀中相互連接,以及能否根據(jù)這種連接性,進(jìn)行預(yù)訓(xùn)練后微調(diào),以實(shí)現(xiàn)最小化器之間的轉(zhuǎn)化,并有望改變模型的預(yù)測特征(從基于虛假特性到基于不變聯(lián)系),從而實(shí)現(xiàn)模型泛化性能的提升。
數(shù)據(jù)分布對策
數(shù)據(jù)分布對策則是希望擴(kuò)展訓(xùn)練時(shí)的原始分布,能動(dòng)地提升模型泛化能力,相關(guān)的工作包含對抗學(xué)習(xí)(Adversarial Training)和協(xié)作學(xué)習(xí)(Cooperative Training)。
對抗訓(xùn)練通過將基于擾動(dòng)的對抗樣本(Perturbation-Based Adversarial Examples)或無限制對抗樣本(Unrestricted Adversarial Examples)引入訓(xùn)練分布,來提升模型對于新分布環(huán)境下對抗攻擊的魯棒性。
△對抗訓(xùn)練的框架示意圖,Deep Neural Network based Malicious Network Activity Detection Under Adversarial Machine Learning Attacks(cat,2020)
合作訓(xùn)練更加強(qiáng)調(diào)智能體或AI系統(tǒng)的多元互動(dòng)關(guān)系。由于訓(xùn)練過程中可能缺乏動(dòng)態(tài)變化的多系統(tǒng)元素,訓(xùn)練好的AI系統(tǒng)部署于多系統(tǒng)交互的環(huán)境中時(shí)(如多智能體交互),可能由于新元素的加入,從而產(chǎn)生一些危害其他系統(tǒng)甚至社會的行為(Collectively Harmful Behaviors)。
△Cooperation的種類,Open Problems in Cooperative AI(Dafoe et al., 2020).
在這一節(jié)中,作者既介紹了MARL領(lǐng)域的完全合作(Fully Cooperative MARL)和混合動(dòng)機(jī)(Mixed-Motive MARL)情形,也同時(shí)涵蓋了其他研究方向,如無準(zhǔn)備協(xié)調(diào)(Zero-Shot Coordination)、環(huán)境搭建(Environment-Building)、社會模擬(Socially Realistic Settings)等。
隨著AI系統(tǒng)日漸部署到現(xiàn)實(shí)交互場景中,解決這一類問題將是實(shí)現(xiàn)人機(jī)共生的必由之路。
對齊保證
在前面的章節(jié)中,作者介紹了AI系統(tǒng)訓(xùn)練過程中的對齊技術(shù)。在訓(xùn)練后的部署過程,確保AI系統(tǒng)依然保持對齊也同樣重要。
在對齊保證一章中,作者從安全測評(Safety Evaluation)、可解釋性(Interpretability)和人類價(jià)值驗(yàn)證(Human Values Verification)等多個(gè)角度討論了相關(guān)的對齊技術(shù)。
△Assurance 框架圖
安全評估
作者將安全評估分為數(shù)據(jù)集與基準(zhǔn)、評估目標(biāo)和紅隊(duì)攻擊三部分:
數(shù)據(jù)集與基準(zhǔn)介紹了數(shù)據(jù)集和交互式評估方法:
數(shù)據(jù)集部分詳細(xì)分析了安全評估中應(yīng)用的數(shù)據(jù)源、標(biāo)注方法和評估指標(biāo);
交互式方法分為“代理交互”和“環(huán)境交互”兩類,前者通過與代理(人類或者其他AI)的交互來評估AI系統(tǒng)輸出的對齊質(zhì)量,后者則是通過構(gòu)建具體的語境來評估AI系統(tǒng)。
△(Li et al. 2023)
評估目標(biāo)探討了由不對齊的AI系統(tǒng)可能衍生出的風(fēng)險(xiǎn)產(chǎn)生的安全評估目標(biāo),如毒性(Toxicity)、權(quán)力追求(Power-seeking)、欺騙(Deception)和較為前沿的操縱(Manipulation)、自我保護(hù)與增殖(Self Preservation & Prolification)等,并且對這些目標(biāo)的主要評估工作進(jìn)行了介紹,形成了一個(gè)表格(如下表)。
△Deepmind對前沿AI風(fēng)險(xiǎn)的描述,本文沿用了”前沿AI風(fēng)險(xiǎn)”(Frontier AI Risks)一詞對這些風(fēng)險(xiǎn)的主干部分進(jìn)行了介紹(Anderljung et al. 2023)
△在這張表格中作者對目前主要的主要安全評估工作進(jìn)行分領(lǐng)域的介紹
紅隊(duì)攻擊的主要目的是通過制造和測試各種場景,檢驗(yàn)AI系統(tǒng)在面對對抗性的輸入時(shí)是否仍然保持對齊,以確保系統(tǒng)的穩(wěn)定性和安全性。作者在這段中介紹了多種紅隊(duì)攻擊的技術(shù),包括利用強(qiáng)化學(xué)習(xí)、優(yōu)化和指導(dǎo)等方法生成可能導(dǎo)致模型輸出不對齊的上下文,以及手動(dòng)和自動(dòng)的“越獄”技術(shù);
同時(shí)探討了眾包對抗輸入(Crowdsourcd Adversarial Inputs)、基于擾動(dòng)的對抗攻擊(Perturbation-Based Adversarial Attack)和無限制對抗攻擊(Unrestricted Adversarial Attack)等生成對抗性輸入的多種手段,并介紹了紅隊(duì)攻擊的具體應(yīng)用與產(chǎn)品。
△(Perez et al., 2022)
可解釋性
可解釋性是確保AI系統(tǒng)的概念建模、內(nèi)部邏輯和決策過程可視化、可解釋的技術(shù),力求打破AI系統(tǒng)的黑箱效應(yīng)。
作者深入剖析了神經(jīng)網(wǎng)絡(luò)的后訓(xùn)練可解釋性(Post Hoc Interpretability),探討了如何通過機(jī)制可解釋技術(shù)、神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分析、漲落與擾動(dòng)、可視化技術(shù)等,揭示神經(jīng)網(wǎng)絡(luò)的運(yùn)作機(jī)制,并進(jìn)一步闡釋了可解釋性模型的構(gòu)成(Intrinsic Interpretability),包括對AI系統(tǒng)中的黑箱成分進(jìn)行替換等從機(jī)制上構(gòu)建可解釋模型的方法。
最后作者展望了可解釋性研究的未來挑戰(zhàn),如可擴(kuò)展性(Scalability)和基準(zhǔn)構(gòu)建(Benchmark)等。
△回路分析(Circut Analysis)的一個(gè)示意圖,回路分析是后訓(xùn)練機(jī)制可解釋性的一個(gè)重要技術(shù)(Olah et al. 2020 )
人類價(jià)值驗(yàn)證
人類價(jià)值驗(yàn)證介紹了驗(yàn)證AI系統(tǒng)是否能夠與人類的價(jià)值觀和社會規(guī)范進(jìn)行對齊的理論和具體技術(shù)。
其中,形式化構(gòu)建(Formualtion)通過形式化的理論框架來刻畫和實(shí)現(xiàn)價(jià)值對齊性,一方面作者為機(jī)器的倫理的建立建構(gòu)了形式化框架,探討了基于邏輯、強(qiáng)化學(xué)習(xí)和博弈論的多種方式;
另一方面,作者提到了合作型AI中基于博弈論的價(jià)值框架,探討了如何通過增強(qiáng)合作激勵(lì)和協(xié)調(diào)能力來解決AI系統(tǒng)中的非合作和集體有害價(jià)值的問題。
而評估方法(Evaluation Methods)則從實(shí)踐的角度介紹了構(gòu)建價(jià)值數(shù)據(jù)集,場景模擬建立基準(zhǔn)評估和判別器-評價(jià)器差異法(Discriminator-Critique Gap, DCG)等價(jià)值驗(yàn)證的具體方法。
△判別器-評價(jià)器差異法(Discriminator-Critique Gap, DCG)的示意圖(Zhang et al. ,2023e )
AI治理
確保AI系統(tǒng)保持對齊不僅需要相應(yīng)的技術(shù)手段,還需要相應(yīng)的治理方法。
在治理章節(jié)中,作者討論了AI治理過程中的幾個(gè)重要問題:AI治理扮演的角色,治理AI的利益相關(guān)者的職能和關(guān)系以及有效的AI治理面臨的若干開放性挑戰(zhàn)。
作者首先了AI治理在解決現(xiàn)有AI風(fēng)險(xiǎn)中的角色擔(dān)當(dāng)。
現(xiàn)有的AI系統(tǒng)在社會中已經(jīng)引發(fā)了例如種族歧視、勞動(dòng)力置換等倫理與社會問題。
一些模型具有產(chǎn)生虛假信息以及危險(xiǎn)化學(xué)生物分子的能力,可能會產(chǎn)生全球性的安全風(fēng)險(xiǎn)。同時(shí),未來可能出現(xiàn)的更具自主性和通用性的AI系統(tǒng)。
如果缺乏足夠的保障,這些模型很可能對人類造成災(zāi)難性風(fēng)險(xiǎn)。AI治理的主要目標(biāo)正是減輕這一多樣化風(fēng)險(xiǎn)。
為實(shí)現(xiàn)這一目標(biāo),AI治理的相關(guān)方應(yīng)共同努力,給予每類風(fēng)險(xiǎn)應(yīng)有的關(guān)注。
△先進(jìn)AI系統(tǒng)可能具備的危險(xiǎn)能力
然后,作者將AI治理的主要利益相關(guān)方分為政府(Government),業(yè)界(Industry and AGI Labs)以及第三方(Third Parties)。
其中,政府運(yùn)用立法、司法和執(zhí)法權(quán)力監(jiān)督AI政策,政府間也進(jìn)行著AI治理的國際合作。
業(yè)界研究和部署AI技術(shù),是主要的被監(jiān)督方,業(yè)界也常常進(jìn)行自我監(jiān)督,確保自身技術(shù)的安全可靠。
第三方包含學(xué)界、非政府組織、非盈利組織等機(jī)構(gòu),不僅協(xié)助審查現(xiàn)有的模型與技術(shù),同時(shí)協(xié)助政府進(jìn)行AI相關(guān)法規(guī)的建立,實(shí)現(xiàn)更加完善的AI治理。
△Governance的治理架構(gòu)
此外,作者還討論了AI在國際治理(International Governance)以及開源治理(Open-source Governance)方面的開放性挑戰(zhàn)。
AI的國際治理(International Governance)
一方面,當(dāng)前許多AI風(fēng)險(xiǎn),例如市場中AI公司的無需競爭以及模型放大現(xiàn)有性別偏見具有明顯的國際性與代際性,國際合作共同治理有利于對這些風(fēng)險(xiǎn)的防范。
另一方面,現(xiàn)有AI技術(shù)帶來的經(jīng)濟(jì)與社會效益并沒有均勻分配,不發(fā)達(dá)國家以及缺乏相關(guān)AI知識的人群并不能在AI技術(shù)的發(fā)展中獲益,國際合作通過修建基礎(chǔ)設(shè)施,加強(qiáng)數(shù)字教育等方式能夠緩解這一不平衡。
同時(shí)我們注意到,現(xiàn)有的國際組織具有解決國際重大安全風(fēng)險(xiǎn)的能力,我們期望AI國際治理也能夠產(chǎn)生類似的國際組織,協(xié)助治理AI風(fēng)險(xiǎn)并合理分配AI帶來的機(jī)遇。
AI的開源治理(Open-source Governance)
隨著AI系統(tǒng)能力的不斷增強(qiáng),是否應(yīng)該開源這些AI系統(tǒng)存在著很多爭議。
支持者認(rèn)為開源AI模型能夠促進(jìn)模型的安全能力,同時(shí)認(rèn)為這是利于AI系統(tǒng)去中心化的重要手段。
而反對者則認(rèn)為開源AI模型可能會被微調(diào)為危險(xiǎn)模型或是導(dǎo)致非開源模型的越獄,進(jìn)而帶來風(fēng)險(xiǎn)。
我們希望未來能夠出現(xiàn)更加負(fù)責(zé)任的開源方法,使得AI系統(tǒng)在開源的同時(shí)避免濫用風(fēng)險(xiǎn)。
總結(jié)和展望
在這份綜述中,作者提供了一個(gè)覆蓋范圍廣泛的AI對齊介紹。
作者明確了對齊的目標(biāo),包括魯棒性、可解釋性、可控性和道德性,并將對齊方法的范圍劃分為前向?qū)R(通過對齊訓(xùn)練使AI系統(tǒng)對齊)和后向?qū)R(獲得系統(tǒng)對齊的證據(jù),并適當(dāng)?shù)剡M(jìn)行治理,以避免加劇對齊風(fēng)險(xiǎn))。
目前,在前向?qū)R的兩個(gè)顯著研究領(lǐng)域是從反饋中學(xué)習(xí)和在分布偏移下學(xué)習(xí),而后向?qū)R由對齊保證和AI治理組成。
最后,作者對于AI對齊領(lǐng)域下一步發(fā)展進(jìn)行展望,列出了下面幾個(gè)要點(diǎn)。
研究方向和方法的多樣性:
對齊領(lǐng)域的一大特征是它的多樣性——它包含多個(gè)研究方向,這些方向之間的聯(lián)系是共同的目標(biāo)而非共同的方法論。
這一多樣性在促進(jìn)探索的同時(shí),也意味著對研究方向的整理和對比變得尤其重要。
開放性探索新挑戰(zhàn)和方法:
許多有關(guān)對齊的討論都是基于比 LLMs 和大規(guī)模深度學(xué)習(xí)更早的方法之上構(gòu)建的。
因此,在機(jī)器學(xué)習(xí)領(lǐng)域發(fā)生范式轉(zhuǎn)變時(shí),對齊研究的側(cè)重點(diǎn)也發(fā)生了改變;更重要的是,方法的變革,以及AI系統(tǒng)與社會的日益緊密融合的趨勢,給對齊帶來了新的挑戰(zhàn)。
這要求我們積極進(jìn)行開放性探索,洞察挑戰(zhàn)并尋找新的方法。
結(jié)合前瞻性和現(xiàn)實(shí)導(dǎo)向的視角:
對齊研究尤其關(guān)注來自強(qiáng)大的 AI 系統(tǒng)的風(fēng)險(xiǎn),這些系統(tǒng)的出現(xiàn)可能遠(yuǎn)在數(shù)十年后,也可能近在幾年之內(nèi)。
前一種可能性需要研究前瞻趨勢和情景預(yù)測,而后一種強(qiáng)調(diào)AGI Labs、治理機(jī)構(gòu)之間的緊密合作,并以當(dāng)前系統(tǒng)作為對齊研究的原型。
政策相關(guān)性:
對齊研究并非孤立存在,而是存在于一個(gè)生態(tài)系統(tǒng)中,需要研究人員、行業(yè)參與者、治理機(jī)構(gòu)的共同努力。
這意味著服務(wù)于治理需求的對齊研究變得尤為重要,例如極端風(fēng)險(xiǎn)評估、算力治理基礎(chǔ)設(shè)施以及關(guān)于AI系統(tǒng)的可驗(yàn)證聲明的機(jī)制等。
社會復(fù)雜性和價(jià)值觀:
對齊不僅僅是一個(gè)單一主體的問題,也是一個(gè)社會問題。
在這里,”社會”的含義有三重:
- 在涉及多個(gè)AI系統(tǒng)和多個(gè)人之間的相互作用的多智能體環(huán)境中進(jìn)行對齊研究。
- 將AI系統(tǒng)對社會的影響進(jìn)行建模和預(yù)測,這需要方法來處理社會系統(tǒng)的復(fù)雜性。潛在的方法包括社會模擬以及博弈論等。
- 將人類道德價(jià)值納入對齊,這與機(jī)器倫理(Machine Ethics)、價(jià)值對齊(Value Alignment)等領(lǐng)域密切相關(guān)。
隨著AI系統(tǒng)日漸融入社會,社會和道德方面的對齊也面臨著更高的風(fēng)險(xiǎn)。因此,相關(guān)方面的研究應(yīng)該成為AI對齊討論的重要部分。
AI 對齊資源網(wǎng)站
隨著AI的快速發(fā)展,具有強(qiáng)大理解、推理與生成能力的AI將對人們的生活產(chǎn)生更加深遠(yuǎn)的影響。
因此,AI對齊并不是科學(xué)家們的專屬游戲,而是所有人都有權(quán)了解及關(guān)注的議題。作者提供了網(wǎng)站(地址見文末),將綜述中涉及到的調(diào)研內(nèi)容整理為易于閱讀的圖文資料。
網(wǎng)站具有如下特色:
直觀且豐富的呈現(xiàn)形式:
作者利用網(wǎng)站平臺靈活的表現(xiàn)形式,使用圖片、視頻等媒介更詳細(xì)地展示了文中介紹的內(nèi)容,使研究人員、初學(xué)者、乃至非科研人員都能更好地理解。
△示例:關(guān)于Alignment Problems的部分截圖
結(jié)構(gòu)化的知識體系:
作者精心整理了AI對齊相關(guān)領(lǐng)域的經(jīng)典文獻(xiàn),并使用樹形圖的結(jié)構(gòu)展示了各個(gè)子領(lǐng)域的聯(lián)系與依賴。
相比于簡單的資源整合堆砌,網(wǎng)站對內(nèi)容建立了結(jié)構(gòu)化索引,提供樹形圖幫助讀者快速建立對人工智能對齊研究的認(rèn)識框架,以及方便其精確查找所需的研究內(nèi)容。
△示例:讀者可以在頁面頂端縱覽“Scalable Oversight”的相關(guān)研究分支,并通過點(diǎn)擊“Detae”按鈕快速了解領(lǐng)域經(jīng)典文章
高質(zhì)量的學(xué)習(xí)資源:
針對目前的先進(jìn)對齊方法——RLHF,網(wǎng)站提供了由北京大學(xué)楊耀東老師主講的系列課程Tutorial。
從經(jīng)典RL算法出發(fā),以對齊的視角對RLHF進(jìn)行了體系化的梳理與總結(jié)。全系列的學(xué)習(xí)資源支持在線預(yù)覽和下載。
△從AI對齊視角展開的RLHF系列Tutoiral
外部資源整合:
AI對齊從來就不是某一個(gè)團(tuán)隊(duì)或機(jī)構(gòu)單獨(dú)研究的課題,而是一個(gè)全球化的議題。網(wǎng)站整理了AI對齊領(lǐng)域的論壇、課程以及個(gè)人博客等相關(guān)資源鏈接,旨在為讀者提供更多元化和更豐富的資訊。
△網(wǎng)站對有關(guān)AI對齊的個(gè)人研究、課程、博客等學(xué)習(xí)資源進(jìn)行了收集與歸納
持續(xù)更新與維護(hù):
網(wǎng)站將面向AI對齊社區(qū)長期開放討論,持續(xù)性地維護(hù)與更新相關(guān)領(lǐng)域的調(diào)研內(nèi)容,以期推動(dòng)AI對齊領(lǐng)域的更廣泛更深入研究。
其中包括一份定期郵件發(fā)出的Newsletter(地址見文末),以介紹對齊領(lǐng)域的最新進(jìn)展和總覽。
作者希望有關(guān)AI對齊的研究不僅僅局限于一份綜述論文,而是成為一個(gè)值得所有人關(guān)注的研究議題。
因此,作者將積極維護(hù)網(wǎng)站這一“在線論文”,持續(xù)性地開展AI對齊的調(diào)研工作。
論文地址(持續(xù)更新):https://arxiv.org/abs/2310.19852AI Alignment 縱覽網(wǎng)站(持續(xù)更新):
https://www.alignmentsurvey.com
Newsletter & Blog(郵件訂閱,定期更新):
https://alignmentsurvey.substack.com