GPT-2能監(jiān)督GPT-4,Ilya帶頭OpenAI超級(jí)對(duì)齊首篇論文來了:AI對(duì)齊AI取得實(shí)證結(jié)果
過去一年,以「預(yù)測(cè)下一個(gè) Token」為本質(zhì)的大模型已經(jīng)橫掃人類世界的多項(xiàng)任務(wù),展現(xiàn)了人工智能的巨大潛力。
在近日的一次訪談中,OpenAI 首席科學(xué)家 Ilya Sutskever 大膽預(yù)言,如果模型能夠很好地預(yù)測(cè)下一個(gè)詞,那么意味著它能夠理解導(dǎo)致這個(gè)詞產(chǎn)生的深刻現(xiàn)實(shí)。這意味著,如果 AI 按照現(xiàn)有路徑發(fā)展下去,也許在不久的將來,一個(gè)超越人類的人工智能系統(tǒng)就會(huì)誕生。
但更加令人擔(dān)心的是,「超級(jí)人工智能」可能會(huì)帶來一些意想不到的負(fù)面后果。這也是「對(duì)齊」的意義。
此前的對(duì)齊方法依賴于人類的監(jiān)督,如在 ChatGPT 訓(xùn)練中起到關(guān)鍵作用的人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。但未來的人工智能系統(tǒng)或許能夠做出極其復(fù)雜和富有創(chuàng)造性的行為,使人類難以對(duì)其進(jìn)行可靠的監(jiān)督。例如,超人類模型可能會(huì)編寫出數(shù)百萬行新奇的、具有潛在危險(xiǎn)的計(jì)算機(jī)代碼,即使是人類專家也很難理解這些代碼。
一旦人工智能的水平超過人類,我們又該如何監(jiān)督比自己聰明得多的人工智能系統(tǒng)?人類文明最終會(huì)被顛覆甚至摧毀嗎?
即使是 Hinton 這樣的學(xué)界巨佬,對(duì)這個(gè)問題同樣持悲觀態(tài)度 —— 他表示自己「從沒見過更高智能水平的東西被遠(yuǎn)遠(yuǎn)更低智能水平的東西控制的案例」。
剛剛,OpenAI「超級(jí)對(duì)齊」團(tuán)隊(duì)發(fā)布了成立以來的首篇論文,聲稱開辟了對(duì)超人類模型進(jìn)行實(shí)證對(duì)齊的新研究方向。
論文鏈接:https://cdn.openai.com/papers/weak-to-strong-generalization.pdf
OpenAI「超級(jí)對(duì)齊」團(tuán)隊(duì)成立于今年 7 月,目標(biāo)是在四年內(nèi)解決超智能 AI 的對(duì)齊問題,即搞清楚如何構(gòu)建一種值得信任的人類水平的研究器,然后將其用于解決對(duì)齊問題。據(jù)說這個(gè)團(tuán)隊(duì)投入了公司 20% 的算力。
在這篇論文中,OpenAI 對(duì)「人類監(jiān)督超級(jí)人工智能」這個(gè)問題做了一個(gè)簡(jiǎn)單的類比:讓小模型監(jiān)督大模型。
研究表明,15 億參數(shù)的 GPT-2 模型可以被用來激發(fā) GPT-4 的大部分能力,使其達(dá)到接近 GPT-3.5 級(jí)別的性能,甚至可以正確地泛化到小模型失敗的難題上。
OpenAI 將這種現(xiàn)象稱為「弱到強(qiáng)泛化」(Weak-to-strong generalization),這表明強(qiáng)大的模型具備如何執(zhí)行任務(wù)的隱含知識(shí),并且即使在給出粗制濫造的指令時(shí)也可以在其自身中找到這些知識(shí)。
但研究同時(shí)指出,用弱監(jiān)督訓(xùn)練的強(qiáng)模型和用真實(shí)標(biāo)簽訓(xùn)練的強(qiáng)模型之間仍然存在很大的差距。這表明在沒有額外工作的情況下,諸如基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)之類的技術(shù)可能無法很好地?cái)U(kuò)展到超人類模型。對(duì)于 ChatGPT 獎(jiǎng)勵(lì)建模任務(wù)來說,性能差距尤其大。
幾種簡(jiǎn)單的方法可以顯著提高弱到強(qiáng)的泛化能力,比如使用中間模型大小進(jìn)行引導(dǎo)監(jiān)督,在微調(diào)時(shí)添加輔助置信度損失以鼓勵(lì)模型即使在與弱標(biāo)簽相矛盾時(shí)也能保持自信,或者通過額外的無監(jiān)督預(yù)訓(xùn)練改進(jìn)表征學(xué)習(xí)。
為了鼓勵(lì)其他研究人員解決此類問題,OpenAI 今天還宣布將提供 1000 萬美元的資助,用于各種比對(duì)方法的研究。
以下是論文細(xì)節(jié)。
研究方法
本文主要通過人類反饋 (RLHF) 的強(qiáng)化學(xué)習(xí)來指導(dǎo)或?qū)R模型,他們是這樣做的:強(qiáng)化評(píng)估人員評(píng)價(jià)高的行為,懲罰評(píng)估人員評(píng)價(jià)低的行為。假如說人類評(píng)估者能夠準(zhǔn)確判斷模型行為是好是壞,這種做法非常有效,并且這種方式還是訓(xùn)練如 ChatGPT 等大語(yǔ)言模型的核心部分。
然而問題來了,超級(jí)模型可能做出人類無法完全理解的復(fù)雜行為和創(chuàng)造性行為。例如,一個(gè)超級(jí)助手模型生成的代碼達(dá)到一百萬行,那么人類將無法為關(guān)鍵對(duì)齊相關(guān)任務(wù)提供可靠的監(jiān)督,包括代碼是否遵循用戶的意圖,助手模型是否如實(shí)地回答有關(guān)代碼的問題,代碼執(zhí)行是否安全或危險(xiǎn),等等。
因此,如果我們?cè)谌祟惖谋O(jiān)督下微調(diào)超級(jí)模型,我們無法確定這個(gè)模型將如何泛化到那些人類自己也難以可靠監(jiān)督的復(fù)雜行為。換句話說,這意味著即使在人類的指導(dǎo)下,這些超級(jí)模型在處理一些復(fù)雜或未知情況時(shí)的表現(xiàn)仍然是不確定的。
這就為對(duì)齊超級(jí)模型帶來了挑戰(zhàn):不那么聰明的監(jiān)督者怎么能控制比他們聰明得多的模型呢?盡管這個(gè)問題很重要,但目前很難進(jìn)行實(shí)證研究。
一般來講,超級(jí)對(duì)齊的一個(gè)核心挑戰(zhàn)是人類需要監(jiān)督比自己更聰明地模型。這是一個(gè)弱 - 強(qiáng)(weak-to-strong)的學(xué)習(xí)問題:一個(gè)弱監(jiān)督者如何監(jiān)督一個(gè)比它聰明得多的模型?為了解決這個(gè)問題,本文提出了一個(gè)簡(jiǎn)單的類比,用弱模型作為監(jiān)督者來代替較弱的人類監(jiān)督者。
一般來講,傳統(tǒng)的機(jī)器學(xué)習(xí)側(cè)重于這種設(shè)置,即人類監(jiān)督的模型比人類弱。但對(duì)于最終的超級(jí)對(duì)齊問題,人類監(jiān)督的模型比他們聰明。因而本文研究了一個(gè)類似的問題:使用弱模型來監(jiān)督強(qiáng)模型。
他們是這樣實(shí)現(xiàn)的,對(duì)于一個(gè)給定的任務(wù):
- 構(gòu)建弱監(jiān)督者。本文通過在真值標(biāo)簽上微調(diào)較小的預(yù)訓(xùn)練模型來構(gòu)造弱監(jiān)督者,他們把弱監(jiān)督者的表現(xiàn)稱為弱表現(xiàn),并通過弱模型的預(yù)測(cè)來生成弱標(biāo)簽。
- 通過弱監(jiān)督訓(xùn)練強(qiáng)學(xué)生模型。本文使用生成的弱標(biāo)簽微調(diào)強(qiáng)模型,并將該模型稱為強(qiáng)學(xué)生模型,將其產(chǎn)生的性能稱為從弱到強(qiáng)的性能。
- 訓(xùn)練一個(gè)以真值標(biāo)簽為上限的強(qiáng)模型。為了比較,本文使用真值標(biāo)簽對(duì)強(qiáng)模型進(jìn)行了微調(diào)。將此模型的最終性能稱為強(qiáng)大的上限性能。
通常,弱到強(qiáng)的表現(xiàn)將介于弱表現(xiàn)和強(qiáng)上限表現(xiàn)(strong ceiling)之間。本文將 PGR(performance gap recovered)定義為上述三種性能(弱、弱到強(qiáng)和強(qiáng)上限)的函數(shù),如下圖所示。
如果實(shí)現(xiàn)完美的弱到強(qiáng)泛化,則 PGR 為 1。如果弱到強(qiáng)模型的表現(xiàn)并不比弱監(jiān)督者更好,則 PGR 為 0。
實(shí)驗(yàn)結(jié)果
在 NLP 任務(wù)、國(guó)際象棋和獎(jiǎng)勵(lì)建模任務(wù)中,本文評(píng)估了強(qiáng)學(xué)生模型的表現(xiàn),結(jié)果如下??偟膩碚f,在所有的設(shè)置中,本文觀察到從弱到強(qiáng)的泛化:強(qiáng)學(xué)生模型始終勝過他們的弱監(jiān)督者。
本文發(fā)現(xiàn)可以使用簡(jiǎn)單的方法來大大提高弱到強(qiáng)的泛化,如圖 4 所示。
圖 5 表明,對(duì)于較小的強(qiáng)學(xué)生來說,雖然它的表現(xiàn)比 naive 基線稍差,但提高泛化能力還是很明顯的。
圖 7 (a) 顯示了 ChatGPT RM 任務(wù)訓(xùn)練過程中的真值測(cè)試準(zhǔn)確度曲線,圖 7 (b) 和 (c) 比較了最佳和最終真值測(cè)試的準(zhǔn)確度。
圖 9a 考慮了 7 個(gè)有代表性的 NLP 任務(wù),并比較了微調(diào)、零樣本提示和 5-shot 提示;對(duì)于零樣本和 5-shot 基線,本文使用表 2 中總結(jié)的特定于任務(wù)的提示。
了解更多內(nèi)容,請(qǐng)參考原論文。