OpenAI 的超級對齊團隊在做什么
今年11月17日,OpenAI 首席執(zhí)行官薩姆·奧爾特曼 (Sam Altman) 在首席科學家伊利亞·蘇茨克韋爾 (Ilya Sutskever) 的政變下被罷免,但三天后復職。不到一個月,OpenAI 宣布一切恢復正常,而這一切導火索是團隊內(nèi)部的有效加速和超級對齊之爭。
OpenAI 意識到隨著 AI 的能力不斷提升,如何保證 AI 的行為與人類的價值觀和目標一致,也就是所謂的對齊問題,變得越來越重要和緊迫。特別是當 AI 能夠達到或者超越人類智能的水平時,也就是所謂的超人類智能或者超級智能時,如果不能有效地對齊 AI,那么 AI 可能會做出一些違背人類意愿或者危害人類利益的行為,甚至可能導致人類的滅亡。
OpenAI 在今年七月成立了一個專門的超級對齊團隊,由其首席科學家 Ilya Sutskever 和研究科學家 Jan Leike 領導,旨在探索如何實現(xiàn)超級智能的對齊。這個團隊近日公布了其初步的研究成果,引起了業(yè)界的廣泛關注。他們在一篇不起眼的研究論文中,介紹了一種新的技術(shù),這項技術(shù)能讓一個實力較弱的 LLM 來監(jiān)督一個更強大的模型,這可能是我們向著解決如何讓人類監(jiān)督那些超越人類智能的機器邁出的一小步。
01 什么是弱到強的泛化,以及為什么它對超級對齊有意義
在機器學習中,泛化是指模型在未見過的數(shù)據(jù)上的表現(xiàn),也就是模型的適應能力。一個好的模型應該能夠在訓練數(shù)據(jù)以外的數(shù)據(jù)上也能夠做出正確的預測或者決策,而不是只能在訓練數(shù)據(jù)上表現(xiàn)良好,這就是泛化能力強的模型。
泛化能力并不是一成不變的,它還受到模型的復雜度和數(shù)據(jù)的質(zhì)量的影響。一般來說模型的復雜度越高,模型的擬合能力越強,也就是說模型能夠?qū)W習到更多的特征和規(guī)律,從而在訓練數(shù)據(jù)上表現(xiàn)更好。如果模型的復雜度過高,而數(shù)據(jù)的質(zhì)量不高,那么模型可能會出現(xiàn)過擬合的現(xiàn)象,也就是說模型會學習到一些噪聲或者無關的特征,從而在訓練數(shù)據(jù)上表現(xiàn)很好,但是在測試數(shù)據(jù)上表現(xiàn)很差,這就是泛化能力差的模型。
數(shù)據(jù)的質(zhì)量是數(shù)據(jù)的準確性、完整性、一致性、可靠性等方面的特征。一般情況下,數(shù)據(jù)的質(zhì)量越高,模型的泛化能力越強,也就是說模型能夠從數(shù)據(jù)中學習到更多的真實的特征和規(guī)律,從而在測試數(shù)據(jù)上表現(xiàn)更好。如果數(shù)據(jù)的質(zhì)量不高,模型沒有學習到足夠的特征和規(guī)律,從而在訓練數(shù)據(jù)和測試數(shù)據(jù)上都表現(xiàn)不好,這也是泛化能力差的模型。
從弱到強的表現(xiàn)將介于弱表現(xiàn)和強上限表現(xiàn)之間。將恢復的性能差距 (PGR)定義為上述三種性能(弱、弱到強和強上限)的函數(shù),如上圖所?。
弱到強的泛化是指一種特殊的泛化問題,即如何讓一個弱的模型來監(jiān)督一個強的模型,使其能夠在更復雜的任務上表現(xiàn)出良好的泛化能力。這里的弱和強是相對的概念,通常是指模型的復雜度或者能力的差異。例如,GPT-2 是一個弱的模型,而 GPT-4 是一個強的模型,因為 GPT-4 的參數(shù)數(shù)量、訓練數(shù)據(jù)量、生成文本的質(zhì)量等方面都遠遠超過了 GPT-2。弱到強的泛化的難點在于,弱的模型生成的標簽可能是不準確、不完整、不一致、不可靠的,如果直接用這些標簽來訓練強的模型,可能會導致強的模型的泛化能力下降,甚至出現(xiàn)過擬合或者欠擬合的現(xiàn)象。因此,弱到強的泛化需要找到一種方法,能夠讓強的模型從弱的模型的標簽中學習到更多的有效的信息,從而提高強的模型的泛化能力。
弱到強的泛化對超級對齊有意義,因為它可以作為一種類比,來模擬人類如何監(jiān)督超級智能的情況。人類是一種弱的模型,而超級智能是一種強的模型,因為超級智能的能力將遠遠超過人類的能力。人類給超級智能提供的反饋或者指令可能是不準確、不完整、不一致、不可靠的,如果直接用這些反饋或者指令來訓練超級智能,可能會導致超級智能的對齊能力下降,甚至出現(xiàn)不對齊的現(xiàn)象。因此,弱到強的泛化需要找到一種方法,能夠讓人類從超級智能的反饋或者指令中學習到更多的有效的信息,從而提高人類的對齊能力。
弱到強的泛化不僅可以幫助我們理解如何對齊超級智能,還可以幫助我們實現(xiàn)超級智能的對齊。如果我們能夠使用弱到強的泛化方法,讓一個弱的模型來監(jiān)督一個強的模型,那么我們也許就能夠使用同樣的方法,讓人類來監(jiān)督一個超級智能。這樣我們就可以利用超級智能的能力,來完成一些我們自己無法完成的任務,例如編寫復雜的代碼,解決難題,創(chuàng)造新的藝術(shù)等。同時,我們也可以確保超級智能的行為與我們的價值觀和目標一致,不會做出危害我們的行為,或者欺騙我們的意圖。
02 OpenAI 的超級對齊團隊的實驗結(jié)果和結(jié)論
OpenAI超級對齊團隊的研究方法是使用弱的模型來監(jiān)督強的模型,這是一種簡單而有效的方法,可以利用強的模型的預訓練和泛化的特性,來提高強的模型的泛化能力。
他們的方法主要分為以下幾個步驟:
- 創(chuàng)建弱的監(jiān)督器。他們使用了 GPT-2 作為弱的監(jiān)督器,通過在真實的標簽上進行微調(diào),讓 GPT-2 能夠執(zhí)行一些特定的任務,例如自然語言處理(NLP),國際象棋,和獎勵建模(RM)。他們稱弱的監(jiān)督器在測試數(shù)據(jù)上的性能為弱的性能,然后使用弱的監(jiān)督器在另一組數(shù)據(jù)上生成標簽,稱為弱的標簽。
- 創(chuàng)建強的模型。他們使用了 GPT-4 作為強的模型,這是一個比 GPT-2 復雜得多的預訓練語言模型,具有更多的參數(shù)、更大的訓練數(shù)據(jù)、更好的生成文本的質(zhì)量等。他們稱強的模型在真實的標簽上進行微調(diào)后在測試數(shù)據(jù)上的性能為強的性能,這是強的模型的最高水平。
- 實現(xiàn)弱到強的泛化。他們使用了弱的標簽來微調(diào)強的模型,這是一種弱到強的泛化的方法,旨在讓強的模型從弱的監(jiān)督器中學習到更多的有效的信息,從而提高強的模型的泛化能力。他們稱強的模型在弱的標簽上進行微調(diào)后在測試數(shù)據(jù)上的性能為弱到強的性能,這是強的模型的實際水平。
- 比較和分析性能。他們使用了準確率、F1分數(shù)、或者獎勵函數(shù)等指標,來評估模型在不同的任務上的性能,以及與弱的性能、強的性能、和弱到強的性能之間的差距。他們的實驗假設是,弱到強的性能會超越弱的性能,而且會接近強的性能,這意味著弱到強的泛化是成功的。
實驗結(jié)果如何呢?
在 NLP 任務上,他們發(fā)現(xiàn)弱到強的性能通常比弱的性能提高了 20% 到 70%,而且有時候甚至能夠達到強的性能的水平。這說明GPT-4 能夠從 GPT-2 的標簽中學習到很多有效的信息,從而在語言理解和生成方面表現(xiàn)出很強的泛化能力。
在國際象棋任務上,弱到強的性能通常比弱的性能提高了 10% 到 30%,但是仍然遠遠低于強的性能。這說明GPT-4 雖然能夠從 GPT-2 的標簽中學習到一些有效的信息,但是這些信息不足以讓 GPT-4 在象棋方面表現(xiàn)出很強的泛化能力。
在 RM 任務上,弱到強的性能通常比弱的性能提高了 5% 到 15%,但是仍然遠遠低于強的性能。這說明GPT-4 幾乎不能夠從 GPT-2 的標簽中學習到任何有效的信息,從而在獎勵建模方面表現(xiàn)出很差的泛化能力。
最后他們得出實驗結(jié)論。
弱到強的泛化是可能的,即微調(diào)后的強的模型可以超越弱的監(jiān)督器的性能,這是一種非常驚人且積極的結(jié)果,表明強的模型具有很強的適應能力和學習能力。
但是微調(diào)后的強的模型還遠遠不能夠達到強的模型的最高水平,這意味著弱的監(jiān)督器提供的信息是不足的,而且可能存在一些噪聲或者偏差,導致強的模型的泛化能力下降,甚至出現(xiàn)過擬合或者欠擬合的現(xiàn)象。
通過使用一些簡單的方法,可以顯著地提高弱到強的泛化的效果,例如使用輔助的置信度損失,使用中間的模型來進行引導,使用無監(jiān)督的生成式微調(diào)等。這些方法可以幫助強的模型從弱的監(jiān)督器中提取更多的有效的信息,從而提高強的模型的泛化能力。
03 OpenAI 的超級對齊團隊的研究有哪些創(chuàng)新性和貢獻
對齊團隊提出了一個新穎的對齊問題,叫做弱到強的泛化問題。這個問題可以讓我們學習如何用弱的監(jiān)督信號來激發(fā)強的模型的對齊能力。這個問題和超級對齊問題很像,但是更容易實驗和觀察。
這是一個簡單而有效的實驗方法,就是用弱的模型來監(jiān)督強的模型。這個方法可以利用強的模型的預訓練和泛化的優(yōu)勢,讓它們更好地適應新的任務和環(huán)境。
有趣的實驗結(jié)果是發(fā)現(xiàn)弱到強的泛化是可能的,而且是普遍的。這說明強的模型有很強的學習能力,可以從弱的監(jiān)督器中吸收很多有用的信息。
最后的實驗結(jié)論是發(fā)現(xiàn)弱到強的泛化是有限的,而且是可改進的。這說明弱的監(jiān)督器提供的信息是不夠的,而且可能有噪聲或者偏差,影響了強的模型的泛化性能,有時候會導致過擬合或者欠擬合。
他們用了一些簡單的技術(shù),可以顯著地提高弱到強的泛化的效果,比如用輔助的置信度損失,用中間的模型來引導,用無監(jiān)督的生成式微調(diào)等。這些技術(shù)可以讓強的模型從弱的監(jiān)督器中獲取更多的有效的信息,從而提高它們的泛化能力。
04 對未來的超級智能對齊問題的啟示和影響
他們的研究表明,弱到強的泛化是一種可行的而且有效的對齊方法,可以利用弱的監(jiān)督信號來激發(fā)強的模型的關鍵的對齊相關的能力,這為未來的超級對齊問題提供了一種可能的解決方案。
他們的研究問題是一個類比問題,而不是一個真實的超級對齊問題,因此他們需要驗證和測試他們的研究結(jié)果在真實的超級對齊問題上的適用性和有效性,以及可能存在的差異和不足。
但是他們的研究啟示了一種新的對齊策略,即使用人類水平的自動對齊研究器來解決超級智能的對齊問題,這是一種利用 AI 來對齊 AI 的方法,可以充分利用超級智能的預訓練和泛化能力,同時減少人類的監(jiān)督負擔。
這種策略影響了對齊研究的方向和方法,即將對齊問題分解為多個子問題,如可擴展監(jiān)督、可解釋性、故意訓練非對齊模型等,并探索不同的技術(shù)手段來提高對齊效果,如輔助損失函數(shù)、中間模型引導、無監(jiān)督生成式微調(diào)等。
對齊研究也啟示了對齊問題的復雜性和緊迫性,即超級智能的對齊問題不僅涉及技術(shù)層面的挑戰(zhàn),如編碼人類價值觀、處理價值判斷的模糊性、提升推理和學習能力、保證安全性和可控性等,還涉及社會層面的挑戰(zhàn),如文化差異、價值沖突、倫理標準等,因此需要在有限的時間內(nèi)尋找有效的解決方案。
總之,OpenAI 的超級對齊團隊的研究是一項有創(chuàng)新性和貢獻的工作,也是一項有局限性和不足的工作。他們的研究為未來的超級對齊問題提供了一些啟示和影響,也有一些待解決的問題和挑戰(zhàn)。他們的研究是一個重要的開端,但還遠遠不是一個終點。他們的研究需要不斷地驗證、測試、分析、探索、評估、改進、優(yōu)化、擴展,才能真正地實現(xiàn)超級智能的對齊。