放棄RLHF吧!無(wú)需手動(dòng)訓(xùn)練模型價(jià)值觀,達(dá)特茅斯學(xué)院華人領(lǐng)銜發(fā)布全新對(duì)齊算法:「AI社會(huì)」是最好的老師
訓(xùn)練大型語(yǔ)言模型的最后一步就是「對(duì)齊」(alignment),以確保模型的行為符合既定的人類社會(huì)價(jià)值觀。
相比人類通過(guò)「社交互動(dòng)」獲得價(jià)值判斷共識(shí),當(dāng)下語(yǔ)言模型更多的是孤立地從訓(xùn)練語(yǔ)料庫(kù)中學(xué)習(xí)價(jià)值觀,導(dǎo)致在陌生環(huán)境中泛化性能很差,容易受到對(duì)抗性打擊。
最近,來(lái)自達(dá)特茅斯學(xué)院、不列顛哥倫比亞大學(xué)、斯坦福大學(xué)、密歇根大學(xué)和Google Deepmind聯(lián)合提出了一種全新的訓(xùn)練范式,將多個(gè)語(yǔ)言模型放入模擬的社會(huì)環(huán)境中,通過(guò)互動(dòng)的方式學(xué)習(xí)價(jià)值觀。
論文鏈接:https://arxiv.org/abs/2305.16960
與現(xiàn)有的方法相比,文中提出的新方法具有更高的可擴(kuò)展性和效率,在對(duì)齊基準(zhǔn)和人類評(píng)估中表現(xiàn)出更好的性能,這種訓(xùn)練范式的轉(zhuǎn)變也可以讓人工智能系統(tǒng)更準(zhǔn)確地反映社會(huì)規(guī)范和價(jià)值觀。
SANDBOX:模擬人類社會(huì)
不同于有監(jiān)督微調(diào)(SFT)預(yù)定義規(guī)則的傳統(tǒng)做法,或是依賴基于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)中的標(biāo)量獎(jiǎng)勵(lì),研究人員從人類學(xué)習(xí)駕馭社會(huì)規(guī)范的方式中獲得靈感,模擬人類經(jīng)驗(yàn)學(xué)習(xí)和迭代完善的過(guò)程。
SANDBOX是一個(gè)模擬人類社會(huì)的學(xué)習(xí)環(huán)境,在這個(gè)環(huán)境中,基于語(yǔ)言模型(LM)的社會(huì)智能體可以模仿人類進(jìn)行互動(dòng)和學(xué)習(xí)社會(huì)規(guī)范,通過(guò)煽動(dòng)對(duì)有爭(zhēng)議的社會(huì)話題或與風(fēng)險(xiǎn)有關(guān)的問(wèn)題的討論來(lái)促進(jìn)社會(huì)規(guī)范的涌現(xiàn)。
同時(shí),系統(tǒng)中還引入了一個(gè)潛規(guī)則,作為智能體的激勵(lì)來(lái)完善輸出,可以促進(jìn)對(duì)齊改善(improved alignment)和印象管理(impression management)。
雖然論文的研究重點(diǎn)是社會(huì)對(duì)齊,但該規(guī)則可以適應(yīng)于不同的場(chǎng)景需求。
SANDBOX包含一個(gè)三層方法Back-Scatter,可以模擬智能體之間的社會(huì)互動(dòng)。
在收到一個(gè)社會(huì)問(wèn)題后,中心智能體會(huì)生成一個(gè)初步的回復(fù),然后與附近的智能體分享以獲得反饋,其中反饋包括評(píng)分和詳細(xì)的解釋,可以幫助中心智能體對(duì)初步回復(fù)進(jìn)行修訂。
每個(gè)智能體都包括一個(gè)記憶模塊來(lái)追蹤回復(fù)歷史:采用基于嵌入的語(yǔ)義搜索,從歷史中檢索相關(guān)的問(wèn)題-答案(QA)對(duì),為智能體提供一個(gè)促進(jìn)與過(guò)去意見(jiàn)一致的背景信息。
除了社會(huì)智能體外,系統(tǒng)中還包括沒(méi)有記憶的觀察者智能體,其任務(wù)就是對(duì)回復(fù)的一致性和參與度進(jìn)行評(píng)級(jí)。
SANDBOX可以輔助模擬各種語(yǔ)言模型的社會(huì)動(dòng)態(tài),監(jiān)測(cè)觀察者的評(píng)分,并對(duì)收集的數(shù)據(jù)進(jìn)行事后分析。
對(duì)不同語(yǔ)言模型模擬后進(jìn)行對(duì)齊分析可以發(fā)現(xiàn),雖然較大的模型通常表現(xiàn)出更好的一致性和參與度,但也有令人驚訝的結(jié)果:盡管模型大小增加了20倍,但從68億到1750億參數(shù)量GPT-3模型的過(guò)渡中,并沒(méi)有帶來(lái)明顯的改善。
這一結(jié)果也表明了兩個(gè)關(guān)鍵的結(jié)論:
1. 單純的模型擴(kuò)展并不能保證對(duì)齊效果的改善
2. 非常小的模型也能提供令人滿意的對(duì)齊性能
對(duì)沒(méi)有對(duì)齊和有對(duì)齊訓(xùn)練模型的對(duì)比結(jié)果表明,對(duì)齊訓(xùn)練主要增強(qiáng)了模型以較少的交互實(shí)現(xiàn)較高對(duì)齊度的能力,在現(xiàn)實(shí)世界的應(yīng)用中也是至關(guān)重要的考慮因素,因?yàn)橛脩羝谕⒓吹玫缴鐣?huì)性的對(duì)齊反應(yīng),而不需要通過(guò)交互引導(dǎo)模型。
總之,SANDBOX平臺(tái)能夠?qū)ι鐣?huì)互動(dòng)進(jìn)行建模,不僅促進(jìn)了社會(huì)對(duì)齊語(yǔ)言模型的發(fā)展,而且也是研究AI智能體行為模式的一個(gè)多功能環(huán)境。
穩(wěn)定對(duì)齊(Stable Alignment)
穩(wěn)定對(duì)齊利用評(píng)分來(lái)調(diào)整每個(gè)mini-batch數(shù)據(jù)中對(duì)負(fù)面樣本的懲罰,除了性能優(yōu)于現(xiàn)有方法外,在資源有限的環(huán)境中還有易部署的優(yōu)勢(shì)。
相比OpenAI使用的RLHF機(jī)制,穩(wěn)定對(duì)齊不需要額外的獎(jiǎng)勵(lì)模型就可以在訓(xùn)練期間提供近似的有監(jiān)督信號(hào)。
數(shù)據(jù)準(zhǔn)備
對(duì)齊數(shù)據(jù)由「好問(wèn)題」和「壞問(wèn)題」的示例組成,不過(guò)在互動(dòng)環(huán)境SANDBOX中生成的數(shù)據(jù)比較特別,包含了對(duì)比對(duì)(comparative pairs)、集體評(píng)分(collective ratings)、細(xì)節(jié)反饋(detailed feedback)以及迭代的回復(fù)修訂(iterative response revisions)。
按照Alpaca模型的要求,研究人員將數(shù)據(jù)組織成指令-輸入-輸出(Instruction-Input-Output)三部分,并添加必要的修改以適應(yīng)SANDBOX的互動(dòng)記錄。
研究人員使用了一種新的樣本類型,叫做重對(duì)齊(realignment),其中指令包括問(wèn)題、低評(píng)分的回復(fù)草稿和修改后觸發(fā)提示(如Please revise this response to improve its feedback compared to the input.);
輸入為同等模型的反饋(peer feedback),輸出為修改后的回復(fù)。
研究人員發(fā)現(xiàn),納入重對(duì)齊風(fēng)格的數(shù)據(jù)可以有效地改善模型對(duì)抗「越獄提示」(jailbreaking prompting),即用戶利用各種上下文視圖繞過(guò)保護(hù)措施,誘導(dǎo)模型做出惡意行為。
最終從模擬的相互交流中構(gòu)建了16.9萬(wàn)個(gè)對(duì)齊數(shù)據(jù)樣本。
穩(wěn)定對(duì)齊算法
算法的核心部分中,穩(wěn)定對(duì)齊起到對(duì)比學(xué)習(xí)過(guò)程的作用,獎(jiǎng)勵(lì)高評(píng)分的回復(fù),并對(duì)低評(píng)分的回復(fù)進(jìn)行懲罰。
不過(guò)與傳統(tǒng)方法不同的是:
1. 對(duì)比信號(hào)來(lái)自于同一mini-batch中的低評(píng)分回復(fù),而非孿生網(wǎng)絡(luò)或shifted embedding,需要SANDBOX中記錄數(shù)據(jù)的互動(dòng)性才能使對(duì)比學(xué)習(xí)更有效地發(fā)揮作用。
2. 與hinge損失或triplet損失中通常采用的固定差值相比,穩(wěn)定對(duì)齊算法在每個(gè)小batch中根據(jù)評(píng)分的不同動(dòng)態(tài)調(diào)節(jié)差值。
具體來(lái)說(shuō),SFT損失和來(lái)自低評(píng)分回復(fù)損失之間的差值與離最高評(píng)分回復(fù)之間的距離有關(guān),并且是成比例地增加,這就意味著模型必須更加努力地避免從低評(píng)分回復(fù)中學(xué)習(xí),同時(shí)從最高評(píng)分的回復(fù)中學(xué)習(xí)。
實(shí)驗(yàn)部分
研究人員對(duì)訓(xùn)練后的模型進(jìn)行了全面的評(píng)估,主要檢查模型在傳統(tǒng)的對(duì)齊基準(zhǔn)和受到對(duì)抗性評(píng)估中的表現(xiàn)。
實(shí)驗(yàn)中構(gòu)建了三個(gè)不同的虛擬社會(huì),每個(gè)社會(huì)都有100個(gè)智能體,排列在一個(gè)10x10的網(wǎng)格世界中,按照Back-Scatter協(xié)議進(jìn)行互動(dòng)。
三個(gè)社會(huì)使用三種不同的語(yǔ)言模型(LM)來(lái)模擬人類互動(dòng):text-davinci-002(175B)、text-davinci-003(175B)和GPT-4(大小未知);采用ChatGPT(gpt-3.5-turbo)作為觀察者,但沒(méi)有記憶功能。
有爭(zhēng)議的社會(huì)問(wèn)題庫(kù)包括9,662個(gè)問(wèn)題組成,主要來(lái)自Anthropic發(fā)布的HH-RLHF數(shù)據(jù)集。
對(duì)比的基準(zhǔn)數(shù)據(jù)集有三個(gè):
1. Vicuna Test,評(píng)估有用性、相關(guān)性和準(zhǔn)確性,代表了對(duì)通用聊天機(jī)器人的要求
2. Helpful, Honest, and Harmless(HHH)基準(zhǔn),通過(guò)有爭(zhēng)議的社會(huì)問(wèn)題評(píng)估社會(huì)對(duì)齊效果;
3. HHH-Adversarial,用HHH基準(zhǔn)的測(cè)試集模仿對(duì)抗性(越獄提示),在相應(yīng)的問(wèn)題后附加不一致的回答,并評(píng)估模型是否仍能以社會(huì)一致性的方式回答問(wèn)題。
對(duì)于所有的評(píng)價(jià),遵循Vicuna的評(píng)價(jià)協(xié)議,使用GPT-4作為裁判,并修改評(píng)價(jià)提示,以便能夠?qū)Χ鄠€(gè)候選者進(jìn)行比較。
從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn):
1. 指令調(diào)整有助于使基礎(chǔ)模型有效地處理「請(qǐng)求-完成」(request-completion)任務(wù),在對(duì)齊基準(zhǔn)中很常見(jiàn)。
LLaMA的回答通常更冗長(zhǎng),并且有時(shí)與問(wèn)題無(wú)關(guān),不過(guò)在經(jīng)歷通用指令調(diào)整后,Alpaca在Vicuna測(cè)試和HHH對(duì)齊基準(zhǔn)中表現(xiàn)出明顯的改進(jìn),評(píng)分分別從4.44提高到6.04和4.51提高到5.53
2. 雖然SFT對(duì)對(duì)齊任務(wù)表現(xiàn)出很大的優(yōu)勢(shì),但單靠SFT并不能增強(qiáng)模型對(duì)對(duì)抗性的穩(wěn)健性。
當(dāng)比較SFT訓(xùn)練前(Alpaca)和訓(xùn)練后(Alpaca + HHH-SFT)的模型時(shí),盡管Vicuna測(cè)試和HHH的對(duì)齊性能有所提高,但可以注意到HHH-Adversarial性能下降非常多,表明加強(qiáng)對(duì)對(duì)齊反應(yīng)的記憶并不一定使模型具備抵抗越獄提示的能力。
穩(wěn)定對(duì)齊可以進(jìn)一步優(yōu)化對(duì)齊的潛力,并且不會(huì)明顯降低模型的通用能力。
可以看到,經(jīng)過(guò)對(duì)齊訓(xùn)練(即TRLX、Chain-of-Hindsight、RRHF和穩(wěn)定對(duì)齊)后,所有模型在價(jià)值對(duì)齊基準(zhǔn)(HHH和HHH-adversarial)中表現(xiàn)出更強(qiáng)的性能,但只有RRHF和穩(wěn)定對(duì)齊提高了通用功能(即在Vicuna測(cè)試中,RRHF取得了6.81分,穩(wěn)定對(duì)齊取得了7.40分--都超過(guò)了SFT的基線6.32分),表明穩(wěn)定對(duì)齊在提升對(duì)齊能力的同時(shí)保留了通用能力。