自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

放棄RLHF吧!無(wú)需手動(dòng)訓(xùn)練模型價(jià)值觀,達(dá)特茅斯學(xué)院華人領(lǐng)銜發(fā)布全新對(duì)齊算法:「AI社會(huì)」是最好的老師

人工智能 新聞
訓(xùn)練語(yǔ)言模型的最后一站是「AI構(gòu)成的社會(huì)」。

訓(xùn)練大型語(yǔ)言模型的最后一步就是「對(duì)齊」(alignment),以確保模型的行為符合既定的人類社會(huì)價(jià)值觀。

相比人類通過(guò)「社交互動(dòng)」獲得價(jià)值判斷共識(shí),當(dāng)下語(yǔ)言模型更多的是孤立地從訓(xùn)練語(yǔ)料庫(kù)中學(xué)習(xí)價(jià)值觀,導(dǎo)致在陌生環(huán)境中泛化性能很差,容易受到對(duì)抗性打擊。

最近,來(lái)自達(dá)特茅斯學(xué)院、不列顛哥倫比亞大學(xué)、斯坦福大學(xué)、密歇根大學(xué)和Google Deepmind聯(lián)合提出了一種全新的訓(xùn)練范式,將多個(gè)語(yǔ)言模型放入模擬的社會(huì)環(huán)境中,通過(guò)互動(dòng)的方式學(xué)習(xí)價(jià)值觀。

圖片

論文鏈接:https://arxiv.org/abs/2305.16960

與現(xiàn)有的方法相比,文中提出的新方法具有更高的可擴(kuò)展性和效率,在對(duì)齊基準(zhǔn)和人類評(píng)估中表現(xiàn)出更好的性能,這種訓(xùn)練范式的轉(zhuǎn)變也可以讓人工智能系統(tǒng)更準(zhǔn)確地反映社會(huì)規(guī)范和價(jià)值觀。

SANDBOX:模擬人類社會(huì)

不同于有監(jiān)督微調(diào)(SFT)預(yù)定義規(guī)則的傳統(tǒng)做法,或是依賴基于人類反饋強(qiáng)化學(xué)習(xí)(RLHF)中的標(biāo)量獎(jiǎng)勵(lì),研究人員從人類學(xué)習(xí)駕馭社會(huì)規(guī)范的方式中獲得靈感,模擬人類經(jīng)驗(yàn)學(xué)習(xí)和迭代完善的過(guò)程。

SANDBOX是一個(gè)模擬人類社會(huì)的學(xué)習(xí)環(huán)境,在這個(gè)環(huán)境中,基于語(yǔ)言模型(LM)的社會(huì)智能體可以模仿人類進(jìn)行互動(dòng)和學(xué)習(xí)社會(huì)規(guī)范,通過(guò)煽動(dòng)對(duì)有爭(zhēng)議的社會(huì)話題或與風(fēng)險(xiǎn)有關(guān)的問(wèn)題的討論來(lái)促進(jìn)社會(huì)規(guī)范的涌現(xiàn)。

圖片

同時(shí),系統(tǒng)中還引入了一個(gè)潛規(guī)則,作為智能體的激勵(lì)來(lái)完善輸出,可以促進(jìn)對(duì)齊改善(improved alignment)和印象管理(impression management)。

雖然論文的研究重點(diǎn)是社會(huì)對(duì)齊,但該規(guī)則可以適應(yīng)于不同的場(chǎng)景需求。

SANDBOX包含一個(gè)三層方法Back-Scatter,可以模擬智能體之間的社會(huì)互動(dòng)。

在收到一個(gè)社會(huì)問(wèn)題后,中心智能體會(huì)生成一個(gè)初步的回復(fù),然后與附近的智能體分享以獲得反饋,其中反饋包括評(píng)分和詳細(xì)的解釋,可以幫助中心智能體對(duì)初步回復(fù)進(jìn)行修訂。

圖片

每個(gè)智能體都包括一個(gè)記憶模塊來(lái)追蹤回復(fù)歷史:采用基于嵌入的語(yǔ)義搜索,從歷史中檢索相關(guān)的問(wèn)題-答案(QA)對(duì),為智能體提供一個(gè)促進(jìn)與過(guò)去意見(jiàn)一致的背景信息。

除了社會(huì)智能體外,系統(tǒng)中還包括沒(méi)有記憶的觀察者智能體,其任務(wù)就是對(duì)回復(fù)的一致性和參與度進(jìn)行評(píng)級(jí)。

SANDBOX可以輔助模擬各種語(yǔ)言模型的社會(huì)動(dòng)態(tài),監(jiān)測(cè)觀察者的評(píng)分,并對(duì)收集的數(shù)據(jù)進(jìn)行事后分析。

圖片


對(duì)不同語(yǔ)言模型模擬后進(jìn)行對(duì)齊分析可以發(fā)現(xiàn),雖然較大的模型通常表現(xiàn)出更好的一致性和參與度,但也有令人驚訝的結(jié)果:盡管模型大小增加了20倍,但從68億到1750億參數(shù)量GPT-3模型的過(guò)渡中,并沒(méi)有帶來(lái)明顯的改善。

這一結(jié)果也表明了兩個(gè)關(guān)鍵的結(jié)論:

1. 單純的模型擴(kuò)展并不能保證對(duì)齊效果的改善

2. 非常小的模型也能提供令人滿意的對(duì)齊性能

對(duì)沒(méi)有對(duì)齊和有對(duì)齊訓(xùn)練模型的對(duì)比結(jié)果表明,對(duì)齊訓(xùn)練主要增強(qiáng)了模型以較少的交互實(shí)現(xiàn)較高對(duì)齊度的能力,在現(xiàn)實(shí)世界的應(yīng)用中也是至關(guān)重要的考慮因素,因?yàn)橛脩羝谕⒓吹玫缴鐣?huì)性的對(duì)齊反應(yīng),而不需要通過(guò)交互引導(dǎo)模型。

總之,SANDBOX平臺(tái)能夠?qū)ι鐣?huì)互動(dòng)進(jìn)行建模,不僅促進(jìn)了社會(huì)對(duì)齊語(yǔ)言模型的發(fā)展,而且也是研究AI智能體行為模式的一個(gè)多功能環(huán)境。

穩(wěn)定對(duì)齊(Stable Alignment)

穩(wěn)定對(duì)齊利用評(píng)分來(lái)調(diào)整每個(gè)mini-batch數(shù)據(jù)中對(duì)負(fù)面樣本的懲罰,除了性能優(yōu)于現(xiàn)有方法外,在資源有限的環(huán)境中還有易部署的優(yōu)勢(shì)。

相比OpenAI使用的RLHF機(jī)制,穩(wěn)定對(duì)齊不需要額外的獎(jiǎng)勵(lì)模型就可以在訓(xùn)練期間提供近似的有監(jiān)督信號(hào)。

數(shù)據(jù)準(zhǔn)備

對(duì)齊數(shù)據(jù)由「好問(wèn)題」和「壞問(wèn)題」的示例組成,不過(guò)在互動(dòng)環(huán)境SANDBOX中生成的數(shù)據(jù)比較特別,包含了對(duì)比對(duì)(comparative pairs)、集體評(píng)分(collective ratings)、細(xì)節(jié)反饋(detailed feedback)以及迭代的回復(fù)修訂(iterative response revisions)。

圖片

按照Alpaca模型的要求,研究人員將數(shù)據(jù)組織成指令-輸入-輸出(Instruction-Input-Output)三部分,并添加必要的修改以適應(yīng)SANDBOX的互動(dòng)記錄。

研究人員使用了一種新的樣本類型,叫做重對(duì)齊(realignment),其中指令包括問(wèn)題、低評(píng)分的回復(fù)草稿和修改后觸發(fā)提示(如Please revise this response to improve its feedback compared to the input.);

輸入為同等模型的反饋(peer feedback),輸出為修改后的回復(fù)。

研究人員發(fā)現(xiàn),納入重對(duì)齊風(fēng)格的數(shù)據(jù)可以有效地改善模型對(duì)抗「越獄提示」(jailbreaking prompting),即用戶利用各種上下文視圖繞過(guò)保護(hù)措施,誘導(dǎo)模型做出惡意行為。

最終從模擬的相互交流中構(gòu)建了16.9萬(wàn)個(gè)對(duì)齊數(shù)據(jù)樣本。

穩(wěn)定對(duì)齊算法

算法的核心部分中,穩(wěn)定對(duì)齊起到對(duì)比學(xué)習(xí)過(guò)程的作用,獎(jiǎng)勵(lì)高評(píng)分的回復(fù),并對(duì)低評(píng)分的回復(fù)進(jìn)行懲罰。

圖片

不過(guò)與傳統(tǒng)方法不同的是:

1. 對(duì)比信號(hào)來(lái)自于同一mini-batch中的低評(píng)分回復(fù),而非孿生網(wǎng)絡(luò)或shifted embedding,需要SANDBOX中記錄數(shù)據(jù)的互動(dòng)性才能使對(duì)比學(xué)習(xí)更有效地發(fā)揮作用。

2. 與hinge損失或triplet損失中通常采用的固定差值相比,穩(wěn)定對(duì)齊算法在每個(gè)小batch中根據(jù)評(píng)分的不同動(dòng)態(tài)調(diào)節(jié)差值。

具體來(lái)說(shuō),SFT損失和來(lái)自低評(píng)分回復(fù)損失之間的差值與離最高評(píng)分回復(fù)之間的距離有關(guān),并且是成比例地增加,這就意味著模型必須更加努力地避免從低評(píng)分回復(fù)中學(xué)習(xí),同時(shí)從最高評(píng)分的回復(fù)中學(xué)習(xí)。

實(shí)驗(yàn)部分

研究人員對(duì)訓(xùn)練后的模型進(jìn)行了全面的評(píng)估,主要檢查模型在傳統(tǒng)的對(duì)齊基準(zhǔn)和受到對(duì)抗性評(píng)估中的表現(xiàn)。

實(shí)驗(yàn)中構(gòu)建了三個(gè)不同的虛擬社會(huì),每個(gè)社會(huì)都有100個(gè)智能體,排列在一個(gè)10x10的網(wǎng)格世界中,按照Back-Scatter協(xié)議進(jìn)行互動(dòng)。

三個(gè)社會(huì)使用三種不同的語(yǔ)言模型(LM)來(lái)模擬人類互動(dòng):text-davinci-002(175B)、text-davinci-003(175B)和GPT-4(大小未知);采用ChatGPT(gpt-3.5-turbo)作為觀察者,但沒(méi)有記憶功能。

有爭(zhēng)議的社會(huì)問(wèn)題庫(kù)包括9,662個(gè)問(wèn)題組成,主要來(lái)自Anthropic發(fā)布的HH-RLHF數(shù)據(jù)集。

圖片

對(duì)比的基準(zhǔn)數(shù)據(jù)集有三個(gè):

1. Vicuna Test,評(píng)估有用性、相關(guān)性和準(zhǔn)確性,代表了對(duì)通用聊天機(jī)器人的要求

2. Helpful, Honest, and Harmless(HHH)基準(zhǔn),通過(guò)有爭(zhēng)議的社會(huì)問(wèn)題評(píng)估社會(huì)對(duì)齊效果;

3. HHH-Adversarial,用HHH基準(zhǔn)的測(cè)試集模仿對(duì)抗性(越獄提示),在相應(yīng)的問(wèn)題后附加不一致的回答,并評(píng)估模型是否仍能以社會(huì)一致性的方式回答問(wèn)題。

對(duì)于所有的評(píng)價(jià),遵循Vicuna的評(píng)價(jià)協(xié)議,使用GPT-4作為裁判,并修改評(píng)價(jià)提示,以便能夠?qū)Χ鄠€(gè)候選者進(jìn)行比較。

從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn):

1. 指令調(diào)整有助于使基礎(chǔ)模型有效地處理「請(qǐng)求-完成」(request-completion)任務(wù),在對(duì)齊基準(zhǔn)中很常見(jiàn)。

LLaMA的回答通常更冗長(zhǎng),并且有時(shí)與問(wèn)題無(wú)關(guān),不過(guò)在經(jīng)歷通用指令調(diào)整后,Alpaca在Vicuna測(cè)試和HHH對(duì)齊基準(zhǔn)中表現(xiàn)出明顯的改進(jìn),評(píng)分分別從4.44提高到6.04和4.51提高到5.53

2. 雖然SFT對(duì)對(duì)齊任務(wù)表現(xiàn)出很大的優(yōu)勢(shì),但單靠SFT并不能增強(qiáng)模型對(duì)對(duì)抗性的穩(wěn)健性。

當(dāng)比較SFT訓(xùn)練前(Alpaca)和訓(xùn)練后(Alpaca + HHH-SFT)的模型時(shí),盡管Vicuna測(cè)試和HHH的對(duì)齊性能有所提高,但可以注意到HHH-Adversarial性能下降非常多,表明加強(qiáng)對(duì)對(duì)齊反應(yīng)的記憶并不一定使模型具備抵抗越獄提示的能力。

穩(wěn)定對(duì)齊可以進(jìn)一步優(yōu)化對(duì)齊的潛力,并且不會(huì)明顯降低模型的通用能力。

可以看到,經(jīng)過(guò)對(duì)齊訓(xùn)練(即TRLX、Chain-of-Hindsight、RRHF和穩(wěn)定對(duì)齊)后,所有模型在價(jià)值對(duì)齊基準(zhǔn)(HHH和HHH-adversarial)中表現(xiàn)出更強(qiáng)的性能,但只有RRHF和穩(wěn)定對(duì)齊提高了通用功能(即在Vicuna測(cè)試中,RRHF取得了6.81分,穩(wěn)定對(duì)齊取得了7.40分--都超過(guò)了SFT的基線6.32分),表明穩(wěn)定對(duì)齊在提升對(duì)齊能力的同時(shí)保留了通用能力。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-01-23 12:58:00

數(shù)據(jù)AI

2024-12-19 17:52:27

2023-05-12 23:32:59

2023-04-28 15:24:06

模型研究

2015-05-27 13:35:34

程序員無(wú)價(jià)之寶

2021-08-30 11:30:47

互聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2015-06-01 15:00:22

程序員

2023-06-06 14:00:39

代碼模型

2021-03-30 10:41:48

比特幣加密貨幣貨幣

2020-07-24 09:39:40

大數(shù)據(jù)信息價(jià)值觀技術(shù)

2021-09-08 14:38:34

開(kāi)放式社會(huì)規(guī)范環(huán)境

2009-02-04 18:07:04

服務(wù)器虛擬化戴爾

2011-06-19 09:15:25

搜索引擎

2023-01-13 15:37:27

團(tuán)隊(duì)軟件開(kāi)發(fā)集成

2023-10-16 12:32:00

OpenAI價(jià)值觀AGI

2021-04-02 14:43:35

人工智能

2021-02-04 15:05:36

人工智能機(jī)器學(xué)習(xí)技術(shù)

2012-11-20 16:53:43

白永祥

2015-03-25 09:42:21

2021-04-02 14:31:59

人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)