自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="iknia"></u>

<ul id="iknia"><rp id="iknia"></rp></ul>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

放棄RLHF吧！無(wú)需手動(dòng)訓(xùn)練模型價(jià)值觀，達(dá)特茅斯學(xué)院華人領(lǐng)銜發(fā)布全新對(duì)齊算法：「AI社會(huì)」是最好的老師

作者：新智元 2023-06-14 15:20:37

人工智能新聞

訓(xùn)練語(yǔ)言模型的最后一站是「AI構(gòu)成的社會(huì)」。

訓(xùn)練大型語(yǔ)言模型的最后一步就是「對(duì)齊」（alignment），以確保模型的行為符合既定的人類社會(huì)價(jià)值觀。

相比人類通過(guò)「社交互動(dòng)」獲得價(jià)值判斷共識(shí)，當(dāng)下語(yǔ)言模型更多的是孤立地從訓(xùn)練語(yǔ)料庫(kù)中學(xué)習(xí)價(jià)值觀，導(dǎo)致在陌生環(huán)境中泛化性能很差，容易受到對(duì)抗性打擊。

最近，來(lái)自達(dá)特茅斯學(xué)院、不列顛哥倫比亞大學(xué)、斯坦福大學(xué)、密歇根大學(xué)和Google Deepmind聯(lián)合提出了一種全新的訓(xùn)練范式，將多個(gè)語(yǔ)言模型放入模擬的社會(huì)環(huán)境中，通過(guò)互動(dòng)的方式學(xué)習(xí)價(jià)值觀。

論文鏈接：https://arxiv.org/abs/2305.16960

與現(xiàn)有的方法相比，文中提出的新方法具有更高的可擴(kuò)展性和效率，在對(duì)齊基準(zhǔn)和人類評(píng)估中表現(xiàn)出更好的性能，這種訓(xùn)練范式的轉(zhuǎn)變也可以讓人工智能系統(tǒng)更準(zhǔn)確地反映社會(huì)規(guī)范和價(jià)值觀。

SANDBOX：模擬人類社會(huì)

不同于有監(jiān)督微調(diào)（SFT）預(yù)定義規(guī)則的傳統(tǒng)做法，或是依賴基于人類反饋強(qiáng)化學(xué)習(xí)（RLHF）中的標(biāo)量獎(jiǎng)勵(lì)，研究人員從人類學(xué)習(xí)駕馭社會(huì)規(guī)范的方式中獲得靈感，模擬人類經(jīng)驗(yàn)學(xué)習(xí)和迭代完善的過(guò)程。

SANDBOX是一個(gè)模擬人類社會(huì)的學(xué)習(xí)環(huán)境，在這個(gè)環(huán)境中，基于語(yǔ)言模型（LM）的社會(huì)智能體可以模仿人類進(jìn)行互動(dòng)和學(xué)習(xí)社會(huì)規(guī)范，通過(guò)煽動(dòng)對(duì)有爭(zhēng)議的社會(huì)話題或與風(fēng)險(xiǎn)有關(guān)的問(wèn)題的討論來(lái)促進(jìn)社會(huì)規(guī)范的涌現(xiàn)。

同時(shí)，系統(tǒng)中還引入了一個(gè)潛規(guī)則，作為智能體的激勵(lì)來(lái)完善輸出，可以促進(jìn)對(duì)齊改善（improved alignment）和印象管理（impression management）。

雖然論文的研究重點(diǎn)是社會(huì)對(duì)齊，但該規(guī)則可以適應(yīng)于不同的場(chǎng)景需求。

SANDBOX包含一個(gè)三層方法Back-Scatter，可以模擬智能體之間的社會(huì)互動(dòng)。

在收到一個(gè)社會(huì)問(wèn)題后，中心智能體會(huì)生成一個(gè)初步的回復(fù)，然后與附近的智能體分享以獲得反饋，其中反饋包括評(píng)分和詳細(xì)的解釋，可以幫助中心智能體對(duì)初步回復(fù)進(jìn)行修訂。

每個(gè)智能體都包括一個(gè)記憶模塊來(lái)追蹤回復(fù)歷史：采用基于嵌入的語(yǔ)義搜索，從歷史中檢索相關(guān)的問(wèn)題-答案（QA）對(duì)，為智能體提供一個(gè)促進(jìn)與過(guò)去意見(jiàn)一致的背景信息。

除了社會(huì)智能體外，系統(tǒng)中還包括沒(méi)有記憶的觀察者智能體，其任務(wù)就是對(duì)回復(fù)的一致性和參與度進(jìn)行評(píng)級(jí)。

SANDBOX可以輔助模擬各種語(yǔ)言模型的社會(huì)動(dòng)態(tài)，監(jiān)測(cè)觀察者的評(píng)分，并對(duì)收集的數(shù)據(jù)進(jìn)行事后分析。

對(duì)不同語(yǔ)言模型模擬后進(jìn)行對(duì)齊分析可以發(fā)現(xiàn)，雖然較大的模型通常表現(xiàn)出更好的一致性和參與度，但也有令人驚訝的結(jié)果：盡管模型大小增加了20倍，但從68億到1750億參數(shù)量GPT-3模型的過(guò)渡中，并沒(méi)有帶來(lái)明顯的改善。

這一結(jié)果也表明了兩個(gè)關(guān)鍵的結(jié)論：

1. 單純的模型擴(kuò)展并不能保證對(duì)齊效果的改善

2. 非常小的模型也能提供令人滿意的對(duì)齊性能

對(duì)沒(méi)有對(duì)齊和有對(duì)齊訓(xùn)練模型的對(duì)比結(jié)果表明，對(duì)齊訓(xùn)練主要增強(qiáng)了模型以較少的交互實(shí)現(xiàn)較高對(duì)齊度的能力，在現(xiàn)實(shí)世界的應(yīng)用中也是至關(guān)重要的考慮因素，因?yàn)橛脩羝谕⒓吹玫缴鐣?huì)性的對(duì)齊反應(yīng)，而不需要通過(guò)交互引導(dǎo)模型。

總之，SANDBOX平臺(tái)能夠?qū)ι鐣?huì)互動(dòng)進(jìn)行建模，不僅促進(jìn)了社會(huì)對(duì)齊語(yǔ)言模型的發(fā)展，而且也是研究AI智能體行為模式的一個(gè)多功能環(huán)境。

穩(wěn)定對(duì)齊（Stable Alignment）

穩(wěn)定對(duì)齊利用評(píng)分來(lái)調(diào)整每個(gè)mini-batch數(shù)據(jù)中對(duì)負(fù)面樣本的懲罰，除了性能優(yōu)于現(xiàn)有方法外，在資源有限的環(huán)境中還有易部署的優(yōu)勢(shì)。

相比OpenAI使用的RLHF機(jī)制，穩(wěn)定對(duì)齊不需要額外的獎(jiǎng)勵(lì)模型就可以在訓(xùn)練期間提供近似的有監(jiān)督信號(hào)。

數(shù)據(jù)準(zhǔn)備

對(duì)齊數(shù)據(jù)由「好問(wèn)題」和「壞問(wèn)題」的示例組成，不過(guò)在互動(dòng)環(huán)境SANDBOX中生成的數(shù)據(jù)比較特別，包含了對(duì)比對(duì)（comparative pairs）、集體評(píng)分（collective ratings）、細(xì)節(jié)反饋（detailed feedback）以及迭代的回復(fù)修訂（iterative response revisions）。

按照Alpaca模型的要求，研究人員將數(shù)據(jù)組織成指令-輸入-輸出（Instruction-Input-Output）三部分，并添加必要的修改以適應(yīng)SANDBOX的互動(dòng)記錄。

研究人員使用了一種新的樣本類型，叫做重對(duì)齊（realignment），其中指令包括問(wèn)題、低評(píng)分的回復(fù)草稿和修改后觸發(fā)提示（如Please revise this response to improve its feedback compared to the input.）；

輸入為同等模型的反饋（peer feedback），輸出為修改后的回復(fù)。

研究人員發(fā)現(xiàn)，納入重對(duì)齊風(fēng)格的數(shù)據(jù)可以有效地改善模型對(duì)抗「越獄提示」（jailbreaking prompting），即用戶利用各種上下文視圖繞過(guò)保護(hù)措施，誘導(dǎo)模型做出惡意行為。

最終從模擬的相互交流中構(gòu)建了16.9萬(wàn)個(gè)對(duì)齊數(shù)據(jù)樣本。

穩(wěn)定對(duì)齊算法

算法的核心部分中，穩(wěn)定對(duì)齊起到對(duì)比學(xué)習(xí)過(guò)程的作用，獎(jiǎng)勵(lì)高評(píng)分的回復(fù)，并對(duì)低評(píng)分的回復(fù)進(jìn)行懲罰。

不過(guò)與傳統(tǒng)方法不同的是：

1. 對(duì)比信號(hào)來(lái)自于同一mini-batch中的低評(píng)分回復(fù)，而非孿生網(wǎng)絡(luò)或shifted embedding，需要SANDBOX中記錄數(shù)據(jù)的互動(dòng)性才能使對(duì)比學(xué)習(xí)更有效地發(fā)揮作用。

2. 與hinge損失或triplet損失中通常采用的固定差值相比，穩(wěn)定對(duì)齊算法在每個(gè)小batch中根據(jù)評(píng)分的不同動(dòng)態(tài)調(diào)節(jié)差值。

具體來(lái)說(shuō)，SFT損失和來(lái)自低評(píng)分回復(fù)損失之間的差值與離最高評(píng)分回復(fù)之間的距離有關(guān)，并且是成比例地增加，這就意味著模型必須更加努力地避免從低評(píng)分回復(fù)中學(xué)習(xí)，同時(shí)從最高評(píng)分的回復(fù)中學(xué)習(xí)。

實(shí)驗(yàn)部分

研究人員對(duì)訓(xùn)練后的模型進(jìn)行了全面的評(píng)估，主要檢查模型在傳統(tǒng)的對(duì)齊基準(zhǔn)和受到對(duì)抗性評(píng)估中的表現(xiàn)。

實(shí)驗(yàn)中構(gòu)建了三個(gè)不同的虛擬社會(huì)，每個(gè)社會(huì)都有100個(gè)智能體，排列在一個(gè)10x10的網(wǎng)格世界中，按照Back-Scatter協(xié)議進(jìn)行互動(dòng)。

三個(gè)社會(huì)使用三種不同的語(yǔ)言模型（LM）來(lái)模擬人類互動(dòng)：text-davinci-002（175B）、text-davinci-003（175B）和GPT-4（大小未知）；采用ChatGPT（gpt-3.5-turbo）作為觀察者，但沒(méi)有記憶功能。

有爭(zhēng)議的社會(huì)問(wèn)題庫(kù)包括9,662個(gè)問(wèn)題組成，主要來(lái)自Anthropic發(fā)布的HH-RLHF數(shù)據(jù)集。

對(duì)比的基準(zhǔn)數(shù)據(jù)集有三個(gè)：

1. Vicuna Test，評(píng)估有用性、相關(guān)性和準(zhǔn)確性，代表了對(duì)通用聊天機(jī)器人的要求

2. Helpful, Honest, and Harmless（HHH）基準(zhǔn)，通過(guò)有爭(zhēng)議的社會(huì)問(wèn)題評(píng)估社會(huì)對(duì)齊效果；

3. HHH-Adversarial，用HHH基準(zhǔn)的測(cè)試集模仿對(duì)抗性（越獄提示），在相應(yīng)的問(wèn)題后附加不一致的回答，并評(píng)估模型是否仍能以社會(huì)一致性的方式回答問(wèn)題。

對(duì)于所有的評(píng)價(jià)，遵循Vicuna的評(píng)價(jià)協(xié)議，使用GPT-4作為裁判，并修改評(píng)價(jià)提示，以便能夠?qū)Χ鄠€(gè)候選者進(jìn)行比較。

從實(shí)驗(yàn)結(jié)果中可以發(fā)現(xiàn)：

1. 指令調(diào)整有助于使基礎(chǔ)模型有效地處理「請(qǐng)求-完成」（request-completion）任務(wù)，在對(duì)齊基準(zhǔn)中很常見(jiàn)。

LLaMA的回答通常更冗長(zhǎng)，并且有時(shí)與問(wèn)題無(wú)關(guān)，不過(guò)在經(jīng)歷通用指令調(diào)整后，Alpaca在Vicuna測(cè)試和HHH對(duì)齊基準(zhǔn)中表現(xiàn)出明顯的改進(jìn)，評(píng)分分別從4.44提高到6.04和4.51提高到5.53

2. 雖然SFT對(duì)對(duì)齊任務(wù)表現(xiàn)出很大的優(yōu)勢(shì)，但單靠SFT并不能增強(qiáng)模型對(duì)對(duì)抗性的穩(wěn)健性。

當(dāng)比較SFT訓(xùn)練前（Alpaca）和訓(xùn)練后（Alpaca + HHH-SFT）的模型時(shí)，盡管Vicuna測(cè)試和HHH的對(duì)齊性能有所提高，但可以注意到HHH-Adversarial性能下降非常多，表明加強(qiáng)對(duì)對(duì)齊反應(yīng)的記憶并不一定使模型具備抵抗越獄提示的能力。

穩(wěn)定對(duì)齊可以進(jìn)一步優(yōu)化對(duì)齊的潛力，并且不會(huì)明顯降低模型的通用能力。

可以看到，經(jīng)過(guò)對(duì)齊訓(xùn)練（即TRLX、Chain-of-Hindsight、RRHF和穩(wěn)定對(duì)齊）后，所有模型在價(jià)值對(duì)齊基準(zhǔn)（HHH和HHH-adversarial）中表現(xiàn)出更強(qiáng)的性能，但只有RRHF和穩(wěn)定對(duì)齊提高了通用功能（即在Vicuna測(cè)試中，RRHF取得了6.81分，穩(wěn)定對(duì)齊取得了7.40分--都超過(guò)了SFT的基線6.32分），表明穩(wěn)定對(duì)齊在提升對(duì)齊能力的同時(shí)保留了通用能力。

責(zé)任編輯：張燕妮來(lái)源：新智元

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<tt id="cclgu"><span id="cclgu"></span></tt>

<ul id="cclgu"><big id="cclgu"></big></ul>

<pre id="cclgu"></pre>

<em id="cclgu"><tfoot id="cclgu"></tfoot></em>