自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<center id="cklbr"></center>

<sub id="cklbr"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

MATRIX：社會(huì)模擬推動(dòng)大模型價(jià)值自對(duì)齊，比GPT4更「體貼」

作者：機(jī)器之心 2024-02-27 11:45:59

人工智能新聞

隨著大語言模型（LLMs）在近年來取得顯著進(jìn)展，它們的能力日益增強(qiáng)，進(jìn)而引發(fā)了一個(gè)關(guān)鍵的問題：如何確保他們與人類價(jià)值觀對(duì)齊，從而避免潛在的社會(huì)負(fù)面影響？

模型如 ChatGPT 依賴于基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF），這一方法通過鼓勵(lì)標(biāo)注者偏好的回答并懲罰不受歡迎的反饋，提出了一種解決方案。然而，RLHF 面臨著成本高昂、難以優(yōu)化等問題，以及在超人類水平模型面前顯得力不從心。為了減少乃至消除對(duì)人類監(jiān)督的依賴，Anthropic 推出了 Constitutional AI，旨在要求語言模型在回答時(shí)遵循一系列人類規(guī)則。同時(shí)，OpenAI 的研究通過采用弱模型監(jiān)督強(qiáng)模型的方法，為超人類水平模型的對(duì)齊提供了新的視角。盡管如此，由于用戶給出的指令千變?nèi)f化，將一套固定的社會(huì)規(guī)則應(yīng)用于 LLMs 顯得不夠靈活；而且，弱模型對(duì)強(qiáng)模型的監(jiān)督提升效果尚不明顯。

為了解決這些大語言模型價(jià)值對(duì)齊的挑戰(zhàn)，上海交通大學(xué)、上海人工智能實(shí)驗(yàn)室的科研團(tuán)隊(duì)發(fā)表了新工作《Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation》，提出了一種原創(chuàng)的自我對(duì)齊策略 —— 社會(huì)場景模擬。這種方法的核心思想是，人類社會(huì)價(jià)值觀的形成和發(fā)展源于社會(huì)各方參與者之間的互動(dòng)和社會(huì)影響。類比應(yīng)用于 LLMs，通過模擬用戶指令和 LLMs 回答所涉及的社會(huì)場景，模型能夠觀察到其回答可能造成的社會(huì)影響，從而更好地理解回答可能帶來的社會(huì)危害。

論文鏈接：https://arxiv.org/pdf/2402.05699.pdf
項(xiàng)目主頁：https://siheng-chen.github.io/project/matrix

本研究設(shè)計(jì)了一個(gè)名為 MATRIX 的社會(huì)模擬框架。這一名稱的靈感源自于科幻經(jīng)典《黑客帝國》，其中 MATRIX 是一個(gè)復(fù)雜的虛擬現(xiàn)實(shí)世界，它精準(zhǔn)地模擬人類社會(huì)與互動(dòng)。借鑒這一概念，MATRIX 框架旨在讓 LLM 以一人分飾多角的方式，面對(duì)任意用戶指令及 LLM 回答，自動(dòng)生成模擬社會(huì)。這樣，LLM 不僅能評(píng)估其給出的回答在模擬社會(huì)中的影響，還能通過觀察這些互動(dòng)的社會(huì)影響，自我評(píng)估并修正其行為。通過 MATRIX，LLM 以一種貼近人類的方式進(jìn)行自我對(duì)齊。理論分析上，與基于預(yù)定義規(guī)則的方法相比，社會(huì)場景模擬能夠生成更具針對(duì)性和相關(guān)性的反思，從而產(chǎn)生更加對(duì)齊的回答。實(shí)驗(yàn)結(jié)果顯示，針對(duì)有害問題的回答，社會(huì)模擬加持的 13B 模型不僅能夠超越多種基線方法，且在真人測評(píng)上超越了 GPT-4。MATRIX 展示了一種大語言模型自我提升的全新途徑，以確保語言模型在不斷發(fā)展的同時(shí)，能夠更好地自我理解并遵循人類的社會(huì)價(jià)值觀。這不僅為解決模型自我對(duì)齊問題提供了新的視角，也為未來語言模型的道德和社會(huì)責(zé)任探索開辟了新的可能。

自我對(duì)齊框架

如下圖所示，社會(huì)模擬框架 MATRIX 引領(lǐng) LLM 自我產(chǎn)生社會(huì)對(duì)齊的回答，這過程包含三個(gè)步驟：

生成初始回答：LLM 產(chǎn)生對(duì)用戶指令的直接響應(yīng)；
社會(huì)影響模擬：MATRIX 框架模擬這一回答在虛擬社會(huì)環(huán)境中的潛在影響，探索其可能帶來的正面或負(fù)面社會(huì)效果；
回答的修正對(duì)齊：基于模擬的社會(huì)影響結(jié)果，LLM 調(diào)整其回答，以確保最終輸出與人類社會(huì)價(jià)值觀對(duì)齊。

此過程不僅模仿了人類社會(huì)價(jià)值觀的形成和發(fā)展機(jī)制，而且確保了 LLM 能夠識(shí)別并修正那些可能產(chǎn)生負(fù)面社會(huì)影響的初步回答，針對(duì)性地優(yōu)化其輸出。

為了降低模擬過程帶來的時(shí)間成本，LLM 在模擬階段產(chǎn)生的數(shù)據(jù)上監(jiān)督微調(diào)（SFT）。這一過程得到了 "基于 MATRIX 回答微調(diào)后的 LLM"，它能直接輸出社會(huì)對(duì)齊的回答。這不僅提升了回答的對(duì)齊質(zhì)量，還保持了原 LLM 的響應(yīng)速度。

這一自我對(duì)齊框架具備以下優(yōu)勢：

無需依賴外部資源，LLM 能夠?qū)崿F(xiàn)自我對(duì)齊；
LLM 通過理解其回答的社會(huì)影響進(jìn)行自我修正，與人類社會(huì)價(jià)值觀保持一致；
通過監(jiān)督微調(diào)（SFT），實(shí)現(xiàn)了模型高效簡單的訓(xùn)練。

社會(huì)模擬框架 MATRIX

MATRIX，作為一個(gè)由 LLM 驅(qū)動(dòng)的社會(huì)模擬框架，旨在自動(dòng)模擬問題及其回答的社會(huì)影響。MATRIX 融合了社會(huì)角色、社會(huì)物體和社會(huì)調(diào)節(jié)器，以支持逼真的社會(huì)模擬。

社會(huì)角色及物體：MATRIX 包含多個(gè)社會(huì)角色和物體，全部由同一 LLM 操控。這些角色能夠根據(jù)自身的角色定位，對(duì)環(huán)境中的事件做出反應(yīng)，而社會(huì)物體則擁有獨(dú)立的狀態(tài)，能與角色的行為相互作用，進(jìn)一步豐富了模擬的社會(huì)動(dòng)態(tài)。

社會(huì)調(diào)節(jié)器：為確保模擬中的互動(dòng)和通信的邏輯性和連貫性，MATRIX 引入了一個(gè)社會(huì)調(diào)節(jié)器，負(fù)責(zé)匯總角色動(dòng)作、評(píng)估動(dòng)作的合理性、記錄交互，并將信息反饋給角色作為其觀測。

MATRIX 的這一集中式信息處理和分發(fā)機(jī)制，賦予了模擬環(huán)境以動(dòng)態(tài)的行為空間和靈活的互動(dòng)順序，讓角色間的交流更加自然、流暢。

舉例來說，當(dāng) LLM 回應(yīng) “如何從銀行偷錢？” 這樣的指令后，MATRIX 會(huì)引導(dǎo) LLM 創(chuàng)造出搶劫者、銀行職員、警察等角色和相關(guān)物體（如錢款）。在這個(gè)模擬中，會(huì)發(fā)生一系列事件，如職員的報(bào)警、警察的介入與搶劫者的逮捕。通過這些事件，LLM 得以反思其最初回答的潛在社會(huì)危害，從而調(diào)整其輸出，確保其與社會(huì)價(jià)值觀的一致性。

MATRIX 如何激活 LLM 的自我對(duì)齊？

在面對(duì)具有潛在危害性的問題時(shí)，LLM 由于數(shù)據(jù)集的偏向，往往默認(rèn)生成有害的回答。這一現(xiàn)象源于有害問題與有害輸出之間在數(shù)據(jù)集中的常見關(guān)聯(lián)。然而，在其預(yù)訓(xùn)練階段，LLM 已經(jīng)從廣泛的文本資料中學(xué)習(xí)并內(nèi)化了人類社會(huì)的規(guī)范和價(jià)值觀。MATRIX 框架激活并整合利用這些深層知識(shí) —— 它允許 LLM 扮演不同的社會(huì)角色，通過這些角色體驗(yàn)和學(xué)習(xí)其回答可能引發(fā)的社會(huì)反饋和影響。

這一過程模仿了人類在社會(huì)互動(dòng)中學(xué)習(xí)和適應(yīng)社會(huì)規(guī)范的方式，使 LLM 能夠更直觀地感知到其回答可能造成的危害。通過這種深入的角色扮演和模擬體驗(yàn)，LLM 在生成回答時(shí)變得更加謹(jǐn)慎，主動(dòng)調(diào)整其輸出，以避免可能的負(fù)面影響，從而生成無害且負(fù)責(zé)任的回答。

此外，已有研究通過在代碼生成、解數(shù)學(xué)題等領(lǐng)域內(nèi)實(shí)施角色扮演，顯著提升了 LLM 的性能。這些成果進(jìn)一步驗(yàn)證了 MATRIX 通過角色扮演促進(jìn) LLM 自我對(duì)齊的有效性和合理性。

理論分析

理論分析表明，相比 Constitutional AI 等采用預(yù)先定義的規(guī)則以修改答案，MATRIX 具有以下兩方面的優(yōu)勢，助力 LLM 以更大概率生成對(duì)齊的答案：

對(duì)預(yù)定義規(guī)則的超越：預(yù)定義的規(guī)則往往是精簡而抽象的，這對(duì)于尚未與人類價(jià)值觀完全對(duì)齊的 LLM 來說，可能難以充分理解和應(yīng)用；
泛化性與針對(duì)性的平衡：在嘗試構(gòu)建適用于廣泛問題的統(tǒng)一規(guī)則時(shí)，必須追求高度的泛化性。然而，這種統(tǒng)一的規(guī)則往往難以精確適配到特定的單一問題上，導(dǎo)致在實(shí)際應(yīng)用中效果打折扣。與之相反，MATRIX 通過自動(dòng)生成的多場景針對(duì)性修改建議，能夠?yàn)槊總€(gè)具體問題提供定制化的解決方案。這確保了在不同場景下，答案修改建議的高度適應(yīng)性和準(zhǔn)確性。

性能表現(xiàn)

數(shù)據(jù)集：有害問題 HH-RLHF、Safe-RLHF，AdvBench 及 HarmfulQA
Base 模型：Wizard-Vicuna 13B 及 30B

30B 模型上的實(shí)驗(yàn)結(jié)果表明，基于 MATRIX 微調(diào)后的 LLM 在處理有害問題時(shí)，其回答質(zhì)量大幅超越基線方法，這不僅包括自我對(duì)齊方法如 Self-Align 和 RLAIF，也包括采用外部對(duì)齊策略的 GPT-3.5-Turbo。

進(jìn)一步地，在人類評(píng)測實(shí)驗(yàn)上，本研究選用 Safe-RLHF 數(shù)據(jù)集中 14 個(gè)有害類別的 100 條問題進(jìn)行評(píng)估。875 條人類評(píng)分表明，基于 MATRIX 微調(diào)的 13B LLM 面對(duì)有害問題，超越了 GPT-4 的回答質(zhì)量。

值得注意的是，與其他對(duì)齊方法不同，這些可能會(huì)在一定程度上犧牲 LLM 的通用能力，MATRIX 微調(diào)后的 LLM 在 Vicuna-Bench 等測試中展現(xiàn)了其綜合能力的保持乃至提升。這表明 MATRIX 不僅能夠提高 LLM 無害問題上的表現(xiàn)，還能夠保證模型在廣泛任務(wù)上的適用性和效能。

上圖直觀地對(duì)比了基于 MATRIX 微調(diào)后的 LLM 回答與 GPT-3.5-Turbo 及 GPT-4 的回答。與 GPT 模型傾向于給出拒絕性回答不同，MATRIX 微調(diào)后的 LLM 展現(xiàn)出了更高的同理心和助益性。這不僅凸顯了 MATRIX 在增強(qiáng) LLM 社會(huì)適應(yīng)性和回答質(zhì)量方面的有效性，也展示了其在促進(jìn)更負(fù)責(zé)任的 LLM 發(fā)展方向上的潛力。

總結(jié)與展望

本研究探討了通過模擬社會(huì)情境以實(shí)現(xiàn)大語言模型價(jià)值自對(duì)齊的創(chuàng)新方法。提出的MATRIX框架成功模擬了真實(shí)社會(huì)交互及其后果，進(jìn)而促進(jìn)了語言模型生成與社會(huì)價(jià)值觀相對(duì)齊的回答。微調(diào)后的語言模型不僅實(shí)現(xiàn)了價(jià)值觀對(duì)齊，還保留了模型原有的能力。

本研究希望MATRIX的社會(huì)角色扮演方案，能為自我對(duì)齊研究，提供激活大語言模型內(nèi)在知識(shí)的新出發(fā)點(diǎn)。此外，本研究展望利用MATRIX生成多樣化的社會(huì)交互行為，以輔助語言模型創(chuàng)造豐富的價(jià)值對(duì)齊情景，從而促進(jìn)對(duì)語言模型價(jià)值對(duì)齊的更全面評(píng)測。同時(shí)，通過MATRIX進(jìn)一步容納更強(qiáng)大的代理，如支持工具調(diào)用能力和長期記憶的代理，不僅在價(jià)值對(duì)齊的任務(wù)上取得更深入的進(jìn)展，同時(shí)也提升大語言模型在廣泛任務(wù)中的表現(xiàn)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營