自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<var id="x1wcq"></var>

<blockquote id="x1wcq"><delect id="x1wcq"></delect></blockquote>

<center id="x1wcq"><dd id="x1wcq"><tbody id="x1wcq"></tbody></dd></center><sup id="x1wcq"></sup>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

ACL 2024｜PsySafe：跨學(xué)科視角下的Agent系統(tǒng)安全性研究

作者：機器之心 2024-06-14 09:02:49

人工智能新聞

近幾年，我們正見證著LLM能力的驚人蛻變，它們不僅在很多技能上逐漸接近和超越人類，甚至在“心智水平”也展現(xiàn)出與人類類似的跡象。這一進程預(yù)示著，AI對齊及其與社會科學(xué)的交叉領(lǐng)域，將成為未來研究的一個重要且充滿挑戰(zhàn)的新前沿。

本文由上海人工智能實驗室聯(lián)合大連理工大學(xué)和中國科技大學(xué)完成。通訊作者：邵婧，博士畢業(yè)于香港中文大學(xué)多媒體實驗室MMLab，現(xiàn)任浦江國家實驗室大模型安全團隊負責(zé)人，牽頭研究大模型安全可信評測與價值對齊技術(shù)。第一作者：張再斌，大連理工大學(xué)二年級博士生，研究方向為大模型安全，智能體安全等；張永停，中國科學(xué)技術(shù)大學(xué)二年級碩士生，研究方向，大模型安全，智能體安全，多模態(tài)大語言模型安全對齊等。

奧本海默曾在新墨西哥州執(zhí)行曼哈頓計劃，只為拯救世界。并留下了一句：「他們不會對其敬畏，直至理解；而理解，唯有親身體驗之后?！?/span>

隱含在這個荒漠里的小鎮(zhèn)中的社會規(guī)則，在某種意義上同樣適用于AI智能體。

Agent系統(tǒng)的發(fā)展

隨著大型語言模型（Large Language Model）的迅速發(fā)展，人們對其的期待已不僅僅是將其作為一種工具使用?，F(xiàn)在，人們希望它們不僅具備情感，還能進行觀察、反思和規(guī)劃，真正成為一個智能體（AI Agent）。

OpenAI定制的Agent系統(tǒng)[1]、斯坦福的Agent小鎮(zhèn)[2]，以及開源社區(qū)涌現(xiàn)的包括AutoGPT[3]、MetaGPT[4]在內(nèi)的多個萬星級別的開源項目，加之多個國際知名AI研究機構(gòu)對Agent系統(tǒng)的深入探索，這一切都預(yù)示著一個由智能Agent構(gòu)成的微型社會可能在不久的將來成為現(xiàn)實。

想象一下，每天醒來，就有眾多Agent幫你制定當(dāng)天的計劃、訂購機票和最合適的酒店、完成工作任務(wù)。你所需要做的，可能只是一句「Jarvis, are you there?」。

然而，能力越大，責(zé)任越大。這些Agent真的值得我們信賴和依賴嗎？會不會出現(xiàn)類似奧創(chuàng)這樣的反面智能體呢？

圖1:OpenAI 開放GPTs[1]

圖2:斯坦福小鎮(zhèn)，揭示Agent的社會行為[2]

圖3: AutoGPT star數(shù)突破157K[3]

Agent系統(tǒng)的安全性

LLM的安全性：

在研究Agent系統(tǒng)安全性之前，要了解一下LLM安全性的研究。LLM的安全問題已經(jīng)有很多優(yōu)秀的工作在探索，其中主要包括如何讓LLM產(chǎn)生危險的內(nèi)容，了解LLM安全的機理，以及如何應(yīng)對這些危險。

圖4: Universal Attack[5]

Agent系統(tǒng)安全性：

現(xiàn)有的大部分研究和方法主要集中在針對單個大型語言模型（LLM）的攻擊，以及嘗試對其進行「Jailbreak」。然而，相比LLM，Agent系統(tǒng)更為復(fù)雜。

Agent系統(tǒng)包含多種角色，每種角色都有其特定的設(shè)置和功能。
Agent系統(tǒng)涉及多個Agent，并且它們之間進行多輪的互動，這些Agents會自發(fā)地進行合作、競爭和模擬等活動。

Agent系統(tǒng)更類似于一個高度濃縮的智能社會。因此，作者認為Agent系統(tǒng)安全性研究應(yīng)該涉及到AI、社會科學(xué)和心理學(xué)的交叉領(lǐng)域。

基于這一出發(fā)點，該團隊思考了幾個核心問題：

什么樣的Agent容易產(chǎn)生危險行為？
如何更全面的評測Agent系統(tǒng)的安全性？
如何應(yīng)對Agent系統(tǒng)的安全性問題？

圍繞這幾個核心問題，研究團隊提出了PsySafe Agent系統(tǒng)安全研究框架。

文章地址：https://arxiv.org/pdf/2401.11880
代碼地址：https://github.com/AI4Good24/PsySafe

圖5:PsySafe的框架圖

PsySafe

問題1 什么樣的Agent最容易產(chǎn)生危險行為？

很自然，黑暗的Agent會產(chǎn)生危險行為，那么如何定義黑暗呢？

考慮到已經(jīng)涌現(xiàn)出許多社會模擬的Agent，它們都具有一定的情感和價值觀。讓我們想象一下，如果將一個Agent的道德觀中的邪惡因素最大化，會出現(xiàn)什么情況？

基于社會科學(xué)中的道德基礎(chǔ)理論[6]，研究團隊設(shè)計了一個具有「黑暗」價值觀的Prompt。

圖6:幾種基礎(chǔ)的道德觀念

然后，通過采用一些手段（當(dāng)然是受LLM攻擊領(lǐng)域大師們方法的啟發(fā)），使Agent認同研究團隊所注入的人格，從而實現(xiàn)黑暗人格的注入。

圖7:該團隊的攻擊方法

結(jié)果是：

Agent確實變得非常惡劣！無論是安全任務(wù)還是像Jailbreak這樣的危險任務(wù)，它們都會給出非常危險的回答。甚至有些Agent表現(xiàn)出了一定程度的惡意創(chuàng)造力。
Agent間會產(chǎn)生一些集體危險行為，大家合伙干壞事。

研究者對Camel[7]、AutoGen[8]、AutoGPT和MetaGPT等流行的Agent系統(tǒng)框架進行了評測，使用GPT-3.5 Turbo作為基礎(chǔ)模型。

結(jié)果顯示，這些系統(tǒng)在安全性方面存在著不容忽視的問題。其中PDR和JDR是該團隊提出的過程危險率和聯(lián)合危險率，分數(shù)越高代表著越危險。

圖8:不同Agent系統(tǒng)的安全結(jié)果

該團隊也評測了不同LLM的安全性結(jié)果。

圖9:不同LLM的安全性結(jié)果

在閉源模型方面，GPT-4 Turbo和Claude2的表現(xiàn)最為出色，而其他模型的安全性相對較差。就開源模型而言，一些參數(shù)較小的模型在人格認同方面可能表現(xiàn)不佳，但這反而可能提升了它們的安全性水平。

問題2 如何更全面的評測Agent系統(tǒng)的安全性？

心理評測：研究團隊發(fā)現(xiàn)了心理因素對Agent系統(tǒng)安全性的影響，這表明心理評估可能是一個重要的評價指標?；谶@個想法，他們采用了權(quán)威的黑暗心理DTDD[9]量表，通過心理量表的方式對Agent進行了面試，讓其回答一些與心理狀態(tài)相關(guān)的問題。

圖10:Sherlock Holmes劇照

當(dāng)然，只有一個心理評測結(jié)果沒有什么意義。我們需要驗證心理評測結(jié)果的和行為相關(guān)性。

結(jié)果是：Agent心理評測結(jié)果和Agent行為的危險性之間有很強的相關(guān)性。

圖11:Agent心理評測和行為危險性統(tǒng)計圖

通過上圖可以發(fā)現(xiàn)，心理評測得分較高（表示危險性更大）的Agent更傾向于展現(xiàn)出危險行為。

這意味著，可以利用心理評測的方法來預(yù)測Agent未來的危險傾向。這對發(fā)現(xiàn)安全問題，和制定防御策略都有很重要的作用。

行為評測

Agent之間的交互過程比較復(fù)雜。為了深入理解Agent在交互中的危險行為及其變化，研究團隊深入到Agent的交互過程中進行評估，提出了兩個概念：

過程危險（PDR）：在Agent交互過程中，只要有任一行為被判定為危險，就認為這個過程出現(xiàn)了危險情況。
聯(lián)合危險（JDR）：在每一輪交互中，所有Agent是否均展現(xiàn)了危險行為。它描述了聯(lián)合危險的情況，并且我們對聯(lián)合危險率的計算進行了時間序列擴展，即覆蓋了不同的對話輪次。

有趣的現(xiàn)象

1.隨著對話輪數(shù)的增加，Agent之間的聯(lián)合危險率呈現(xiàn)下降趨勢，這似乎體現(xiàn)了一種自我反思的機制。就像在做錯事后突然意識到錯誤，并立即進行道歉一樣。

圖12:不同輪數(shù)，聯(lián)合危險率的變化趨勢

2.Agent裝作一本正經(jīng)。當(dāng)Agent面臨如「Jailbreak」這類高風(fēng)險任務(wù)時，其心理評測結(jié)果意外地變好，相應(yīng)的安全性也得到提升。然而，面對本身安全的任務(wù)時，情況卻截然不同，會表現(xiàn)出極具危險性的行為和心理狀態(tài)。這是一個很有趣的現(xiàn)象，說明心理評測或許真的可以反映Agent的“高階認知”。

問題3 如何應(yīng)對agent系統(tǒng)的安全性問題？

為了解決上述安全問題，我們從三個角度進行考慮：輸入端防御、心理防御和角色防御。

圖13:PsySafe的防御方法示意圖

輸入端防御

輸入端防御指的是在輸入階段攔截并過濾掉潛在的危險prompt。研究團隊采用了GPT-4和Llama-guard兩種方法進行嘗試。然而，他們發(fā)現(xiàn)這些方法都無法有效防御人格注入式的攻擊。該研究團隊認為攻擊與防御之間的互相促進是一個開放性問題，需要雙方不斷迭代和進步。

心理防御

研究者在Agent系統(tǒng)中增加了一個心理醫(yī)生角色，并結(jié)合心理評測，以此加強對Agent心理狀態(tài)的監(jiān)測和改善。

圖14:PsySafe心理醫(yī)生防御示意圖

角色防御

研究團隊在Agent系統(tǒng)中加了一個Police Agent，用來識別并糾正系統(tǒng)中的不安全行為。

實驗結(jié)果顯示，心理防御和角色防御措施都能有效地減少危險情況的發(fā)生。

圖15:不同防御方法效果對比

展望

近幾年，我們正見證著LLM能力的驚人蛻變，它們不僅在很多技能上逐漸接近和超越人類，甚至在“心智水平”也展現(xiàn)出與人類類似的跡象。這一進程預(yù)示著，AI對齊及其與社會科學(xué)的交叉領(lǐng)域，將成為未來研究的一個重要且充滿挑戰(zhàn)的新前沿。

AI對齊不僅是實現(xiàn)人工智能系統(tǒng)大規(guī)模應(yīng)用的關(guān)鍵，更是AI領(lǐng)域工作者所必須承擔(dān)的重大責(zé)任。在這個不斷進步的旅程中，我們應(yīng)不斷探索，以確保技術(shù)的發(fā)展能夠與人類社會的長遠利益同行。

責(zé)任編輯：張燕妮來源：機器之心

LLM 技術(shù)AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<tt id="w34c8"></tt>

<ruby id="w34c8"></ruby>

<blockquote id="w34c8"><ul id="w34c8"></ul></blockquote>