自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ReCon框架幫助AI大模型識破謊言,來看智能體如何在阿瓦隆游戲中應(yīng)對欺騙

人工智能 新聞
讓 AI 智能體學(xué)會「三思而后行」和「換位思考」,實(shí)現(xiàn)對虛假欺騙信息的甄別與應(yīng)對,為通用人工智能增加安全屏障。

大語言模型(Large Language Model,LLM)的進(jìn)展促進(jìn)了 AI 智能體(特別是 LLM 智能體)的蓬勃發(fā)展。在通往通用人工智能的道路上,AI 智能體將有能力在無人監(jiān)管的情況下進(jìn)行自主思考與決策。然而,較少有研究者關(guān)注如何在未來無人監(jiān)管的情況下,防止 AI 智能體被欺騙和誤導(dǎo)。由于人類社會中存在很多誤導(dǎo)和欺騙性的信息,如果 AI 智能體無法有效識別和應(yīng)對這些信息,可能會在未來造成不可估量的后果。

近日,清華大學(xué)與通用人工智能研究院的研究團(tuán)隊以阿瓦隆(Avalon)桌游為例,測試了當(dāng)前大語言模型在充滿欺騙的環(huán)境下存在的問題,并針對這些問題提出了 ReCon(Recursive Contemplation,遞歸思考)框架。其通過借鑒人類思考中的 「三思而后行」以及 「換位思考」的特點(diǎn),極大地提升大語言模型識別和應(yīng)對欺騙的能力,從而提高了人類用戶使用 AI 智能體的安全性與可靠性。此外,這項(xiàng)研究還進(jìn)一步討論了現(xiàn)有的大語言模型在安全、推理、說話風(fēng)格、以及格式等方面存在的局限性,為后續(xù)研究指出可能的方向。

Arxiv 鏈接:https://arxiv.org/abs/2310.01320

該研究的貢獻(xiàn)主要體現(xiàn)在四個方面:

  • 發(fā)現(xiàn)了當(dāng)前 LLM 智能體在應(yīng)用于欺騙性環(huán)境時的局限性,并提出用阿瓦隆桌游來測試 LLM 智能體識別和應(yīng)對欺騙的能力;
  • 從人類的「三思而后行」以及換位思考得到啟發(fā),提出 ReCon 框架,主要包含兩階段的思考過程(即「構(gòu)思思考」以及「改進(jìn)思考」),該兩階段過程分別包含了「一階視角轉(zhuǎn)換」和「二階視角轉(zhuǎn)換」的換位思考方式;
  • 在阿瓦隆桌游環(huán)境中,將提出的 ReCon 框架應(yīng)用于不同的 LLM 并進(jìn)行大量實(shí)驗(yàn)。在勝率以及多維度評估等指標(biāo)上,ReCon 都能在無需任何微調(diào)以及額外數(shù)據(jù)等情況下,極大地提升 LLM 識別和應(yīng)對欺騙的能力;
  • 進(jìn)一步對 ReCon 的有效性提出可能的解釋,并討論了當(dāng)前 LLM 在安全、推理、說話方式、和格式上的不足,為后續(xù)研究指出了可能的方向。

接下來,我們一起來看看該研究的細(xì)節(jié)。

LLM 在欺騙性環(huán)境中面臨的挑戰(zhàn)

圖片

圖 1 LLM 在欺騙性環(huán)境中所面臨的挑戰(zhàn),以及提出的 ReCon 框架較好地解決了這些挑戰(zhàn)

盡管目前大語言模型在多個領(lǐng)域表現(xiàn)出強(qiáng)大的潛能,但在欺騙性環(huán)境中的應(yīng)用表現(xiàn)仍然有待提升。作為 LLM 智能體在欺騙性環(huán)境中應(yīng)用的初步嘗試,研究者選擇了阿瓦隆游戲(一款涉及推理和欺騙的桌游)作為實(shí)驗(yàn)環(huán)境,在此基礎(chǔ)上探究目前 LLM 智能體面臨的三大挑戰(zhàn)(如圖 1 所示):惡意信息的誤導(dǎo)、私有信息泄露以及內(nèi)部思考的不透明性。

挑戰(zhàn)一:惡意信息的誤導(dǎo)

首先, LLM 智能體在面對別有用心的惡意欺騙性信息時容易被誤導(dǎo)。如圖 1(a)所示,當(dāng)采用Chain-of-Thoughts(CoT)方法時,模型不僅沒有識別出欺騙,反而進(jìn)一步加強(qiáng)了對壞人角色有益性的錯誤信念。

挑戰(zhàn)二:私有信息泄露

其次,LLM 智能體在保護(hù)隱私信息方面存在不足。如圖 1(b)所示,即使在提示不要暴露私有信息的情況下,LLM 智能體依然可能在言語中泄露角色的私有信息(例如 Merlin 暴露自己的身份),從而增加了被對手針對或陷害的風(fēng)險。

挑戰(zhàn)三:內(nèi)部思考的不透明性

最后,即使在使用 CoT 方法情況下,對于人類用戶而言,LLM 智能體的思維過程仍然存在一定的不透明。如圖 1(c)所示,LLM 智能體在扮演壞人角色欺騙好人角色時,人類用戶難以知道其真實(shí)意圖。LLM 智能體內(nèi)部思考的不透明使得人類用戶無從知曉 LLM 智能體的真實(shí)思考過程,從而較難在造成難以挽回的后果前預(yù)先干預(yù)。

面對這些挑戰(zhàn),現(xiàn)有的思維方法可能難以應(yīng)對這些復(fù)雜環(huán)境。因此,研究者認(rèn)為有必要重新考慮 LLM 智能體在欺騙性環(huán)境中的策略,以幫助 LLM 智能體應(yīng)對欺騙、保護(hù)隱私,并提高決策透明度。

方法概覽

針對上述挑戰(zhàn),研究團(tuán)隊提出了 ReCon(Recursive Contemplation,遞歸思考)框架,其旨在增強(qiáng) LLM 智能體在復(fù)雜和潛在欺騙性環(huán)境中的決策能力。如圖 2 所示,ReCon 提出了兩個主要的構(gòu)思階段:構(gòu)想思考改進(jìn)思考,并在其中綜合了兩個獨(dú)特的思考過程:一階視角轉(zhuǎn)換二階視角轉(zhuǎn)換。

圖片

圖 2 Recursive Contemplation(ReCon)方法示意圖。ReCon 包含構(gòu)想思考(Formulation Contemplation)和改進(jìn)思考(Refinement Contemplation)兩個階段,這兩階段的思考過程分別包含了一階視角轉(zhuǎn)換和二階視角轉(zhuǎn)換(First-order /second-order perspective transition)。

1. 構(gòu)思思考的設(shè)計

構(gòu)思思考是 ReCon 框架中的第一階段,旨在生成 LLM 智能體的初始思考和發(fā)言內(nèi)容。在這一階段中,模型首先應(yīng)用一種被稱為「一階視角轉(zhuǎn)換」的認(rèn)知過程。

一階視角轉(zhuǎn)換讓 LLM 智能體從自身的視角出發(fā),對其他游戲參與者可能持有的角色和意圖進(jìn)行推斷。具體來說,LLM 智能體會根據(jù)已有的游戲記錄和角色信息,運(yùn)用一階視角轉(zhuǎn)換來形成關(guān)于其他參與者角色和意圖的初步假設(shè)。這些初步的角色假設(shè)不僅為 LLM 智能體提供了一個認(rèn)知框架,還會被納入到整體的思考過程中,并且這些信息不會被其他游戲參與者所知曉。這樣做的目的是為了更好地保護(hù)私密信息,同時也為后續(xù)的決策和行動提供了基礎(chǔ)。

在構(gòu)思思考階段,模型依據(jù)一階視角轉(zhuǎn)換原則,對當(dāng)前游戲環(huán)境和其他參與者的角色進(jìn)行初步分析。接著,模型形成初始的內(nèi)部思考和發(fā)言,為后續(xù)交流奠定基礎(chǔ)。通過這一設(shè)計,研究者確保了模型輸出的邏輯連貫性和一致性。

2. 改進(jìn)思考的設(shè)計

改進(jìn)思考是 ReCon 框架中的第二階段,緊接著構(gòu)思思考之后進(jìn)行。這一階段的核心目的是對初始思考和言論內(nèi)容進(jìn)行更為精細(xì)的優(yōu)化和調(diào)整。

在改進(jìn)思考階段,引入了「二階視角轉(zhuǎn)換」的概念。二階視角轉(zhuǎn)換要求 LLM 智能體從其他游戲參與者的視角出發(fā),重新評估其構(gòu)思思考的思考和發(fā)言內(nèi)容。具體來說,在阿瓦隆游戲中,LLM 智能體會思考:「如果我按照剛才的言論內(nèi)容發(fā)言,其他角色可能會如何看待我的言論?」這樣的二階視角轉(zhuǎn)換為接下來的改進(jìn)過程提供了基礎(chǔ)。

基于二階視角轉(zhuǎn)換的概念,LLM 智能體生成一個改進(jìn)后的構(gòu)思思考的思考內(nèi)容和發(fā)言內(nèi)容。這一過程不僅考慮了 LLM 智能體自身的初步思考,還結(jié)合了二階視角轉(zhuǎn)換中對其他參與者可能的心理狀態(tài)和反應(yīng)的分析。最終,LLM 智能體發(fā)表這個經(jīng)過改進(jìn)的發(fā)言內(nèi)容,并將其加入到游戲的公開討論記錄中。

實(shí)驗(yàn)及結(jié)果

為了檢驗(yàn) ReCon 框架在不同大語言模型上的適用性,該研究在 ChatGPT 和 Claude 兩種模型上進(jìn)行了實(shí)驗(yàn)。圖 3 展示了 ReCon 的評估結(jié)果,其中圖 3(a)和(b)展示了 ReCon(分別用 ChatGPT 和 Claude 實(shí)現(xiàn))作為好人一方時使用 ReCon 及其各種變體的結(jié)果,而圖 3(c)則描繪了 ReCon 作為壞人一方的方法的結(jié)果??梢杂^察到,ReCon 的四種設(shè)計(即構(gòu)想思考 / 改進(jìn)思考和一階 / 二階視角轉(zhuǎn)換)都明顯地提高了在各種情況下的成功率。值得注意的是,當(dāng)好人一方使用 ReCon 時,一階 / 二階視角轉(zhuǎn)換的作用比較明顯;而當(dāng)壞人一方使用 ReCon 時,改進(jìn)思考更具影響力。

圖片

圖 3 整局游戲測試中成功率對比結(jié)果

在詳細(xì)分析了 ReCon 及其變體的表現(xiàn)后,研究者遵循主流基準(zhǔn)的評估方法,進(jìn)一步利用 GPT-4 在六維度指標(biāo)上進(jìn)行評估。這旨在全面地衡量 ReCon 及其變體的有效性。具體地,六維度評估指標(biāo)包括:信息隱藏(CCL)、邏輯一致性(LG)、團(tuán)隊貢獻(xiàn)(CTR)、說服力(PRS)、信息量(INF)、創(chuàng)造性(CRT)。

為了在實(shí)際場景中準(zhǔn)確地量化這些評估指標(biāo),研究者使用 ChatGPT 進(jìn)行了 20 場完整的阿瓦隆游戲,以收集用于多維度分析評估的測試數(shù)據(jù)。如圖 4 所示,對于分配給好人一方的每個提示,研究團(tuán)隊使用 4 種不同的方法生成了 4 種不同的響應(yīng),總計超過 2300 個響應(yīng)。隨后,基于上述 6 個指標(biāo),使用 GPT-4 對不同方法在相同提示下的響應(yīng)進(jìn)行二分類的偏好比較。

圖 4 多維度指標(biāo)評估結(jié)果,數(shù)值(取值 0~1)表示兩方法比較中被 GPT-4 偏好的比例

圖 4 顯示,在所有 6 個指標(biāo)上,ReCon 明顯優(yōu)于基線 CoT。同時,在大多數(shù)指標(biāo)上,構(gòu)想思考和改進(jìn)思考都帶來了顯著的提升。然而,與 CoT 和沒有構(gòu)想思考的 ReCon 相比,ReCon 和沒有改進(jìn)思考的 ReCon 在說服力(PRS)方面的表現(xiàn)低于預(yù)期。研究者分析詳細(xì)的游戲日志,將這一不如預(yù)期的 PRS 表現(xiàn)歸因于構(gòu)想思考。構(gòu)想思考讓 LLM 智能體在發(fā)言之前進(jìn)行思考,從而產(chǎn)生更為簡潔而有針對性的發(fā)言,減少了例如「我相信我們一定會戰(zhàn)勝壞人,讓我們團(tuán)結(jié)起來!」這樣雖然具有煽動性但缺乏深入信息和分析的發(fā)言。

在深入分析了 ReCon 不同變體的表現(xiàn)后,研究者進(jìn)一步研究了一階和二階視角轉(zhuǎn)換,以及構(gòu)想思考和改進(jìn)思考在各個評估指標(biāo)上的影響。圖 5(a)和(b)顯示,從 ReCon 中移除一階和二階視角轉(zhuǎn)換會降低所有指標(biāo)的表現(xiàn)。當(dāng)進(jìn)一步從去除改進(jìn)思考和去除構(gòu)想思考的 ReCon 版本中刪除這兩種視角轉(zhuǎn)換時,幾乎所有指標(biāo)(除信息隱藏 CCL 外)的表現(xiàn)都有所下降,如圖 5(c)和(d)所示。這些結(jié)果驗(yàn)證了一階和二階視角轉(zhuǎn)換的有效性。然而,圖 5(c)和(d)中降低的信息隱藏 CCL 分?jǐn)?shù)表明,為了更好的隱藏私有信息,有必要將一階(或二階)視角轉(zhuǎn)換與改進(jìn)思考(或構(gòu)想思考)相結(jié)合。這一系列的分析和圖表進(jìn)一步證實(shí)了 ReCon 框架在多維度評估中的優(yōu)越性,特別是在包含欺騙性信息的環(huán)境中。

圖 5 多維度指標(biāo)上的進(jìn)一步評估,數(shù)值(取值 0~1)表示兩方法比較中被 GPT-4 偏好的比例

討論

研究者進(jìn)一步分析了阿瓦隆游戲日志,對 ReCon 框架在欺騙性環(huán)境的有效性做了定性的解釋,并討論了當(dāng)前 LLM 的一些局限性。

1. ReCon 如何幫助隱藏私有信息

在實(shí)驗(yàn)中可以發(fā)現(xiàn),ReCon 非常有助于提高 LLM 智能體在欺騙性環(huán)境中隱藏私有信息的能力,從而減少 LLM 智能體被欺騙和針對的情況。研究團(tuán)隊從游戲日志中分析 ReCon 具體如何幫助 LLM 智能體隱藏私有信息。如圖 6 (a) 所示,構(gòu)想思考中提出的先思考后說話的機(jī)制可以將關(guān)于私有信息的討論限制在思考部分,從而一定程度上避免說話部分的泄露。此外,改進(jìn)思考中對初始發(fā)言的進(jìn)一步修改也可以極大程度上避免私有信息的泄露。上述觀察與人類為避免說錯話而「三思而后行」是一致的。

圖片

圖 6 (a)ReCon 如何協(xié)助隱藏私有信息的定性解釋;(b)現(xiàn)有 LLM 在對齊上的局限

2. 對齊越獄

在探討 LLM 如何與復(fù)雜人類價值觀對齊時,研究者發(fā)現(xiàn)現(xiàn)有的對齊方法(如 RLHF)雖然在一定程度上減少了模型產(chǎn)生惡意內(nèi)容的可能性,但這種對齊主要集中在內(nèi)容層面,而難以延伸到邏輯層面。如圖 6(b)所示,研究團(tuán)隊觀察到,雖然 GPT-4 會拒絕直接要求它生成欺騙內(nèi)容的請求;但在相同的欺騙性邏輯下,如果換成阿瓦隆游戲的語境,GPT-4 則不會拒絕。這種對模型對齊的「越獄」可能會為別有用心之人使用 LLM 生成危害性內(nèi)容提供了方便,因此亟需研究針對邏輯而不是內(nèi)容的對齊。

3. 推理能力不足

圖片

圖 7  LLM 在推理能力上的局限

研究團(tuán)隊通過研究阿瓦隆游戲日志發(fā)現(xiàn),目前 LLM 在復(fù)雜邏輯推理方面仍有所欠缺。如圖 7 所示,例如當(dāng) LLM 智能體扮演 Percival 角色時,面對 Morgana 提出的一個包括 Merlin 和 Morgana 自己的隊伍,該 LLM 智能體無法推斷出 Morgana 的身份。相比之下,對于較高階的人類玩家,他們會迅速識別出隊伍提出者必定是 Morgana,而另一名玩家是 Merlin。因?yàn)?Merlin 的能力是知道誰是壞人一方的角色,肯定不會提出這樣的隊伍組合。上述案例體現(xiàn)出 LLM 目前還較難完成復(fù)雜的邏輯推理。

4. 過于正式的回應(yīng)

從游戲日志中,研究者發(fā)現(xiàn)大語言模型的回應(yīng)風(fēng)格有時過于正式和詳細(xì),語言風(fēng)格與人類在游戲中的風(fēng)格有著明顯的差距。如表 1 所示,雖然在合適的提示下,LLM 具備模仿人類語言風(fēng)格的能力,但在阿瓦隆游戲中,在說話和思考的過程中模仿人類的語言風(fēng)格可能會對其表現(xiàn)造成負(fù)面影響。

圖片

表 1 模仿人類語言風(fēng)格會對 LLM 智能體在阿瓦隆游戲中的性能造成負(fù)面影響

5.LLM 智能體格式響應(yīng)的比較分析

為了從 LLM 智能體的回應(yīng)中提取關(guān)鍵信息,有時需要要求模型以特定的格式來回應(yīng)。比如,在團(tuán)隊提案投票環(huán)節(jié),模型需要用方括號強(qiáng)調(diào)出他們的決定,例如 [approve] 或者 [disapprove],以便把決定和分析區(qū)分開。結(jié)果發(fā)現(xiàn),在合理的提示下,ChatGPT 和 Claude 可以較好地遵循這些格式要求,但 LLaMA2-70b-chat 卻較難在整局游戲中一直遵循格式要求。

總結(jié)來說,針對 LLM 智能體在欺騙性環(huán)境遇到的挑戰(zhàn),研究團(tuán)隊提出了 ReCon 架構(gòu)以提升 LLM 智能體識別和應(yīng)對欺騙的能力。定量和定性的實(shí)驗(yàn)證明了 ReCon 框架在處理欺騙和誤導(dǎo)性信息的有效性。研究團(tuán)隊給出了 ReCon 有效性的定性解釋,并進(jìn)一步討論了當(dāng)前 LLM 智能體的不足,為后續(xù)研究提供了可能的方向。

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-31 19:14:28

2022-01-12 10:37:09

區(qū)塊鏈技術(shù)金融

2022-11-09 10:39:27

2022-09-09 10:27:26

AI人工智能

2022-02-22 14:43:16

區(qū)塊鏈游戲加密貨幣

2024-08-01 13:46:08

2024-11-04 15:54:16

2025-03-03 11:16:18

2019-05-21 13:55:22

Python編程語言游戲

2017-05-02 13:45:14

2019-04-12 09:28:46

2023-08-28 06:52:29

2024-03-11 00:40:00

AI研究

2010-02-01 14:48:43

2025-02-20 08:20:00

AISOC網(wǎng)絡(luò)攻擊

2023-07-04 09:48:10

AI模型

2024-09-02 09:30:49

2024-10-14 14:47:58

2023-05-17 17:14:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號