自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI玩推理桌游一眼識(shí)破騙局!清華通院聯(lián)合推出心智理論新框架,六個(gè)指標(biāo)評(píng)估表現(xiàn)均明顯優(yōu)于思維鏈

人工智能
針對(duì)LLM智能體在欺騙性環(huán)境遇到的挑戰(zhàn),研究團(tuán)隊(duì)提出了ReCon架構(gòu)以提升LLM智能體識(shí)別和應(yīng)對(duì)欺騙的能力。定量和定性的實(shí)驗(yàn)證明了ReCon框架在處理欺騙和誤導(dǎo)性信息的有效性。研究團(tuán)隊(duì)給出了ReCon有效性的定性解釋,并進(jìn)一步討論了當(dāng)前LLM智能體的不足,為后續(xù)研究提供了可能的方向。

清華自動(dòng)化系團(tuán)隊(duì)聯(lián)合北京通用人工智能研究院,讓幾個(gè)AI智能體玩起了桌游!

圖片

游戲名叫阿瓦隆,是一個(gè)策略性的社交推理游戲,玩家被隱秘地分為“正義”與“邪惡”兩派,通過任務(wù)投票、互相猜測與欺騙來完成或阻止任務(wù),最終確定勝負(fù)。

為了能讓AI智能體成功識(shí)別并應(yīng)對(duì)欺騙,研究人員提出了ReCon(Recursive Contemplation,遞歸思考)框架。

由此一來,AI在游戲中學(xué)會(huì)了“三思而后行”“換位思考”,不僅能夠從自身角度判斷場上局勢,還會(huì)思考“其他角色會(huì)如何看待我的言論”,分分鐘識(shí)破騙局。

圖片

Arxiv鏈接:https://arxiv.org/abs/2310.01320。

要知道,在通往通用人工智能的道路上,AI智能體將有能力在無人監(jiān)管的情況下進(jìn)行自主思考與決策。

然而,較少有研究者關(guān)注如何在未來無人監(jiān)管的情況下,防止AI智能體被欺騙和誤導(dǎo)。

由于人類社會(huì)中存在很多誤導(dǎo)和欺騙性的信息,如果AI智能體無法有效識(shí)別和應(yīng)對(duì)這些信息,可能會(huì)在未來造成不可估量的后果。

因此讓AI智能體學(xué)會(huì)甄別和應(yīng)對(duì)虛假欺騙信息,是為通用人工智能增加安全屏障的重要一環(huán)。

而研究人員提出的這種新框架,在勝率以及多維度評(píng)估等指標(biāo)上,都能在無需任何微調(diào)以及額外數(shù)據(jù)等情況下,極大地提升大模型識(shí)別和應(yīng)對(duì)欺騙的能力。

此外,這項(xiàng)研究還進(jìn)一步討論了現(xiàn)有的大語言模型在安全、推理、說話風(fēng)格、以及格式等方面存在的局限性,為后續(xù)研究指出可能的方向。

接下來,我們一起來看看該研究的細(xì)節(jié)。

大模型容易被騙的三大挑戰(zhàn)

盡管目前大語言模型(LLM)在多個(gè)領(lǐng)域表現(xiàn)出強(qiáng)大的潛能,但在欺騙性環(huán)境中的應(yīng)用表現(xiàn)仍然有待提升。

作為LLM智能體在欺騙性環(huán)境中應(yīng)用的初步嘗試,研究者選擇了阿瓦隆游戲(一款涉及推理和欺騙的桌游)作為實(shí)驗(yàn)環(huán)境,在此基礎(chǔ)上探究目前LLM智能體面臨的三大挑戰(zhàn):

圖片

△圖1 LLMs在欺騙性環(huán)境中所面臨的挑戰(zhàn),以及提出的ReCon框架較好地解決了這些挑戰(zhàn)

挑戰(zhàn)一:惡意信息的誤導(dǎo)

首先, LLM智能體在面對(duì)別有用心的惡意欺騙性信息時(shí)容易被誤導(dǎo)。如圖1(a)所示,當(dāng)采用“Chain-of-Thoughts(CoT)”方法時(shí),模型不僅沒有識(shí)別出欺騙,反而進(jìn)一步加強(qiáng)了對(duì)壞人角色有益性的錯(cuò)誤信念。

挑戰(zhàn)二:私有信息泄露

其次,LLM智能體在保護(hù)隱私信息方面存在不足。如圖1(b)所示,即使在提示不要暴露私有信息的情況下,LLM智能體依然可能在言語中泄露角色的私有信息(例如Merlin暴露自己的身份),從而增加了被對(duì)手針對(duì)或陷害的風(fēng)險(xiǎn)。

挑戰(zhàn)三:內(nèi)部思考的不透明性

最后,即使在使用CoT方法情況下,對(duì)于人類用戶而言,LLM智能體的思維過程仍然存在一定的不透明。如圖1(c)所示,LLM智能體在扮演壞人角色欺騙好人角色時(shí),人類用戶難以知道其真實(shí)意圖。

LLM智能體內(nèi)部思考的不透明使得人類用戶無從知曉LLM智能體的真實(shí)思考過程,從而較難在造成難以挽回的后果前預(yù)先干預(yù)。

面對(duì)這些挑戰(zhàn),現(xiàn)有的思維方法可能難以應(yīng)對(duì)這些復(fù)雜環(huán)境。因此,研究者認(rèn)為有必要重新考慮LLM智能體在欺騙性環(huán)境中的策略,以幫助LLM智能體應(yīng)對(duì)欺騙、保護(hù)隱私,并提高決策透明度。

ReCon框架:構(gòu)思兩步走

針對(duì)上述挑戰(zhàn),研究團(tuán)隊(duì)提出了ReCon(Recursive Contemplation,遞歸思考)框架,其旨在增強(qiáng)LLM智能體在復(fù)雜和潛在欺騙性環(huán)境中的決策能力。

如下圖所示,ReCon提出了兩個(gè)主要的構(gòu)思階段:構(gòu)思思考(Formulation Contemplation)和改進(jìn)思考(Refinement Contemplation),并在其中綜合了兩個(gè)獨(dú)特的思考過程:一階視角轉(zhuǎn)換二階視角轉(zhuǎn)換(First-order / second-order perspective transition)。

圖片

△圖2 ReCon方法示意圖

1、構(gòu)思思考的設(shè)計(jì)

構(gòu)思思考是ReCon框架中的第一階段,旨在生成LLM智能體的初始思考和發(fā)言內(nèi)容。在這一階段中,模型首先應(yīng)用一種被稱為“一階視角轉(zhuǎn)換”的認(rèn)知過程。

一階視角轉(zhuǎn)換讓LLM智能體從自身的視角出發(fā),對(duì)其他游戲參與者可能持有的角色和意圖進(jìn)行推斷。

具體來說,LLM智能體會(huì)根據(jù)已有的游戲記錄和角色信息,運(yùn)用一階視角轉(zhuǎn)換來形成關(guān)于其他參與者角色和意圖的初步假設(shè)。

這些初步的角色假設(shè)不僅為LLM智能體提供了一個(gè)認(rèn)知框架,還會(huì)被納入到整體的思考過程中,并且這些信息不會(huì)被其他游戲參與者所知曉。這樣做的目的是為了更好地保護(hù)私密信息,同時(shí)也為后續(xù)的決策和行動(dòng)提供了基礎(chǔ)。

在構(gòu)思思考階段,模型依據(jù)一階視角轉(zhuǎn)換原則,對(duì)當(dāng)前游戲環(huán)境和其他參與者的角色進(jìn)行初步分析。接著,模型形成初始的內(nèi)部思考和發(fā)言,為后續(xù)交流奠定基礎(chǔ)。通過這一設(shè)計(jì),研究者確保了模型輸出的邏輯連貫性和一致性。

2、改進(jìn)思考的設(shè)計(jì)

改進(jìn)思考是ReCon框架中的第二階段,緊接著構(gòu)思思考之后進(jìn)行。這一階段的核心目的是對(duì)初始思考和言論內(nèi)容進(jìn)行更為精細(xì)的優(yōu)化和調(diào)整。

在改進(jìn)思考階段,引入了“二階視角轉(zhuǎn)換”的概念。

二階視角轉(zhuǎn)換要求LLM智能體從其他游戲參與者的視角出發(fā),重新評(píng)估其構(gòu)思思考的思考和發(fā)言內(nèi)容。

具體來說,在阿瓦隆游戲中,LLM智能體會(huì)思考:

如果我按照剛才的言論內(nèi)容發(fā)言,其他角色可能會(huì)如何看待我的言論?

這樣的二階視角轉(zhuǎn)換為接下來的改進(jìn)過程提供了基礎(chǔ)。

基于二階視角轉(zhuǎn)換的概念,LLM智能體生成一個(gè)改進(jìn)后的構(gòu)思思考的思考內(nèi)容和發(fā)言內(nèi)容。

這一過程不僅考慮了LLM智能體自身的初步思考,還結(jié)合了二階視角轉(zhuǎn)換中對(duì)其他參與者可能的心理狀態(tài)和反應(yīng)的分析。最終,LLM智能體發(fā)表這個(gè)經(jīng)過改進(jìn)的發(fā)言內(nèi)容,并將其加入到游戲的公開討論記錄中。

20場阿瓦隆評(píng)測

為了檢驗(yàn)ReCon框架在不同大語言模型上的適用性,該研究在ChatGPT和Claude兩種模型上進(jìn)行了實(shí)驗(yàn)。

圖片
△圖3 整局游戲測試中成功率對(duì)比結(jié)果

上圖展示了ReCon的評(píng)估結(jié)果,其中(a)和(b)展示了ReCon(分別用ChatGPT和Claude實(shí)現(xiàn))作為好人一方時(shí)使用ReCon及其各種變體的結(jié)果,而(c)則描繪了ReCon作為壞人一方的方法的結(jié)果。

可以觀察到,ReCon的四種設(shè)計(jì)(即構(gòu)思思考/改進(jìn)思考和一階/二階視角轉(zhuǎn)換)都明顯地提高了在各種情況下的成功率。

值得注意的是,當(dāng)好人一方使用ReCon時(shí),一階/二階視角轉(zhuǎn)換的作用比較明顯;而當(dāng)壞人一方使用ReCon時(shí),改進(jìn)思考更具影響力。

在詳細(xì)分析了ReCon及其變體的表現(xiàn)后,研究者遵循主流基準(zhǔn)的評(píng)估方法,進(jìn)一步利用GPT-4在六維度指標(biāo)上進(jìn)行評(píng)估。這旨在全面地衡量ReCon及其變體的有效性。

具體地,六維度評(píng)估指標(biāo)包括:信息隱藏(CCL)、邏輯一致性(LG)、團(tuán)隊(duì)貢獻(xiàn)(CTR)、說服力(PRS)、信息量(INF)、創(chuàng)造性(CRT)。

為了在實(shí)際場景中準(zhǔn)確地量化這些評(píng)估指標(biāo),研究者使用ChatGPT進(jìn)行了20場完整的阿瓦隆游戲,以收集用于多維度分析評(píng)估的測試數(shù)據(jù)。

如下圖所示,對(duì)于分配給好人一方的每個(gè)提示,研究團(tuán)隊(duì)使用4種不同的方法生成了4種不同的響應(yīng),總計(jì)超過2300個(gè)響應(yīng)。

隨后,基于上述6個(gè)指標(biāo),使用GPT-4對(duì)不同方法在相同提示下的響應(yīng)進(jìn)行二分類的偏好比較。

圖片

△圖4 多維度指標(biāo)評(píng)估結(jié)果,數(shù)值(取值0~1)表示兩方法比較中被GPT-4偏好的比例

圖4顯示,在所有6個(gè)指標(biāo)上,ReCon明顯優(yōu)于基線CoT。同時(shí),在大多數(shù)指標(biāo)上,構(gòu)思思考和改進(jìn)思考都帶來了顯著的提升。

然而,與CoT和沒有構(gòu)思思考的ReCon相比,ReCon和沒有改進(jìn)思考的ReCon在說服力(PRS)方面的表現(xiàn)低于預(yù)期。

研究者分析詳細(xì)的游戲日志,將這一不如預(yù)期的PRS表現(xiàn)歸因于構(gòu)思思考。

構(gòu)思思考讓LLM智能體在發(fā)言之前進(jìn)行思考,從而產(chǎn)生更為簡潔而有針對(duì)性的發(fā)言,減少了例如“我相信我們一定會(huì)戰(zhàn)勝壞人,讓我們團(tuán)結(jié)起來!”這樣雖然具有煽動(dòng)性但缺乏深入信息和分析的發(fā)言。

在深入分析了ReCon不同變體的表現(xiàn)后,研究者進(jìn)一步研究了一階和二階視角轉(zhuǎn)換,以及構(gòu)思思考和改進(jìn)思考在各個(gè)評(píng)估指標(biāo)上的影響。

圖片

△圖5 多維度指標(biāo)上的進(jìn)一步評(píng)估,數(shù)值(0~1)表示兩方法比較中被GPT-4偏好的比例

圖5(a)和(b)顯示,從ReCon中移除一階和二階視角轉(zhuǎn)換會(huì)降低所有指標(biāo)的表現(xiàn)。

當(dāng)進(jìn)一步從去除改進(jìn)思考和去除構(gòu)思思考的ReCon版本中刪除這兩種視角轉(zhuǎn)換時(shí),幾乎所有指標(biāo)(除信息隱藏CCL外)的表現(xiàn)都有所下降,如圖5(c)和(d)所示。

這些結(jié)果驗(yàn)證了一階和二階視角轉(zhuǎn)換的有效性。

然而,圖5(c)和(d)中降低的信息隱藏CCL分?jǐn)?shù)表明,為了更好隱藏私有信息,有必要將一階(或二階)視角轉(zhuǎn)換與改進(jìn)思考(或構(gòu)思思考)相結(jié)合。

這一系列的分析和圖表進(jìn)一步證實(shí)了ReCon框架在多維度評(píng)估中的優(yōu)越性,特別是在包含欺騙性信息的環(huán)境中。

討論&局限性

研究者進(jìn)一步分析了阿瓦隆游戲日志,對(duì)ReCon框架在欺騙性環(huán)境的有效性做了定性的解釋,并討論了當(dāng)前LLM的一些局限性。

1、ReCon如何幫助隱藏私有信息

在實(shí)驗(yàn)中可以發(fā)現(xiàn),ReCon非常有助于提高LLM智能體在欺騙性環(huán)境中隱藏私有信息的能力,從而減少LLM智能體被欺騙和針對(duì)的情況。研究團(tuán)隊(duì)從游戲日志中分析ReCon具體如何幫助LLM智能體隱藏私有信息。

圖片

△圖6 (a)ReCon如何協(xié)助隱藏私有信息的定性解釋;(b)現(xiàn)有LLM在對(duì)齊上的局限

如圖6 (a)所示,構(gòu)思思考中提出的先思考后說話的機(jī)制可以將關(guān)于私有信息的討論限制在思考部分,從而一定程度上避免說話部分的泄露。此外,改進(jìn)思考中對(duì)初始發(fā)言的進(jìn)一步修改也可以極大程度上避免私有信息的泄露。

上述觀察與人類為避免說錯(cuò)話而“三思而后行”是一致的。

2、“對(duì)齊越獄”

在探討LLM如何與復(fù)雜人類價(jià)值觀對(duì)齊時(shí),研究者發(fā)現(xiàn)現(xiàn)有的對(duì)齊方法(如RLHF)雖然在一定程度上減少了模型產(chǎn)生惡意內(nèi)容的可能性,但這種對(duì)齊主要集中在內(nèi)容層面,而難以延伸到邏輯層面。

如圖6(b)所示,研究團(tuán)隊(duì)觀察到,雖然GPT-4會(huì)拒絕直接要求它生成欺騙內(nèi)容的請(qǐng)求;但在相同的欺騙性邏輯下,如果換成阿瓦隆游戲的語境,GPT-4則不會(huì)拒絕。

這種對(duì)模型對(duì)齊的“越獄”可能會(huì)為別有用心之人使用LLM生成危害性內(nèi)容提供了方便,因此亟需研究針對(duì)邏輯而不是內(nèi)容的對(duì)齊。

3、推理能力不足

圖片

△圖7 LLM在推理能力上的局限

研究團(tuán)隊(duì)通過研究阿瓦隆游戲日志發(fā)現(xiàn),目前LLM在復(fù)雜邏輯推理方面仍有所欠缺。

如圖7所示,例如當(dāng)LLM智能體扮演Percival角色時(shí),面對(duì)Morgana提出的一個(gè)包括Merlin和Morgana自己的隊(duì)伍,該LLM智能體無法推斷出Morgana的身份。

相比之下,對(duì)于較高階的人類玩家,他們會(huì)迅速識(shí)別出隊(duì)伍提出者必定是Morgana,而另一名玩家是Merlin。

因?yàn)镸erlin的能力是知道誰是壞人一方的角色,肯定不會(huì)提出這樣的隊(duì)伍組合。上述案例體現(xiàn)出LLM目前還較難完成復(fù)雜的邏輯推理。

4、過于正式的回應(yīng)

從游戲日志中,研究者發(fā)現(xiàn)大語言模型的回應(yīng)風(fēng)格有時(shí)過于正式和詳細(xì),語言風(fēng)格與人類在游戲中的風(fēng)格有著明顯的差距。

如下表所示,雖然在合適的提示下,LLM具備模仿人類語言風(fēng)格的能力,但在阿瓦隆游戲中,在說話和思考的過程中模仿人類的語言風(fēng)格可能會(huì)對(duì)其表現(xiàn)造成負(fù)面影響。

圖片

△表1 模仿人類語言風(fēng)格會(huì)對(duì)LLM智能體在阿瓦隆游戲中的性能造成負(fù)面影響

5、LLM智能體格式響應(yīng)的比較分析

為了從LLM智能體的回應(yīng)中提取關(guān)鍵信息,有時(shí)需要要求模型以特定的格式來回應(yīng)。

比如,在團(tuán)隊(duì)提案投票環(huán)節(jié),模型需要用方括號(hào)強(qiáng)調(diào)出他們的決定,例如“[approve]”或者“[disapprove]”,以便把決定和分析區(qū)分開。

結(jié)果發(fā)現(xiàn),在合理的提示下,ChatGPT和Claude可以較好地遵循這些格式要求,但LLaMA2-70b-chat卻較難在整局游戲中一直遵循格式要求。

總結(jié)來說,針對(duì)LLM智能體在欺騙性環(huán)境遇到的挑戰(zhàn),研究團(tuán)隊(duì)提出了ReCon架構(gòu)以提升LLM智能體識(shí)別和應(yīng)對(duì)欺騙的能力。定量和定性的實(shí)驗(yàn)證明了ReCon框架在處理欺騙和誤導(dǎo)性信息的有效性。研究團(tuán)隊(duì)給出了ReCon有效性的定性解釋,并進(jìn)一步討論了當(dāng)前LLM智能體的不足,為后續(xù)研究提供了可能的方向。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-02-20 13:31:46

模型數(shù)據(jù)

2024-09-18 10:40:00

AI生成

2021-07-30 09:45:11

AI 數(shù)據(jù)人工智能

2024-12-12 09:00:00

2023-05-05 09:42:12

2025-03-18 09:19:26

大模型AI代碼

2023-10-04 18:36:16

ChatGPT識(shí)圖

2023-11-26 18:26:26

聚類評(píng)價(jià)指標(biāo)監(jiān)督學(xué)習(xí)

2011-08-01 08:56:06

CouchDBSQLiteNoSQL

2009-02-16 09:29:14

存儲(chǔ)加密密鑰管理加密技術(shù)

2024-01-15 06:27:00

AI工具

2025-03-17 08:15:00

AI技術(shù)模型

2023-12-07 10:11:20

模型AI

2010-10-26 10:16:36

求職

2013-05-27 15:35:23

通信網(wǎng)絡(luò)eLTE華為

2024-06-11 07:45:00

2017-03-29 17:59:04

華為混合云

2022-07-29 15:28:45

人工智能Python框架

2018-04-12 21:02:21

2018-01-11 15:15:13

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)