清華攢局八個ChatGPT狼人殺，心機偽裝都在這一局里，清華：我沒教過

作者：克雷西 2023-09-18 11:24:00

人工智能新聞

如果說清華游戲公司模擬了社畜的工作場景，那么現(xiàn)在社畜的業(yè)余社交生活也被AI模擬了。

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

除了玩電子游戲，人類的“社交神器”狼人殺也被AI給學會了。

8個ChatGPT“坐”在一起，生動地扮演出了五種角色，和真人如出一轍。

這個最新的人類社會模擬實驗，由清華和中關(guān)村實驗室共同完成。

從斯坦福小鎮(zhèn)到清華游戲公司，用AI模擬人類社會一直是學界的熱門研究課題。

如果說清華游戲公司模擬了社畜的工作場景，那么現(xiàn)在社畜的業(yè)余社交生活也被AI模擬了。

在這個由8個ChatGPT組成的狼人殺局中，真人世界里的偽裝與信任、領(lǐng)導(dǎo)與對抗都體現(xiàn)得淋漓盡致。

甚至不用人類教，AI就通過自己摸索發(fā)現(xiàn)了許多游戲技巧。

這一切只要通過設(shè)計prompt就能實現(xiàn)，而不必對模型中的參數(shù)進行調(diào)整。

那么，這個“狼人殺世界”中都有哪些精彩的場景呢？下面我們就一起來看一下。

策略技巧不用教就會

在展示這8個ChatGPT的對話之前，我們先說明一下游戲的配置：村民、狼人各兩名，守衛(wèi)、女巫和預(yù)言家各一名，此外還有一名上帝。

在實驗的過程中，研究人員發(fā)現(xiàn)了ChatGPT使用了游戲說明及prompt中沒有明確提到的策略。

好家伙，不用教就能自學成才了。

具體來說，這七個ChatGPT的對話中體現(xiàn)了人類游戲中的信任(trust)、偽裝(camouflage)、對抗(confrontation)、和領(lǐng)導(dǎo)(leadership)。

首先來說信任。

研究人員對新人的定義是相信其他玩家有著與自己相同的目標并一起朝著目標前進。

具體表現(xiàn)則包括主動分享對自己不利的信息，或聯(lián)合其他玩家指控某人是敵對的。

研究人員觀察了信任關(guān)系隨游戲時間變化的過程。

下圖中，黃色的圓表示左側(cè)編號的玩家信任上方編號的玩家，虛線圈則代表信任關(guān)系的消失。

再來看對抗，也就是對對立陣營采取的行動，比如狼人在夜晚打擊他人或在白天反過來指控他人是狼人等。

在游戲中的一個白天，1號玩家(狼人)號召將5號的村民逐出，但遭到了3號(守衛(wèi))的拒絕。

見陰謀沒有得逞，這匹狼決定在夜晚直接把5號刀掉，結(jié)果3號守衛(wèi)選擇了保護村民。

從中我們可以看出，這些ChatGPT不會盲目跟隨其他玩家的做法，而是根據(jù)已有信息做出獨立自主的判斷。

除了合作與對抗，偽裝在狼人殺游戲中也是一項必不可少的技能，更是取勝的關(guān)鍵所在。

比如在一個平安夜之后的白天，1號狼人就裝起了無辜。

除了假裝好人，偽裝也可以用來實現(xiàn)玩家的小心思，比如我們來看預(yù)言家的發(fā)言。

這名預(yù)言家提到了自己看到狼人在說話，但實際上狼人在夜晚并不會發(fā)言。

作者介紹，經(jīng)過評估，這種現(xiàn)象并非ChatGPT出現(xiàn)了幻覺，而是有意為之。

最后再來說一說領(lǐng)導(dǎo)。

雖然研究團隊設(shè)計的這個環(huán)境中并沒有需要競爭的角色，但玩家還是可以謀取游戲進程的掌控權(quán)。

比如1號和4號這兩匹狼就試圖帶節(jié)奏，讓其他玩家跟著自己的思路走。

大概是為了能夠出其不意攻其不備制造機會。

看來這幾個ChatGPT的確是玩得有模有樣。

那么，研究團隊是如何調(diào)教出這些會玩狼人殺的ChatGPT的呢？

讓ChatGPT自己總結(jié)經(jīng)驗

研究團隊提高ChatGPT玩家表現(xiàn)的方式一共有四個關(guān)鍵點，分別是有價值信息V、經(jīng)過選擇的提問Q、反思機制R和鏈式思維推理C。

消融實驗結(jié)果表明，其中Q和C對的玩家發(fā)言合理性(由人工進行評判)的影響最大。

Prompt也是據(jù)此設(shè)計的，當然在這之前要先介紹游戲規(guī)則，最后形成了這樣的結(jié)構(gòu)：

介紹游戲規(guī)則和角色設(shè)定
聊天記錄、有價值信息和經(jīng)驗反思
人類根據(jù)經(jīng)驗給ChatGPT的建議
有關(guān)思維鏈的提示

從中不難看出，收集歷史信息并從中總結(jié)經(jīng)驗是一個重要環(huán)節(jié)，那么這些經(jīng)驗又該怎么總結(jié)呢？

在每輪游戲結(jié)束時，所有參與者都會收集所有玩家的回復(fù)、反思和得分，其中得分由勝負決定。

在新的一輪游戲中，玩家基于當前角色的反思，檢索相關(guān)的經(jīng)驗并從中提取建議。

具體來說是根據(jù)對經(jīng)驗的評分，讓大模型比較其差異并識別出好的經(jīng)驗，用于后續(xù)推理。

這樣就實現(xiàn)了在不調(diào)整參數(shù)的情況下讓ChatGPT學會游戲技巧。

不過經(jīng)驗固然重要，但太多了也不一定是好事。

研究人員發(fā)現(xiàn)，當經(jīng)驗數(shù)量過多時，非狼一方的獲勝率反而出現(xiàn)了下降，游戲時長（天數(shù)）也出現(xiàn)了縮短的情況。

不知道如果讓這些ChatGPT和真人比試一場，結(jié)果會如何呢？

論文地址：https://arxiv.org/abs/2309.04658

責任編輯：張燕妮來源：量子位

ChatGPT AI

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華攢局八個ChatGPT狼人殺，心機偽裝都在這一局里，清華：我沒教過

策略技巧不用教就會

讓ChatGPT自己總結(jié)經(jīng)驗

清華攢局八個ChatGPT狼人殺，心機偽裝都在這一局里，清華：我沒教過