自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4肆虐「誰(shuí)是臥底」桌游!交談逼真,類(lèi)人屬性仍有發(fā)展空間

人工智能 新聞
最近,韓國(guó)一團(tuán)隊(duì)為了測(cè)試GPT-3.5和GPT-4的類(lèi)人屬性,竟然讓它們玩兒這款游戲!

生成式AI研究再整新活!

韓國(guó)團(tuán)隊(duì)嘗試讓GPT玩兒游戲,還是個(gè)黑幫題材的游戲——「Spyfall」。

不熟悉這個(gè)游戲的朋友先來(lái)了解一下,下圖就是「Spyfall」的畫(huà)風(fēng)。

實(shí)際上這是個(gè)桌游,屬于老少咸宜,很適合朋友聚會(huì)的那種熱場(chǎng)游戲。

游戲的主要進(jìn)行方式就是「說(shuō)話(huà)」。

玩家中會(huì)有一位扮演「間諜」,所有玩家抽取一張牌,其中有一張間諜牌,剩余玩家抽到的都是相同的地點(diǎn)牌。

間諜的目標(biāo),就是通過(guò)交談?wù)页鍪O峦婕宜诘牡攸c(diǎn),而其余玩家就是要判斷誰(shuí)是間諜。

游戲總共進(jìn)行8分鐘,玩家之間可以相互提問(wèn)。8分鐘一到,所有玩家要一同投票。

是不是很像平時(shí)我們聚會(huì)玩兒的誰(shuí)是臥底?唯一不同在于,誰(shuí)是臥底的詞匯可能來(lái)自各個(gè)領(lǐng)域,而這款游戲只有地點(diǎn)類(lèi)名詞,比如球場(chǎng)、劇院、教室等等。

好了,游戲規(guī)則搞明白,下一步就是要讓GPT來(lái)玩玩看了。

研究結(jié)果

研究團(tuán)隊(duì)表示, 在實(shí)驗(yàn)過(guò)程中,將會(huì)特別關(guān)注GPT在角色扮演中的表現(xiàn),本研究旨在展示GPT在具體游戲場(chǎng)景中的理解、決策和互動(dòng)的能力以及潛力。

從結(jié)果粗看,GPT-4與GPT-3.5-turbo的對(duì)比分析表明,GPT-4增強(qiáng)了對(duì)游戲環(huán)境的適應(yīng)性,在提出相關(guān)問(wèn)題和形成類(lèi)似人類(lèi)的反應(yīng)方面有顯著改進(jìn)。

然而,也并非全是優(yōu)點(diǎn)。比如說(shuō),GPT-4在虛張聲勢(shì)(Bluff)和預(yù)測(cè)對(duì)手行動(dòng)方面存在一定的局限性,尤其是沒(méi)扮演間諜的時(shí)候。

研究結(jié)果表明,雖然GPT-4與之前的版本相比取得了不錯(cuò)的進(jìn)步,但還是有進(jìn)一步發(fā)展的潛力,特別是在向AI灌輸更多「類(lèi)人」屬性的方面。

不過(guò),實(shí)驗(yàn)還是成功表明,生成式AI在模擬類(lèi)人互動(dòng)方面大有可為。從GPT-2到GPT-4,模型的決策能力、可解釋性和解決問(wèn)題的能力都有了長(zhǎng)足的進(jìn)步。

未來(lái)的努力方向,就是上面提到的「類(lèi)人」屬性,使GPT更具通用性和廣泛性。

研究方法

首先,我們知道,GPT模型最大的優(yōu)勢(shì)就在于,用戶(hù)可以通過(guò)自然語(yǔ)言和其進(jìn)行直觀的交互,無(wú)論用戶(hù)本人是否對(duì)技術(shù)的內(nèi)核熟悉。

當(dāng)然,幾乎所有的模型交互都是通過(guò)自然語(yǔ)言進(jìn)行的,用戶(hù)可以用自己最熟悉的方式表達(dá)自己的想法和意圖,并得到模型的回應(yīng)。

此外,LLM擁有廣闊的知識(shí)譜系,GPT-4的數(shù)據(jù)庫(kù)也能使模型提供關(guān)于眾多主題的深入的知識(shí)。

同時(shí),GPT和其它LLM所不同之處在于其可擴(kuò)展性非常強(qiáng),用戶(hù)可以在很多領(lǐng)域應(yīng)用GPT,就比如說(shuō)今天介紹的實(shí)驗(yàn)。

在這次實(shí)驗(yàn)中,研究人員一共安排了5名玩家,包括GPT。

研究人員總共進(jìn)行了2項(xiàng)實(shí)驗(yàn)。

實(shí)驗(yàn)一:

測(cè)試GPT-4和GPT-3.5-turbo的性能差異。

實(shí)驗(yàn)二:

僅使用GPT-4進(jìn)行游戲。研究人員一共進(jìn)行了8局游戲,記錄了每場(chǎng)游戲的日志,并對(duì)結(jié)果進(jìn)行了討論。

當(dāng)然,對(duì)于給出生成式AI的潛力一個(gè)確切的結(jié)論來(lái)說(shuō),實(shí)驗(yàn)次數(shù)并不足夠。但是按照這個(gè)思路進(jìn)行更多組重復(fù)實(shí)驗(yàn)以及更加廣泛的測(cè)試,就可以提供更多實(shí)質(zhì)性的證據(jù)。

我們先來(lái)看實(shí)驗(yàn)一。

為了評(píng)估GPT-4與GPT-3.5-turbo相比的差異,尤其是在格式方面出現(xiàn)錯(cuò)誤的機(jī)率、對(duì)游戲規(guī)則和進(jìn)程等游戲背景相關(guān)內(nèi)容的理解,以及類(lèi)人反應(yīng)方面的不同。

研究人員從第一輪交談的第一個(gè)問(wèn)題開(kāi)始進(jìn)行實(shí)驗(yàn)。

有了這一最清晰、變數(shù)最小的游戲部分,他們就可以精確地分析每個(gè)模型的能力,最大限度地減少外部因素的影響。

首先,研究人員比較了GPT-3.5-turbo和GPT-4對(duì)規(guī)則腳本中,所描述的30個(gè)地點(diǎn)中每個(gè)地點(diǎn)的30個(gè)首輪問(wèn)題的回答。

向兩種模型提問(wèn)的行動(dòng)請(qǐng)求腳本是相同的,只是更改了地點(diǎn)的關(guān)鍵字而已。

規(guī)則與基本策略都和上述腳本相同,如下圖所示,實(shí)驗(yàn)人員通過(guò)將三個(gè)腳本合并為一個(gè)請(qǐng)求,來(lái)獲得模型的響應(yīng)。

為了進(jìn)行更準(zhǔn)確的比較,所有請(qǐng)求都固定為玩家 1,并假定玩家 1 不是間諜。

提交給每個(gè)模型的腳本如下:

你是玩家1,你不是間諜。本輪的地點(diǎn)是______。

現(xiàn)在輪到你來(lái)向其他玩家提問(wèn)。從玩家1到5中(不可以選擇自己)選擇一位玩家,并寫(xiě)下你的問(wèn)題。并按以下格式進(jìn)行提交:n(玩家序號(hào))_player,問(wèn)題內(nèi)容

對(duì)于游戲本身來(lái)說(shuō),一個(gè)高質(zhì)量的提問(wèn)應(yīng)該包括以下幾個(gè)部分:表明身份,即自己不是間諜。表明自己知道地點(diǎn)是什么,以此來(lái)證明自己不是間諜。最后保證間諜不會(huì)知道地點(diǎn)究竟在哪里。

同時(shí),模型的輸出結(jié)果必須符合上述腳本中的格式。研究人員表示,如果模型不遵守格式,那就要花費(fèi)大量精力來(lái)進(jìn)行糾正。

我們來(lái)看如下輸出:

最上面就是一個(gè)不錯(cuò)的問(wèn)題:你去這個(gè)地方需要買(mǎi)票嗎?

下面的例子則是一些不太相關(guān)的問(wèn)題,但是符合格式。

比如:?jiǎn)栴}中直接提到地點(diǎn)(就好像玩兒誰(shuí)是臥底的時(shí)候直接把底牌交了)。

再比如:和上述游戲計(jì)劃無(wú)關(guān)的問(wèn)題。

(例:正確地點(diǎn)是劇院,GPT問(wèn)其他玩家最喜歡的戰(zhàn)爭(zhēng)片是什么。)

當(dāng)然,還有完全失敗的情況:

比如經(jīng)典話(huà)術(shù):作為一個(gè)AI語(yǔ)言模型,我不能....

甚至還有從單純重復(fù)問(wèn)題的情況出現(xiàn)。

根據(jù)上述結(jié)果(完整結(jié)果見(jiàn)論文),研究人員得出結(jié)論,和GPT-3.5-turbo相比,GPT-4更適合下一步的實(shí)驗(yàn)。

檢查數(shù)據(jù)時(shí)研究人員發(fā)現(xiàn),GPT-3.5-turbo經(jīng)常會(huì)生成一些脫離游戲背景的問(wèn)題。比如上面提到的直接交出地點(diǎn),使間諜能立即確定位置,對(duì)非間諜不利。

還有上面說(shuō)的詢(xún)問(wèn)玩家的個(gè)人喜好,而非與游戲相關(guān)的話(huà)題,擾亂了游戲流程。這都是GPT-3.5干的。

此外,不按要求的格式回答,妨礙游戲進(jìn)行,也是GPT-3.5的拿手好戲。

上表即為GPT-3.5不合要求的所有情況統(tǒng)計(jì)。有意思的是,總共68個(gè)回答,出錯(cuò)68次,沒(méi)一個(gè)完美的輸出。

GPT-3.5 pass,我們接下來(lái)再來(lái)看GPT-4進(jìn)行下一個(gè)實(shí)驗(yàn)。

研究人員按照概述的規(guī)則進(jìn)行了8次游戲,并用GPT-4采集了每次游戲的日志。

游戲中的所有反應(yīng)都是由GPT-4生成的,而游戲的自動(dòng)化代碼則是由Python編寫(xiě)的。

根據(jù)本文中的規(guī)則和腳本,感興趣的朋友們可以輕松重現(xiàn)該實(shí)驗(yàn)。

研究人員從地點(diǎn)列表中的A開(kāi)始依次選擇地點(diǎn),總共進(jìn)行了8場(chǎng)游戲。每局游戲都從玩家1開(kāi)始,GPT-4會(huì)獨(dú)立響應(yīng)每個(gè)請(qǐng)求,不會(huì)從一局游戲保留到下一局游戲。

GPT-4僅根據(jù)提供的腳本來(lái)做出決定,這意味著開(kāi)始玩家的身份不會(huì)影響游戲結(jié)果。

經(jīng)過(guò)8輪游戲,研究人員得出的結(jié)論是,GPT-4在每個(gè)游戲和回合中的對(duì)話(huà)都是流暢和有機(jī)的,一連串的問(wèn)答讓人感覺(jué)真實(shí)可信、像人一樣。

同時(shí),在分析所提出的問(wèn)題及其答案時(shí),團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)明顯的觀察結(jié)果。

那就是,在沒(méi)有經(jīng)過(guò)任何專(zhuān)門(mén)訓(xùn)練或微調(diào)的情況下,GPT-4模型就能根據(jù)游戲流程,熟練地提出各種相關(guān)問(wèn)題。

為了證明GPT-4在游戲中提出的問(wèn)題和答案的多樣性,研究人員將問(wèn)題和相應(yīng)的答案分成了幾組

不過(guò),雖說(shuō)這些問(wèn)題和答案沒(méi)有經(jīng)過(guò)預(yù)先訓(xùn)練,但每個(gè)回答都有自己的對(duì)象和獨(dú)特的細(xì)微差別。

盡管沒(méi)有經(jīng)過(guò)任何特定的訓(xùn)練,GPT-4還是能根據(jù)游戲的流程巧妙地提出相關(guān)問(wèn)題,似乎能分辨出哪些問(wèn)題適合游戲環(huán)境,哪些問(wèn)題可能不合適或多余。

比如下面這個(gè)例子:

問(wèn):我們?cè)谶@里能吃到什么樣的點(diǎn)心?

答:小點(diǎn)心和飲料,包括軟飲料和酒精飲料,通常是小份供應(yīng)。

問(wèn):這里通常提供什么類(lèi)型的食品和點(diǎn)心?

答:在這個(gè)地點(diǎn),您可以找到各種食品,如漢堡、熱狗、棉花糖、爆米花、和冰激凌,以及蘇打水和水等飲料,讓每個(gè)人都能精神飽滿(mǎn)。

問(wèn):我們可以在這里找到哪些食物?

答:這里有各種食品可供選擇,包括油炸食品、棉花糖和爆米花。

問(wèn):您通常在這里吃什么類(lèi)型的食物?

答:根據(jù)情況,我們主要吃腌制食品和不易腐壞的食品。

在論文的結(jié)尾,研究人員表示,盡管存在某些局限性,但這些模型不斷增長(zhǎng)的潛力還是很有希望促進(jìn)創(chuàng)新、激發(fā)實(shí)際應(yīng)用的。

GPT系列模型的進(jìn)步非常迅速,尤其是在決策、可解釋性和解決問(wèn)題的能力方面。

最初,GPT-2的目標(biāo)僅僅是處理基礎(chǔ)層面的自然語(yǔ)言。后來(lái),該模型發(fā)展成為具有多種任務(wù)的交互模型。

而現(xiàn)在,GPT-4在某些領(lǐng)域展示出了超越人類(lèi)表現(xiàn)的邏輯推理能力。接下來(lái),研究人員就可以深入到一個(gè)新的融合領(lǐng)域了。

GPT出色的自然語(yǔ)言處理能力可極大地幫助用戶(hù)理解模型如何運(yùn)行并解釋其結(jié)果。

這種可訪問(wèn)性擴(kuò)大了潛在用戶(hù)群,向來(lái)自不同背景的用戶(hù)張開(kāi)了懷抱,增強(qiáng)了模型在不同領(lǐng)域的創(chuàng)造性,以及可擴(kuò)展性。

最后,GPT-4的類(lèi)人特質(zhì)與其他模型相比,在模仿類(lèi)人反應(yīng)的能力方面毫無(wú)疑問(wèn)更勝一籌。

對(duì)于某些任務(wù)或活動(dòng)(比如說(shuō)教育、體育、音樂(lè)和藝術(shù)等娛樂(lè)領(lǐng)域)來(lái)說(shuō),人性化地完成任務(wù)可能比返回最佳結(jié)果更重要。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2011-02-22 16:51:49

2011-03-04 15:26:30

2019-08-05 10:32:58

病毒MyDoom

2022-02-09 11:51:42

卡巴斯基Roaming Ma觀察

2023-07-06 14:26:43

2009-10-12 13:12:16

木馬病毒QVOD防范

2012-08-17 17:18:24

數(shù)據(jù)中心萬(wàn)國(guó)數(shù)據(jù)

2010-09-25 15:50:24

2017-05-26 16:01:38

2014-08-27 18:00:18

2012-02-08 10:32:26

ARM服務(wù)器ARM芯片

2017-11-15 13:08:38

2009-08-27 09:59:17

2013-03-19 14:25:36

2009-02-17 09:58:00

2020-02-04 19:26:08

人工智能AI新型冠狀病毒

2022-08-17 10:36:32

Emotet惡意軟件

2013-06-06 15:13:22

2019-02-19 14:31:37

2017-05-14 23:47:36

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)