GPT-4能「?jìng)窝b」成人類(lèi)嗎?圖靈測(cè)試結(jié)果出爐
「機(jī)器能夠思考嗎?」
為了解答這個(gè)問(wèn)題,圖靈設(shè)計(jì)了一個(gè)能間接提供答案的模仿游戲。該游戲的最初設(shè)計(jì)涉及到兩位見(jiàn)證者(witness)和一位審問(wèn)者(interrogator)。兩位見(jiàn)證者一個(gè)是人類(lèi),另一個(gè)是人工智能;他們的目標(biāo)是通過(guò)一個(gè)純文本的交互接口說(shuō)服審問(wèn)者相信他們是人類(lèi)。這個(gè)游戲本質(zhì)上是開(kāi)放性的,因?yàn)閷弳?wèn)者可以提出任何問(wèn)題,不管是關(guān)于浪漫愛(ài)情,抑或是數(shù)學(xué)問(wèn)題。圖靈認(rèn)為這一性質(zhì)能夠?qū)C(jī)器的智能進(jìn)行廣泛的測(cè)試。
后來(lái)這個(gè)游戲被稱(chēng)為圖靈測(cè)試(Turing Test),但人們也在不斷爭(zhēng)論這一測(cè)試究竟測(cè)算的是什么以及哪些系統(tǒng)有能力通過(guò)它。
以 GPT-4 為代表的大型語(yǔ)言模型(LLM)簡(jiǎn)直就像是專(zhuān)為圖靈測(cè)試而生的!它們能生成流暢自然的文本,并且在許多語(yǔ)言相關(guān)的任務(wù)上都已達(dá)到比肩人類(lèi)的水平。實(shí)際上,已經(jīng)有不少人在猜測(cè) GPT-4 也許能夠通過(guò)圖靈測(cè)試了。
近日,加利福尼亞大學(xué)圣迭戈分校的研究者 Cameron Jones 和 Benjamin Bergen 發(fā)布了一份研究報(bào)告,給出了他們對(duì) GPT-4 等 AI 智能體進(jìn)行圖靈測(cè)試的實(shí)證研究結(jié)果。
論文地址:https://arxiv.org/pdf/2310.20216.pdf
但在介紹這份研究的結(jié)果之前,需要說(shuō)明的是,圖靈測(cè)試究竟能否作為衡量智能水平的標(biāo)準(zhǔn)一直以來(lái)都頗具爭(zhēng)議。
但 Jones 和 Bergen 認(rèn)為圖靈測(cè)試還是值得研究的,他們給出了兩點(diǎn)理由:
一、圖靈測(cè)試衡量的是AI 系統(tǒng)能否欺騙對(duì)話(huà)者使之相信它是人類(lèi),這項(xiàng)能力本身是值得評(píng)估的。因?yàn)閯?chuàng)造「?jìng)稳恕箍赡軙?huì)對(duì)社會(huì)產(chǎn)生巨大的影響,包括實(shí)現(xiàn)面向客戶(hù)的工作崗位自動(dòng)化、更低成本更高效地制造虛假信息、使用非對(duì)齊的 AI 模型從事欺詐活動(dòng)、讓人類(lèi)不再相信人與人之間的真實(shí)互動(dòng)。圖靈測(cè)試能讓人穩(wěn)健地跟蹤模型的這種能力隨時(shí)間的變化情況。此外,它還能讓人理解哪些因素有助于欺騙,比如模型大小和性能、prompt 設(shè)計(jì)技術(shù)、輔助性基礎(chǔ)設(shè)施(例如訪(fǎng)問(wèn)實(shí)時(shí)信息的能力)以及審問(wèn)者的經(jīng)驗(yàn)和技能。
二、圖靈測(cè)試能提供一個(gè)幫助研究人類(lèi)和類(lèi)人智能的框架。圖靈測(cè)試不僅僅是評(píng)估機(jī)器;它也會(huì)涉及對(duì)人類(lèi)參與者的文化、道德倫理和心理狀態(tài)的假設(shè)。當(dāng)審問(wèn)者設(shè)計(jì)并完善問(wèn)題時(shí),他們也會(huì)隱含地揭示自己的信念 —— 人類(lèi)有哪些特質(zhì)以及哪些特質(zhì)最難模仿。為此,研究者以定性方式分析了參與者設(shè)計(jì)問(wèn)題的策略和理由依據(jù),以為這些信念提供一個(gè)經(jīng)驗(yàn)性的描述。
Cameron Jones 和 Benjamin Bergen 在 652 位人類(lèi)參與者的幫助下檢驗(yàn)了 GPT-4 模仿人類(lèi)的能力,結(jié)果發(fā)現(xiàn)表現(xiàn)最好的設(shè)置能達(dá)到 41% 的成功率,還不及隨機(jī)亂猜,更不及人類(lèi)水平的 63%,因此可認(rèn)為 GPT-4 未能通過(guò)圖靈測(cè)試。他們還在測(cè)試過(guò)程中得到了一些驚人發(fā)現(xiàn)和有趣推斷,比如誕生于 1966 年的規(guī)則式系統(tǒng) ELIZA 的表現(xiàn)比 GPT-3.5 更好、AI 不犯錯(cuò)或犯錯(cuò)過(guò)多都容易暴露自己。
方法
在具體的圖靈測(cè)試實(shí)驗(yàn)中,研究者采用了雙玩家設(shè)置,即審問(wèn)者對(duì)一位見(jiàn)證者提問(wèn),然后說(shuō)明他認(rèn)為對(duì)方是人類(lèi)還是 AI。
見(jiàn)證者
研究者創(chuàng)建了 25 個(gè) LLM 見(jiàn)證者,它們使用 OpenAI API 響應(yīng)用戶(hù)查詢(xún)。每個(gè) LLM 見(jiàn)證者都包含一個(gè)模型(GPT-3.5 或 GPT-4)、一個(gè)溫度值(0.2、0.5 或 1.0)和一個(gè) prompt。prompt 描述了交互的上下文以及對(duì)于智能體響應(yīng)方式的指令,如圖 2 所示。、
交互界面
研究者將聊天界面設(shè)計(jì)成了一個(gè)聊天軟件的樣子,如圖 1 所示。審問(wèn)者發(fā)送第一條消息,每位用戶(hù)每次只能發(fā)送一條消息。對(duì)話(huà)整體限時(shí) 5 分鐘,每條消息最多 300 個(gè)字符。
流程
參與者是通過(guò)社交媒體在網(wǎng)上招募的。
參與者會(huì)先進(jìn)入一個(gè)在線(xiàn)等候室,然后被隨機(jī)分配與 AI 或另一個(gè)人類(lèi)對(duì)話(huà)。AI 在響應(yīng)時(shí)有一個(gè)等待時(shí)間,具體是最近 5 對(duì)人類(lèi)參與者所用的平均等待時(shí)間,以防止審問(wèn)者將等待時(shí)間視為一個(gè)評(píng)估指標(biāo)。
當(dāng)隨機(jī)配對(duì)的是兩個(gè)人類(lèi)時(shí),則隨機(jī)分配審問(wèn)者和見(jiàn)證者角色。見(jiàn)證者得到的指令是說(shuō)服審問(wèn)者相信他們是人類(lèi)。當(dāng)人類(lèi)與 AI 匹配時(shí),則人類(lèi)必定是審問(wèn)者。
AI 模型的選取使用了「探索 / 利用」策略。對(duì)于每個(gè)模型,都從以下分布中選取一個(gè)樣本:
其中 N 是模型數(shù)量,α 和 β 分別是模型在游戲過(guò)程中的勝負(fù)次數(shù)并依照審問(wèn)者對(duì)每個(gè)判定結(jié)果的信心度加權(quán)。最后選擇得到了最高樣本值的模型。
結(jié)果
實(shí)驗(yàn)共有 652 位參與者參加,總共完成了 1810 場(chǎng)游戲。其中 389 場(chǎng)游戲被移出最終結(jié)果,因?yàn)檫@些場(chǎng)之前審問(wèn)者已經(jīng)連續(xù)三次與 AI 對(duì)話(huà)了,這種情況說(shuō)明此時(shí)只有一個(gè)人類(lèi)在線(xiàn)。用戶(hù)反饋表明,這種情況會(huì)導(dǎo)致審問(wèn)者產(chǎn)生一個(gè)先驗(yàn)信念 —— 相信見(jiàn)證者不是人類(lèi)。另外還有 11 場(chǎng)游戲被移除的原因是審問(wèn)者表示他們私下認(rèn)識(shí)對(duì)話(huà)的人類(lèi)見(jiàn)證者。
最終結(jié)果基于剩余的 1405 場(chǎng)游戲,其中 260 場(chǎng)有人類(lèi)見(jiàn)證者參與。
51% 的參與者只玩了一場(chǎng)游戲,91% 的參與者少于 4 場(chǎng)。
游戲平均時(shí)長(zhǎng)為 187 秒(σ = 95.3),平均消息數(shù)為 8(σ = 5.16),平均詞數(shù)為 320(σ = 210)。
下圖展示了一些游戲示例:
成功率
成功率(SR)的定義是審問(wèn)者認(rèn)為一個(gè)見(jiàn)證者是人類(lèi)(即見(jiàn)證者成功)的游戲場(chǎng)數(shù)的比例。人類(lèi)見(jiàn)證者的表現(xiàn)最好,成功率為 63%(見(jiàn)圖 4)。
表現(xiàn)最好的 GPT-4 prompt(Sierra)的成功率為 41%,也有其它幾個(gè)表現(xiàn)相近的 GPT-4 prompt(November 為 40%,Papa 為 36%)。但是,從圖中也可看出,不同 prompt 的表現(xiàn)差異很大。
GPT-3.5 的成功率只有 5% (Victor) 到 14% (Juliet)。而 1966 年誕生的基于規(guī)則的 ELIZA 反倒實(shí)現(xiàn)了 27% 的成功率,甚至超過(guò)一些 GPT-4 prompt。
不過(guò)需要注意的是,由于整體游戲場(chǎng)數(shù)較少,某些 prompt 被調(diào)用的次數(shù)還格外少,比如 Victor (GPT-3.5) 僅被采樣了 21 次(見(jiàn)表 1),因此成功率結(jié)果并不非??煽?。
審問(wèn)者的人口學(xué)信息
我們知道人口學(xué)因素(比如年齡、性別和教育水平)會(huì)對(duì)人機(jī)交互產(chǎn)生影響,而研究者也測(cè)試了是否可通過(guò)這些因素來(lái)預(yù)測(cè)審問(wèn)者的辨別能力。
但他們表示并未發(fā)現(xiàn)這些因素對(duì)準(zhǔn)確度有明顯影響。這里的準(zhǔn)確度是指審問(wèn)者正確猜出對(duì)方是人類(lèi)或 AI 的比例,見(jiàn)圖 6。
策略
研究者基于 300 場(chǎng)游戲樣本,對(duì)審問(wèn)者采用的策略進(jìn)行了分類(lèi)。
圖 7 給出了被使用最多的 20 種策略。其中最常見(jiàn)的策略是閑聊(27%),也就是問(wèn)見(jiàn)證者的日常生活和個(gè)人細(xì)節(jié)。
研究者分析了不同策略的有效性,給出了使用不同策略時(shí)的平均準(zhǔn)確度(見(jiàn)圖 8),可以看到,最可能成功的策略是讓見(jiàn)證者說(shuō)外語(yǔ)、詢(xún)問(wèn)時(shí)間或時(shí)事以及直接詢(xún)問(wèn)對(duì)方是不是 AI 或宣稱(chēng)對(duì)方是 AI。
判斷的理由或依據(jù)
一些參與者提供了判斷的理由或依據(jù),研究者將它們分成了 6 大類(lèi)別:語(yǔ)言風(fēng)格、社交和情感、知識(shí)和內(nèi)容、情境感知能力、元信息(模型控制范圍外的游戲方面)、無(wú)信息(模糊或不相關(guān)的原因)。圖 10 給出了審問(wèn)者判斷時(shí)最常采用的 20 個(gè)理由。
討論
GPT-4 通過(guò)了圖靈測(cè)試嗎?
這里的結(jié)果表明,一些 GPT-4 見(jiàn)證者滿(mǎn)足圖靈設(shè)定的標(biāo)準(zhǔn),即 30% 的時(shí)間騙過(guò)審問(wèn)者,使其判斷錯(cuò)誤。但是,以 30% 為標(biāo)準(zhǔn)斷言成功恐怕并不合適。更常用的基準(zhǔn)應(yīng)該是 50%。這可以表明審問(wèn)者在一般情況下無(wú)法區(qū)分 AI 模型和人類(lèi)。但這一基準(zhǔn)也有個(gè)缺陷:隨機(jī)亂猜也能達(dá)到 50% 的成功率。
研究者表示,如果要更嚴(yán)格的測(cè)試,那么至少應(yīng)該要求 AI 見(jiàn)證者被認(rèn)為是人類(lèi)的頻率與人類(lèi)見(jiàn)證者被認(rèn)為是人類(lèi)的頻率一樣高。也就是說(shuō) AI 見(jiàn)證者在圖靈測(cè)試中的表現(xiàn)應(yīng)當(dāng)與人類(lèi)一樣好。但研究者又討論說(shuō)這種比較可能對(duì) AI 來(lái)說(shuō)并不公平,因?yàn)?AI 必須欺騙審問(wèn)者,而人類(lèi)只需說(shuō)實(shí)話(huà)即可。
更保守的方案是要求 AI 系統(tǒng)的表現(xiàn)顯著超過(guò)隨機(jī)亂猜或人類(lèi)基準(zhǔn)。從理論上講,這個(gè)標(biāo)準(zhǔn)高得沒(méi)有必要。而從實(shí)踐角度看,用頻率統(tǒng)計(jì)來(lái)展示圖靈測(cè)試結(jié)果可能是最簡(jiǎn)單的方法。
這里測(cè)試的所有 AI 見(jiàn)證者都沒(méi)達(dá)到 50% 的成功率,更不及人類(lèi)水平(63%)了。因此,對(duì)于這里使用的 prompt,可以判定 GPT-4 沒(méi)能通過(guò)圖靈測(cè)試。
GPT-4 能通過(guò)圖靈測(cè)試嗎?
從圖 4 可以看到,不同 prompt 得到的結(jié)果的差異很大。
研究者猜想:考慮到實(shí)驗(yàn)中探索的 prompt 有限,也許存在某個(gè) prompt 能使 GPT-4 的成功率超過(guò) 50% 或人類(lèi)基準(zhǔn)。此外,一些輔助審問(wèn)者判斷見(jiàn)證者是 AI 的理由依據(jù)實(shí)際上很容易改正和解決,比如給出的信息過(guò)于充分、使用重復(fù)性的句子結(jié)構(gòu)以及回避禁忌話(huà)題。
不過(guò),prompt 工程設(shè)計(jì)的難度可不小。研究者談到了自己的經(jīng)驗(yàn):在設(shè)計(jì)這些 prompt 時(shí),為了解決一個(gè)問(wèn)題所做的改變往往會(huì)引入新的指示因素,說(shuō)明該系統(tǒng)不是人類(lèi)。
其中表現(xiàn)最好的一些能達(dá)到 40% 左右的成功率。這一數(shù)值與另一項(xiàng)研究報(bào)告《Human or Not? A Gamified Approach to the Turing Test》的結(jié)果相近,因此可以認(rèn)為這能代表當(dāng)前 LLM 的能力。
訊問(wèn)者人口學(xué)信息
令人驚訝的是,這里收集的人口學(xué)統(tǒng)計(jì)數(shù)據(jù)(包括與聊天機(jī)器人互動(dòng)的頻率、有關(guān) LLM 的知識(shí)水平和所玩游戲的場(chǎng)數(shù))對(duì)審問(wèn)者的準(zhǔn)確度沒(méi)有任何顯著影響。這說(shuō)明與 LLM 的交互經(jīng)驗(yàn)可能無(wú)助于區(qū)分 LLM 和人類(lèi)。
對(duì)此,研究者給出了可能的解釋?zhuān)核麄冊(cè)谠O(shè)計(jì) prompt 時(shí)為了使 LLM 給出的答案接近人類(lèi)的答案,在冗長(zhǎng)性、正式性、是否禮貌、拼寫(xiě)和語(yǔ)法錯(cuò)誤方面都有專(zhuān)門(mén)設(shè)計(jì)。要是參與者原本很熟悉 LLM 的典型互動(dòng)模式,可能會(huì)對(duì)這些聊天機(jī)器人給出的結(jié)果感到驚訝,因此之前的經(jīng)驗(yàn)在這里就用不上了。
另一個(gè)可能的解釋是選擇性偏差。由于參與者是通過(guò)社交媒體招募的,因此占大多數(shù)的是 20-30 歲、接受過(guò)研究生教育且對(duì) LLM 感興趣的男性。
ELIZA 效應(yīng)
ELIZA 相對(duì)的成功也出乎了研究者的意料,畢竟這個(gè)聊天機(jī)器人采用的是基于規(guī)則的技術(shù),并且誕生于 1966 年。ELIZA 組合使用了模式匹配和替換,可以根據(jù)從用戶(hù)輸入中提取的關(guān)鍵內(nèi)容和模板生成響應(yīng)。
盡管如此,ELIZA 卻在 27% 的游戲中騙過(guò)了人類(lèi)審問(wèn)者,超過(guò)了一些 GPT-4 見(jiàn)證者和所有 GPT-3.5 見(jiàn)證者。
這樣的結(jié)果可以佐證:圖靈測(cè)試確實(shí)不能精準(zhǔn)地衡量智能水平。
策略
審問(wèn)者采用了大量不同策略來(lái)辨別 AI 模型,這展現(xiàn)了圖靈測(cè)試作為一種交互式評(píng)估方法的靈活性。很多參與者采用的策略是閑聊,但 AI 模型其實(shí)非常擅長(zhǎng)模仿這些典型類(lèi)型的人類(lèi)對(duì)話(huà),因此閑聊并不是一個(gè)很有效的策略。
最有效的策略是使用外語(yǔ),因?yàn)閷弳?wèn)者會(huì)假定如果回答很專(zhuān)業(yè),那就更可能是來(lái)自多語(yǔ)言語(yǔ)言模型。另一個(gè)有效的策略是詢(xún)問(wèn)當(dāng)前的時(shí)間和發(fā)生的事件。盡管 prompt 中包含 UTC 標(biāo)準(zhǔn)的時(shí)間戳,但模型往往在轉(zhuǎn)換時(shí)區(qū)時(shí)出錯(cuò)。
許多審問(wèn)者會(huì)直接問(wèn)對(duì)方是不是 AI。雖然 AI 會(huì)給出否定答案,但這個(gè)策略卻相當(dāng)有效。因?yàn)?AI 模型在說(shuō)服審問(wèn)者相信它們是人類(lèi)時(shí)往往會(huì)「用力過(guò)猛」,而人類(lèi)通常會(huì)給出隨意即興的回答。
判斷的理由或依據(jù)
審問(wèn)者在做出正確判斷時(shí)所給出的理由中往往有語(yǔ)言風(fēng)格一項(xiàng)。因?yàn)楸M管 LLM 的訓(xùn)練語(yǔ)料中包含大量不同風(fēng)格的文本,但生成與語(yǔ)境風(fēng)格一致的內(nèi)容還依然是一大難題。審問(wèn)者會(huì)發(fā)現(xiàn) AI 模型生成的結(jié)果要么過(guò)于正式,要么就過(guò)于不正式;語(yǔ)法要么太好,要么就糟糕得不真實(shí);要么過(guò)于冗長(zhǎng),要么就過(guò)于簡(jiǎn)練。
這可能表明:1)在這種相當(dāng)不尋常的語(yǔ)境中,適當(dāng)?shù)娘L(fēng)格其實(shí)很微妙;2)不同的審問(wèn)者對(duì)風(fēng)格有不同的預(yù)期:沒(méi)有一種風(fēng)格能夠說(shuō)服每個(gè)審問(wèn)者。
第二個(gè)最常見(jiàn)的原因類(lèi)別是社交和情感。LLM 學(xué)習(xí)的是生成完備的響應(yīng),并且經(jīng)過(guò)微調(diào)以避免生成自相矛盾的結(jié)果。這些過(guò)程可能會(huì)鼓勵(lì)模型生成一般化的典型響應(yīng),但也因此缺乏個(gè)性,這也算是一種生態(tài)謬誤(ecological fallacy)。
值得注意的是,很少有原因與見(jiàn)證者的知識(shí)或推理能力有關(guān),這進(jìn)一步證明經(jīng)典意義上的智能不足以通過(guò)圖靈測(cè)試。判斷理由的分布還說(shuō)明現(xiàn)在的 LLM 模型已經(jīng)足夠智能了,因此社會(huì) - 感情和語(yǔ)言風(fēng)格才成為了審問(wèn)者更看重的因素。當(dāng)然也可能是因?yàn)檫@些線(xiàn)索一般來(lái)說(shuō)可能更明顯,因此對(duì)于尚未掌握這些能力的模型,可以將這些線(xiàn)索用作判斷理由。
結(jié)論
人們普遍認(rèn)為圖靈測(cè)試并非是一種完美的衡量智能的方法:要么太容易,要么太困難。Cameron Jones 和 Benjamin Bergen 在這個(gè)實(shí)證研究中找到了分別支持這兩種觀(guān)點(diǎn)的證據(jù)。
最終,他們認(rèn)為 GPT-4 沒(méi)能通過(guò)圖靈測(cè)試。
盡管如此,41% 的成功率也表明使用 AI 模型來(lái)進(jìn)行欺詐已經(jīng)有可能實(shí)現(xiàn),尤其是當(dāng)人類(lèi)對(duì)話(huà)者沒(méi)有提防對(duì)方可能并非人類(lèi)時(shí)。
如果 AI 模型能夠穩(wěn)健地假裝成人類(lèi),可能會(huì)造成廣泛的社會(huì)和經(jīng)濟(jì)后果。隨著 AI 模型能力日益增強(qiáng),識(shí)別導(dǎo)致欺騙成功的因素并找到應(yīng)對(duì)策略也會(huì)變得越來(lái)越重要。