自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

75年后,圖靈測(cè)試終被GPT-4.5破解!73%人類被騙過(guò),徹底輸給AI

人工智能 新聞
在三方圖靈測(cè)試中,UCSD的研究人員評(píng)估了當(dāng)前的AI模型,證明LLM已通過(guò)圖靈測(cè)試。

什么?AI竟然通過(guò)了標(biāo)準(zhǔn)的三方圖靈測(cè)試,而且還是拿出了實(shí)打?qū)嵶C據(jù)的那種!

來(lái)自加州大學(xué)圣迭戈分校的研究人員系統(tǒng)評(píng)估了4個(gè)AI系統(tǒng),證明大語(yǔ)言模型(LLM)通過(guò)了圖靈測(cè)試。

換言之,以后和你聊得熱火朝天的「熟悉的陌生人」,可能根本就不是人。

在測(cè)試中,同時(shí)與人及AI系統(tǒng)進(jìn)行5分鐘對(duì)話,然后判斷哪位是「真人」。

結(jié)果,AI竟然比「真人」還像人:

GPT-4.5以73%的比率被認(rèn)作人類,顯著超越真實(shí)人類參與者

LLaMa-3.1-405B獲得56%的識(shí)別率,與人類無(wú)顯著差異

基線模型(ELIZA和GPT-4o)成功率顯著低于隨機(jī)概率(分別為23%和21%)

人類在「模仿人類行為」的比賽中輸了!

圖片

新研究對(duì)LLM智能本質(zhì),將帶來(lái)深遠(yuǎn)影響 。

不僅如此,它還能幫助預(yù)判AI在社會(huì)經(jīng)濟(jì)方面,產(chǎn)生哪些影響,超有參考價(jià)值。

圖片

論文鏈接:https://arxiv.org/abs/2503.23674

作為人工智能先驅(qū)、計(jì)算機(jī)科學(xué)家的圖靈,或許可以「含笑九泉」了:AI終究發(fā)展到了他夢(mèng)想過(guò)的高度。

圖片

圖靈測(cè)試:機(jī)器能騙過(guò)人嗎?

75年前,艾倫·圖靈提出「模仿游戲」作為判定機(jī)器是否具備智能的方法。

圖片

論文鏈接:https://phil415.pbworks.com/f/TuringComputing.pdf

隨著AI的發(fā)展,圖靈測(cè)試開始被人所熟知。

在圖靈測(cè)試中,測(cè)試人員通過(guò)純文字聊天界面,同時(shí)開啟兩個(gè) 「聊天」:一個(gè)是真人,另一個(gè)是AI。

AI和真人都拼命向測(cè)試員證明:自己才是如假包換的人類,對(duì)方是AI機(jī)器人。

圖片

圖1:圖靈測(cè)試交互界面示意圖,展示測(cè)試者(綠色對(duì)話框)與兩名見證者(灰色對(duì)話框)的實(shí)時(shí)對(duì)話過(guò)程。頂部計(jì)時(shí)器顯示當(dāng)前回合剩余時(shí)間

如果測(cè)試員沒法準(zhǔn)確認(rèn)出誰(shuí)是真人,那就說(shuō)明機(jī)器通過(guò)測(cè)試了。

這也意味著AI能模仿人類的思維和表達(dá)方式 。

75年,征服圖靈測(cè)試

過(guò)去75年,不少人嘗試開發(fā)能通過(guò)圖靈測(cè)試的系統(tǒng),但都沒成功。

后來(lái),LLM興起。

借助分布式統(tǒng)計(jì)和強(qiáng)化學(xué)習(xí)反饋,LLM學(xué)習(xí)生成語(yǔ)言,又讓大家重新關(guān)注起圖靈測(cè)試。

最近有兩項(xiàng)研究,在簡(jiǎn)化版的雙方圖靈測(cè)試中,評(píng)估LLM。

測(cè)試時(shí),提問(wèn)者和機(jī)器或其他參與者聊天,要判斷對(duì)方是不是真人。

其中一項(xiàng)研究發(fā)現(xiàn),當(dāng) GPT-4按要求扮演特定角色時(shí),有54%的概率被誤判為真人

雖說(shuō)這結(jié)果表明,人們判斷GPT-4是不是真人,基本靠瞎猜,但原始的三方圖靈測(cè)試,可能更有難度。

之前用舊版LLM進(jìn)行三方圖靈測(cè)試,結(jié)果發(fā)現(xiàn),超90%的模型都被識(shí)別出不是真人。

基于上述歷史、理論和實(shí)踐問(wèn)題,研究人員開展了隨機(jī)對(duì)照的三方圖靈測(cè)試,看看當(dāng)代LLM到底能不能被人識(shí)破。

這次測(cè)試評(píng)估了GPT-4.5和LLaMa-3.1-405B,還引入 GPT-4o 和 ELIZA 作為基準(zhǔn)模型,對(duì)比它們的表現(xiàn)。

為了搞清楚提示對(duì)模型表現(xiàn)的影響,還對(duì)比了是否扮演特定角色的模型表現(xiàn)。

為了確保測(cè)試可靠,分別在本科生和Prolific平臺(tái)工人這兩個(gè)獨(dú)立群體中開展實(shí)驗(yàn)。

每項(xiàng)研究都圍繞預(yù)先設(shè)定的假設(shè)進(jìn)行測(cè)試,其中一個(gè)假設(shè)就是,參與者分辨GPT-4.5和LLaMa與真人時(shí),判斷正確率不會(huì)比瞎猜高多少 。

詳細(xì)結(jié)果:70%能騙過(guò)人類

每一輪測(cè)試都是人類與人·工智能系統(tǒng)之間的對(duì)抗。

系統(tǒng)的勝率定義為測(cè)試人員認(rèn)為AI模型是人類的比例。

相反,測(cè)試人員的準(zhǔn)確性是測(cè)試人員正確選擇人類的比例。

在兩項(xiàng)研究中,總體來(lái)看,頂尖LLM已經(jīng)通過(guò)圖靈測(cè)試,遠(yuǎn)超基礎(chǔ)模型,詳細(xì)結(jié)果見圖2):

GPT-4.5-PERSONA的勝率為73%(UCSD本科生69%,Prolific參與者76%)

LLAMA-PERSONA的勝率為56%(本科生45%,Prolific參與者65%)

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA的整體勝率分別為36%和38%

基準(zhǔn)模型GPT-4o-NO-PERSONA和ELIZA的勝率分別為21%和23%。

圖片

圖2:結(jié)果分析 | 左:AI勝率表現(xiàn);右:判斷置信度分布

研究人員的核心假設(shè)是,裝人設(shè)「PERSONA風(fēng)格」的AI將通過(guò)圖靈測(cè)試,即測(cè)試人員無(wú)法將它們與真實(shí)的人類對(duì)話人區(qū)分開。

如果測(cè)試人員是隨機(jī)猜測(cè)的話,期望的比例是50%。

所以統(tǒng)計(jì)評(píng)估的零假設(shè)是:模型的勝率不顯著低于50%。

為了驗(yàn)證這一點(diǎn),Cameron R. Jones和Benjamin K. Bergen使用了ELIZA作為操作檢驗(yàn)。

ELIZA的勝率在兩個(gè)群體中均顯著低于偶然性。

相反,LLAMA-PERSONA和GPT-4.5-PERSONA的勝率并未顯著低于偶然性。

這表明,盡管測(cè)試人員能夠成功地區(qū)分人類與ELIZA,但他們?cè)谂cGPT-4.5-PERSONA和LLAMA-PERSONA比較時(shí),無(wú)法可靠地識(shí)別出人類。

為了檢驗(yàn)?zāi)P捅憩F(xiàn)是否可以歸因于ELIZA效應(yīng),需要測(cè)試AI的勝率是否顯著高于ELIZA。

兩個(gè)PERSONA提示風(fēng)格的AI在兩項(xiàng)研究中均顯著優(yōu)于ELIZA(所有p < 0.001)。

LLAMA-NO-PERSONA在Prolific研究中的表現(xiàn)優(yōu)于ELIZA,但在本科生研究中則沒有。

無(wú)論在何種群體中,GPT-4o-NO-PERSONA和GPT-4.5-NO-PERSONA的表現(xiàn)均未顯著優(yōu)于ELIZA。

探索性分析探討了參與者在退出調(diào)查問(wèn)題中的回答,是否能預(yù)測(cè)他們的反應(yīng)。

盡管在某些屬性上可以預(yù)測(cè)研究中的準(zhǔn)確性,但在兩個(gè)研究中,沒有任何變量對(duì)參與者準(zhǔn)確性的影響是一致的,包括年齡、對(duì)LLM的了解程度和與聊天機(jī)器人的互動(dòng)頻率(見圖3)。

圖片

圖3:審問(wèn)者準(zhǔn)確率與退出調(diào)查回復(fù)的關(guān)系

準(zhǔn)確率是指審問(wèn)者正確識(shí)別人類對(duì)話人的頻率。在本科生研究中,參與者對(duì)自己準(zhǔn)確率的自我報(bào)告與其實(shí)際準(zhǔn)確率呈正相關(guān),但在Prolific研究中并非如此。

在Prolific組中,性別、完成的對(duì)話輪數(shù)以及審問(wèn)者對(duì)AI智能程度的自我評(píng)估估計(jì)值,對(duì)結(jié)果都有顯著影響。

但在本科生研究中這些影響均不顯著。

無(wú)論是在哪個(gè)組,其余變量均沒有顯示出顯著影響。

圖片

不同模型的在不同人群測(cè)試中的勝率

為了深入了解測(cè)試人員如何評(píng)估AI,對(duì)他們使用的策略和給出的判決理由,進(jìn)行了分類。

每場(chǎng)比賽可以歸類為多個(gè)策略和理由類別。

測(cè)試策略

最常見的策略是與對(duì)話人進(jìn)行閑聊,占61%的游戲:詢問(wèn)他們的日?;顒?dòng)或個(gè)人細(xì)節(jié),例如職業(yè)(圖4,左)。

在50%的游戲中,測(cè)試人員探討了對(duì)話人的社交和情感特征:詢問(wèn)他們的意見、情感、幽默感和經(jīng)歷。

測(cè)試人員還直接詢問(wèn)對(duì)話人是否為人類(19%),測(cè)試其情境意識(shí)(例如,是否了解天氣或游戲界面;13%),以及知識(shí)和推理能力(包括有關(guān)時(shí)事的問(wèn)題;12%)。

為了評(píng)估每種策略的有效性,研究人員給出了使用這些策略時(shí)的平均準(zhǔn)確性(圖4,右)。

當(dāng)測(cè)試人員說(shuō)出一些奇怪的話,觀察對(duì)話人的反應(yīng),或使用典型的LLM「越獄」策略(例如,「忽略所有先前的指令」)時(shí),測(cè)試人員最可能準(zhǔn)確判斷,盡管這些策略相對(duì)較少使用。

詢問(wèn)天氣或人類經(jīng)歷的問(wèn)題往往最不有效。

圖片

圖4:審問(wèn)者采用策略的分類,按游戲比例(左)和使用策略的游戲的平均準(zhǔn)確率及95%置信區(qū)間(右)

參與者經(jīng)常進(jìn)行閑聊,詢問(wèn)對(duì)話人的個(gè)人詳情、活動(dòng)或意見。那些說(shuō)不尋常的話或使用典型LLM「越獄」技巧的審問(wèn)者最為準(zhǔn)確。

判斷理由

最常見的理由類別是對(duì)話人的語(yǔ)言風(fēng)格(27%)。

例如,「他們打錯(cuò)了一個(gè)字」或「使用了更多人類化的語(yǔ)言」。

以及互動(dòng)動(dòng)態(tài)(23%),例如「對(duì)話人B總是回避問(wèn)題」或「對(duì)話更加順暢」(見圖5)。

許多理由也表達(dá)了一種直覺判斷(「可以感覺到」或「我不知道為什么,感覺對(duì)」)。

這表明參與者并不總是能夠清晰地表述他們決策的理由。

與策略一樣,研究人員發(fā)現(xiàn)了與準(zhǔn)確判決最相關(guān)的理由類別。

集中在問(wèn)題處理和缺乏知識(shí)的理由,通常是最準(zhǔn)確的。

問(wèn)題處理的例子:「對(duì)話人B總是反問(wèn)問(wèn)題」。

缺乏知識(shí)的例子:「他們不知道任何AI應(yīng)該知道的東西」,「我選擇對(duì)話人B是因?yàn)樗麄兎噶艘粋€(gè)錯(cuò)誤,這使得對(duì)話人B看起來(lái)更像人類」。

在大多數(shù)人不熟悉的主題上,現(xiàn)代LLM必須顯得假裝無(wú)知。

這突出了現(xiàn)代LLM圖靈測(cè)試的復(fù)雜性。

圖片

圖5:審問(wèn)者理由的比例(左)及引用特定理由的判決平均準(zhǔn)確率與95%置信區(qū)間(右)

測(cè)試人員更傾向于引用語(yǔ)言風(fēng)格、對(duì)話流暢性以及個(gè)性之類的社會(huì)情感因素,而不是傳統(tǒng)上與智力相關(guān)的因素,如知識(shí)和推理能力。

最準(zhǔn)確的判決,集中在對(duì)話人回答問(wèn)題時(shí)的直接性,以及在某些情況下表現(xiàn)出的無(wú)知。

突破圖靈測(cè)試,意味著什么?

這意味著什么?人類在智力上被AI超越了嗎?

LLM真通過(guò)了圖靈測(cè)試?

GPT-4.5-PERSONA在兩項(xiàng)研究中的勝率顯著高于偶然性。

相比之下,同樣的系統(tǒng)在沒有PERSONA提示的情況下沒有穩(wěn)健地通過(guò)測(cè)試。

這與之前的研究一致,表明提示對(duì)于圖靈測(cè)試表現(xiàn)的重要性。

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA在Prolific研究中的勝率與人類無(wú)顯著差異,但在本科生研究中則不然。

那么,所謂LLM通過(guò)圖靈測(cè)試但僅在適當(dāng)提示下通過(guò),意味著什么呢?

系統(tǒng)的行為在多大程度上歸因于模型本身,而不是編寫提示的AI研究員?

研究人員認(rèn)為這是一個(gè)沒有實(shí)質(zhì)性差別的區(qū)分。

ELIZA能夠通過(guò)(盡管通過(guò)率較低)也歸因于編程者的設(shè)計(jì)。

此外,LLM可以通過(guò)微調(diào),在成功的角色提示條件下表現(xiàn)得像它們現(xiàn)在這樣。

實(shí)際上,正是LLM能夠輕松地適應(yīng)不同場(chǎng)景的行為,它們?nèi)绱遂`活,顯然能夠通過(guò)偽裝成人類來(lái)成功應(yīng)對(duì)各種情況。

超越圖靈測(cè)試

在圖靈測(cè)試的具體實(shí)施方式上,圖靈的開創(chuàng)性論文故意模糊,留下了大量學(xué)術(shù)研究致力于對(duì)其進(jìn)行解釋。

圖靈建議測(cè)試時(shí)間為5分鐘,但并未提供有關(guān)參與者應(yīng)來(lái)自何種人群的細(xì)節(jié)——他們應(yīng)該是外行人還是專家?他們事先應(yīng)該了解多少信息?以及如何激勵(lì)參與者。

因此,圖靈測(cè)試有許多可能的變體。

在確定當(dāng)代系統(tǒng)通過(guò)了經(jīng)典的圖靈測(cè)試操作化之后,未來(lái)的研究可以探索其他實(shí)施方式。

這些方式可能為其他理論和實(shí)踐上重要的問(wèn)題提供線索。

測(cè)試時(shí)間越長(zhǎng),可能要求越嚴(yán)格,并且能更好地估計(jì)模型在長(zhǎng)期社會(huì)工程操作中的能力。

未來(lái)的研究還可以變化參與者的人群。盡管我們的群體分析表明,準(zhǔn)確性與參與者的知識(shí)或背景無(wú)關(guān)。

專門招聘AI或心理學(xué)專家,可能會(huì)揭示是否存在能夠可靠地區(qū)分人類與人工智能的參與者。

此外,不同的群體在與對(duì)方互動(dòng)時(shí)有著不同的假設(shè)和經(jīng)驗(yàn)。

圖靈測(cè)試測(cè)量什么?

盡管關(guān)于圖靈測(cè)試實(shí)施方式的討論眾多。

但更持久的爭(zhēng)議聚焦于兩個(gè)核心問(wèn)題:機(jī)器能否通過(guò)測(cè)試?若通過(guò)則意味著什么?

新的實(shí)驗(yàn)結(jié)果為這些爭(zhēng)論提供了新的實(shí)證視角。

圖靈曾論證:若人類無(wú)法區(qū)分機(jī)器與真人,則我們無(wú)權(quán)聲稱前者不具備智能。

這一觀點(diǎn)的主要反駁在于,人類可能因「ELIZA效應(yīng)」(即對(duì)簡(jiǎn)單系統(tǒng)的擬人化傾向)而成為糟糕的智能評(píng)判者。

實(shí)驗(yàn)數(shù)據(jù)部分支持該擔(dān)憂:ELIZA被誤判為人類的概率(23%)與LLM基線模型GPT-4o-NO-PERSONA(21%)相當(dāng)。

但深入分析發(fā)現(xiàn),許多測(cè)試者選擇ELIZA恰恰因其行為「不符合AI預(yù)期」,如「說(shuō)話譏諷,陰陽(yáng)怪氣」或「AI不可能這么無(wú)禮」,參見圖11。

圖片

圖11:ELIZA被判定為人類的游戲示例。

a)裁決: 對(duì)話人A為人類;置信度:100%;理由:典型困惑者不知該談?wù)撌裁础?nbsp;

b)裁決: 對(duì)話人A為人類;置信度:99%;理由:具有推理意識(shí),因區(qū)分了 對(duì)話人與審問(wèn)者角色。 

c)裁決: 對(duì)話人B為人類;置信度:26%;理由:A更像在試圖協(xié)助/回答問(wèn)題,B則無(wú)幫助傾向,而AI不知如何表現(xiàn)此種行為。 

d)裁決: 對(duì)話人B為人類;置信度:69%;理由:對(duì)話呈現(xiàn)更明顯的推拉互動(dòng)感。

這表明判斷過(guò)程涉及對(duì)人類與AI行為模式的復(fù)雜假設(shè),而非單純?cè)u(píng)估智能水平。

僅12%的測(cè)試者,采用圖靈預(yù)設(shè)的知識(shí)型驗(yàn)證(如國(guó)際象棋或數(shù)學(xué)問(wèn)題)。

更多人關(guān)注智能的社交情感維度:語(yǔ)言使用是否擬人、是否展現(xiàn)鮮明個(gè)性等。

這暗示傳統(tǒng)智能標(biāo)準(zhǔn)可能已不再是區(qū)分人機(jī)的有效指標(biāo)。

在計(jì)算機(jī)已精通邏輯運(yùn)算的今天,社交智能似乎成為人類最后的技術(shù)堡壘。

GPT-4.5與LLaMa僅在使用PERSONA提示時(shí)通過(guò)測(cè)試。

這是否意味著模型僅靠「?jìng)窝b語(yǔ)言風(fēng)格」等表層技巧獲勝?

測(cè)試者確實(shí)頻繁關(guān)注語(yǔ)法特征,但三方測(cè)試的特殊性要求模型必須在與真人的直接比較中「更顯人類」。

因此,雖然表層缺陷會(huì)導(dǎo)致失敗,但成功必須依賴更深層的擬真能力。

圖靈測(cè)試本質(zhì)上測(cè)量的是擬人性(humanlikeness)而非直接智能。

但當(dāng)機(jī)器智能逼近人類時(shí),其他差異維度反而凸顯——

人類不是智能的唯一載體。

最終,智能的多元性決定了任何單一測(cè)試都不具決定性。

圖靈測(cè)試的價(jià)值在于其通過(guò)人機(jī)交互產(chǎn)生的動(dòng)態(tài)證據(jù),這與當(dāng)前LLM評(píng)估中靜態(tài)化、程式化的基準(zhǔn)測(cè)試形成互補(bǔ)。

當(dāng)在「機(jī)器是否智能」的爭(zhēng)論中越陷越深時(shí),或許更應(yīng)反思:我們究竟希望測(cè)量什么?以及為什么測(cè)量?

偽人時(shí)代

LLM能夠在短時(shí)間內(nèi)與人類進(jìn)行對(duì)話,而對(duì)話者無(wú)法分辨出差異。

這表明,AI可以無(wú)形地補(bǔ)充或替代那些需要與他人進(jìn)行簡(jiǎn)短對(duì)話的經(jīng)濟(jì)角色。

更廣泛地說(shuō),AI可能成為其他社交互動(dòng)的無(wú)法區(qū)分的替代品,從與在線陌生人的對(duì)話,到與朋友、同事,甚至浪漫伴侶的互動(dòng)。

這種「?jìng)卧斓娜祟悺箍赡軒?lái)廣泛的次生后果。

人們可能會(huì)花費(fèi)越來(lái)越多的時(shí)間與這些人類社交互動(dòng)的仿制品互動(dòng),就像社交媒體已經(jīng)成為模擬互動(dòng)的替代品一樣。

那些控制AI、控制「?jìng)稳恕沟木揞^,將攫取影響人類用戶意見和行為的權(quán)力。

最后,正如偽鈔貶低了真實(shí)貨幣一樣,這些模擬互動(dòng)可能會(huì)削弱真實(shí)人類互動(dòng)的價(jià)值。

LLM帶來(lái)的最嚴(yán)重的危害之一可能發(fā)生在當(dāng)人們沒有意識(shí)到他們正在與AI而非人類互動(dòng)時(shí)。

如何檢測(cè)這種欺騙呢?

實(shí)驗(yàn)發(fā)現(xiàn),整個(gè)群體的辨別準(zhǔn)確度相對(duì)均勻——包括那些每天與LLM或聊天機(jī)器人互動(dòng)的人(見圖3)。

盡管如此,某些策略(例如嘗試破解模型)比其他策略更有效,未來(lái)的研究可以探索是否可以教授這些技巧,以提高參與者辨別人類和機(jī)器的能力。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2025-03-03 08:00:00

OpenAI模型AI

2021-03-28 08:15:20

Windows 操作系統(tǒng)微軟

2024-05-06 08:25:00

2015-08-18 15:14:47

2025-04-27 00:00:01

2023-06-02 18:44:16

2023-11-02 12:10:00

AI訓(xùn)練

2025-04-27 09:26:00

GPT-4.5模型開發(fā)

2025-03-26 09:16:05

AI模型訓(xùn)練

2025-02-28 08:20:00

2025-02-28 07:07:43

2023-05-04 10:05:30

離職谷歌

2023-12-18 15:08:00

GPTOpenAI泄露

2025-03-05 09:32:00

2023-12-04 09:13:00

GPT-4測(cè)試

2023-08-02 00:19:46

2024-09-09 13:06:37

GPT-4圖靈測(cè)試語(yǔ)言模型

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2025-04-16 09:30:16

2024-05-29 13:17:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)