反向和錯(cuò)位圖靈測(cè)試:GPT-4比人類(lèi)更「人性化」!
由AI生成的內(nèi)容漸漸充斥了互聯(lián)網(wǎng)。
現(xiàn)在的人們比起直接與AI進(jìn)行對(duì)話(huà),更多的是在閱讀和瀏覽AI生成的文本。
而經(jīng)典的圖靈測(cè)試賦予了評(píng)判者一個(gè)關(guān)鍵優(yōu)勢(shì):他們可以實(shí)時(shí)調(diào)整問(wèn)題,以對(duì)參與者進(jìn)行對(duì)抗性測(cè)試。
但這在被動(dòng)消費(fèi)AI生成文本時(shí)并不總是存在。
因此,來(lái)自加州大學(xué)圣地亞哥分校的研究者提出,我們需要在更接近現(xiàn)實(shí)的環(huán)境中,開(kāi)展圖靈測(cè)試的變體,以確定人們?cè)诂F(xiàn)實(shí)場(chǎng)景中區(qū)分人類(lèi)和AI的效果。
圖片
論文地址:https://arxiv.org/pdf/2407.08853
并進(jìn)一步理清以下問(wèn)題:
人類(lèi)是否能夠僅通過(guò)觀察對(duì)話(huà)來(lái)可靠地區(qū)分人類(lèi)與AI?
LLM是否可以作為AI檢測(cè)器,不僅適用于靜態(tài)文本(如文章和段落),還適用于動(dòng)態(tài)對(duì)話(huà)?
錯(cuò)位圖靈測(cè)試會(huì)提高還是降低準(zhǔn)確性?
反向圖靈測(cè)試能否揭示人工系統(tǒng)中的樸素心理學(xué)?
以及在現(xiàn)實(shí)世界的對(duì)話(huà)環(huán)境中,哪些方法最適合進(jìn)行AI檢測(cè)?
這項(xiàng)研究將通過(guò)兩種圖靈測(cè)試的變體——「反向圖靈測(cè)試」(inverted Turing test)和「錯(cuò)位圖靈測(cè)試」(displaced Turing test),來(lái)測(cè)量人類(lèi)和大語(yǔ)言模型在這種區(qū)分上的表現(xiàn)。
其中,GPT-3.5、GPT-4,以及作為評(píng)判者的人類(lèi)基于圖靈測(cè)試的對(duì)話(huà)記錄判斷參與者是人類(lèi)還是AI。
經(jīng)典圖靈測(cè)試與其系列變體
經(jīng)典圖靈測(cè)試
在經(jīng)典的圖靈測(cè)試中,一位人類(lèi)評(píng)判者與兩位參與者進(jìn)行純文本對(duì)話(huà),其中一位是人類(lèi),另一位是機(jī)器。
如果評(píng)判者無(wú)法準(zhǔn)確區(qū)分人類(lèi)和計(jì)算機(jī),那么計(jì)算機(jī)就通過(guò)了測(cè)試,可被視為智能體。
自圖靈的原始論文發(fā)表以來(lái),圖靈測(cè)試掀起了激烈的辯論,對(duì)現(xiàn)代智能概念的理解和構(gòu)建起到了關(guān)鍵作用。
但另一方面,它作為智能測(cè)試的有效性或充分性也受到了廣泛質(zhì)疑。
可不論其作為智能測(cè)試的有效性如何,圖靈測(cè)試仍然是評(píng)估人類(lèi)和AI寫(xiě)作相似性的重要手段,也是研究AI欺騙行為的有力工具。
多年來(lái),已有多個(gè)通過(guò)圖靈測(cè)試的嘗試,包括1990年至2020年間的Loebner獎(jiǎng)競(jìng)賽,但沒(méi)有任何系統(tǒng)通過(guò)該測(cè)試。
「HumanorNot」是一個(gè)大規(guī)模的社會(huì)圖靈測(cè)試實(shí)驗(yàn),發(fā)現(xiàn)評(píng)判者的準(zhǔn)確率為60%;2024年的一項(xiàng)研究報(bào)告了第一個(gè)通過(guò)率與隨機(jī)水平(54%)無(wú)統(tǒng)計(jì)學(xué)差異但仍低于人類(lèi)標(biāo)準(zhǔn)(67%)的系統(tǒng)。
圖靈測(cè)試存在多種變體,每種變體都為理論和實(shí)踐提供了不同的視角。
反向圖靈測(cè)試(Inverted TuringTest)
反向圖靈測(cè)試,即讓AI系統(tǒng)擔(dān)任評(píng)判者的角色。
1996年,Watt提出了反向測(cè)試作為一種「樸素心理學(xué)」的測(cè)量方法,即人類(lèi)天生具有識(shí)別與自身相似的智能并將其歸因于其他心智的傾向。
如果AI系統(tǒng)「無(wú)法區(qū)分兩個(gè)真人,或無(wú)法區(qū)分一位人類(lèi)和一臺(tái)通過(guò)正常圖靈測(cè)試的機(jī)器,但能夠區(qū)分一位人類(lèi)和一臺(tái)在有真人觀察者的正常圖靈測(cè)試中可以分辨出來(lái)的機(jī)器」,則該測(cè)試通過(guò)。
Watt認(rèn)為,通過(guò)讓AI充當(dāng)觀察者角色,并將其對(duì)不同參與者的判斷與人類(lèi)的準(zhǔn)確性進(jìn)行比較,可以揭示AI是否具有人類(lèi)類(lèi)似的樸素心理學(xué)。
錯(cuò)位圖靈測(cè)試(Displaced TuringTest)
錯(cuò)位圖靈測(cè)試,即讓評(píng)判者閱讀由另一位人類(lèi)或AI評(píng)判者先前進(jìn)行的互動(dòng)圖靈測(cè)試的對(duì)話(huà)記錄,從而評(píng)估AI的表現(xiàn)。
新的評(píng)判者被描述為「錯(cuò)位」的,因?yàn)樗麄儭钢蒙硎峦狻?,未曾參與和AI的互動(dòng)。
這是一種新的靜態(tài)圖靈測(cè)試,因?yàn)榕袛嗷陬A(yù)先存在且不變的、由人類(lèi)或AI生成的內(nèi)容。
其次,在傳統(tǒng)圖靈測(cè)試中,互動(dòng)評(píng)判者可以提出動(dòng)態(tài)、靈活且對(duì)抗性的問(wèn)題,而靜態(tài)圖靈測(cè)試中的評(píng)判者只能基于對(duì)話(huà)內(nèi)容進(jìn)行判斷,無(wú)法通過(guò)互動(dòng)來(lái)深入探討最有效的問(wèn)詢(xún)方向。
靜態(tài)測(cè)試在評(píng)估模型能力時(shí)有一定局限性,但它們很可能反映了現(xiàn)實(shí)世界中的常見(jiàn)情況,因?yàn)樵S多互動(dòng)是由更廣泛的觀眾閱讀的,而不僅僅是直接的對(duì)話(huà)當(dāng)事人。
統(tǒng)計(jì)方法檢測(cè)AI生成內(nèi)容
目前存在多種統(tǒng)計(jì)方法來(lái)檢測(cè)AI生成的內(nèi)容。這些方法主要基于大語(yǔ)言模型(LLM)通過(guò)對(duì)詞語(yǔ)的概率分布進(jìn)行采樣生成內(nèi)容的原理:
這可能會(huì)留下特定的概率特征,例如LLM生成的內(nèi)容在統(tǒng)計(jì)概率上比人類(lèi)生成的內(nèi)容更可能出現(xiàn)。
2023年,Mitchell等人開(kāi)發(fā)了一種相關(guān)指標(biāo)「曲率」,它通過(guò)使用掩碼語(yǔ)言模型生成的小擾動(dòng)來(lái)衡量一段文本的局部最優(yōu)性,LLM生成的內(nèi)容相對(duì)于附近的擾動(dòng)更可能是最優(yōu)的。
2024年,Mireshghallah等人發(fā)現(xiàn),較小的LLM往往是更好的檢測(cè)模型,其中具有125m參數(shù)的OPT模型在檢測(cè)AI生成內(nèi)容時(shí)表現(xiàn)最佳,在檢測(cè)GPT-4內(nèi)容時(shí)達(dá)到了90%的準(zhǔn)確率。
基于這些方法和其他文本分類(lèi)計(jì)算方法,已經(jīng)開(kāi)發(fā)了各種商業(yè)工具。研究在不同環(huán)境中評(píng)估了這些方法的有效性,結(jié)果不一:雖然在某些領(lǐng)域中準(zhǔn)確性較高,但模型往往不可靠,可能會(huì)產(chǎn)生誤報(bào)。
反向圖靈測(cè)試
在反向圖靈測(cè)試中,GPT-3.5和GPT-4扮演裁定者的角色,評(píng)估先前圖靈測(cè)試的文字記錄以判斷參與者是人類(lèi)還是AI。
研究設(shè)定了五個(gè)假設(shè):
1.GPT-4的準(zhǔn)確率是否顯著高于或低于人類(lèi)的準(zhǔn)確率。
2.GPT-4是否也難以準(zhǔn)確識(shí)別參與者。
3.模型是否更傾向于將真人類(lèi)判斷為人類(lèi),而非將最佳的GPT-4參與者判斷為人類(lèi)。
4.GPT-4作為裁定者在較長(zhǎng)的文字記錄中是否會(huì)表現(xiàn)出更高的準(zhǔn)確率。
5.GPT-4作為裁定者的準(zhǔn)確率是否高于GPT-3.5。
探討了這兩個(gè)模型的識(shí)別準(zhǔn)確性,以及對(duì)話(huà)長(zhǎng)度和模型質(zhì)量對(duì)判斷的影響、以及大語(yǔ)言模型的質(zhì)量在判斷文字記錄中的作用。
方法
使用Jones和Bergen在2023年的研究中超過(guò)6000次圖靈測(cè)試的文字記錄。
其中,Jones和Bergen研究中的AI參與者基于以下三個(gè)模型:GPT-3.5、GPT-4和ELIZA。
并且,樣本需要平衡人類(lèi)和AI參與者的數(shù)量,以及表現(xiàn)最佳的GPT-4參與者的游戲比例與整個(gè)數(shù)據(jù)集中的比例相同。并確保表現(xiàn)最佳模型的人類(lèi)和人工智能判決分布相同。
模型需判斷參與者的類(lèi)型,并指出其判決的信心程度,同時(shí)提供判斷依據(jù)。
結(jié)果
GPT-4作為裁定者的準(zhǔn)確性顯著低于互動(dòng)人類(lèi)裁定者,尤其是在判斷表現(xiàn)最佳的AI參與者時(shí),準(zhǔn)確率低于隨機(jī)水平。
文字記錄長(zhǎng)度和模型質(zhì)量(GPT-4 vs GPT-3.5)對(duì)準(zhǔn)確性沒(méi)有顯著影響。
討論
在反向圖靈測(cè)試中,兩個(gè)AI系統(tǒng)作為裁定者的準(zhǔn)確性均低于互動(dòng)人類(lèi)評(píng)判者,尤其是在面對(duì)表現(xiàn)最佳的AI參與者時(shí),準(zhǔn)確性更低。
AI參與者的通過(guò)率高于人類(lèi)參與者,這意味著AI裁定者更容易將AI參與者誤判為人類(lèi),同時(shí)將人類(lèi)參與者誤判為AI。
這些結(jié)果表明,當(dāng)前的大語(yǔ)言模型在區(qū)分人類(lèi)和AI生成的內(nèi)容方面表現(xiàn)不佳——即使它們正在評(píng)估由相同大語(yǔ)言模型生成的內(nèi)容。
對(duì)此結(jié)果的一個(gè)可能解釋是,這些系統(tǒng)的輸出受其對(duì)人類(lèi)訓(xùn)練數(shù)據(jù)的表征所驅(qū)動(dòng)。
因此,模型可能缺乏能夠區(qū)分自身輸出與其模仿的訓(xùn)練數(shù)據(jù)之間差異的細(xì)致或上下文敏感的表征。
當(dāng)前的大語(yǔ)言模型不適合作為檢測(cè)對(duì)話(huà)中AI貢獻(xiàn)的有效工具。
錯(cuò)位圖靈測(cè)試
錯(cuò)位圖靈測(cè)試評(píng)估人們?cè)跓o(wú)法直接與AI互動(dòng)環(huán)境中,如閱讀社交媒體對(duì)話(huà)來(lái)識(shí)別AI的準(zhǔn)確性。
在這項(xiàng)測(cè)試中,參與者作為人類(lèi)裁定者,根據(jù)文字記錄樣本判斷參與者是否為人類(lèi)或AI。
研究設(shè)定了與反向圖靈測(cè)試類(lèi)似的一組問(wèn)題。
方法
將相同的500份文字記錄樣本展示給加州大學(xué)圣迭戈分校的學(xué)生(共109人,其中84名女性,年齡范圍為19至31歲),每位參與者隨機(jī)接收到50份文字記錄的子集。
每份記錄平均由10名參與者進(jìn)行判斷。
參與者需要為每份記錄指出他們的信心水平和判斷依據(jù)。并通過(guò)使用R語(yǔ)言中的lmertest包擬合線(xiàn)性混合效應(yīng)模型。
結(jié)果
錯(cuò)位人類(lèi)裁定者的識(shí)別準(zhǔn)確性低于互動(dòng)的人類(lèi)裁定者,尤其是在識(shí)別基于GPT的AI模型時(shí)。
圖片
長(zhǎng)度較短的文字記錄似乎對(duì)裁定者更有幫助。
討論
錯(cuò)位環(huán)境增加了識(shí)別大語(yǔ)言模型AI的挑戰(zhàn),阻止了參與者進(jìn)行對(duì)抗性詢(xún)問(wèn)或觀察參與者的響應(yīng)時(shí)間,可能導(dǎo)致他們做出更快的決策或投入較少的精力。
在現(xiàn)實(shí)場(chǎng)景中,當(dāng)人類(lèi)裁定者無(wú)法直接審問(wèn)文本內(nèi)容的來(lái)源時(shí),這些結(jié)果表明人們可能難以可靠地區(qū)分人類(lèi)和AI生成的內(nèi)容。
與反向圖靈測(cè)試類(lèi)似,表現(xiàn)最佳的GPT-4參與者的通過(guò)率高于人類(lèi)參與者。
這表明,在閱讀人類(lèi)與AI模型之間的在線(xiàn)對(duì)話(huà)時(shí),AI系統(tǒng)可能更容易被判斷為人類(lèi),而真正的人類(lèi)反而不易被識(shí)別。
另外,文字記錄長(zhǎng)度對(duì)準(zhǔn)確性的負(fù)面影響似乎違反直覺(jué):為什么較少的信息反而對(duì)裁定者更有幫助?
事實(shí)上,這種反?,F(xiàn)象可能是由于次要混雜因素導(dǎo)致的,特別是在文字記錄長(zhǎng)度的確定方式上。
在原始研究中,裁定者可以選擇提前結(jié)束對(duì)話(huà),當(dāng)他們確信自己在與人類(lèi)或AI交流時(shí),可能會(huì)這么做。
因此,較短的文字記錄更可能包含對(duì)互動(dòng)裁定者特別有幫助的信息,也可能同樣幫助了錯(cuò)位裁定者。
結(jié)果分析
語(yǔ)境分析
錯(cuò)位人類(lèi)實(shí)驗(yàn)與反向?qū)嶒?yàn)之間的一個(gè)關(guān)鍵區(qū)別在于,人類(lèi)裁定者是連續(xù)完成 50 份文字記錄的,而大語(yǔ)言模型裁定者則是逐個(gè)呈現(xiàn)每份記錄。
研究發(fā)現(xiàn),連續(xù)處理文本記錄的方式可能幫助人類(lèi)裁定者更好地掌握文本記錄的整體趨勢(shì),并識(shí)別重復(fù)出現(xiàn)的AI參與者的特征,從而逐漸提高判斷的準(zhǔn)確性。
為了測(cè)試是否連續(xù)呈現(xiàn)記錄也能提高AI裁定者的表現(xiàn),研究人員進(jìn)行了類(lèi)似的實(shí)驗(yàn),連續(xù)向GPT-4展示文本記錄。
結(jié)果顯示,通過(guò)這種方式,GPT-4的準(zhǔn)確率從36.4%提高到58%,接近人類(lèi)裁定者的表現(xiàn)。
此外,當(dāng)詢(xún)問(wèn)GPT-4其判斷策略時(shí),GPT-4表示其策略由單純檢查語(yǔ)法逐漸轉(zhuǎn)向評(píng)估對(duì)話(huà)的一致性、幽默和情感差異、長(zhǎng)期上下文關(guān)聯(lián)等復(fù)雜因素,顯示了其在識(shí)別真實(shí)人類(lèi)對(duì)話(huà)時(shí)的進(jìn)步。
這表明連續(xù)的文本呈現(xiàn)可以增強(qiáng)裁定者,無(wú)論是人還是AI,對(duì)文本特征的理解和識(shí)別能力。
原因分析
為了評(píng)估不同裁定者在評(píng)判文本記錄是由人還是AI生成時(shí)依賴(lài)的決策理由,研究使用了GPT-4o模型,根據(jù)一種預(yù)設(shè)的分類(lèi)方案來(lái)分析裁定者的判斷理由。
這個(gè)方案由Jones和Bergen提供,旨在捕捉和分類(lèi)裁定者為其決策提供的具體理由。
研究結(jié)果顯示,無(wú)論是AI裁定者還是人類(lèi)裁定者,他們引用的理由類(lèi)型有很大的相似性。
圖片
在判斷對(duì)話(huà)來(lái)自AI時(shí),最常見(jiàn)的理由是對(duì)話(huà)內(nèi)容顯得「不自然」。
AI裁定者在判斷時(shí),更多地關(guān)注對(duì)話(huà)者是否展示出人類(lèi)特有的社會(huì)情感特質(zhì),如個(gè)性的缺失。而人類(lèi)裁定者的理由分布則相對(duì)更均衡,涵蓋多個(gè)不同的類(lèi)別。
當(dāng)判斷對(duì)話(huà)來(lái)自人類(lèi)時(shí),三種裁定者通常都會(huì)指出對(duì)話(huà)中的合理回應(yīng)和非正式語(yǔ)氣,同時(shí)也會(huì)關(guān)注社會(huì)情感因素和語(yǔ)言風(fēng)格。
這表明,不論裁定者是人還是AI,在進(jìn)行決策時(shí),他們都傾向于強(qiáng)調(diào)對(duì)話(huà)中的相似特征,這些特征幫助他們區(qū)分人類(lèi)和AI生成的內(nèi)容。
統(tǒng)計(jì)人工智能檢測(cè)方法
為了研究利用統(tǒng)計(jì)方法在圖靈測(cè)試中檢測(cè)AI生成的內(nèi)容的有效性,研究使用了Mireshghallah等人提出的兩種主要方法:一種是測(cè)量文字記錄中的平均對(duì)數(shù)似然值,另一種是測(cè)量曲率。
對(duì)數(shù)似然值是指在給定前置詞的情況下,計(jì)算文本內(nèi)容生成的可能性;曲率則是通過(guò)比較文本與其相似內(nèi)容的概率差異來(lái)進(jìn)行評(píng)估。
使用OPT-125m模型進(jìn)行實(shí)驗(yàn),結(jié)果表明,這兩種方法在區(qū)分AI和人類(lèi)生成的文本方面有不同的效果。
對(duì)數(shù)似然方法得出的整體準(zhǔn)確率為62%,而曲率方法的準(zhǔn)確率更高,達(dá)到了69%。
圖片
曲率方法尤其有效,因?yàn)樗芨玫貐^(qū)分人類(lèi)和AI生成的文本,尤其是在處理最新和最高級(jí)的AI模型(如GPT-4)時(shí)。
這些發(fā)現(xiàn)表明,盡管這些統(tǒng)計(jì)方法提供了一種區(qū)分人類(lèi)和AI文本的工具,但在處理最先進(jìn)的AI模型時(shí),它們的可靠性仍有待提高。
未來(lái)的研究需要探討更多的統(tǒng)計(jì)方法,以提高在這種環(huán)境下的檢測(cè)準(zhǔn)確性。
總結(jié)
樸素心理學(xué)
Watt對(duì)通過(guò)反向圖靈測(cè)試的標(biāo)準(zhǔn)是機(jī)器的表現(xiàn)應(yīng)與人類(lèi)評(píng)估者相當(dāng)。
如果人類(lèi)評(píng)估者能夠區(qū)分人類(lèi)和特定的AI,那么AI裁定者也應(yīng)能夠做到。如果人類(lèi)無(wú)法區(qū)分,那么機(jī)器也應(yīng)該失敗。
研究中發(fā)現(xiàn),GPT-4的判斷準(zhǔn)確性與錯(cuò)位人類(lèi)裁定者相當(dāng),兩者的準(zhǔn)確率都在58%左右。
通過(guò)上下文學(xué)習(xí)(ICL),GPT-4的表現(xiàn)甚至提高到與人類(lèi)幾乎一致的水平。
然而,盡管準(zhǔn)確率相似,GPT-4與人類(lèi)裁定者的錯(cuò)誤模式卻不同,這表明兩者在思維和判斷過(guò)程中存在根本差異。
這些發(fā)現(xiàn)支持了Watt的理論,即AI的思維模型與人類(lèi)裁定者的模型存在系統(tǒng)性的差異。
未來(lái)的研究可以通過(guò)增加互動(dòng)性和系統(tǒng)性地修改文本記錄的特征來(lái)進(jìn)一步探討人類(lèi)和AI在思維方式上的不同。
這些研究有助于更好地理解AI在模擬人類(lèi)心理狀態(tài)方面的潛力和局限。
實(shí)際檢測(cè)
實(shí)際檢測(cè)指的是在日常生活中常見(jiàn)的環(huán)境,如社交媒體和論壇,評(píng)估人和AI之間對(duì)話(huà)的真實(shí)性。
這類(lèi)環(huán)境中的圖靈測(cè)試通常是的,因?yàn)橛^察者無(wú)法直接與對(duì)話(huà)者互動(dòng)來(lái)驗(yàn)證他們是否為AI。
研究發(fā)現(xiàn),在這種環(huán)境下,無(wú)論是GPT-4還是人類(lèi)裁定者,在區(qū)分AI和人類(lèi)時(shí)都表現(xiàn)不佳,尤其是面對(duì)表現(xiàn)良好的AI時(shí),這些AI往往能夠比真正的人類(lèi)更成功地偽裝自己。
統(tǒng)計(jì)AI檢測(cè)方法,如分析話(huà)語(yǔ)曲率,顯示出在區(qū)分人類(lèi)和AI生成消息時(shí)的潛力,ROC分析顯示這種方法的準(zhǔn)確率可以達(dá)到69%。
然而,實(shí)際應(yīng)用中的誤報(bào)問(wèn)題可能會(huì)對(duì)真實(shí)用戶(hù)產(chǎn)生不利影響,表明這種方法在實(shí)際場(chǎng)景中的限制。
研究還發(fā)現(xiàn),經(jīng)驗(yàn)的積累可能提高裁定者的判斷準(zhǔn)確性,錯(cuò)位人類(lèi)裁定者和GPT-4在多次判斷后都表現(xiàn)出改進(jìn)的趨勢(shì)。
未來(lái)的研究可以通過(guò)給予參與者反饋來(lái)探索學(xué)習(xí)效果,或者進(jìn)一步探討不同裁定工具之間的相互影響。這些發(fā)現(xiàn)強(qiáng)調(diào)了在實(shí)際環(huán)境中AI檢測(cè)的復(fù)雜性和挑戰(zhàn)。
結(jié)論
在反向圖靈測(cè)試中,GPT-3.5和GPT-4作為AI裁定者,以及錯(cuò)位圖靈測(cè)試中的人類(lèi)裁定者都參與了評(píng)判對(duì)話(huà)中某個(gè)參與者是否為人類(lèi)。
但結(jié)果顯示,無(wú)論是AI裁定者還是錯(cuò)位人類(lèi)裁定者,在被動(dòng)閱讀的情境下,他們的準(zhǔn)確性都低于直接互動(dòng)的原始圖靈測(cè)試中的裁定者。
這表明,在不進(jìn)行主動(dòng)互動(dòng)時(shí),無(wú)論是人類(lèi)還是當(dāng)前的大語(yǔ)言模型都難以區(qū)分二者。
參考資料: