自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用「圖靈測(cè)試」檢驗(yàn)AI尤其是大語(yǔ)言模型,真的科學(xué)嗎?

人工智能 新聞
當(dāng)前的大型語(yǔ)言模型似乎能夠通過(guò)一些公開(kāi)的圖靈測(cè)試。我們?cè)撊绾魏饬克鼈兪欠裣袢艘粯勇斆髂兀?/div>

在發(fā)布后的近兩年時(shí)間里,ChatGPT 表現(xiàn)出了一些非常類(lèi)似人類(lèi)的行為,比如通過(guò)律師資格考試。這讓一些人懷疑,計(jì)算機(jī)的智力水平是否正在接近人類(lèi)。大多數(shù)計(jì)算機(jī)科學(xué)家認(rèn)為,機(jī)器的智力水平還不能與人類(lèi)相提并論,但他們還沒(méi)有就如何衡量智力或具體衡量什么達(dá)成共識(shí)。

檢驗(yàn)機(jī)器智能的經(jīng)典實(shí)驗(yàn)是圖靈測(cè)試,由艾倫?圖靈在其 1950 年發(fā)表的論文《Computing Machinery and Intelligence》中提出。圖靈認(rèn)為,如果計(jì)算機(jī)能讓與之進(jìn)行打字對(duì)話的人相信它是人類(lèi),這可能就是智能的標(biāo)志。大型語(yǔ)言模型(LLM),如 GPT,擅長(zhǎng)像人一樣說(shuō)話,但尚未令人信服地通過(guò)圖靈測(cè)試。

圖片

2023 年,加州大學(xué)圣迭戈分校(UCSD)的研究人員公開(kāi)進(jìn)行了一次圖靈測(cè)試,目的是比較最新的 LLM 與 20 世紀(jì) 60 年代開(kāi)發(fā)的聊天機(jī)器人 Eliza 的表現(xiàn)。在律師資格考試中獲得高分的 GPT-4 表現(xiàn)相當(dāng)出色,在 41% 的游戲中,評(píng)委認(rèn)為它與人類(lèi)無(wú)異。而它的前身 GPT-3.5 只通過(guò)了 14% 的游戲,低于 Eliza 的 27%。人類(lèi)在 63% 的游戲中通過(guò)(被判定為人類(lèi))。

圖片

論文鏈接:https://arxiv.org/pdf/2310.20216v1

負(fù)責(zé)這項(xiàng)實(shí)驗(yàn)的 UCSD 認(rèn)知科學(xué)博士生 Cameron Jones 說(shuō),人類(lèi)得分如此之低并不奇怪。這是因?yàn)橥婕翌A(yù)計(jì)模型會(huì)表現(xiàn)出色,所以他們更容易認(rèn)為人類(lèi)只是一個(gè)聽(tīng)起來(lái)像人類(lèi)的模型。Jones 說(shuō),目前還不清楚聊天機(jī)器人必須達(dá)到多少分才能贏得游戲。

圖靈測(cè)試可用于檢查客服聊天機(jī)器人是否以人們樂(lè)于接受的方式與人互動(dòng),從而展示 Jones 所說(shuō)的靈活的社交智能。不過(guò),它能否識(shí)別出更通用的智能還很難說(shuō)。Jones 說(shuō):「我們對(duì)什么是人類(lèi)的智能還不甚了解。如果我們能更快地通過(guò)模型解決這個(gè)問(wèn)題,我會(huì)感到很驚訝?!?/span>

圣塔菲研究所復(fù)雜性學(xué)教授 Melanie Mitchell 說(shuō):「我認(rèn)為圖靈測(cè)試的整個(gè)概念都被過(guò)于字面化了?!顾J(rèn)為,圖靈提出的「模仿游戲」是一種思考機(jī)器智能可能是什么樣子的方法,而不是一種定義明確的測(cè)試。「人們輕率地使用這個(gè)術(shù)語(yǔ),說(shuō)大型語(yǔ)言模型通過(guò)了圖靈測(cè)試,而事實(shí)上它們并沒(méi)有通過(guò)測(cè)試?!?/span>

新的測(cè)試

不過(guò),如果圖靈測(cè)試不能可靠地評(píng)估機(jī)器智能,那就提出了一個(gè)問(wèn)題:什么方法可以?普林斯頓大學(xué)心理學(xué)家 Philip Johnson-Laird 和德國(guó)開(kāi)姆尼茨工業(yè)大學(xué)預(yù)測(cè)分析學(xué)教授 Marco Ragni 在 2023 年 11 月發(fā)表在《智能計(jì)算》雜志上的一篇論文中提出了一個(gè)不同的測(cè)試方法:他們建議把模型當(dāng)作心理實(shí)驗(yàn)的參與者,看看它能否理解自己的推理過(guò)程。

例如,他們會(huì)向一個(gè)模型提出這樣的問(wèn)題:「如果 Ann 很聰明,那么她是聰明還是富有,或者兩者都是?」雖然根據(jù)邏輯規(guī)則,可以推斷出安是聰明人、富人或兩者都是,但大多數(shù)人類(lèi)都會(huì)拒絕這個(gè)推斷,因?yàn)樵O(shè)定中沒(méi)有任何東西表明她可能是富人。如果模型也拒絕了這一推斷,那么它的行為就和人類(lèi)一樣,研究人員就會(huì)進(jìn)入下一步,要求機(jī)器解釋其推理。如果它給出的理由與人類(lèi)相似,第三步就是檢查源代碼中模擬人類(lèi)表現(xiàn)的組件。

這些組件可能包括一個(gè)快速推理系統(tǒng)、另一個(gè)更深思熟慮的推理系統(tǒng),以及一個(gè)根據(jù)上下文改變 「或」等詞的解釋的系統(tǒng)。研究人員認(rèn)為,如果模型通過(guò)了所有這些測(cè)試,就可以認(rèn)為它模擬了人類(lèi)智能。

英國(guó)考文垂大學(xué)研究機(jī)器智能并進(jìn)行過(guò)圖靈測(cè)試的計(jì)算機(jī)教授 Huma Shah 說(shuō),Johnson-Laird 和 Ragni 的方法可能確實(shí)會(huì)提供一些有趣的見(jiàn)解,但質(zhì)疑一個(gè)模型的推理能力并不是什么新鮮事?!笀D靈測(cè)試允許這種邏輯質(zhì)疑,」她說(shuō)。

Shah 還表示,試圖測(cè)試智力的麻煩在于,這首先取決于人們?nèi)绾味x智力。是模式識(shí)別能力、創(chuàng)新能力,還是創(chuàng)造音樂(lè)或喜劇等創(chuàng)意的能力?「因此,如果我們沒(méi)有就人工智能中的『I』達(dá)成一致,那么我們?cè)趺茨芙⑼ㄓ萌斯ぶ悄埽ˋGI)呢?」

谷歌的軟件工程師和人工智能專(zhuān)家 Francois Chollet 則認(rèn)為圖靈測(cè)試并不是特別有用。他說(shuō),一個(gè)好的測(cè)試應(yīng)該有一個(gè)確切的、形式化的目標(biāo),并且應(yīng)該衡量一個(gè)系統(tǒng)有多接近這個(gè)目標(biāo)。他指出:「圖靈測(cè)試并沒(méi)有做到這些?!?/span>

Chollet 說(shuō),LLM 在圖靈測(cè)試中的表現(xiàn)只能說(shuō)明他們擅長(zhǎng)使用語(yǔ)言,而這種技能完全來(lái)自于對(duì)大量數(shù)據(jù)的記憶。他認(rèn)為,真正的智能并不在于掌握某項(xiàng)技能,而在于把學(xué)到的知識(shí)運(yùn)用到新的、不同的情境中?!窵LM 百分之百都是記憶。他們沒(méi)有智能。他們沒(méi)有適應(yīng)能力。」Chollet 說(shuō)。

在他看來(lái),智力是一種有效獲得新技能的能力,而這些技能是訓(xùn)練過(guò)程中沒(méi)有準(zhǔn)備好的,目的是完成與系統(tǒng)之前所見(jiàn)過(guò)的任務(wù)差異足夠大的任務(wù)。人類(lèi)終其一生都在與世界互動(dòng),本質(zhì)上是在進(jìn)行實(shí)驗(yàn),以便建立一個(gè)反映世界如何運(yùn)行的模型。這樣當(dāng)他們遇到新情況時(shí),就能學(xué)會(huì)如何處理。新技能的范圍越廣,計(jì)算機(jī)就越接近實(shí)現(xiàn)通用人工智能。

Chollet 說(shuō):「如果你能讓學(xué)習(xí)過(guò)程像人類(lèi)大腦一樣高效地處理信息,那么你就擁有了 AGI?!沟侥壳盀橹梗瑱C(jī)器的學(xué)習(xí)效率遠(yuǎn)遠(yuǎn)落后于人腦,大約比人腦低 1 萬(wàn)倍。例如,計(jì)算機(jī)需要數(shù)百萬(wàn)張圖片才能學(xué)會(huì)識(shí)別貓的圖片,而人類(lèi)只需一兩個(gè)例子就能學(xué)會(huì)識(shí)別貓。

為了測(cè)試他定義的智力,Chollet 開(kāi)發(fā)了抽象與推理語(yǔ)料庫(kù)(ARC)。ARC 的挑戰(zhàn)是通過(guò)基本的積木,如形狀或大小等簡(jiǎn)單概念來(lái)完成的。這些積木用于創(chuàng)建任務(wù),如按大小對(duì)物體進(jìn)行分類(lèi)或補(bǔ)全對(duì)稱(chēng)圖案。測(cè)試對(duì)象會(huì)看到三個(gè)示例,他們應(yīng)該能夠識(shí)別目標(biāo)并完成任務(wù)。Chollet 說(shuō),最好的 AI 大約有 30% 的時(shí)間能夠?qū)崿F(xiàn)目標(biāo),而人類(lèi)則有 80% 的時(shí)間能夠做到。

圖片

項(xiàng)目鏈接:https://github.com/fchollet/ARC-AGI

每項(xiàng)任務(wù)都不同于測(cè)試對(duì)象以前見(jiàn)過(guò)的任何任務(wù),因此死記硬背無(wú)濟(jì)于事。他說(shuō):「這是一場(chǎng)無(wú)法練習(xí)的游戲。當(dāng) GPT-4 通過(guò)律師資格考試時(shí),很可能是因?yàn)樗?jiàn)過(guò)足夠多與考試相似的例子,所以它能給出合理的答案,而不需要對(duì)法律有任何內(nèi)在的理解?!?/span>

「這不是一個(gè)完美的測(cè)試。它有很多局限性和缺陷,」Chollet 說(shuō)。例如,任務(wù)中存在足夠多的冗余,在舉出足夠多的例子后,測(cè)試對(duì)象可能會(huì)對(duì)答案做出有根據(jù)的猜測(cè)。不過(guò),他說(shuō),它的基本思想是可靠的。

前面提到的圣塔菲研究所復(fù)雜性學(xué)教授 Melanie Mitchell 認(rèn)為,要想獲得類(lèi)似人類(lèi)的通用智能,就必須有能力完成遠(yuǎn)遠(yuǎn)超出訓(xùn)練數(shù)據(jù)的任務(wù)。她和她的小組提出了 ARC 的修訂版,圍繞基本概念組織任務(wù),例如一物在另一物之上,或一物在另一物之內(nèi)。

ConceptARC 的理念是測(cè)試計(jì)算機(jī)解決方案的穩(wěn)健性,方法是讓計(jì)算機(jī)推導(dǎo)出一個(gè)概念的規(guī)則,然后將該概念應(yīng)用到新任務(wù)中。

圖片

論文鏈接:https://arxiv.org/pdf/2305.07141

例如,她可能會(huì)向人工智能展示一個(gè)網(wǎng)格,在這個(gè)網(wǎng)格中,黃色方格位于藍(lán)色方格之上,而這個(gè)藍(lán)色方格又位于黃色方格之上。接著可能是一個(gè)紅色圓圈在一個(gè)綠色圓圈上面,然后又換成一個(gè)綠色圓圈在一個(gè)紅色圓圈上面。人類(lèi)應(yīng)該很容易理解的概念是,顏色在垂直位置上互換。然后,計(jì)算機(jī)必須將這一規(guī)則應(yīng)用到一對(duì)新的圖形中。Mitchell 說(shuō),這些任務(wù)對(duì)人類(lèi)來(lái)說(shuō)很容易,但對(duì)機(jī)器來(lái)說(shuō)似乎仍然非常具有挑戰(zhàn)性。

Mitchell 說(shuō),在某些情況下,比如試圖在海量數(shù)據(jù)中做出發(fā)現(xiàn),計(jì)算機(jī)最好有自己的抽象方法。但在與人交互的情況下,例如駕駛汽車(chē),以人類(lèi)的方式理解世界就非常重要。

「我不認(rèn)為智能是全有或全無(wú)。它是一個(gè)范圍,計(jì)算機(jī)做的某些事情是智能的,」Mitchell 說(shuō)?!溉绻阆胝?wù)撏耆摹⑷祟?lèi)水平的智能,我會(huì)說(shuō)我們還有些遙遠(yuǎn),因?yàn)槿祟?lèi)水平的智能有許多方面是我們看不到的?!?/span>

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-09-19 13:00:26

悲觀鎖SQL樂(lè)觀鎖

2024-07-24 13:58:21

2015-08-05 14:40:50

企業(yè)互聯(lián)網(wǎng)

2023-06-04 13:42:50

人類(lèi)AI圖靈

2025-04-22 08:08:37

2023-11-27 16:26:20

mainC語(yǔ)言

2024-04-19 14:44:43

模型K8s人工智能

2022-09-02 10:15:38

AI計(jì)算

2025-02-27 10:33:36

2025-01-17 13:53:11

AI大模型檢測(cè)工具

2023-11-02 12:10:00

AI訓(xùn)練

2024-05-27 08:00:00

人工智能大語(yǔ)言模型

2024-11-12 13:41:49

2020-12-24 06:00:27

Python編程語(yǔ)言開(kāi)發(fā)

2023-01-01 13:22:03

AI圖靈

2023-05-10 15:49:10

NLP語(yǔ)言模型

2024-10-11 12:56:20

2024-09-25 15:34:21

數(shù)據(jù)模型數(shù)據(jù)驅(qū)動(dòng)數(shù)字化轉(zhuǎn)型

2024-04-15 13:51:03

模型LLMLLMs

2024-01-15 00:19:24

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)