圖靈測(cè)試已死!ChatGPT通過人類考試也不算,超強(qiáng)AI評(píng)估新秀「邏輯謎題」
世界最強(qiáng)AI——ChatGPT可以通過各種考試,甚至輸出回答讓人難以辨別真假。
然而,它也有力所不及之處,那便是解決簡(jiǎn)單的視覺邏輯難題。
在一項(xiàng)由屏幕上排列的一系列色彩鮮艷的塊組成的測(cè)試中,大多數(shù)人都能找出連接的圖案。
但是,根據(jù)研究人員今年 5 月的一份報(bào)告,GPT-4在一類圖案的測(cè)試中正確率僅為1/3,而在另一類圖案中正確率僅為3%。
論文地址:https://arxiv.org/pdf/2305.07141.pdf
這項(xiàng)研究背后的團(tuán)隊(duì),旨在為了測(cè)試AI系統(tǒng)的能力提供一個(gè)更好的基準(zhǔn),并幫助解決GPT-4等大型語言模型的難題。
論文作者M(jìn)elanie Mitchell表示,人工智能領(lǐng)域的人們正在為如何評(píng)估這些系統(tǒng)而苦苦掙扎。
AI評(píng)估如何有效?
在過去的兩三年里,LLM 在完成多項(xiàng)任務(wù)的能力上已經(jīng)超越了以前的人工智能系統(tǒng)。
它們的工作原理很簡(jiǎn)單,就是根據(jù)數(shù)十億在線句子中單詞之間的統(tǒng)計(jì)相關(guān)性,在輸入文本時(shí)生成可信的下一個(gè)單詞。
對(duì)于基于LLM構(gòu)建的聊天機(jī)器人來說,還有一個(gè)額外的元素:人類訓(xùn)練員提供了大量反饋,以調(diào)整機(jī)器人的反應(yīng)。
令人驚嘆的是,這種類似于自動(dòng)完成的算法是在大量人類語言存儲(chǔ)的基礎(chǔ)上訓(xùn)練出來的,其能力的廣度令人嘆為觀止。
其他人工智能系統(tǒng)可能會(huì)在某項(xiàng)任務(wù)中擊敗 LLM,但它們必須在與特定問題相關(guān)的數(shù)據(jù)上進(jìn)行訓(xùn)練,無法從一項(xiàng)任務(wù)推廣到另一項(xiàng)任務(wù)。
哈佛大學(xué)的認(rèn)知科學(xué)家Tomer Ullman表示,從廣義上講,對(duì)于LLM背后發(fā)生的事情,兩個(gè)陣營(yíng)的研究人員持有截然相反的觀點(diǎn)。一些人將算法的成就歸因于推理或理解的閃光點(diǎn)。其他人(包括他自己和Mitchell等人)則要謹(jǐn)慎得多。
討論雙方的研究人員表示,像邏輯謎題這樣揭示人類與AI系統(tǒng)能力差異的測(cè)試,是朝著正確方向邁出的一步。
紐約大學(xué)認(rèn)知計(jì)算科學(xué)家Brenden Lake說,這種基準(zhǔn)測(cè)試有助于揭示當(dāng)今機(jī)器學(xué)習(xí)系統(tǒng)的不足之處,并理清了人類智能的要素。
關(guān)于如何最好地測(cè)試LLM,以及這些測(cè)試意義的研究也很實(shí)用。
Mitchell說,如果要將LLM應(yīng)用于現(xiàn)實(shí)世界的各個(gè)領(lǐng)域,比如醫(yī)學(xué)、法律。那么了解它們的能力極限就非常重要。
圖靈測(cè)試死了嗎?
長(zhǎng)期以來,機(jī)器智能最著名的測(cè)試一直是圖靈測(cè)試。
圖靈測(cè)試是英國(guó)數(shù)學(xué)家和計(jì)算大師艾倫·圖靈在1950年提出,當(dāng)時(shí)計(jì)算機(jī)還處于起步階段。
圖靈提出了一個(gè)評(píng)估,他稱之為「模仿游戲」。
在這個(gè)場(chǎng)景中,「人類法官」與一臺(tái)計(jì)算機(jī)、和一個(gè)看不見的人進(jìn)行簡(jiǎn)短的、基于文本的對(duì)話。
這個(gè)人類能可靠地檢測(cè)出哪臺(tái)是計(jì)算機(jī)嗎?圖靈表示,這是一個(gè)相當(dāng)于「機(jī)器能否思考」的問題。
Mitchell指出,圖靈并沒有具體說明場(chǎng)景的許多細(xì)節(jié),因此沒有確切的標(biāo)準(zhǔn)可循。
其他研究人員認(rèn)為,GPT-4和其他LLM現(xiàn)在很可能通過了「圖靈測(cè)試」,因?yàn)樗鼈兛梢则_過很多人,至少是在短對(duì)話中。
5月,AI21實(shí)驗(yàn)室的研究人員報(bào)告說,超過150萬人玩過他們基于圖靈測(cè)試的在線游戲。
玩家正確識(shí)別機(jī)器人的比例僅為60%,這并不比偶然性好多少。
然而,在這種游戲中,熟悉LLM的研究人員可能仍然會(huì)獲勝。通過利用AI系統(tǒng)的已知弱點(diǎn),就會(huì)很容易發(fā)現(xiàn)LLM。
關(guān)鍵是要讓LLM走出自己的「舒適區(qū)」。
谷歌軟件工程師Fran?ois Chollet建議,向LLM演示一些場(chǎng)景,這些場(chǎng)景是LLM在其訓(xùn)練數(shù)據(jù)中經(jīng)??吹降膱?chǎng)景的變體。在許多情況下,LLM的回答方式是,吐出最有可能與訓(xùn)練數(shù)據(jù)中的原始問題相關(guān)聯(lián)的單詞,而不是針對(duì)新情景給出的正確答案。
然而,Chollet和其他人對(duì),把以欺騙為中心的測(cè)試作為計(jì)算機(jī)科學(xué)的目標(biāo)持懷疑態(tài)度。
基準(zhǔn)測(cè)試有危險(xiǎn)
相反,研究人員在評(píng)估人工智能系統(tǒng)時(shí),通常不采用圖靈測(cè)試,而是使用旨在評(píng)估特定能力(如語言能力、常識(shí)推理和數(shù)學(xué)能力)表現(xiàn)的基準(zhǔn)。
越來越多的研究團(tuán)隊(duì)也開始轉(zhuǎn)向,為人類設(shè)計(jì)的學(xué)術(shù)和專業(yè)考試。
GPT-4發(fā)布時(shí),OpenAI在一系列專為機(jī)器設(shè)計(jì)的基準(zhǔn)測(cè)試中測(cè)試了其性能,包括閱讀理解、數(shù)學(xué)和編碼。
根據(jù)技術(shù)報(bào)告,GPT-4在其中大部分測(cè)試中都取得了優(yōu)異成績(jī)。
此外,GPT-4還參加了30項(xiàng)考試,GRE、評(píng)估美國(guó)醫(yī)生臨床知識(shí)現(xiàn)狀的考試、為美國(guó)高中生設(shè)計(jì)的各種特定科目的考試等等。
后來,有研究人員提到的一個(gè)挑戰(zhàn)是,模型是在大量文本中訓(xùn)練出來的,它們可能已經(jīng)在訓(xùn)練數(shù)據(jù)中看到過類似的問題,因此實(shí)際上可能是在尋找答案。這個(gè)問題其實(shí)被「污染」了。
研究人員還指出,LLM在考試問題上的成功可能一擊就破,可能無法轉(zhuǎn)化為在現(xiàn)實(shí)世界中所需的強(qiáng)大能力。
在解釋這些基準(zhǔn)的含義時(shí),還有一個(gè)更深層次的問題。
一個(gè)在考試中表現(xiàn)出色的人,一般可以被認(rèn)為在其他認(rèn)知測(cè)試中表現(xiàn)出色,并且掌握了某些抽象概念。
然而,LLM工作方式與人類截然不同。因此,用我們?cè)u(píng)判人類方式,來推斷人工智能系統(tǒng),并不總是有效的。
這可能是因?yàn)長(zhǎng)LM只能從語言中學(xué)習(xí)。如果沒有在物理世界中,它們無法像人那樣體驗(yàn)語言與物體、屬性和情感的聯(lián)系。
很明顯,他們理解單詞的方式與人類不同。
另一方面,LLM 也擁有人類所不具備的能力,比如,它們知道人類寫過的幾乎每一個(gè)單詞之間的聯(lián)系。
OpenAI的研究員Nick Ryder也認(rèn)為,一項(xiàng)測(cè)試的表現(xiàn)可能,不會(huì)像獲得相同分?jǐn)?shù)的人那樣具有普遍性。
他表示,我認(rèn)為,我們不應(yīng)該從對(duì)人類和大型語言模型的評(píng)估中得出任何等價(jià)的結(jié)論。OpenAI 的分?jǐn)?shù) "并不代表人類的能力或推理能力。它的目的是說明模型在該任務(wù)中的表現(xiàn)如何。
人工智能研究人員表示,為了找出LLM的優(yōu)勢(shì)和劣勢(shì),需要更廣泛和嚴(yán)格的審查。豐富多彩的邏輯謎題可能是其中的一個(gè)候選者。
邏輯謎題登場(chǎng)
2019年,在LLM爆發(fā)之前,Chollet在網(wǎng)上發(fā)布了,自己創(chuàng)建的一種新的人工智能系統(tǒng)邏輯測(cè)試,稱為抽象和推理語料庫(ARC) 。
解題者要看幾個(gè)方格變?yōu)榱硪环N圖案的可視化演示,并通過指出下一個(gè)方格將如何變換來表明他們已經(jīng)掌握了變化的基本規(guī)則。
Chollet表示,ARC 捕捉到了「人類智慧的標(biāo)志」。從日常知識(shí)中進(jìn)行抽象,并將其應(yīng)用于以前從未見過的問題的能力。
當(dāng)前,幾個(gè)研究團(tuán)隊(duì)現(xiàn)在已經(jīng)使用ARC來測(cè)試LLM的能力,沒有一個(gè)能實(shí)現(xiàn)接近人類的表現(xiàn)。
Mitchell和她的同事制作了一系列新的謎題——被稱為ConceptARC——它們的靈感來自ARC,但在兩個(gè)關(guān)鍵方面有所不同。
ConceptARC測(cè)試更容易。Mitchell的團(tuán)隊(duì)希望確保基準(zhǔn)測(cè)試,不會(huì)錯(cuò)過機(jī)器能力的進(jìn)步,哪怕是很小的進(jìn)步。另一個(gè)區(qū)別是,團(tuán)隊(duì)選擇特定的概念進(jìn)行測(cè)試,然后為每個(gè)主題的變體概念創(chuàng)建一系列謎題。
性能差意味著什么
研究人員將ConceptARC任務(wù)分配給GPT-4和400名在線應(yīng)征者。
人類在所有概念組中的平均得分率為 91%(其中一組為 97%);GPT-在一組中的得分率為33%,在所有其他組中得分不到30%。
研究人員證明,AI仍然無法接近人類的水平。然而令人驚訝的是,它能解決一些從未被訓(xùn)練過的問題。
研究小組還測(cè)試了Chollet競(jìng)賽中的領(lǐng)先聊天機(jī)器人。
總的來說,他們比GPT-4做得更好,但表現(xiàn)比人類差,在一個(gè)類別中得分最高,為77%,但在大多數(shù)類別中得分不到60%。
不過,Bowman表示,GPT-4在ConceptARC考試中的失利并不能證明它缺乏基本的抽象推理能力。
其實(shí),ConceptARC對(duì)GPT-4有些不利,其中一個(gè)原因是它是一項(xiàng)視覺測(cè)試。
目前,GPT-4僅能接受文本作為輸,因此研究人員給GPT-4提供了代表圖像的數(shù)字?jǐn)?shù)組。相比之下,人類參與者看到了圖像。
推理論證
Bowman指出,與其他實(shí)驗(yàn)綜合起來表明,LLM至少已經(jīng)獲得了對(duì)抽象概念進(jìn)行推理的基本能力。
但LLM的推理能力總體上是「參差不齊的」,比人類的推理能力更有限。不過,隨著LLM的參數(shù)規(guī)模擴(kuò)大,推理能力相應(yīng)地也會(huì)提高。
許多研究人員一致認(rèn)為,測(cè)試LLM抽象推理能力和其他智力跡象的最佳方法,仍然是一個(gè)開放的、未解決的問題。