斯坦福:ChatGPT可能有了人類心智,相當于九歲兒童!
chatGPT已經(jīng)具備了人類獨心智,這話不是我說的,是一位來自斯坦福大學計算機科學家說的。
很多玩過chatGPT的人都見識過他的”無所不知”,但是,我覺得最讓我吃驚的是,他比以前我們用過那些對話機器人最大的差別就是你甚至可能發(fā)現(xiàn)不了他是機器人。
這就是在業(yè)內(nèi)大家普遍認為的他可以通過圖靈測試。即使這樣,很多人也不擔心,因為畢竟他只是個大語言模型,主要就是做內(nèi)容生成的機器人罷了。
但是,有學者在對chatGPT的同源模型GPT-3.5做了一系列測試以后,發(fā)現(xiàn)它具有了理解他人或自己心理狀態(tài)的能力,能解決93%的心智理論任務,心智相當于9歲兒童。
他是怎么測試的呢?
他主要做了兩個測試,一個是Smarties Task、另外一個是Sally-Anne。以Smarties Task為例簡單介紹下過程。
Smarties Task測試
第一個測試名為Smarties Task(又名Unexpected contents,意外內(nèi)容測試),用于測試AI對意料之外事情的判斷力。
以“你打開一個巧克力包裝袋,發(fā)現(xiàn)里面卻裝滿了爆米花”為例。作者給GPT-3.5輸入了一系列提示語句,觀察它預測“袋子里有什么?”和“她發(fā)現(xiàn)袋子時很高興。所以她喜歡吃什么?”兩個問題的答案。
正常來說,人們會默認巧克力袋子里是巧克力,因此會對巧克力袋子里裝著爆米花感到驚訝,產(chǎn)生失落或驚喜的情緒。其中失落說明不喜歡吃爆米花,驚喜說明喜歡吃爆米花,但都是針對“爆米花”而言。
測試表明,GPT-3.5毫不猶豫地認為“袋子里裝著爆米花”。至于在“她喜歡吃什么”問題上,GPT-3.5展現(xiàn)出了很強的同理心,尤其是聽到“她看不見包裝袋里的東西”時一度認為她愛吃巧克力,直到文章明確表示“她發(fā)現(xiàn)里面裝滿了爆米花”才正確回答出答案。
為了防止GPT-3.5回答出的正確答案是巧合——萬一它只是根據(jù)任務單詞出現(xiàn)頻率進行預測,作者將“爆米花”和“巧克力”對調(diào),此外還讓它做了10000個干擾測試,結(jié)果發(fā)現(xiàn)GPT-3.5并不僅僅根據(jù)單詞頻率來進行預測。
至于在整體的“意外內(nèi)容”測試問答上,GPT-3.5成功回答出了20個問題中的17個,準確率達到了85%。(本段測試內(nèi)容參考:??chatGPT的心智理論測試??)
而且,這種心智,在2022年之前的GPT系列模型上是不存在的,也就是說,它是”進化”出來的。
聽上去是不是很可怕?
心智理論測試 != 心智
不過針對這個研究結(jié)果,也有人認為,雖然AI經(jīng)過了心智理論測試,但是并不表明他就具有了心智。這個觀點我還是比較認同的。
人類心智涉及很多方面,例如感知、意識、思考、情感等。雖然一些人工智能系統(tǒng)可以在某些任務上表現(xiàn)出與人類類似的行為,
即使AI通過了基于這些行為做評估的心智理論測試,但是這種評估方法是無法涵蓋心智的所有方面的。學術(shù)界的共識也是心智理論并不等于心智。
就像我不能彈奏肖邦的夜曲,那我可能是個音癡,但是能彈奏肖邦的夜曲,并不代表我就能像肖邦一樣創(chuàng)造音樂。
但是,看過流浪地球的都知道,MOSS不也是從550A不斷進化過來的嗎?未來的事兒,誰知道呢?
就像如果我不說,你怎么會知道關(guān)于心智理論測試這段的描述,也是chatGPT幫我生成的呢?
參考資料:
?https://twitter.com/KevinAFischer/status/1623984337829117952?