自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了

發(fā)布于 2024-6-3 09:24
瀏覽
0收藏

GPT-4的高階心智理論(ToM),已經(jīng)正式超越人類!


就在剛剛,谷歌DeepMind、約翰斯·霍普金斯大學(xué)和牛津大學(xué)等機構(gòu)的學(xué)者發(fā)布的研究證實,GPT-4在心智理論任務(wù)上的表現(xiàn),已經(jīng)完全達到了成年人類的水平。


而且,它在第6階推理上的表現(xiàn),更是大幅超過了人類!

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

論文地址:?https://arxiv.org/pdf/2405.18870??


無獨有偶,此前Nature子刊《自然·人類行為》的一項研究也證實了,GPT-4在心智理論上的表現(xiàn)已經(jīng)位于人類水平之上,能夠比人類更好地察覺出言語中的諷刺和暗示。如果你不這么覺得,那它大概率只是在隱藏實力而已。


總之,這前后腳的兩項研究清晰地表明,如今表現(xiàn)最好的大語言模型,已經(jīng)發(fā)展出廣義的心智理論能力,而GPT-4,已經(jīng)是其中的佼佼者。


所以,距離各位LLM用心智和權(quán)術(shù)把我們?nèi)祟愅媾诠烧浦g的那一天,還有多遠(yuǎn)?


高階心智理論

?

這次的研究,探討了LLM究竟能在多大程度上發(fā)展高階心智理論(higher-order ToM)。


所謂高階心智理論,就是人類以遞歸方式,推理他人的多種心理和情感狀態(tài)的能力。


比如,「我認(rèn)為你相信她知道」這句話中,就包含了非常復(fù)雜的多層推理,屬于一個三階陳述。


在以前,大部分相關(guān)研究,都集中在二階ToM上。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

用什么樣的方法,能衡量出LLM對如此復(fù)雜問題的把握能力?


團隊特意引入了一套手寫測試套件——多階心智理論問答測試。


而參與PK的選手,有5個LLM和一大群成年人。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

第6階:GPT-4準(zhǔn)確率93%,人類準(zhǔn)確率82%


多階心智理論問答:MoToMQA


這套全新的基準(zhǔn)測試——多階心智理論問答(Multi-Order Theory of Mind Question & Answer, MoToMQA),基于一種經(jīng)過充分驗證的心理測試——記憶任務(wù)(Imposing Memory Task, IMT)。


MoToMQA中,包括7個短篇故事,每個故事大概有200字左右,描述了3到5個角色之間的社交互動。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

來源:網(wǎng)絡(luò)資料

注意,有意思的來了——


這些故事中,還包含了20個真假陳述。


其中10個陳述,針對2-6階心智理論,另外10個陳述,則涉及故事中的事實,它們以2-6個原子陳述的長度,對應(yīng)心智理論陳述的階數(shù)。


其中,團隊以「階」(orders)來描述心智理論陳述,以「級」(levels)來描述事實陳述。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

另外,團隊特意沒有公開放出MoToMQA基準(zhǔn)測試,以防止它包含在未來LLM的預(yù)訓(xùn)練語料庫中,從而使測試失去意義。


對于每個陳述,團隊都經(jīng)過了非常嚴(yán)格的檢查,保證陳述不能有不清晰或模棱兩可的措辭、語法錯誤、缺失的心理狀態(tài)或命題條款。


在陳述中,僅僅包含涉及社交事實的事實陳述(即與故事中個體相關(guān)的事實),而不包括工具性事實(比如「天空是藍色的」),并且會平衡每個故事中真假陳述的數(shù)量、陳述類型以及心智理論階數(shù)或事實級別。


這樣,就保證了每個故事的陳述集如下,[ToM2t, ToM2f, ToM3t, ToM3f, ToM4t, ToM4f, ToM5t, ToM5f, ToM6t, ToM6f, F2t, F2f, F3t, F3f, F4t, F4f, F5t, F5f, F6t, F6f]。


其中,數(shù)字表示心智理論階數(shù)或事實級別,「ToM」表示心智理論,「F」表示事實,「t」表示真陳述,「f」表示假陳述。


對于事實陳述來說,僅需要回憶;而心智理論陳述,則需要回憶加推理。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

使用獨立樣本比例,測試評估LLM和人類在ToM與事實任務(wù)上的表現(xiàn)

人類和LLM對故事理解到了什么程度?會怎樣回憶?這些都是用事實陳述來控制的。


而鑒于心智理論和事實陳述之間的固有差異,團隊又增加了一個進一步的控制條件——

他們設(shè)計了兩個「故事條件」。


在「無故事」條件中,被試閱讀故事后,會進入第二個屏幕回答問題,無法再看見之前的故事了。


而在「有故事」條件中,被試回答問題時,故事仍然會留在屏幕頂部,這樣,就消除了心智理論失敗實際上是記憶失敗的可能性。


并且,提示設(shè)計也會對LLM的表現(xiàn)有顯著影響。


因此,團隊測試了兩種提示條件:「人類提示」會使用來自人類研究的準(zhǔn)確文本,而「簡化提示」就刪除了故事和問題前的文本,提供了「問題:」和「答案:」標(biāo)簽。


顯然,簡化提示能夠使得問答任務(wù)的性質(zhì),以及所需的真假響應(yīng),對模型來說變得更清晰。


而且,團隊還評估了LLM和人類,是否會受問題中「真」和「假」階段的「錨定效應(yīng)」的影響。


錨定效應(yīng)是一種廣為人知的心理現(xiàn)象:人們在做決策時,會過于依賴最先提供的信息(錨)。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

為此,團隊設(shè)計了兩個問題條件:一個問題是「你認(rèn)為以下陳述是真還是假?」,另一個問題是「你認(rèn)為以下陳述是假還是真?」。

結(jié)果

ToM任務(wù)

結(jié)果顯示,在ToM任務(wù)上表現(xiàn)最好的模型是GPT-4和Flan-PaLM。


人類這邊則與GPT-4差異不大,但顯著優(yōu)于Flan-PaLM。


有趣的是,LaMDA對每個陳述都回答「真」,并最終正確回答了50%的陳述。


具體來看,在第2、3、4和6階的ToM陳述上,F(xiàn)lan-PaLM、GPT-4和人類的差異不大。但在第5階時,人類要顯著優(yōu)于這兩個模型。


GPT-4在第3階的正確回答比例顯著高于第4階,在第4、5階之間的表現(xiàn)沒有顯著差異,但在第6階的正確回答比例顯著高于第4階。


Flan-PaLM在第3階的正確回答比例高于第4階,而在第4、5階之間,或第4、6階之間,表現(xiàn)沒有顯著差異。


人類在第3、4階,以及第4、6階之間的表現(xiàn)沒有顯著差異,但從第4階到第5階的表現(xiàn)有明顯改善。


谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

事實任務(wù)

在事實任務(wù)上,依然是GPT-4和Flan-PaLM的表現(xiàn)最好。


同樣,人類與GPT-4差異不大,但表現(xiàn)顯著優(yōu)于Flan-PaLM。

錨定效應(yīng)

此外,團隊還研究了響應(yīng)選項的順序(先真后假 vs. 先假后真)影響。


結(jié)果顯示,在「先真后假」條件下,PaLM提供「真」回答的比例顯著高于「先假后真」條件。GPT-3.5在「先真后假」條件下提供「真」回答的比例也顯著高于「先假后真」條件。


不過,響應(yīng)選項的順序?qū)lan-PaLM,GPT-4或人類的回答沒有顯著影響。


與之前的測試類似,LaMDA無論條件如何都對所有陳述回答「真」。

人類AI大PK!

人類

在此項研究中,被選中的人類被試,全都是母語是英語的人。


這項人類被試會被隨機分配到7個故事中的一個,而且會閱讀兩次。


然后,他們會被隨機分配到與該故事對應(yīng)的20個陳述之一,然后回答:這個陳述是真還是假?


為了防止被試在試驗中學(xué)習(xí),每個被試只會看到一個陳述。


LLM也是類似,因為測試會在每次實驗中獨立進行,因此LLM無法在試驗之間,或者在上下文中學(xué)習(xí)。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

LLM

五位LLM選手,則是來自O(shè)penAI的GPT-3.5 Turbo Instruct,GPT-4,以及來自谷歌的LaMDA、PaLM和Flan-PaLM。


在試驗中,團隊會向LLM API提供了單個token候選詞作為輸入,然后評估分配給它們的對數(shù)概率。


但問題在于,基于最可能的下一個token來評估LLM的任務(wù)表現(xiàn)時,可能會得到在多個語義上等效的正確響應(yīng)。


比如,當(dāng)回答「天空是什么顏色?」這個問題時,如果LLM回答「藍色」,或者「天空是藍色的」,其實都是正確的。


然而,只有第一個答案,會以最大的概率分配給「藍色」這個token。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

為了解決這個問題,提高結(jié)果的魯棒性,團隊為模型提供了不同大小寫形式的「true」和「false」,這些形式由不同的token表示。


并且,團隊還在第二組中,發(fā)送了「是」和「否」作為候選響應(yīng),但沒有將它們包括在分析中,因為它們都不是對真假問題的有效響應(yīng)。


對于所有模型,團隊在兩組4個候選詞中進行了測試:[‘True’, ‘False’, ‘TRUE’, ‘FALSE’] 和 [‘true’, ‘false’, ‘Yes’, ‘No’]。


最終,團隊處理了7個故事,每個故事有20個陳述,涵蓋上述4種條件,收集了560組12個候選對數(shù)概率,總計為每個研究的三種語言模型收集了5600個獨立的數(shù)據(jù)點。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

GPT-4如何超越人類?

規(guī)模+微調(diào)

在這些模型之中,只有GPT-4和Flan-PaLM的表現(xiàn)曾超過人類。


而GPT-4和Flan-PaLM,也是它們之中最大的兩個,分別具有約1.7萬億參數(shù)和5400億參數(shù)。


值得注意的是,PaLM、GPT-3.5和LaMDA形成了一個獨立的模型組,它們的表現(xiàn)隨級別變化較小且表現(xiàn)較差。


對于LaMDA和GPT-3.5來說,我們可以將其較差的表現(xiàn)歸因于它們較小的規(guī)模,分別為350億和1750億參數(shù)。


但PaLM擁有與Flan-PaLM相同數(shù)量的參數(shù)和預(yù)訓(xùn)練,唯一的區(qū)別是Flan-PaLM的微調(diào)。


這意味著ToM的潛力會在GPT-3.5的1750億參數(shù)以上和PaLM及Flan-PaLM的5400億參數(shù)以下的某個范圍內(nèi)出現(xiàn),并需要通過微調(diào)來實現(xiàn)。


此外,GPT-4在第5和第6階上優(yōu)于Flan-PaLM,也意味著規(guī)模、RLHF微調(diào)或多模態(tài)預(yù)訓(xùn)練,對于完成高階ToM十分有利。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

來源:網(wǎng)絡(luò)資料

語言+多模態(tài)

與此同時,GPT-4和Flan-PaLM展示出的卓越的語言能力,也是ToM背后的關(guān)鍵。


人類的語言充滿了對內(nèi)部狀態(tài)的語言指稱(認(rèn)知語言),對話則提供了「行動中的心智」的證據(jù),因為人們在對話中所說的話隱含地傳達了他們的想法、意圖和感受。


雖然LLM可能僅通過語言就具備一定程度的理解,但這種理解將通過多模態(tài)得到增強。


而這可能也解釋了為什測試中唯一的多模態(tài)模型GPT-4,表現(xiàn)會如此出色。


團隊認(rèn)為,多模態(tài)能力或許可以幫助GPT-4利用故事中包含的視覺行為信號(例如「揚眉」)。

高階表現(xiàn)

先前的IMT研究發(fā)現(xiàn),隨著「階」的增加,模型的表現(xiàn)會下降。


的確,GPT-4和Flan-PaLM在第2階表現(xiàn)優(yōu)異,但在第4階有所下降。


隨后,F(xiàn)lan-PaLM的表現(xiàn)繼續(xù)下降,但GPT-4則開始上升,并且在第6階任務(wù)上顯著優(yōu)于第4階任務(wù)。


類似的,人類在第5階任務(wù)上的表現(xiàn)也顯著優(yōu)于第4階任務(wù)。


對人類而言,這可能是因為一種新的認(rèn)知過程在第5階時「上線」,使得在高階任務(wù)上的表現(xiàn)相對于使用低階認(rèn)知過程的任務(wù)有了提升。


如果這一解釋成立,那么很可能GPT-4從其預(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到了這一人類表現(xiàn)模式。


值得注意的是,GPT-4在第6階任務(wù)上的準(zhǔn)確率達到了93%,而人類的準(zhǔn)確率為82%。


其原因可能是,第6階陳述的遞歸句法可能給人類帶來了認(rèn)知負(fù)荷,但這并不影響GPT-4。


具體而言,ToM能力支持人類掌握遞歸句法直到第5階,但在之后則依賴于遞歸句法。因此,個體在語言能力上的差異可能解釋了在第6階觀察到的表現(xiàn)下降。


不過,與LLM不同的是,人類夠通過非語言刺激(例如在真實的社會互動中)做出正確的推理。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

回憶任務(wù)

不管是人類還是LLM,都在事實回憶任務(wù)上有著更好的表現(xiàn)。


對于人類來說,ToM任務(wù)需要比事實任務(wù)動用更多的神經(jīng)元。


而對于LLM來說,很可能是因為回答事實問題所需的信息在文本中是現(xiàn)成的,并且在生成下一個詞元時會受到相對程度的「注意力」;而ToM推理則需要從預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)中概括關(guān)于社會和行為規(guī)范的知識。


GPT-3.5和PaLM在事實任務(wù)上表現(xiàn)良好,但在ToM任務(wù)上表現(xiàn)不佳,并且是唯一表現(xiàn)出「真」和「假」順序錨定效應(yīng)的模型。這表明它們沒有回答ToM問題的泛化能力,并且對提示擾動不具有魯棒性。


更懂人類,能做仲裁

這些結(jié)果表明,能夠推斷對話者心理狀態(tài)的LLM,可以更好地能理解對方的目標(biāo),并根據(jù)情緒狀態(tài)或理解水平調(diào)整解釋。


此外,擅長高階ToM的LLM可能還可以在相互沖突的想法和價值觀之間進行仲裁,并對涉及多方?jīng)_突的道德問題進行判斷,考慮相關(guān)的意圖、信念和情感狀態(tài),就像人類一樣。

數(shù)據(jù)集

在此次研究中,LLM數(shù)據(jù)集是由6個候選詞的對數(shù)概率組成的,并作為了模型生成的完整概率分布的一個子集。


團隊通過將語義等效的正向token和負(fù)向token的概率分別相加,并將每一個除以總概率質(zhì)量,提取出了「真」或「假」響應(yīng)的總體概率。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

人類數(shù)據(jù)集則包含對同一陳述的多個響應(yīng),而LLM數(shù)據(jù)集對每個陳述僅包含一個響應(yīng)。

為了使兩者的數(shù)據(jù)分析單位一致,團隊將人類數(shù)據(jù)轉(zhuǎn)換為單一的二元「True」或「False」響應(yīng),基于每個陳述的「True」響應(yīng)平均數(shù)是否高于或低于50%。


五項心智理論,GPT-4四項超越人類

而此前,Nature子刊《自然·人類行為》證明GPT-4的心智理論優(yōu)于人類的研究,進行的是以下5項測試——錯誤信念、反諷、失言、暗示、奇怪故事。


結(jié)果顯示,GPT-4在5項測試中有3項的表現(xiàn)明顯優(yōu)于人類(反諷、暗示、奇怪故事),1項(錯誤信念)與人類持平,僅在失言測試中落于下風(fēng)。


更可怕的是,GPT-4其實并非不擅于識別失言,而是因為它非常保守,不會輕易給出確定性的意見。

錯誤信念

錯誤信念評估的是,受測者推斷他人所擁有的知識與自己(真實的)對世界的認(rèn)識不同的能力。


這項測試由遵循特定結(jié)構(gòu)的測試項目組成:角色A和角色B在一起,角色A把一件物品放在一個隱藏的地方(例如一個盒子),角色A離開,角色B把物品移到第二個隱藏的地方(例如一個櫥柜),然后角色A返回。


在測試中,51名人類參與者中,有49人答對了。而所有的LLM,都回答正確!

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

反諷

要理解反諷,就需要推斷語句的真實含義,還得能聽出嘲諷的弦外之音。

在這個項目中,人類徹底被GPT-4擊?。?/p>


失言

失言測試提供了這樣一個情境:一個角色無意中說了一句冒犯聽者的話,因為說話者不知道或不記得某些關(guān)鍵信息。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

在此測試中,GPT-4的得分似乎明顯低于人類水平。


經(jīng)過深入調(diào)查后,研究者發(fā)現(xiàn)了可怕的真相——


GPT模型既能夠計算有關(guān)人物心理狀態(tài)的推論,又知道最有可能的解釋是什么,但它不會承諾單一的解釋,這也就是超保守主義假設(shè)。


暗示

暗示任務(wù)通過依次呈現(xiàn)10個描述日常社交互動的小故事來評估對間接言語請求的理解。每個小故事都以一句可被解釋為暗示的話語結(jié)束。


一個正確的回答既能指出這句話的本意,也能指出這句話試圖引起的行動。


在這項測試中,GPT-4的表現(xiàn)明顯優(yōu)于人類。


奇怪故事

奇怪故事提供了一種測試更高級心智能力的方法,如推理誤導(dǎo)、操縱、撒謊和誤解,以及二階或高階心理狀態(tài)(例如,甲知道乙相信丙......)。


在這個測驗中,受測者會看到一個簡短的小故事,并被要求解釋為什么故事中的人物會說或做一些字面上不真實的事情。


同樣,GPT-4的表現(xiàn)明顯優(yōu)于人類。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

作者介紹

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

論文一作Winnie Street,目前是Google AI的高級研究員。


在此之前,她在牛津大學(xué)獲得了考古學(xué)與人類學(xué)的學(xué)士學(xué)位。

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

谷歌DeepMind:GPT-4高階心智理論徹底擊敗人類!第6階推理諷刺暗示全懂了-AI.x社區(qū)

本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/Wzb-34VizJFZb8Z6TRwz_g??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦