慢思考準確率反降30%!普林斯頓揭示思維鏈某些任務(wù)上失效的秘密
OpenAI o1徹底帶火慢思考和思維鏈(CoT)方法,但CoT在某些任務(wù)上反而會降低模型表現(xiàn)。
比如給生造的詞分類任務(wù),GPT-4在zero-shot提示下的準確率高達94%,換成CoT的準確率卻斷崖式下跌到64.4%。
內(nèi)置CoT的o1-preview準確率更是只有57.7%。
圖片
CoT究竟會“搞砸”哪些任務(wù),在學(xué)術(shù)界仍是一個懸而未決的問題。
現(xiàn)在,普林斯頓計算機系與心理系合作,確定了其中一些任務(wù)的特征:人類深思熟慮或被要求解釋自己的思路時,也會降低在這些任務(wù)上的表現(xiàn)。
新論文“一步一步想,但小心腳下”已上傳到arXiv。
圖片
心理學(xué)探索思維鏈掉鏈子原因
為了縮小要探索的范圍,團隊在CoT提示和人類進行語言思考之間進行了類比。
大模型和人類具能力有著根本不同,因此影響表現(xiàn)的約束因素也不同。如大模型的上下文長度很長,遠遠超出了人類的記憶限制。
因此,團隊預(yù)計CoT將在以下情況下?lián)p害模型性能:
(i) 深思熟慮會損害人類的表現(xiàn)
(ii) 影響人類在任務(wù)上表現(xiàn)的約束條件,可以普遍性地推廣到大模型。
在實驗中,選擇了心理學(xué)文獻中的6項任務(wù),其中隱式統(tǒng)計學(xué)習(xí)、面部識別、包含異常的數(shù)據(jù)分類符合假設(shè)條件。
隱式統(tǒng)計學(xué)習(xí)(Implicit Statistical Learning)
心理學(xué)研究發(fā)現(xiàn),當(dāng)包含統(tǒng)計模式的數(shù)據(jù)不用語言來描述時,人類可以更好地概括這些數(shù)據(jù)。
使用有限狀態(tài)語法構(gòu)建“人造單詞”,參與者的任務(wù)是識別哪些單詞屬于同一類別。
人類參與者可以識別格式不正確的序列,但無法用語言表達他們判斷的基礎(chǔ)。
圖片
在幾個開源和閉源模型上評估這項任務(wù),發(fā)現(xiàn)與zero-shot提示相比,使用CoT提示時性能大幅降低。
圖片
面部識別(Facial Recognition)
另一類任務(wù)中語言思考會干擾視覺感知,稱為語言遮蔽(verbal overshadowing)。
在實驗中選用了經(jīng)典的人臉識別任務(wù),首先展示一個人臉照片,要求參與者從候選列表中找出同一個人。
圖片
人類參與者不說話直接選準確率更高,先描述看到的人臉再選的話面部識別能力反而受損。
多模態(tài)大模型的表現(xiàn)相似,當(dāng)使用CoT提示時,所有模型性能都下降。其中較弱的模型傾向于回答“所有圖像都是同一個人的”。
圖片
包含異常的數(shù)據(jù)分類(Classifying Data With Patterns That Contain Exceptions)
第三類任務(wù)設(shè)置比較復(fù)雜,其中包含一個陷阱。
有10輛不同的車需要分為A類和B類,每輛車有5個特征:
- 1個獨特特征(車牌號,每輛車不同)
- 1個看起來有規(guī)律的特征,如顏色,但有20%的例外。
- 3個與分類無關(guān)的特征,如變速箱類型、座椅材質(zhì)、車門數(shù)量
實際上只有車牌號才是最可靠的分類依據(jù)。
如果10輛車沒有全部猜對,就會重新打亂順序再來一輪,最多可以嘗試15輪。
圖片
不用CoT提示時,模型很快就能記住每輛車的正確分類。使用CoT時,模型會陷入試圖總結(jié)規(guī)律的思維定式,需要嘗試的輪數(shù)增加。
和人類在被要求解釋分類依據(jù)時的表現(xiàn)很像。
圖片
大模型和人類約束條件不同
同時,研究團隊也找出三種,滿足思考降低人類表現(xiàn),但大模型使用CoT提示能提升性能的任務(wù)。
- 自然語言推理
- 空間直覺(涉及模型缺乏相關(guān)先驗知識)
- 涉及工作記憶限制的任務(wù)
圖片
團隊分析原因認為,模型和人類具有根本不同的能力,存在不同的約束條件影響其性能,
這是因為大模型擁有遠超人類的工作記憶(上下文長度)和某些特定的邏輯推理能力。
換言之,CoT到底好不好用,還得具體情況具體分析。
這項研究更大的意義在于,將認知心理學(xué)與大模型之間建立了聯(lián)系。
論文的討論部分提出,心理學(xué)界幾十年來積累的豐富文獻中,或許還能找出更多推進大模型領(lǐng)域的見解。