GPT-4、Gemini同時被曝重大缺陷,邏輯推理大翻車!DeepMind上交校友團隊發(fā)現(xiàn)LLM嚴重降智
最近,谷歌DeepMind和斯坦福的研究人員發(fā)現(xiàn):大模型在處理邏輯推理任務時,問題中信息呈現(xiàn)的順序對模型的表現(xiàn)有著決定性的影響。
論文地址:https://arxiv.org/abs/2402.08939
具體來說,當信息按照邏輯上的自然順序排列時,模型的表現(xiàn)會更好。這一發(fā)現(xiàn)不僅適用于一般的邏輯推理問題,對于數(shù)學問題也同樣有效。
比如,如果某個證明任務的條件是:
1. 如果A,那么B;
2. 如果B,那么C;
3. A為真。
要求大模型證明C為真,如果條件按照1,2,3的順序呈現(xiàn),那么大模型的成功率會比2,1,3的條件呈現(xiàn)順序高出很多。
所以,以后用大模型,言簡意賅,符合邏輯地提出問題能讓它性能更強。
上圖展示了一個失敗的案例,GPT-4,Gemini Pro,GPT-3.5在改變相關規(guī)則的順序后都未能成功生成證明。
上圖可以看出,對于當前主流的幾個大模型,改變前提的敘述順序都會導致性能大幅下降。
有趣的是,谷歌的新型模型Gemini Pro和OpenAI的GPT-3.5-Turbo,在下降趨勢上幾乎一樣。
而且研究人員發(fā)現(xiàn),如果進一步向上述邏輯推理任務中添加分散注意力的規(guī)則,打亂前提會導致更大的準確性下降。
實驗中,研究人員通過將GSM8K測試集中的問題陳述順序打亂,構建了GSM8K的變體——R-GSM測試集。
下圖是其中一個例子,對于原本可以解決的問題,將前提順序打亂之后(R-GSM),LLM就變得無能為力。
在R-GSM測試集中,幾乎所有主流的LLM性能都出現(xiàn)了下降。
雖然人類在解決邏輯問題時,對前提順序也會有偏好,但LLM「更容易」受到這種順序效應的影響。
研究人員認為這可能是由于自回歸模型訓練目標和/或訓練數(shù)據(jù)中的偏差造成的。
但如何應對這個問題仍然是一個有待進一步研究的挑戰(zhàn)。
如果A是B,那么B也是A
眾所周知,在邏輯推理中,改變前提條件的順序并不會改變結論。
對于人類來說,在處理這類問題時也傾向于按照某種特定的順序來排列前提,以便更好地推理。但這種偏好對解決問題的能力影響不大,尤其是在涉及到直接的邏輯推理(如果P,則Q、P;因此Q)時。
然而,對于大型語言模型來說,前提的順序卻極大地影響了它們的推理表現(xiàn)。
特別是,當前提的排列順序與它們在正確證明中的出現(xiàn)順序一致時,LLM的表現(xiàn)最好。
以剛才提出的簡單任務為例,研究人員注意到兩個現(xiàn)象:
1. 在提示中先提出「如果A則B」,然后是「如果B則C」,通常會比反過來的順序有更高的準確率。
2. 當前提數(shù)量增多時,性能的差距會更加明顯。
這種「亂序」的邏輯推理對人類來說很簡單,但對語言模型而言卻是一個重大的挑戰(zhàn)。
研究發(fā)現(xiàn),改變前提的順序可以使模型的準確率下降超過30%。
而且有意思的是,不同的「亂序」對于不同的模型的影響也是完全不同的。
當前提的順序與實際情況完全相反時,OpenAI的GPT模型表現(xiàn)得更好。這種方式使得模型能夠通過從后向前的推理來進行推導。而PaLM 2-L在這種反向排序下的表現(xiàn)通常是最差的。
「逆序」評測基準R-GSM
為了進一步系統(tǒng)性地研究這個問題,研究人員在數(shù)學推理測試集GSM8K的基礎之上開發(fā)了一個「亂序」測試集R-GSM。
具體來說,他們首先選擇問題描述中至少有5個句子的GSM8K測試問題,然后過濾掉那些沒法替換問題順序的問題,例如遵循事件因果順序的問題陳述系列。
對于剩下的每個問題,保持最后一句話不變,并用其他句子的不同順序重寫問題描述。允許對單詞進行少量編輯,以確保問題描述的正確性。
而對GSM8K做這樣的變化,原因是基于研究人員對于問題中前提順序的看法和認知來進行調整的。
具體來說,研究人員將符合前向鏈式基本事實證明的順序稱為前向順序,其中每個推導步驟中應用的規(guī)則在問題描述中依次呈現(xiàn)。
直觀地說,按照前向順序呈現(xiàn)前提對人類來說簡化了問題,因為這允許人類在閱讀前提的同時即時寫出證明。
相反,如果前提排序更加隨意,則會增加任務難度,因為在進行推導時,人類需要在每個推理步驟中重復查找前提。
受這種直覺的啟發(fā),他們根據(jù)不同前提順序與前向順序的Kendall tau距離??對其進行分類,歸一化范圍為[-1, 1]。
具體來說,?? = 1是前向階次,將?? = -1的階次表示為后向階次,它是前向階次的反向,并通過后向鏈與證明保持一致。
?? ≈ 0 表明問題描述中的前提順序與證明之間沒有很強的相關性。
為了深入研究 LLM 對不同前提順序的偏好,除了正向(?? = 1)和反向(?? = -1)順序外,他們還評估了模型在?? = 0.5、0和-0.5時的性能。
下圖給出了 ?? = 1 和 0 的示例:
他們通過改變以下兩個因素來衡量前提順序效應:
- 證明所需的規(guī)則數(shù)量
規(guī)則越多,前提順序效應就越明顯。在他們的基準中,問題的規(guī)則數(shù)從4到12不等。
- 問題中出現(xiàn)的干擾規(guī)則(即對證明無用的規(guī)則)的數(shù)量
由于前提選擇本身具有挑戰(zhàn)性,而且LLM很容易被無關上下文分散注意力,因此分散注意力規(guī)則的存在也會使問題復雜化。
他們在問題變體中加入了0、5和10個干擾規(guī)則。
為每種數(shù)量的所需規(guī)則生成了200個問題??紤]到不同的前提順序和干擾規(guī)則數(shù)量,每個問題包括15個變體,因此研究人員的基準中總共有27K個問題。
實驗結果
研究人員對GPT-4-turbo、GPT-3.5-turbo、PaLM 2-L和Gemini Pro的前提排序效果進行了評估。
他們在溫度為0的情況下執(zhí)行貪婪解碼,并在所有實驗中應用零樣本提示。
在R-GSM中,模型輸入只包含問題描述,沒有附加指令。對于邏輯推理,他們在提示中添加了一條指令,要求推導出每一步中使用的前提。
邏輯推理
上圖展示了在基本真理證明中包含不同數(shù)量相關規(guī)則的情況下的結果。
在這種情況下,問題不包含干擾規(guī)則,洗牌后的精確度是0.5、0 和-0.5時的結果。
在不同的LLM中,正向排序始終能達到最佳性能,這與人類的偏好一致。
當規(guī)則數(shù)量增加時,其他排序造成的性能下降會更加明顯。
同時,推理能力較弱的模型對不同的前提順序也更為敏感。
具體來說,GPT-4-turbo和PaLM 2-L的準確率下降最多為20%-30%,而對于Gemini-Pro和GPT-3.5-turbo,改變前置順序會使準確率從65%以上下降到25%以下,準確率下降超過40%。
不同前提排序的細分
上圖展示了對前提排序進行細粒度細分的結果,根據(jù)Kendall tau距離??對排序進行了分類。
有趣的是,雖然所有LLM最偏好前向排序,但它們對其他排序的偏好卻不盡相同。
具體來說,GPT-4-turbo通常更喜歡后向階,而且隨著??的絕對值越小,整體性能也會下降。
這一觀察結果與人類的推理模式也是一致的,因為后向鏈是另一種成熟的推理方法。
另一方面,PaLM 2-L在使用后向順序時通常表現(xiàn)最差。
隨著??的減?。辞疤犴樞蚺c前向順序的偏差增大),準確率也隨之下降。Gemini Pro和GPT-3.5-turbo的偏好不太一致,但它們?nèi)匀槐绕渌钦蚯疤犴樞蚋鼉A向于使用后向順序。
干擾規(guī)則的影響
研究人員評估了分心規(guī)則對GPT-4-turbo和PaLM 2-L的影響。
上圖顯示,添加干擾規(guī)則會進一步降低推理性能,并放大不同前提順序的影響。
盡管如此,兩個LLM的總體偏好仍然與沒有干擾規(guī)則的情況相同。
具體地說,兩個 LLM 在使用前向順序時再次取得了最佳性能,GPT-4-turbo更喜歡使用后向順序而不是其他非前向順序,而PaLM 2-L的性能隨著??越小而下降。
在上表中,研究人員列出了不同前提順序下的預測誤差細目。研究人員考慮了以下誤差類別:
1. 錯誤反駁:LLM錯誤地聲稱結論無法證明;
2. 規(guī)則幻覺:LLM生成的規(guī)則在問題中并不存在;
3. 事實幻覺:LLM生成的事實在問題中并不存在,也無法證明。
研究人員發(fā)現(xiàn),在所有LLM中,事實幻覺通常是最常見的錯誤模式,而且這種錯誤類型會隨著??的減小而急劇增加。
主要原因是LLM傾向于按照問題中規(guī)則出現(xiàn)的先后順序使用規(guī)則,因此當問題中的下一條規(guī)則尚未適用時,LLM可能仍然會幻覺出事實來完成證明步驟。
同時,研究人員觀察到,在?? = -1的情況下,錯誤駁斥的比例通常低于 | ?? | < 1。
R-GSM對于數(shù)學推理的應用
上表顯示了R-GSM的總體結果??梢钥吹?,所有LLM在R-GSM上的性能都較低。
需要注意的是,GSM8K的原始問題并不一定是以最理想的方式編寫的,因此有時人工重寫會促進推理,使模型能夠正確解決在原始問題上無法解決的重排序版本問題。
因此,在b中,對于每個LLM,也列出了模型在解決這些問題時對其原始描述的準確性。研究人員發(fā)現(xiàn),所有LLM 在至少10%的重排序問題上都會失敗,而在GPT-3.5-turbo中,這種性能下降超過了35%。
問題復雜度分解
上邊兩個圖分別顯示了不同推理步驟數(shù)和不同問題句子數(shù)的細分結果。
不難看出,在所有LLM中,需要更多推理步驟和包含更多句子的問題的證明準確率都會降低。
總體而言,GPT-4-turbo和Gemini Pro在推理步驟越多、問題越長的情況下,初始問題和重寫問題的準確率差距就越大,而PaLM 2-L和GPT-3.5 turbo在推理步驟和問題長度不同的情況下,差距仍然相似。
為了進一步了解失敗模式,他們針對每個LLM分析了那些原始問題可以正確解決而重新排序的問題卻無法解決的錯誤案例,并在下表中對常見錯誤類型進行了分類。
與研究人員在邏輯推理實驗中觀察到的情況類似,R-GSM中的預測錯誤主要是由LLM按照數(shù)字在問題中出現(xiàn)的先后順序盲目使用數(shù)字造成的。
具體來說,所有LLM最常見的錯誤情況就是容易忽略時間順序。
預測失敗的原因是問題的后半部分描述了一些早期事件。另一類錯誤發(fā)生在按順序處理問題時沒有指定某些量,從而引入未知變量進行計算。
以上圖中的問題為例。在原問題中,每種動物的數(shù)量都可以根據(jù)其前一句話直接計算出來。
然而,在重新排序的問題中,沙鼠的數(shù)量無法根據(jù)前面的句子直接計算出來,因為到此為止,魚的數(shù)量仍然是未知的,LLM必須先閱讀剩下的句子并計算出魚的數(shù)量。
然而,GPT-3.5-turbo的預測卻使用上一步計算出的數(shù)字(即兔子的數(shù)量)來計算沙鼠的數(shù)量,從而導致錯誤。
這種失敗模式在PaLM 2-L中不太常見,但在其他LLM的預測錯誤中仍占不可忽視的比例。
討論
對于文章的給出的結論,有的網(wǎng)友想到了前提條件可能受時間方向的影響,從而導致不同的結果:
論文作者對此耐心回應道:「這里考慮的是只涉及模態(tài)的簡單邏輯推理問題,命題不會改變。因此,根據(jù)定義,前提順序并不重要,但對于LLM推理卻很重要,而這正是當前LLM的一個弱點?!?/span>
一句話總結:雖然前提條件的順序并不改變問題的本質,但會顯著地影響大語言模型在推理任務上的表現(xiàn)。
研究人員經(jīng)過全面的評估后發(fā)現(xiàn),大語言模型在處理問題時,其表現(xiàn)與人類對前提順序的偏好相似:
- 當前提的排序符合解題過程中的邏輯推理步驟時,模型的表現(xiàn)最佳;
- 當問題的推理過程要求模型反復閱讀問題描述時,表現(xiàn)可能下降超過30%。
盡管人類在解決推理問題時也傾向于某種特定的前提順序,但大語言模型對這種排序效應的敏感度要更高。這種影響的產(chǎn)生可能有多個原因,例如模型的自回歸設計、訓練目標和訓練數(shù)據(jù)的組合等。
此外,研究人員還將研究擴展到數(shù)學推理領域,并提出了R-GSM基準測試,進一步實驗性地證實了排序效應的存在。
作者介紹
Xinyun Chen(陳昕昀)
Xinyun Chen目前在Google DeepMind擔任高級研究科學家,專注于大語言模型、代碼自動生成以及人工智能安全領域的研究。
她于2022年在UC伯克利獲得了計算機科學博士學位,并于2017年在上海交通大學ACM班取得了計算機科學學士學位,排名1/30。
此外,她還曾在Meta AI和日本國立情報學研究所進行過科研工作。
Ryan A. Chi
Ryan A. Chi目前在斯坦福大學攻讀計算機科學專業(yè)的研究生學位,并輔修音樂。
他對于自然語言處理和人工智能在醫(yī)療領域的應用方面有著豐富的經(jīng)驗,曾帶領斯坦福大學NLP團隊「Chirpy Cardinal」在Alexa Prize社交機器人大挑戰(zhàn)5中榮獲第一名,并拿下25萬美元的獎金。
此外,他曾在谷歌Deepmind、和英偉達工作過,并曾擔任過斯坦福ACM和斯坦福交響樂團的主席,而且還是斯坦福撲克錦標賽的聯(lián)合創(chuàng)始人。