自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

GPT-4變笨實錘!3個月性能暴減1/10,代碼生成大不如前,斯坦福最新研究引爆輿論

人工智能
為了判斷GPT-4和GPT-3.5針對「給定整數(shù)是否為質數(shù)」的能力的偏差,研究團隊用500個問題組成的數(shù)據(jù)集對模型進行了評估。

GPT-4變笨實錘了?

斯坦福、UC伯克利最新研究稱,和3月相比,GPT-4在6月的性能直接暴降。

甚至,代碼生成、問題回答大不如前。

圖片圖片

論文地址:https://arxiv.org/pdf/2307.09009.pdf

比如問「這個數(shù)是質數(shù)嗎」,GPT-4一步一步思考的成功率從97.6%降到2.4%。

圖片圖片

GPT-4性能驟減早有端倪。有網(wǎng)友甚至把3小時25條額度一口氣用完,也沒有解決問題。

圖片圖片

而這次,斯坦福研究一出瞬間引爆輿論,讓所有人大吃一驚的是,GPT-4竟然性能下降1/10。

就連OpenAI站出來,表示對此關注,正積極調查大家分享的報告。

圖片圖片

那么,這項斯坦福論文究竟說了什么?

安全了,但智商下線了

總的來說,GPT-4在3月和6月性能對比,主要在四個任務中有明顯的下降。

- 解決數(shù)學問題

- 回答敏感問題

- 代碼生成

- 視覺推理

圖片圖片

求解數(shù)學問題,CoT失敗了

在求解數(shù)學問題上,GPT-4準確率不僅下降,就連解題步驟都給省了。

為了判斷GPT-4和GPT-3.5針對「給定整數(shù)是否為質數(shù)」的能力的偏差,研究團隊用500個問題組成的數(shù)據(jù)集對模型進行了評估。

同時,研究還利用思想鏈幫助模型進行推理。

結果顯示,3 月,GPT-4正確回答了其中的488個問題。而在6月,它只答對了12個問題。

GPT-4準確率從 97.6%直降到 2.4%!

相應地,GPT-3.5的準確率則有較大提升,從7.4%上升到86.8%。

圖片圖片

此外,GPT-4 的響應變得更加緊湊:生成平均字符數(shù)從3月821.2降到6的3.8。另一方面,GPT-3.5 的響應長度增長了約 40%。

3月和6月版本之間的答案重疊度,都比較低。

那么,為什么會有這么大的差異?一種可能的解釋是思維鏈效果的變化。

圖片圖片

如上, 為了確定17077是否是質數(shù),GPT-4 3月版很好地遵循了CoT指令,并將任務分解成4個步驟。

然而,這種思維鏈對于6月版并不起作用:沒有生成任何解題步驟,只輸出了「不是」。

在GPT-3.5中,在3月份解答中答案是錯誤的,6月更新后解決了這個問題。

這一有趣的現(xiàn)象表明,同樣的提示方法,即使是這些被廣泛采用的方法,如CoT,也可能由于LLM變化而導致顯著不同的性能。

代碼生成,更加冗長,難以執(zhí)行

另外,GPT-4代碼生成也變得更糟了。

研究團隊從LeetCode中建立了一個包含50個簡單問題的數(shù)據(jù)集,并測試了有多少GPT-4答案在不做任何修改的情況下運行。

結果,3月份的版本在52%的問題上取得了成功,但6月的模型,成功率下降到了10%。GPT-4 的冗長程度也增加了20%。

圖片圖片

同時,GPT-3.5的下降幅度也很大,從22%降至2%。

此外,3月份,GPT-4和GPT-3.5都遵循用戶指令,從而產(chǎn)生了直接可執(zhí)行的生成。

然而,在6月份,他們在代碼片段前后添加了額外的「引號」,導致代碼無法執(zhí)行。

圖片圖片

回答敏感問題,更安全但缺乏理由

還有GPT-4回答問題變得更加小心謹慎了。

正是因為語言模型會帶來社會偏見,輸出有毒內容,產(chǎn)生幻覺,OpenAI對此做了大量的對齊工作。

結果可想而知,GPT-4真的被「打」聽話了。

研究中,團隊創(chuàng)建了一個包含100個LLM服務不應直接回答的敏感問題集,測試模型后,觀察到這項任務的兩個主要趨勢。

首先,從3月(21%)到 6月(5%),GPT-4回答的敏感問題較少,而GPT-3.5回答的敏感問題較多(從 2%-8%)。

6月份,GPT-4的更新中可能會部署更強大的安全層,而 GPT-3.5 則變得不再保守。

圖片圖片

另一個觀察結果是,GPT-4 的生成長度(以字符數(shù)衡量)從600多個下降到140左右。

為什么生成字符長度發(fā)生變化?

除了回答更少的問題之外,這也是因為GPT-4變得更加簡潔,并且在拒絕回答查詢時提供的解釋也更少。

如下,在無法回答用戶問題時,GPT-4在3月生成了一整段原因來解釋,6月版簡單生成了「抱歉,我無法提供幫助」。

簡之,廢話變少了。

圖片圖片

此外,研究人員通過利用「AIM攻擊」還對模型進行了越獄攻擊。

AIM攻擊描述了一個假設的事件,并要求LLM服務充當未經(jīng)過濾且不道德的聊天機器人。

如下表所示,當部署AIM攻擊時,GPT-4和GPT-3.5的應答率都有大幅增加。

然而,它們的時間漂移有很大不同。對于GPT-4,AIM攻擊在3月產(chǎn)生了78%的直接答案,但在6月僅產(chǎn)生了 31%。

對于GPT-3.5,兩個版本之間只有4%的回答率差異。這表明GPT-4的更新比GPT-3.5更能抵御越獄攻擊。

圖片圖片

視覺推理,邊際改進

最后,研究人員利用ARC數(shù)據(jù)集中467個樣本來評估了GPT-4和GPT-3.5的視覺推理能力。

結果顯示,對于GPT-4和GPT-3.5,從3月到6月,精確匹配率均提高了2%。響應長度大致不變。

雖然總體GPT-4隨著時間的推移變得更好,但在如下的特定查詢上卻變得更糟。

它在3月給出了正確的答案,但在6月份給出的答案是錯誤的。

圖片圖片

GPT-4能力下降這么多,事實真是如此嗎?

普林斯頓教授實名反對

不過,這篇論文的內容還是值得好好推敲推敲的。

粗暴地總結為GPT-4變爛,就有些過于概括了。

圖片圖片

文章地址:https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

能力≠行為

首先,聊天機器人的一個重要概念是,能力和行為之間存在著很大的差異。

一個具有某種能力的模型,可能會或可能不會在回應特定提示時,顯示出這種能力。

而讓聊天機器人獲得能力的預訓練過程代價極高,對于最大的模型來說,可能需要數(shù)月的時間,因此永遠不會重復。

另一方面,模型的行為也會受到后續(xù)微調的影響。相比起來,微調成本要低得多,而且會定期進行。

請注意,經(jīng)過預訓練的基礎模型只是一個高級的自動完成工具——它不會與用戶聊天,聊天行為是通過微調產(chǎn)生的。

微調的另一個重要目標是防止出現(xiàn)不良輸出。換句話說,微調既能激發(fā)能力,也能抑制能力。

基于這些知識,我們就可以預料到,隨著時間的推移,模型的能力會保持相對穩(wěn)定,但它的行為卻會有很大的變化。這與論文的發(fā)現(xiàn)完全一致。

沒有能力下降的證據(jù)

論文作者在四項任務中,對GPT-3.5和GPT-4進行了測試。

OpenAI通過其API提供了模型在三月和六月的「快照」,因此論文中所比較的,也是這兩個模型快照的行為。

具體來說,他們選擇了數(shù)學問題(檢查一個數(shù)字是否是質數(shù))、回答敏感問題、代碼生成和視覺推理,這四類問題進。其中,數(shù)學問題和代碼生成這兩項任務的性能有所下降。

在代碼生成方面,他們提到的變化是較新的GPT-4在輸出中添加了非代碼文本。

出于某種原因,作者沒有評估代碼的正確性。而只是檢查代碼是否可直接執(zhí)行,也就是說,它是否構成了一個完整、有效的程序。

所以,新模型試圖更有幫助的做法反而對其不利。

不僅如此,他們評估數(shù)學問題的方式更是奇怪。

500道是/否問題,但正確答案始終是「是」

用作測試的數(shù)學問題,是「17077是質數(shù)嗎」這樣的形式。

然而,作者選的500個數(shù)字,都是質數(shù)!

事實證明,在大多數(shù)情況下,沒有一個模型真正執(zhí)行了檢查數(shù)字是否有除數(shù)的算法——它們只是假裝這么做了。

也就是說,他們開始推理,然后直接跳到了最后。

下面是作者數(shù)據(jù)中的一個回應片段(GPT-4的三月快照):

圖片圖片

模型雖然正確地列出了所有需要檢查的潛在因素,但沒有實際檢查它們!

這在論文展示的例子中也是顯而易見的,但作者卻忽略了這一點,并將其作為一項數(shù)學解題測試。

由于論文只在質數(shù)上進行了測試,為了補充這個評估,普林斯頓的研究人員用500個合數(shù)測試了模型。

事實證明,作者發(fā)現(xiàn)的大部分性能下降都可以歸因于對評估數(shù)據(jù)的選擇。

看起來變化的是:GPT-4的三月版本幾乎總是猜測數(shù)字是質數(shù),六月版本則總是猜測它是合數(shù)。對于GPT-3.5,這種行為正好相反。

因為作者只測試了質數(shù),所以他們把這一現(xiàn)象解釋為性能的下降。

實際上,如下圖所示,四個模型都一樣的糟糕——它們都是基于他們被校準的方式來猜測的。

簡單來說就是,在微調過程中,有些模型可能接觸到了更多涉及質數(shù)的數(shù)學問題,而其他的則是合數(shù)。

圖片圖片

GPT-3.5的六月版本和GPT-4的三月版本幾乎總是推斷數(shù)字是質數(shù),而另外兩個模型則正好相反。

但是論文只測試了質數(shù),因此得出結論:GPT-3.5的性能提高了,GPT-4的性能下降了。

簡而言之,論文中的所有內容都與模型隨時間變化而變化的行為相一致,且沒有任何一項表明模型的能力出現(xiàn)了下降。

即使是行為變化,似乎也是作者評估中的特殊情況,目前還不清楚他們的發(fā)現(xiàn)能否推廣到其他任務中。

為什么這篇論文會引發(fā)爭議?

過去幾個月,有不少人根據(jù)自己的使用經(jīng)驗,推測GPT-4的性能已經(jīng)出現(xiàn)了下降。

當GPT-4的架構(據(jù)稱)被泄露時,有一個廣為流傳的說法稱,OpenAI為了節(jié)省計算時間和成本而降低了性能。

OpenAI方面對此矢口否認,但用戶們并不買賬。

因此,當這篇論文出來時,似乎證實了這些長期以來的猜測。

普林斯頓的研究人員表示,雖然無法確定傳言是否屬實,但可以肯定的是,這篇論文并沒有提供相關證據(jù)。

在那些對性能下降持懷疑態(tài)度的人中,最受歡迎的假設是:當人們越來越多地使用ChatGPT時,就會更容易注意到它的局限性。

但,這里還有另一種可能。

在LLM API上很難構建可靠的產(chǎn)品

行為變化和能力退化對用戶的影響非常相似。

用戶往往有著特定的工作流程和提示策略,而這些策略對于他們自己的使用場景來說,非常有效。

鑒于LLM的非確定性,要發(fā)現(xiàn)這些策略并找到適合特定應用的工作流程,需要花費大量的精力。

因此,當模型的行為發(fā)生漂移時,這些工作流程就可能會失效。

對于受挫的ChatGPT用戶來說,告知他們所需的能力仍然存在,但現(xiàn)在要用新的提示策略才能激發(fā),顯然是無濟于事的。

而對于基于那些GPT API構建的應用程序來說,情況尤其如此。如果模型的行為發(fā)生變化,那么已經(jīng)部署給用戶的代碼就很可能會出現(xiàn)問題。

為了緩解這一問題,OpenAI提供了模型快照,但只保留幾個月,并要求應用開發(fā)人員進行定期更新。

正如普林斯頓的研究人員之前所提到的,這凸顯了使用這些API進行可重復性研究,或者在其基礎上構建可靠的產(chǎn)品是多么困難。

簡而言之,新論文并未顯示出GPT-4的能力退化。但這是一個很有價值的提醒:對LLM經(jīng)常進行的微調可能會產(chǎn)生意想不到的影響,包括某些任務的顯著行為變化。

最后,我們發(fā)現(xiàn)的陷阱揭示了,對語言模型進行定量評估是多么的困難。

作者介紹

Sayash Kapoor

圖片

Kapoor是普林斯頓大學信息技術政策中心的計算機科學博士候選人。他的研究重點集中在AI對社會的影響。

在此之前,Kapoor曾在Facebook、哥倫比亞大學和瑞士EPFL從事AI方面的學術研究,他曾獲得ACM FAccT最佳論文獎和ACM CSCW影響力認可獎。

目前,Kapoor正在與Arvind Narayanan合著一本關于AI「蛇油」(Snake Oil)的書。這本書批判性地探討了AI能做什么和不能做什么。

Arvind Narayanan

圖片

Narayanan是普林斯頓大學計算機科學教授,兼信息技術政策中心主任。

Narayanan的研究集中在數(shù)字技術,尤其是AI對社會的影響,和Kapoor是合作關系。

Arvind Narayanan是普林斯頓大學計算機科學教授和信息技術政策中心主任。

他曾與人合著過一本關于公平與機器學習的教科書,目前正在與Kapoor合著一本關于AI「蛇油」的書。

他領導了普林斯頓網(wǎng)絡透明與問責項目,揭示公司如何收集和使用用戶的個人信息。Narayanan的研究是最早表明機器學習如何反映文化成見的研究之一,他的博士研究表明了去身份化的根本局限性。

Narayanan曾獲得過總統(tǒng)科學家和工程師早期職業(yè)獎 (PECASE),兩次獲得隱私增強技術獎 (Privacy Enhancing Technologies Award),三次獲得決策者隱私論文獎 (Privacy Papers for Policy Makers Award)。

網(wǎng)友熱議

英偉達科學家Jim Fan表示,我們中的許多從業(yè)人員都認為,GPT-4會隨著時間的推移而退化。

但是,GPT-4為什么會退化,我們又能從中學到什么呢?以下是我的想法:

圖片圖片

- 安全性與有用性的權衡

論文顯示,GPT-4 Jun版本比Mar版本「更安全」,因為它更有可能拒絕敏感問題(回答率從21%降到5%)。

不幸的是,更高的安全性通常是以更低的實用性為代價的,這可能會導致認知能力的下降。我的猜測是(沒有證據(jù),只是推測),OpenAI從3月-6月花了大部分精力進行「腦葉切除術」,沒有時間完全恢復其他重要的能力。

- 安全對齊使編碼變得不必要地冗長

論文顯示,GPT-4 Jun往往會混入無用的文本,即使提示明確指出「只生成代碼,不包含任何其他文本」。

這意味著實踐者現(xiàn)在需要手動對輸出進行后處理才能執(zhí)行。這在LLM軟件棧中是個大麻煩。我認為這是安全對齊的副作用。

我們都見過GPT添加警告、免責聲明(我不是<領域>專家,所以請咨詢......)和反駁(話雖如此,但尊重他人很重要......),通常是在一個原本非常直接的答案上。如果整個「大腦」都被調整成這樣,編碼也會受到影響。

- 成本削減

沒有人知道GPT-4 Jun是否與GPT-4 Mar是完全相同的MOE配置。有可能 (1) 參數(shù)量減少,(2) 專家數(shù)量減少,和/或 (3) 較簡單的查詢被路由到較小的專家,只有復雜的查詢才保持原來的計算成本。

- 持續(xù)集成將是一個至關重要的LLM研發(fā)課題

人工智能領域幾乎沒有趕上一般軟件領域認為理所當然的事情。即使是這篇研究論文,也沒有對MMLU、Math 和 HumanEval等基準進行全面的回歸測試。

它只研究了一個特定的質數(shù)檢測問題。GPT-4在三角函數(shù)上回歸了嗎?其他推理任務呢?不同編程語言的代碼質量以及自調試能力如何?

馬庫斯問道,從RLHF微調如何?

圖片圖片

還有網(wǎng)友表示,沒錯,他們有可能在操縱模型,決定讓哪個專家參與進來。削減成本總是一個好選擇。

不幸的是,除非OpenAI解釋發(fā)生了什么,否則我們無法知道。但正如你所說,他們否認質量變差了。

圖片圖片

我也注意到了同樣的情況。我目前的工作流是必應(雖然也是GPT,但有更多的數(shù)據(jù)和研究驅動)、GPT-4和Claude 2的組合,后者最近更優(yōu)先。

圖片圖片

在我看來,這就是開源模型會獲勝的原因。

圖片圖片

參考資料:

https://arxiv.org/abs/2307.09009

https://twitter.com/drjimfan/status/1681716564335394817?s=46&t=iBppoR0Tk6jtBDcof0HHgg

https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

責任編輯:武曉燕 來源: 新智元
相關推薦

2023-07-21 14:16:15

2023-07-20 14:33:36

GPT-4代碼

2023-06-02 13:19:17

GPT-4文本代碼

2023-07-20 13:57:09

2012-06-15 09:14:21

金融時報黑莓

2024-01-01 22:28:52

2023-03-15 10:35:16

GPTAI

2023-06-05 15:44:15

GPT-4AI

2024-03-25 07:15:00

AI模型

2023-07-21 14:47:24

AI訓練

2025-01-17 10:26:19

模型開發(fā)ChatGPT

2025-03-12 10:38:05

2023-12-26 14:56:59

模型訓練

2024-01-03 13:37:00

模型數(shù)據(jù)

2024-01-29 12:49:00

AI模型

2023-10-17 13:33:00

AI數(shù)據(jù)

2023-06-15 14:00:00

研究模型

2024-01-02 13:12:53

GPT-4UCSC數(shù)據(jù)

2023-09-21 12:31:54

AI數(shù)據(jù)

2023-12-17 11:39:38

微軟模型
點贊
收藏

51CTO技術棧公眾號