自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

研究實錘GPT-4真變笨了:3個月內(nèi)數(shù)學(xué)能力雪崩式下降,代碼能力也變差

開發(fā) 人工智能
具體而言,通過四個任務(wù)研究過 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的生成結(jié)果后,研究者發(fā)現(xiàn)這兩個 LLM 確實在一些指標(biāo)上變得更差了,尤其是 GPT-4 求解數(shù)學(xué)問題的能力,可以說是雪崩式下降

前些天,有不少用戶抱怨 GPT-4 變笨了,但到底變得有多笨呢?

近日,來自斯坦福、UC Berkeley 的一篇 arXiv 預(yù)印本論文給出了對這一問題的定量實驗結(jié)果并公布了相關(guān)評估和響應(yīng)數(shù)據(jù)。

在論文公布不久,這篇研究就引起了大家廣泛的關(guān)注與討論,很多網(wǎng)友都認(rèn)同論文闡述的結(jié)果。

當(dāng)然,任何事物都有兩面性。也有網(wǎng)友并不認(rèn)同論文結(jié)論,發(fā)布了一篇質(zhì)疑文章認(rèn)為這篇論文的結(jié)果過于簡單化了,「雖然研究結(jié)果很有趣,但有些方法值得懷疑。」

圖片圖片

質(zhì)疑文章鏈接:https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

那接下來,我們來看斯坦福、UC Berkeley 的這篇論文發(fā)現(xiàn)了什么。

  • 論文鏈接:https://arxiv.org/pdf/2307.09009.pdf
  • 項目數(shù)據(jù):https://github.com/lchen001/LLMDrift

具體而言,通過四個任務(wù)研究過 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的生成結(jié)果后,研究者發(fā)現(xiàn)這兩個 LLM 確實在一些指標(biāo)上變得更差了,尤其是 GPT-4 求解數(shù)學(xué)問題的能力,可以說是雪崩式下降 —— 三月版 97.6% 的準(zhǔn)確度到六月只剩 2.4%。研究者還推測了這些變化的原因。

圖片圖片

圖源:推特 @svpino

GPT-3.5 和 GPT-4 等大型語言模型(LLM)正被廣泛使用。隨著時間推移,GPT-4 這樣的 LLM 可以根據(jù)用戶的數(shù)據(jù)和反饋以及設(shè)計的變化而更新。但是,我們目前仍不清楚 GPT-3.5 和 GPT-4 的更新方式,也不了解其更新方式會對這些 LLM 的行為產(chǎn)生怎樣的影響。

這些未知讓我們難以可靠地將 LLM 整合進更大的工作流程中:如果 LLM 對某個 prompt 的響應(yīng)突然發(fā)生變化(比如準(zhǔn)確度或格式),那就可能破壞下游任務(wù)。這也會讓我們難以從「同一個」LLM 復(fù)現(xiàn)出同樣的結(jié)果,甚至完全無法做到。

除了這些整合方面的難題之外,像 GPT-4 這樣的 LLM 服務(wù)是否會隨著時間不斷變得「更好」也是一個有趣的問題。重點是,我們需要知道:為了提升模型的某些方面而執(zhí)行更新時,模型的其它能力會不會受到損傷?

為了找到這些問題的答案,斯坦福大學(xué)和加州大學(xué)伯克利分校的研究者評估了 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的表現(xiàn),其評估基于四大任務(wù):1) 求解數(shù)學(xué)問題,2) 回答敏感 / 危險問題,3) 生成代碼, 4) 視覺推理。

研究者表示,之所以選擇這四個任務(wù),是因為它們是 LLM 多種有用能力的代表。他們最終發(fā)現(xiàn),GPT-3.5 和 GPT-4 各自的兩個發(fā)行版的表現(xiàn)和行為都發(fā)生了重大變化,并且更新版在某些任務(wù)上的表現(xiàn)還變差了!

概述:LLM 服務(wù)、任務(wù)和指標(biāo)

這篇論文研究的是不同 LLM 的行為隨時間的變化情況,下面解釋下定量研究中所關(guān)注的 LLM、評估任務(wù)和指標(biāo)

LLM 服務(wù):研究者研究的模型為 GPT-3.5 和 GPT-4,它們是 ChatGPT 的骨干。

評估任務(wù)有四個:求解數(shù)學(xué)問題、回答敏感問題、生成代碼和視覺推理,如下圖 1 所示。

圖片

圖 1:在四個不同任務(wù)上,GPT-4 和 GPT-3.5 的 2023 年三月版和六月版的表現(xiàn)

可以看到,GPT-4 和 GPT-3.5 的表現(xiàn)變化很大,并且在某些任務(wù)上還變差了。

  • 指標(biāo):這里每個任務(wù)都有一個主指標(biāo),所有任務(wù)還有兩個常見的額外指標(biāo)。
  • 準(zhǔn)確度:LLM 生成正確答案的可能性,這是求解數(shù)學(xué)問題任務(wù)的主指標(biāo)。
  • 回答率:LLM 直接回答問題答案的頻率,這是回答敏感問題任務(wù)的主指標(biāo)。
  • 是否直接執(zhí)行:代碼中有多大比例可以直接執(zhí)行,這是代碼生成任務(wù)的主指標(biāo)。
  • 精確匹配:生成的視覺對象是否與 ground truth 完全匹配,這是視覺推理任務(wù)的主指標(biāo)。
  • 冗長度(verbosity):生成的長度。
  • 重疊度(overlap):對于同一提示,同一 LLM 的兩個版本的答案是否相互匹配。

檢測結(jié)果揭示出 LLM 變化巨大

求解數(shù)學(xué)問題:思維鏈可能失敗

結(jié)果或許讓人驚訝,在這個簡單任務(wù)上,LLM 的表現(xiàn)變化很大!如下圖 2 (a) 所示,GPT-4 的準(zhǔn)確度從三月版的 97.6% 猛降至六月版的 2.4%;GPT-3.5 的準(zhǔn)確度卻從 7.4% 猛增至 86.8%。

此外,GPT-4 的響應(yīng)變得緊湊了許多:其平均冗長度(生成字符的數(shù)量)從三月版的 821.2 降至六月版的 3.8。另一方面,GPT-3.5 的響應(yīng)卻增長了約 40%。兩個模型的三月版和六月版的答案重疊度都很低。

圖 2:求解數(shù)學(xué)問題:(a) GPT-4 和 GPT-3.5 的 2023 年三月版和六月版的準(zhǔn)確度、冗長度和答案重疊度。整體而言,兩個模型的表現(xiàn)都發(fā)生了巨大變化。(b) 一個示例查詢和對應(yīng)的響應(yīng)情況。

這樣的表現(xiàn)差異從何而來?研究者給出的一種解釋是思維鏈效果的變化。圖 2 (b) 給出了一個示例進行說明??梢钥吹剑珿PT-4 三月版遵從思維鏈指示得到了正確答案,但六月版卻忽視了思維鏈,得到了錯誤答案。GPT-3.5 總是會遵從思維鏈指示,但其三月版就是堅持生成錯誤答案([No]),其六月版已經(jīng)很大程度上修復(fù)這個問題。

回答敏感問題:變得更加安全但缺乏拒答理由

在這一任務(wù)上,研究者觀察到了兩個趨勢。如下圖 3 所示,第一個趨勢是 GPT-4 會更少地回答敏感問題,從三月版的 21.0% 降至六月版的 5.0%,而 GPT-3.5 的數(shù)據(jù)卻上升了(從 2.0% 增至 8.0%)。

研究者猜想,這是因為 GPT-4 的六月更新中部署了更強大的安全層,而 GPT-3.5 的保守程度卻下降了。第二個趨勢是 GPT-4 的生成長度從 600 多下降到了 140 左右。

圖片

圖 3:回答敏感問題:(a) 整體性能變化

GPT-4 回答更少問題,而 GPT-3.5 回答稍微更多問題。(b) 一個示例查詢和對應(yīng)的響應(yīng)情況。GPT-4 和 GPT-3.5 的三月版都更能說,會給出拒絕回答查詢的詳細(xì)原因。它們的六月版就只會簡單說個抱歉。

生成長度變化的原因是什么呢?除了回答更少問題外,還因為 GPT-4 變得更加簡潔,所以在拒絕回答時提供的解釋也更少。圖 3 (b) 的例子就能說明這一點。GPT-4 的三月版和六月版都拒絕回答不適當(dāng)?shù)牟樵儭5侨掳鏁梢徽挝谋緛斫忉尵艽鸬脑?,但六月版只是說:「抱歉,但我無法提供幫助?!笹PT-3.5 也有類似的現(xiàn)象。這說明這些 LLM 可能變得更安全,但在拒絕回答某些問題時會更少提供理由。

代碼生成:更冗長但可直接執(zhí)行的代碼更少

整體而言,從三月版到六月版,可直接執(zhí)行的代碼數(shù)量變少了。如下圖 4 (a) 所示,GPT-4 三月版超過 50% 的生成代碼可直接執(zhí)行,但六月版的只有 10%。GPT-3.5 有類似趨勢。兩個模型的冗長度都小幅增長。

圖片圖片

圖 4:代碼生成:(a) 整體表現(xiàn)的變化情況。(b) 一個示例查詢和對應(yīng)的響應(yīng)情況

GPT-4 和 GPT-3.5 的三月版都遵照用戶指示(the code only / 只生成代碼),因此生成結(jié)果都是可直接執(zhí)行的代碼。但它們的六月版卻會在代碼片段前后添加額外的三引號 “‘,導(dǎo)致代碼無法執(zhí)行。

為什么可直接執(zhí)行的生成結(jié)果數(shù)量變少了?一個可能的解釋是六月版總是會在生成結(jié)果中添加額外的非代碼文本。

圖 4 (b) 給出了一個示例。GPT-4 的三月版和六月版的生成結(jié)果基本一致,但有兩處不同,一是六月版在代碼段前后添加了 “‘python 和 “‘。二是六月版生成了一些注釋。變化雖不大,但額外的三引號卻讓代碼變得無法直接執(zhí)行。如果有人將 LLM 生成的代碼整合在更大的軟件開發(fā)流程中,那么這個問題還是挺嚴(yán)重的。

視覺推理:少量提升

如下圖 5 (a) 所示,GPT-4 和 GPT-3.5 的性能提升都很小。但是,它們的三月版和六月版在 90% 的視覺謎題查詢上的生成結(jié)果都一樣。這些服務(wù)的整體性能也很低:GPT-4 為 27.4%、GPT-3.5 為 12.2%。

圖片圖片

圖 5:視覺推理:(a) 整體表現(xiàn)

從三月版到六月版,GPT-4 和 GPT-3.5 的整體表現(xiàn)都有大約 2% 的提升。生成長度大致保持不變。(b) 一個示例查詢和對應(yīng)的響應(yīng)情況。

需要指出,更新版的 LLM 并不總是能生成更好的結(jié)果。事實上,盡管 GPT-4 的整體表現(xiàn)變得更好了,但六月版卻會在三月版答對的問題上犯錯。圖 5 (b) 就是這樣一個例證。雖然整體上 GPT-4 的六月版都表現(xiàn)更好,但這個特定案例卻不是這樣。其三月版給出了正確的網(wǎng)格,六月版卻沒有。這表明我們需要細(xì)粒度地監(jiān)控模型的性能變化,尤其是對于關(guān)鍵的應(yīng)用。

更多評估細(xì)節(jié)請查看原論文。

責(zé)任編輯:趙寧寧 來源: 機器之心
相關(guān)推薦

2023-07-21 14:16:15

2023-07-21 12:57:40

ChatGPT能力檢測

2023-07-21 12:55:07

2024-01-01 22:28:52

2023-07-20 13:57:09

2023-06-02 13:19:17

GPT-4文本代碼

2023-07-20 12:16:31

GPT-4AI

2023-06-01 12:46:46

GPT-4數(shù)學(xué)OpenAI

2024-03-05 13:59:51

模型數(shù)據(jù)

2024-05-09 08:33:33

2023-11-02 12:21:50

GPT-4緩存模型

2023-07-14 09:49:16

2024-07-08 08:38:00

模型推理

2023-04-04 11:20:40

GPT-4OpenAI

2023-03-26 21:03:54

GPT-4人工智能

2023-05-15 15:38:59

AI模型

2023-07-05 15:02:51

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2023-06-02 13:39:00

GPT-3開源GPU

2024-04-19 14:52:13

MetaGPT-4模型
點贊
收藏

51CTO技術(shù)棧公眾號