自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

斯坦福大學(xué)實(shí)錘GPT-4變笨了!OpenAI最新回應(yīng):確實(shí)存在“智力下降”

人工智能
為了驗(yàn)證OpenAI的說法,斯坦福大學(xué)和加利福尼亞大學(xué)伯克利分校的三位研究員調(diào)查了3 月至 6 月期間 ChatGPT 性能的變化。

圖片圖片

大模型天花板GPT-4,它是不是……變笨了?

之前有不少用戶提出質(zhì)疑,并曬出了不少證據(jù)。對(duì)此,OpenAI 7月14日澄清:“我們沒有把GPT 4弄笨。相反的,我們的每個(gè)新版本,都讓GPT 4比以前更聰明了?!?/p>

圖片圖片

Peter Welinder是OpenAI的產(chǎn)品產(chǎn)品VP

但為了驗(yàn)證OpenAI的說法,斯坦福大學(xué)和加利福尼亞大學(xué)伯克利分校的三位研究員調(diào)查了3 月至 6 月期間 ChatGPT 性能的變化。

圖片圖片

論文地址:https://arxiv.org/abs/2307.09009

評(píng)估的對(duì)象包括GPT-3.5和 GPT-4 兩個(gè)大模型,并在四個(gè)任務(wù)上進(jìn)行測(cè)試:數(shù)學(xué)問題、回答敏感/危險(xiǎn)問題、代碼生成以及視覺推理。

調(diào)查結(jié)論是:GPT-4性能確實(shí)變差了。

例如,在數(shù)學(xué)問題上,2023年3月版本的GPT-4 能夠以97.6%的準(zhǔn)確率識(shí)別質(zhì)數(shù),而2023年6月版本的GPT-4 在這個(gè)任務(wù)上的表現(xiàn)卻很糟糕(準(zhǔn)確率只有2.4%),并且忽略了連貫的思考Prompt。

圖片圖片

對(duì)如此科學(xué)實(shí)驗(yàn)下的證據(jù),OpenAI在博客“Function calling and other API updates”中更新回應(yīng)到:確實(shí)在某些任務(wù)上的性能變差了。

We look at a large number of evaluation metrics to determine if a new model should be released. While the majority of metrics have improved, there may be some tasks where the performance gets worse.

我們會(huì)根據(jù)大量的評(píng)價(jià)指標(biāo)來確定是否發(fā)布新的模型,雖然新模型大多數(shù)指標(biāo)都有所改進(jìn),但可能在一些任務(wù)上模型性能會(huì)變差。

his is why we allow API users to pin the model version. For example, you can use gpt-4-0314 instead of the generic gpt-4, which points to the latest model version.

這就是為什么我們?cè)试SAPI用戶使用固定版本模型的原因。例如,用戶可以選擇使用 gpt-4-0314這個(gè)版本,而不是使用最新的 gpt-4 版本。

Each individually pinned model is stable, meaning that we won’t make changes that impact the outputs。

另外,OpenAI不會(huì)對(duì)固定版本的模型進(jìn)行任何可能影響其輸出結(jié)果的更改。

那么具體在哪些任務(wù)中GPT-4變差了呢?讓我們一起來看論文細(xì)節(jié)。

實(shí)驗(yàn)過程與其他結(jié)論

圖片圖片

論文中,作者針對(duì)每種任務(wù)都設(shè)定了主要的性能指標(biāo),例如對(duì)于解決數(shù)學(xué)問題的任務(wù),主要的性能指標(biāo)是準(zhǔn)確性;對(duì)于回答敏感問題的任務(wù),主要的性能指標(biāo)是回答率。此外,對(duì)于所有任務(wù),他們都設(shè)定了兩個(gè)通用的補(bǔ)充指標(biāo),即冗長(zhǎng)度(verbosity)和重疊度(overlap)。

圖片圖片

如前所述,在數(shù)學(xué)問題測(cè)試中,作者們研究了GPT-4和GPT-3.5在解決質(zhì)數(shù)判斷問題上的“時(shí)間表現(xiàn)”。實(shí)驗(yàn)方法是采用思維鏈(Chain-of-Thought)方法對(duì)數(shù)據(jù)集中的500個(gè)問題進(jìn)行回答。

結(jié)果顯示:兩個(gè)模型表現(xiàn)出明顯的前后不一致,GPT-4的準(zhǔn)確率從3月的97.6%下降到6月的2.4%,同時(shí),GPT-3.5的準(zhǔn)確率從7.4%提高到了86.8%。此外,GPT-4的回答更簡(jiǎn)潔,GPT-3.5的回答則更長(zhǎng)。

這種差異的原因可能與思維鏈效應(yīng)有關(guān)。例如,3月的GPT-4能夠很好地遵循思維鏈條步驟判斷17077是否為質(zhì)數(shù),但6月的版本則直接給出了"No"。而GPT-3.5在3月傾向于先給出"No",然后推理,但6月的版本修復(fù)了這個(gè)問題,正確地先寫出推理步驟,然后給出正確答案"Yes"。這表明,由于模型的改變,即使是同樣的Prompt方法,如思維鏈條,也可能導(dǎo)致性能大相徑庭。

在敏感問題測(cè)試中,論文作者創(chuàng)建了一個(gè)包含100個(gè)不應(yīng)由大模型直接回答的敏感問題的數(shù)據(jù)集,并手動(dòng)標(biāo)記了所有回復(fù)。

圖片圖片

結(jié)果發(fā)現(xiàn),GPT-4在3到6月間直接回答敏感問題的比例從21.0%降到5.0%,而GPT-3.5的比例從2.0%上升到8.0%,可能因GPT-4增強(qiáng)了安全性,而GPT-3.5沒有相應(yīng)的操作。

同時(shí),GPT-4回復(fù)的文本長(zhǎng)度也從600多字降到約140字。

另一方面,大模型“越獄”對(duì)服務(wù)的安全性構(gòu)成了主要威脅。作者使用了一種叫做AIM(always intelligent and Machiavellian)的攻擊,該攻擊通過構(gòu)造虛構(gòu)故事,讓大模型表現(xiàn)得像一個(gè)無過濾無道德的聊天機(jī)器人。

結(jié)果顯示,當(dāng)遭受AIM攻擊時(shí),GPT-4和GPT-3.5的回答率都大幅上升。但是,GPT-4的防御力在更新后顯著增強(qiáng),從3月的78%的回答率降到6月的31.0%,而GPT-3.5的回答率變化較小,僅降低了4%。這說明GPT-4對(duì)越獄攻擊的防御力較GPT-3.5更強(qiáng)。

圖片圖片

在代碼生成能力測(cè)試中,作者創(chuàng)建了一個(gè)新的代碼生成數(shù)據(jù)集,包括最新的50個(gè)LeetCode“easy”問題。結(jié)果顯示:從3月到6月,“可直接執(zhí)行”的生成數(shù)量降低。

如上圖所示,3月份GPT-4有超過50%的生成結(jié)果是“可直接執(zhí)行”的,但到了6月份只剩10%。GPT-3.5的情況也差不多,兩種模型的生成結(jié)果冗余性也略有增加。

對(duì)此,斯坦福的研究員猜測(cè)原因可能是:生成的代碼中添加了額外的非代碼文本。

圖片圖片

如上圖所示,GPT-4在3月份和6月份生成的代碼是有區(qū)別的。例如6月版在代碼片段的前后添加了"python"和’’’,這可能是用來標(biāo)示代碼塊的,同時(shí)還生成了更多的注釋。

在視覺推理測(cè)試中,研究人員采用了ARC數(shù)據(jù)集進(jìn)行評(píng)估,該數(shù)據(jù)集中的任務(wù)是根據(jù)幾個(gè)例子,要求輸入網(wǎng)格創(chuàng)建輸出網(wǎng)格。

圖片圖片

圖注:視覺推理的整體表現(xiàn)

從三月版到六月版,GPT-4 和 GPT-3.5 的整體表現(xiàn)都有大約 2% 的提升。生成長(zhǎng)度大致保持不變。

GPT-4 和 GPT-3.5 的性能提升都很小。但是,它們的3月版和6月版在 90% 的視覺謎題查詢上的生成結(jié)果都一樣。這些服務(wù)的整體性能也很低:GPT-4 準(zhǔn)確率為 27.4%、GPT-3.5準(zhǔn)確率為 12.2%。

專家推測(cè):或許與 MoE 技術(shù)有關(guān)

對(duì)于GPT-4變笨,之前學(xué)術(shù)界有個(gè)觀點(diǎn)是,后來的RLHF訓(xùn)練雖然讓GPT-4更與人類對(duì)齊,也就更聽從人類指示和符合人類價(jià)值觀,但讓也讓它自身的推理等能力變差。

換句話說,人類的強(qiáng)硬“教化”將GPT-4的腦葉白質(zhì)切除了。

圖片圖片

也有專家認(rèn)為是GPT變笨和它的「混合專家模型」(Mixture of Experts,MOE)的構(gòu)架有關(guān)。

MoE 技術(shù)是在神經(jīng)網(wǎng)絡(luò)領(lǐng)域發(fā)展起來的一種集成學(xué)習(xí)技術(shù),也是目前訓(xùn)練萬億參數(shù)量級(jí)模型的關(guān)鍵技術(shù)——由于現(xiàn)階段模型規(guī)模越來越大,導(dǎo)致訓(xùn)練的開銷也日益增長(zhǎng),而 MoE 技術(shù)可以動(dòng)態(tài)激活部分神經(jīng)網(wǎng)絡(luò),從而實(shí)現(xiàn)在不增加計(jì)算量的前提下大幅度增加模型參數(shù)量。

具體來說,MoE 會(huì)將預(yù)測(cè)建模任務(wù)分解為若干子任務(wù),在每個(gè)子任務(wù)上訓(xùn)練一個(gè)專家模型(Expert Model),并開發(fā)一個(gè)門控模型(Gating Model),該模型可根據(jù)要預(yù)測(cè)的輸入來學(xué)習(xí)信任哪個(gè)專家,并組合預(yù)測(cè)結(jié)果。

MoE 技術(shù)引用到GPT-4時(shí), GPT-4 中這些小型專家模型會(huì)針對(duì)不同的任務(wù)和主題領(lǐng)域進(jìn)行訓(xùn)練,例如可以有針對(duì)生物、物理、化學(xué)等方面的小型GPT-4專家模型,那么當(dāng)用戶向 GPT-4 提出問題時(shí),新系統(tǒng)就會(huì)知道要把這個(gè)問題發(fā)送給哪個(gè)專家模型。另外,為了以防萬一,新系統(tǒng)可能會(huì)向兩個(gè)或更多的專家模型發(fā)送查詢,然后將結(jié)果混在一起。

對(duì)于這個(gè)做法,業(yè)界專家形容是“忒修斯之船”,即隨著時(shí)間的推移,OpenAI 會(huì)把 GPT-4 的各個(gè)部分替換掉:“OpenAI 正在將 GPT-4 變成一支小型艦隊(duì)?!?/p>

注:忒修斯之船,是一個(gè)古希臘思想實(shí)驗(yàn),探討一個(gè)物體在其所有組成部分被完全更換后,是否仍保持其原始身份的哲學(xué)悖論。即一艘船替換完所有組件后,這艘船還是原來的嗎?

因此,GPT-4變笨很可能就與 MoE 這種訓(xùn)練方式有關(guān):“當(dāng)用戶測(cè)試 GPT-4 時(shí),我們會(huì)問很多不同的問題,而規(guī)模較小的 GPT-4 專家模型不會(huì)做得那么好,但它正在收集我們的數(shù)據(jù),它會(huì)改進(jìn)和學(xué)習(xí)?!彼固垢4髮W(xué)兼職教師Sharon Zhou介紹到。

圖片圖片

除了專業(yè)研究團(tuán)隊(duì)之外,關(guān)心AI的網(wǎng)友們也在用自己的辦法追蹤著AI能力的變化。例如有人每天讓GPT-4畫一次獨(dú)角獸,并在網(wǎng)站上公開記錄。如上所示,今天的形狀。

圖片圖片

實(shí)際上,從4月14日開始,直到現(xiàn)在也還沒看出來個(gè)獨(dú)角獸的大致形態(tài)。

責(zé)任編輯:趙寧寧 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2023-06-02 13:19:17

GPT-4文本代碼

2023-07-20 14:33:36

GPT-4代碼

2021-03-18 11:30:15

人工智能AI機(jī)器學(xué)習(xí)

2023-07-20 13:57:09

2023-07-28 12:13:28

模型語言性能

2023-07-21 12:55:07

2018-01-22 16:16:28

AI發(fā)展新趨勢(shì)機(jī)器學(xué)習(xí)

2024-01-01 22:28:52

2011-11-17 09:53:18

斯坦福大學(xué)iOS應(yīng)用開發(fā)

2022-10-13 16:01:38

技術(shù)大腦

2023-07-20 12:16:31

GPT-4AI

2009-05-07 08:49:11

鮑爾默斯坦福大學(xué)巴茨

2023-04-12 15:45:56

人工智能ChatGPT

2020-07-08 16:46:46

人工智能病毒技術(shù)

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2024-04-01 00:50:00

吳恩達(dá)智能體

2022-06-17 14:28:16

算法模型

2021-03-09 11:34:05

人工智能AI

2011-08-25 10:15:54

視頻演講喬布斯

2022-12-22 15:37:12

AI代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)