自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="c3xpl"></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

GPT-4變笨引爆輿論！文本代碼質(zhì)量都下降，OpenAI剛剛回應(yīng)了降本減料質(zhì)疑

作者：量子位 2023-06-02 13:19:17

兩個(gè)月前GPT-4是世界上最偉大的寫作助手，幾周前它開始變得平庸。我懷疑他們削減了算力或者把它變得沒那么智能。

本文經(jīng)AI新媒體量子位（公眾號 ID: QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

大模型天花板GPT-4，它是不是……變笨了？

先是少數(shù)用戶提出質(zhì)疑，隨后大量網(wǎng)友表示自己也注意到了，還貼出不少證據(jù)。

有人反饋，把GPT-4的3小時(shí)25條對話額度一口氣用完了，都沒解決自己的代碼問題。

無奈切換到GPT-3.5，反倒解決了。

總結(jié)下大家的反饋，最主要的幾種表現(xiàn)有：

以前GPT-4能寫對的代碼，現(xiàn)在滿是Bug
回答問題的深度和分析變少了
響應(yīng)速度比以前快了

這就引起不少人懷疑，OpenAI是不是為了節(jié)省成本，開始偷工減料？

兩個(gè)月前GPT-4是世界上最偉大的寫作助手，幾周前它開始變得平庸。我懷疑他們削減了算力或者把它變得沒那么智能。

這就不免讓人想起微軟新必應(yīng)“出道即巔峰”，后來慘遭“前額葉切除手術(shù)”能力變差的事情……

網(wǎng)友們相互交流自己的遭遇后，“幾周之前開始變差”，成了大家的共識。

一場輿論風(fēng)暴同時(shí)在Hacker News、Reddit和Twitter等技術(shù)社區(qū)形成。

這下官方也坐不住了。

OpenAI開發(fā)者推廣大使Logan Kilpatrick，出面回復(fù)了一位網(wǎng)友的質(zhì)疑：

API 不會在沒有我們通知您的情況下更改。那里的模型處于靜止?fàn)顟B(tài)。

不放心的網(wǎng)友繼續(xù)追問確認(rèn)“就是說GPT-4自從3月14日發(fā)布以來都是靜態(tài)的對吧？”，也得到了Logan的肯定回答。

“我注意到對于某些提示詞表現(xiàn)不一致，只是由于大模型本身的不穩(wěn)定性嗎？”，也得到了“Yes”的回復(fù)。

但是截至目前，針對網(wǎng)頁版GPT-4是否被降級過的兩條追問都沒有得到回答，并且Logan在這段時(shí)間有發(fā)布別的內(nèi)容。

那么事情究竟如何，不如自己上手測試一波。

對于網(wǎng)友普遍提到GPT-4寫代碼水平變差，我們做了個(gè)簡單實(shí)驗(yàn)。

實(shí)測GPT-4“煉丹”本領(lǐng)下降了嗎？

3月底，我們曾實(shí)驗(yàn)過讓GPT-4“煉丹”，用Python寫一個(gè)多層感知機(jī)來實(shí)現(xiàn)異或門。

△ShareGPT截圖，界面稍有不同

讓GPT-4改用numpy不用框架后，第一次給出的結(jié)果不對。

在修改兩次代碼后，運(yùn)行得到了正確結(jié)果。第一次修改隱藏神經(jīng)元數(shù)量，第二次把激活函數(shù)從sigmoid修改成tanh。

6月2日，我們再次嘗試讓GPT-4完成這個(gè)任務(wù)，但換成了中文提示詞。

這回GPT-4第一次就沒有使用框架，但給的代碼仍然不對。

后續(xù)只修改一次就得到正確結(jié)果，而且換成了力大磚飛的思路，直接增加訓(xùn)練epoch數(shù)和學(xué)習(xí)率。

回答的文字部分質(zhì)量也未觀察到明顯下降，但響應(yīng)速度感覺確實(shí)有變快。

由于時(shí)間有限，我們只進(jìn)行了這一個(gè)實(shí)驗(yàn)，且由于AI本身的隨機(jī)性，也并不能否定網(wǎng)友的觀察。

最早4月19日就有人反饋

我們在OpenAI官方Discord頻道中搜索，發(fā)現(xiàn)從4月下旬開始，就不時(shí)有零星用戶反饋GPT-4變差了。

但這些反饋并未引發(fā)大范圍討論，也沒有得到官方正式回應(yīng)。

5月31日，Hacker News和Twitter同天開始大量有網(wǎng)友討論這個(gè)問題，成為整個(gè)事件的關(guān)鍵節(jié)點(diǎn)。

HackerNews一位網(wǎng)友指出，在GPT-4的頭像還是黑色的時(shí)候更強(qiáng)，現(xiàn)在紫色頭像版在修改代碼時(shí)會丟掉幾行。

在Twitter上較早提出這個(gè)問題的，是HyperWrite（一款基于GPT API開發(fā)的寫作工具）的CEO，Matt Shumer。

但這條推文卻引發(fā)了許多網(wǎng)友的共鳴，OpenAI員工回復(fù)的推文也正是針對這條。

不過這些回應(yīng)并沒讓大家滿意，反而討論的范圍越來越大。

比如Reddit上一篇帖子提到，原來能回答代碼問題的GPT-4，現(xiàn)在連哪些是代碼哪些是問題都分不出來了。

在其他網(wǎng)友的追問下，帖子作者對問題出現(xiàn)的過程進(jìn)行了概述，還附上了和GPT的聊天記錄。

對于OpenAI聲稱模型從三月就沒有改動過，公開層面確實(shí)沒有相關(guān)記錄。

ChatGPT的更新日志中，分別在1月9日、1月30日、2月13日提到了對模型本身的更新，涉及改進(jìn)事實(shí)準(zhǔn)確性和數(shù)學(xué)能力等。

但自從3月14日GPT-4發(fā)布之后就沒提到模型更新了，只有網(wǎng)頁APP功能調(diào)整和添加聯(lián)網(wǎng)模式、插件模式、蘋果APP等方面的變化。

假設(shè)真如OpenAI所說，GPT-4模型本身的能力沒有變化，那么這么多人都感覺它表現(xiàn)變差是怎么回事呢？

很多人也給出了自己的猜想。

第一種可能的原因是心理作用。

Keras創(chuàng)始人Fran?ois Chollet就表示，不是GPT的表現(xiàn)變差，而是大家渡過了最初的驚喜期，對它的期待變高了。

Hacker News上也有網(wǎng)友持相同觀點(diǎn)，并補(bǔ)充到人們的關(guān)注點(diǎn)發(fā)生了改變，對GPT失誤的敏感度更高了。

拋開人們心理感受的差異，也有人懷疑API版本和網(wǎng)頁版本不一定一致，但沒什么實(shí)據(jù)。

還有一種猜測是在啟用插件的情況下，插件的額外提示詞對要解決的問題來說可能算一種污染。

△WebPilot插件中的額外提示詞

這位網(wǎng)友就表示，在他看來GPT表現(xiàn)變差正是從插件功能開始公測之后開始的。

也有人向OpenAI員工詢問是否模型本身沒變，但推理參數(shù)是否有變化？

量子位也曾偶然“拷問”出ChatGPT在iOS上的系統(tǒng)提示詞與網(wǎng)頁版并不一致。

如果在手機(jī)端開啟一個(gè)對話，它會知道自己在通過手機(jī)與你交互。
會把回答控制在一到兩句話，除非需要長的推理。
不會使用表情包，除非你明確要求他使用。

△不一定成功，大概率拒絕回答

那么如果在網(wǎng)頁版繼續(xù)一個(gè)在iOS版開啟的對話而沒意識到，就可能觀察到GPT-4回答變簡單了。

總之，GPT-4自發(fā)布以來到底有沒有變笨，目前還是個(gè)未解之謎。

但有一點(diǎn)可以確定：

3月14日起大家上手玩到的GPT-4，從一開始就不如論文里的。

與人類對齊讓AI能力下降

微軟研究院發(fā)表的150多頁刷屏論文《AGI的火花：GPT-4早期實(shí)驗(yàn)》中明確：

他們早在GPT-4開發(fā)未完成時(shí)就得到了測試資格，并進(jìn)行了長期測試。

后來針對論文中很多驚艷例子，網(wǎng)友都不能成功用公開版GPT-4復(fù)現(xiàn)。

目前學(xué)術(shù)界有個(gè)觀點(diǎn)是，后來的RLHF訓(xùn)練雖然讓GPT-4更與人類對齊——也就更聽從人類指示和符合人類價(jià)值觀——但讓也讓它自身的推理等能力變差。

論文作者之一、微軟科學(xué)家張弋在中文播客節(jié)目《What’s Next｜科技早知道》S7E11期中也提到：

那個(gè)版本的模型，比現(xiàn)在外面大家都可以拿得到的GPT-4還要更強(qiáng)，強(qiáng)非常非常多。

舉例來說，微軟團(tuán)隊(duì)在論文中提到，他們每隔相同一段時(shí)間就讓GPT-4使用LaTeX中的TikZ畫一個(gè)獨(dú)角獸來追蹤GPT-4能力的變化。

論文中展示的最后一個(gè)結(jié)果，畫得已經(jīng)相當(dāng)完善。

但論文一作Sebastien Bubeck后續(xù)在MIT發(fā)表演講時(shí)透露了更多信息。

后來當(dāng)OpenAI開始關(guān)注安全問題的時(shí)候，后續(xù)版本在這個(gè)任務(wù)中變得越來越糟糕了。

與人類對齊但并不降低AI自身能力上限的訓(xùn)練方法，也成了現(xiàn)在很多團(tuán)隊(duì)的研究方向，但還在起步階段。

除了專業(yè)研究團(tuán)隊(duì)之外，關(guān)心AI的網(wǎng)友們也在用自己的辦法追蹤著AI能力的變化。

有人每天讓GPT-4畫一次獨(dú)角獸，并在網(wǎng)站上公開記錄。

從4月12日開始，直到現(xiàn)在也還沒看出來個(gè)獨(dú)角獸的大致形態(tài)。

當(dāng)然網(wǎng)站作者表示，自己讓GPT-4使用SVG格式畫圖，與論文中的TikZ格式不一樣也有影響。

并且4月畫的與現(xiàn)在畫的似乎只是一樣差，也沒看出來明顯退步。

最后來問問大家，你是GPT-4用戶么？最近幾周有感到GPT-4能力下降么？歡迎在評論區(qū)聊聊。

Bubeck演講：https://www.youtube.com/watch?v=qbIk7-JPB2c
張弋訪談：https://xyzfm.link/s/UfTan0
每天一個(gè)GPT-4獨(dú)角獸https://gpt-unicorn.adamkdean.co.uk

參考鏈接：
[1]https://news.ycombinator.com/item?id=36134249
[2]https://twitter.com/nabeelqu/status/1663915378265800705
[3]https://twitter.com/OfficialLoganK/status/1663934947931897857
[4]https://discord.com/channels/974519864045756446/1001151820170801244
[5]https://twitter.com/mattshumer_/status/1663744527448829954
[6]https://www.reddit.com/r/ChatGPT/comments/13xik2o/chat_gpt_4_turned_dumber_today/
[7]https://help.openai.com/en/articles/6825453-chatgpt-release-notes
[8]https://twitter.com/fchollet/status/1664036777416597505
[9]https://news.ycombinator.com/item?id=36155267

責(zé)任編輯：武曉燕來源：量子位

GPT-4 文本代碼

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="jhpqa"></blockquote>

<legend id="jhpqa"><track id="jhpqa"></track></legend>