作者 | 徐杰承
審校 | 云昭
早在一個(gè)多月前,ChatGPT性能下降的傳聞便開始在網(wǎng)上流行,不少訂閱了Plus版的用戶紛紛表示,感覺ChatGPT在經(jīng)歷了幾輪更新后開始降智,甚至有時(shí)反應(yīng)速度也會(huì)出現(xiàn)問題。而如今,這一傳聞終于得到了證實(shí)。
就在本周,斯坦福大學(xué)和加州大學(xué)伯克利分校的研究人員發(fā)表了一篇論文,驗(yàn)證了ChatGPT近幾個(gè)月來(lái)的變化,即ChatGPT的多方面能力出現(xiàn)了波動(dòng),尤其是在處理編碼和組合任務(wù)方面的效率發(fā)生了嚴(yán)重下滑。
圖片
此篇論文的發(fā)布也在業(yè)界引起了熱議,不少AI領(lǐng)域大牛都在各個(gè)平臺(tái)發(fā)表了自己的看法,而有關(guān)ChatGPT性能變化原因的分析以及OpenAI究竟意欲何為的推測(cè)也開始如野火般在圈內(nèi)蔓延。
1、崩壞的ChatGPT
根據(jù)論文介紹,研究人員評(píng)估了2023年3月和6月版本的GPT3.5和GPT4模型在四個(gè)不同任務(wù)上的表現(xiàn),包括解決數(shù)學(xué)問題、回答敏感或危險(xiǎn)問題、生成代碼以及根據(jù)圖像識(shí)別進(jìn)行視覺推理。
令人感到驚訝的是,實(shí)驗(yàn)結(jié)果證明了這兩款大模型的性能和行為會(huì)隨時(shí)間推移發(fā)生很大變化。例如3月版的GPT4在解決數(shù)學(xué)問題方面非常出色,素?cái)?shù)識(shí)別準(zhǔn)確率能達(dá)到97%以上,而6月版的準(zhǔn)確率居然暴降至了僅2.4%。
圖片
代碼生成方面,從3月到6月,GPT4生成代碼的可執(zhí)行率從50%暴跌至了10%,GPT3.5雖然下降不太明顯,但也出現(xiàn)了同樣趨勢(shì)。并且在處理相同任務(wù)時(shí),相比此前,6月版的兩款模型生成代碼的用時(shí)都有了一定增加。
而在回答敏感問題以及圖像推理方面,兩款模型的兩個(gè)版本差異則不明顯。由于增加了更多護(hù)欄限制,6月版GPT4對(duì)敏感問題的控制能力提升了16%,GPT3.5則下降了6%。而在圖像推理方面,不同版本之間幾乎沒有區(qū)別。
2、關(guān)于衰退的推測(cè)
關(guān)于GPT模型性能衰退的原因,不少業(yè)內(nèi)人士也紛紛給出了自己推測(cè)。歸結(jié)起來(lái)大致可以分為三類,其一是OpenAI為了降低成本犧牲了模型性能,其二是過多AI對(duì)齊限制了模型能力,其三則是一個(gè)有些陰謀論的觀點(diǎn)——OpenAI是故意為之。
根據(jù)SEEK 全球人工智能總監(jiān)Conan的推測(cè),OpenAI在構(gòu)建GPT4時(shí)大概率采用了混合專家模型(MOE)架構(gòu),也就是說(shuō)GPT4并非是一個(gè)大模型,而是由多個(gè)特定領(lǐng)域小型專家模型所組成。值得一提的是,OpenAI創(chuàng)始人Greg Brockman也曾在自己所參與的研究中提到過MOE這條技術(shù)路徑。
這樣的架構(gòu)理論上能夠讓GPT4更便宜、更快速地生成響應(yīng),但Conan也表示,“使用混合專家模型雖然能夠提供性價(jià)比方面的優(yōu)勢(shì),但在模型成本和質(zhì)量之間需要進(jìn)行取舍?!痹谡撐陌l(fā)布后,Conan也特地發(fā)表了一條推特表示自己的想法很可能得到了驗(yàn)證。
圖片
英偉達(dá)AI科學(xué)家Jim Fan則在推特上分享了另一個(gè)角度的觀點(diǎn)——安全性與性能的權(quán)衡。根據(jù)Jim Fan的猜測(cè),OpenAI從3月至6月花費(fèi)了大量精力為GPT4切除腦葉(進(jìn)行AI對(duì)齊),但他們沒時(shí)間完全恢復(fù)其他的重要功能。
圖片
幾個(gè)月前微軟研究院發(fā)布的一篇論文也曾提到過這一觀點(diǎn):對(duì)AI模型所進(jìn)行的任何AI對(duì)齊,都會(huì)損失模型的準(zhǔn)確性和性能。根據(jù)顧得哈特定律,獎(jiǎng)勵(lì)模型并非完美代理,因此過度的AI對(duì)齊會(huì)阻礙模型對(duì)任務(wù)理解的真實(shí)程度及反應(yīng)速度。
除此之外,目前一個(gè)有些陰謀論的觀點(diǎn)也在網(wǎng)上得到了大量的傳播——OpenAI故意降低GPT4的編碼能力,以便更多人為Copilot買單。而支持這一觀點(diǎn)的主要論據(jù),則是微軟幾天前剛剛將Copilot的定價(jià)提高了驚人的83%。
3、前后不一的回應(yīng)
作為身處漩渦中心之“人”,對(duì)于ChatGPT性能下降一事,其實(shí)OpenAI自5月底開始已經(jīng)進(jìn)行了多次回應(yīng)。5月31日,OpenAI官方技術(shù)發(fā)言人Logan.GPT就曾在一條討論ChatGPT性能問題的推特下留言表示,GPT4在API模式中的質(zhì)量并沒有下降。
圖片
7月14日,OpenAI產(chǎn)品副總裁Peter Welinder也親自發(fā)推表示,“不,我們沒有讓GPT4變笨,恰恰相反,我們讓每個(gè)版本都比上一個(gè)版本更加聰明。”對(duì)于網(wǎng)友留言所提出的質(zhì)疑,Peter還解釋道,“當(dāng)你更多使用它,你就會(huì)開始注意到以前沒有注意過的問題?!?/p>
圖片
然而伴隨著論文的發(fā)布,OpenAI對(duì)于此事的底氣與態(tài)度也發(fā)生了一些轉(zhuǎn)變。就在周三,Logan.GPT回應(yīng)了論文作者之一Matei Zaharia在推特上發(fā)表的論文鏈接。然而這次Logan.GPT一改此前話鋒,不僅感謝了Matei的研究,還表示OpenAI正在調(diào)查此事,并提出愿意為此后的實(shí)驗(yàn)提供幫助。
圖片
對(duì)于Logan.GPT前后不一的言論,不少網(wǎng)友也在這條推特下方開啟了嘲諷。一位名為Pranay的網(wǎng)友提到,“想要讓別人幫你進(jìn)行評(píng)估和解決問題,你先開源自己的模型如何?”然而截止目前,無(wú)論是Logan.GPT還是其他OpenAI人員都沒有再對(duì)推文進(jìn)行評(píng)論。
4、瞬息萬(wàn)變的AI格局
伴隨著論文再一次坐實(shí)ChatGPT性能下降的事實(shí),越來(lái)越多來(lái)自業(yè)界的指責(zé)與質(zhì)疑也在指向OpenAI。AI科學(xué)家Daniel Jeffries在接受采訪時(shí)表示,OpenAI應(yīng)當(dāng)在推出新變化時(shí)繼續(xù)對(duì)舊版本模型進(jìn)行支持,以便軟件開發(fā)人員能將工作建立在可靠工具上,而不是在沒有提示的情況下進(jìn)行更新。
解決不穩(wěn)定性問題的最佳解決方案就是開源模型,例如Meta剛剛宣布開源的Llama2。通過廣泛分布的權(quán)重,這些模型可以讓研究人員從相同基線開始工作,并獲取穩(wěn)定可重復(fù)的結(jié)果。微軟近期與Meta的密切合作也在證明這條路線的可行性。
圖片
Hugging Face人工智能研究員Sasha Luccioni也認(rèn)為OpenAI的不透明性存在很大問題,“任何閉源模型的結(jié)果都是不可復(fù)制和驗(yàn)證的,科學(xué)家們也沒有責(zé)任持續(xù)監(jiān)控已經(jīng)部署的大模型。雖然GPT4非常優(yōu)秀,但未來(lái)的更多應(yīng)用與研究將會(huì)建立在更加透明和穩(wěn)定的模型之上。”
值得一提的是,在Llama2發(fā)布后,包括英偉達(dá)、AMD、HuggingFace、GitHub、DataBricks等在內(nèi)的一眾科技巨頭高管,以及伯克利、MIT等頂尖院校的教授也紛紛官宣將于Meta進(jìn)行合作。而這對(duì)于如今受困于模型性能問題的OpenAI來(lái)說(shuō)無(wú)疑是一個(gè)雪上加霜的消息。
5、寫在最后
雖然目前業(yè)內(nèi)也有部分專家也在質(zhì)疑這份論文中所提出的檢測(cè)方法的準(zhǔn)確性。但無(wú)論是論文中所顯示的巨大的數(shù)據(jù)差異,還是大量來(lái)自用戶的反饋,亦或是OpenAI對(duì)待此事時(shí)的態(tài)度的轉(zhuǎn)變,無(wú)疑都證明了GPT4模型在過去幾個(gè)月確實(shí)出現(xiàn)了一些問題。
我們必須承認(rèn)的是,如今的OpenAI依然佇立在AI技術(shù)之巔。關(guān)于技術(shù)層面的問題,如果連OpenAI也無(wú)法順利解決,那么這對(duì)于其他企業(yè)而言也將會(huì)成為一個(gè)短期內(nèi)難以逾越深谷。
然而即便OpenAI在技術(shù)上擁有著領(lǐng)先優(yōu)勢(shì),但越來(lái)越多來(lái)自競(jìng)爭(zhēng)對(duì)手的壓力與大模型市場(chǎng)格局的加速變化,也使得OpenAI這家年輕的明星公司逐漸暴露出了一些在長(zhǎng)遠(yuǎn)布局規(guī)劃方面的短板,近期ChatGPT訪問量增長(zhǎng)率的大幅下降也足以說(shuō)明一些問題。
一個(gè)明顯的道理是,當(dāng)周遭一切都在飛速發(fā)生變化時(shí),只有擁有足夠強(qiáng)大適應(yīng)能力并能夠根據(jù)環(huán)境作出相應(yīng)改變的物種,才擁有長(zhǎng)期生存及持續(xù)發(fā)展的權(quán)利。而就目前來(lái)看,留給OpenAI作出改變的時(shí)間已經(jīng)越來(lái)越緊張了。
最后,關(guān)于ChatGPT降智的原因,你有什么不同的看法呢,歡迎在評(píng)論區(qū)分享你的觀點(diǎn)。
參考鏈接:
https://twitter.com/OfficialLoganK/status/1681650521998860290?s=20