大模型開始進(jìn)入收益遞減的時代?
目前人們好像已在接受這樣的觀點:“大語言模型(LLMs)正在以指數(shù)速度進(jìn)步?!?就在幾天前,賓州大學(xué)沃登商學(xué)院 (The Wharton School) 的Ethan Mollick教授在一篇廣受關(guān)注的博客文章中聲稱,“目前對 LLMs 的能力評估顯示,LLM的能力每5到14個月翻一番”。
實際上Mollick教授引用的研究并未顯示他所聲稱的內(nèi)容。如果你仔細(xì)閱讀,它沒有提到能力的提高。它顯示的是模型在達(dá)到給定性能水平所需的計算資源變得更有效率,“達(dá)到給定性能水平所需的計算量大約每8個月減半,95%的置信區(qū)間為5到14個月。”但是,(a)過去的表現(xiàn)并不總是能預(yù)測未來的表現(xiàn),且(b)研究中的大部分?jǐn)?shù)據(jù)都比較陳舊,沒有今年的數(shù)據(jù)。
關(guān)鍵是——我們都知道GPT-3比GPT-2大幅提升。我們也都知道GPT-4(13個月前發(fā)布)比GPT-3大幅提升。但是從那以后發(fā)生了什么?
我可以被說服,在2020-2023年的某些月份里能力確實翻倍了,但我完全看不到過去13個月中有這樣的情況。
相反,我看到的諸多跡象表明我們已經(jīng)進(jìn)入了收益遞減的時期。
讓我真正開始思考這一切的是OpenAI幾天前發(fā)布的一張圖表,宣傳他們最新的模型GPT-4 Turbo。我一直懷疑這是他們嘗試但失敗的GPT-5??雌饋聿诲e——進(jìn)步了!但是仔細(xì)看。
實際上,這張圖表顯示了最近幾個月在一系列不同指標(biāo)上的一些改進(jìn),大多數(shù)是適度的。但它也完全觸發(fā)了我的警覺感。
我立即不喜歡這張圖表的原因是它任意地顯示了兩個非常近期的模型,而沒有顯示之前的歷史數(shù)據(jù)。所以是的,在某些指標(biāo)上確實有進(jìn)展,但我們真正需要看到的是長期的增長。這讓我開始思考。并且繪圖。對于許多指標(biāo),我根本找不到GPT-2或GPT-3的任何數(shù)據(jù),有時甚至對于GPT-4也是如此。(在一些新指標(biāo)上,GPT-2和GPT-3的數(shù)據(jù)效果上都為零。)但對于一個稱為MMLU的常見基準(zhǔn),我能夠找到GPT-2、GPT-3和GPT-4的歷史數(shù)據(jù)(但沒有GPT 3.5)。
這是我找到的情況(y軸是百分比準(zhǔn)確度):
從GPT-2到GPT-3有巨大的躍升。從GPT-3到GPT-4也有巨大的躍升……但從GPT-4(13個月前)到GPT-4 Turbo(剛發(fā)布)則不太明顯。很難不將這個圖表視為收益遞減假設(shè)的初步證據(jù)。無論曾經(jīng)有過多少翻倍,現(xiàn)在也許已經(jīng)到了盡頭。
當(dāng)然,這里有一個問題:當(dāng)你接近圖表的頂部時,你會遇到統(tǒng)計學(xué)上稱之為“范圍限制”的問題。你不能在MMLU上從85分跳到115分;100%是可能的最高分。而且許多基準(zhǔn)測試都很復(fù)雜且不完美。得分為100可能實際上是可疑的,因為這可能表明所討論的模型只是簡單地記住了數(shù)據(jù)。也許真正的實際上限是95%。
我的直覺是我們還沒有達(dá)到MMLU的真正上限,這是收益遞減的真實跡象。但好吧,讓我們再找另一個指標(biāo)看看。
X網(wǎng)站上有人向我指出了《紐約時報》的Connections游戲。聰明的人可能能夠在任何給定的數(shù)據(jù)上獲得90%以上的得分,但目前的模型還沒有接近。所以,在這里,就沒有范圍限制的問題了。多虧了Lech Mazur,我能夠找到一系列歷史模型的數(shù)據(jù),盡管沒有回溯到GPT-2或GPT-3。但足以讓我們對可能正在發(fā)生的情況有些了解:
從GPT 3.5 Turbo到4有很大的飛躍,但(再次)從GPT-4到兩個不同版本的GPT-4 Turbo只有適度的進(jìn)步。范圍限制并不是問題,但我們再次看到了收益遞減的跡象。
如果我繪制的兩張圖表有一點正確,那么Mollick所聲稱的“大型語言模型改進(jìn)速度顯示能力每5到14個月翻一番”的說法已經(jīng)不再成立。
我在2022年曾警告過的墻壁,現(xiàn)在可能終于快要來臨了。
再從另一個角度看,我剛看到的這張圖表:自GPT-4發(fā)布以來,多個模型在GPT-4水平性能上的巨大收斂,然而并沒有明顯領(lǐng)先的模型。
那么質(zhì)性數(shù)據(jù)呢?在很多方面,質(zhì)性數(shù)據(jù)看起來都是一樣的。一個思考的方式是詢問在2022年我警告過的任何問題(比如幻覺和愚蠢的錯誤)是否已經(jīng)解決了。
我認(rèn)為公平地說,它們沒有。本周發(fā)布的GPT-Turbo仍然會產(chǎn)生一些讓人咂舌的問題,就像Phil Libin剛剛發(fā)來的這個對話一樣:
本周我讀到的最引人注目的事情之一是在《信息》(The Information)上。消息已經(jīng)傳開,而問題顯然并沒有得到解決:
?
另一種思考這個問題的方式(見上面的第三張圖)是,大約有5到7個最近的模型與GPT-4持平,但沒有一個明顯地領(lǐng)先。
當(dāng)然,單純在基準(zhǔn)測試上取得進(jìn)步并不足以說明問題;很少有基準(zhǔn)測試能夠捕捉到現(xiàn)實世界的復(fù)雜性。即使LLMs在所有現(xiàn)有的基準(zhǔn)測試中都達(dá)到了最高水平,我們可能仍然有很長的路要走。
如果我們真的已經(jīng)從快速進(jìn)展轉(zhuǎn)向了收益遞減的制度,而幻覺和愚蠢的錯誤仍然存在,那么LLMs可能永遠(yuǎn)不會準(zhǔn)備好投入實際應(yīng)用。
相反,正如我在八月份所警告的那樣,我們很可能會迎來一場糾正。在最極端的情況下,OpenAI的860億美元估值在事后可能會被視為人工智能的WeWork時刻。
在最近幾周,Inflection AI基本上關(guān)閉了業(yè)務(wù),Stability AI陷入了困境,以LLM為基礎(chǔ)的自動駕駛車輛公司Ghost關(guān)閉了業(yè)務(wù),一個YouTube上的軟件工程師提出了關(guān)于備受炒作的AI編碼系統(tǒng)Devin的相當(dāng)嚴(yán)重的問題。
如果對GenAI的熱情消退,市場估值暴跌,人工智能不會消失,LLMs也不會消失;它們?nèi)匀粫鳛榻y(tǒng)計近似的工具存在。
但這個位置可能會更小;完全有可能LLMs本身永遠(yuǎn)無法達(dá)到去年的瘋狂期望。
可靠、值得信賴的人工智能肯定是可以實現(xiàn)的,但我們可能需要重新審視問題來實現(xiàn)這一點。
本文轉(zhuǎn)載自 ??MoPaaS魔泊云??,作者: Gary Marcus
