OpenAI大改下代大模型方向,scaling law撞墻?AI社區(qū)炸鍋了
有研究預(yù)計,如果 LLM 保持現(xiàn)在的發(fā)展勢頭,預(yù)計在 2028 年左右,已有的數(shù)據(jù)儲量將被全部利用完。屆時,基于大數(shù)據(jù)的大模型的發(fā)展將可能放緩甚至陷入停滯。
來自論文《Will we run out of data? Limits of LLM scaling based on human-generated data》
但似乎我們不必等到 2028 年了。昨天,The Information 發(fā)布了一篇獨家報道《隨著 GPT 提升減速,OpenAI 改變策略》,其中給出了一些頗具爭議的觀點:
- OpenAI 的下一代旗艦?zāi)P偷馁|(zhì)量提升幅度不及前兩款旗艦?zāi)P椭g的質(zhì)量提升;
- AI 產(chǎn)業(yè)界正將重心轉(zhuǎn)向在初始訓(xùn)練后再對模型進(jìn)行提升;
- OpenAI 已成立一個基礎(chǔ)團(tuán)隊來研究如何應(yīng)對訓(xùn)練數(shù)據(jù)的匱乏。
文章發(fā)布后,熱議不斷。OpenAI 著名研究科學(xué)家 Noam Brown 直接表示了反對(雖然那篇文章中也引用了他的觀點)。他表示 AI 的發(fā)展短期內(nèi)并不會放緩。并且他前些天還在另一篇 X 推文中表示,對于 OpenAI CEO 山姆?奧特曼的 AGI 發(fā)展路徑已經(jīng)清晰的言論(「事情的發(fā)展速度將比人們現(xiàn)在預(yù)想的要快得多」),OpenAI 的大多數(shù)研究者都表示比較認(rèn)同。
著名 X 博主 @apples_jimmy 甚至直斥之為 Fake News,畢竟奧特曼說過 AGI 很快就要實現(xiàn)了。
OpenAI 的 Adam GPT 則給出了更詳細(xì)的反對意見。他表示大模型的 scaling laws 和推理時間的優(yōu)化是兩個可以互相增益的維度。也就是說就算其中一個維度放緩,也不能得出 AI 整體發(fā)展放緩的結(jié)論。
OpenAI 產(chǎn)品副總裁 Peter Welinder 也認(rèn)同上述看法。
當(dāng)然,也有人認(rèn)同 The Information 這篇文章的觀點,比如一直有類似觀點的 Gary Marcus 表示這篇文章宣告了自己的勝利。
數(shù)據(jù)科學(xué)家 Yam Peleg 也表示某前沿實驗室的 scaling laws 出現(xiàn)了巨大的(HUGE)受益遞減問題。
大多數(shù)吃瓜群眾基本認(rèn)同 OpenAI 相關(guān)人士公開發(fā)布的意見,畢竟該公司雖然存在無數(shù)的爭議和八卦,但目前仍舊是當(dāng)之無愧的行業(yè)領(lǐng)導(dǎo)者。也就是說,相比于媒體揣測,OpenAI 的話會更可信一些。
不過有意思的是,The Information 這篇報道也宣稱很多信息來自 OpenAI 內(nèi)部員工和研究者。當(dāng)然,該媒體沒有給出具體的信息源。下面我們就來看看這篇引發(fā)廣泛的爭議的報道究竟說了什么。
使用 ChatGPT 和其他人工智能產(chǎn)品的人數(shù)正在飆升。不過,支撐這些產(chǎn)品的基本構(gòu)建模塊的改進(jìn)速度似乎正在放緩。
為了彌補這種減速,OpenAI 正在開發(fā)新技術(shù)來增強這些構(gòu)建模型,即大型語言模型。
據(jù)一位知情人士透露,盡管 OpenAI 只完成了 Orion 訓(xùn)練過程的 20%,但奧特曼表示,在智能和完成任務(wù)和回答問題的能力方面,它已經(jīng)與 GPT-4 不相上下。
據(jù)一些使用或測試過 Orion 的 OpenAI 員工稱,雖然 Orion 的性能最終會超過之前的型號,但相比于該公司發(fā)布的最新兩款旗艦?zāi)P?GPT-3 和 GPT-4 之間的飛躍,質(zhì)量的提升要小得多。
據(jù)這些員工稱,該公司的一些研究者認(rèn)為,在處理某些任務(wù)方面,Orion 并不比其前代模型更好。據(jù) OpenAI 的一名員工稱,Orion 在語言任務(wù)上表現(xiàn)更好,但在編程等任務(wù)上可能不會勝過之前的模型。其中一位員工表示,這可能是一個問題,因為與 OpenAI 之前發(fā)布的其他模型相比,Orion 在 OpenAI 數(shù)據(jù)中心運行的成本可能更高。
Orion 的情況可以檢驗人工智能領(lǐng)域的一個核心假設(shè),即 scaling laws:只要有更多數(shù)據(jù)可供學(xué)習(xí),并有更多的計算能力來促進(jìn)訓(xùn)練過程,LLM 就能繼續(xù)以相同的速度提升性能。
為了應(yīng)對近期 GPT 提升放緩對基于訓(xùn)練的 scaling laws 帶來的挑戰(zhàn),AI 行業(yè)似乎正在將精力轉(zhuǎn)向訓(xùn)練后對模型進(jìn)行改進(jìn),這可能會產(chǎn)生不同類型的 scaling laws。
包括 Meta 的馬克?扎克伯格在內(nèi)的一些 CEO 表示,在最壞的情況下,即使當(dāng)前技術(shù)沒有進(jìn)步,仍有很大空間在現(xiàn)有技術(shù)的基礎(chǔ)上構(gòu)建消費者和企業(yè)產(chǎn)品。
例如,OpenAI 正忙于將更多的編程功能融入其模型中,以抵御來自競爭對手 Anthropic 的重大威脅。后者正在開發(fā)一種軟件,其可以接管用戶電腦,通過像人類一樣執(zhí)行點擊、光標(biāo)移動、文本輸入來使用不同的應(yīng)用程序,從而完成涉及網(wǎng)絡(luò)瀏覽器活動或應(yīng)用程序的白領(lǐng)工作。
這些產(chǎn)品是向處理多步驟任務(wù)的 AI 智能體邁進(jìn)的一部分,可能與 ChatGPT 最初發(fā)布時一樣具有革命性。
此外,扎克伯格、奧特曼和其他 AI 開發(fā)商的首席執(zhí)行官也公開表示,他們尚未達(dá)到傳統(tǒng) scaling laws 的極限。因此,OpenAI 等公司仍在開發(fā)昂貴的、價值數(shù)十億美元的數(shù)據(jù)中心,以盡可能多地提升預(yù)訓(xùn)練模型的性能。
然而,OpenAI 研究者 Noam Brown 上個月在 TEDAI 大會上表示,更先進(jìn)的模型可能在經(jīng)濟(jì)上不可行。
「畢竟,我們真的要花費數(shù)千億美元或數(shù)萬億美元訓(xùn)練模型嗎?」 Brown 說?!冈谀硞€時候,scaling 范式會崩潰?!?/p>
OpenAI 尚未完成對 Orion 的安全性的漫長測試過程。其員工們表示,OpenAI 明年初發(fā)布 Orion 時,可能不再采用其旗艦?zāi)P偷膫鹘y(tǒng)「GPT」命名慣例,進(jìn)一步凸顯 LLM 改進(jìn)方式的變化。(OpenAI 發(fā)言人沒有對此發(fā)表評論。)
撞上數(shù)據(jù)南墻
OpenAI 員工和研究者表示,GPT 速度放緩的原因之一是高質(zhì)量文本和其他數(shù)據(jù)的供應(yīng)量正在減少,而這些數(shù)據(jù)是 LLM 預(yù)訓(xùn)練所必需的。
他們表示,在過去幾年中,LLM 使用來自網(wǎng)站、書籍和其他來源的公開文本和其他數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,但模型開發(fā)者基本上已經(jīng)從這類數(shù)據(jù)中榨干了盡可能多的資源。
作為回應(yīng),OpenAI 成立了一個基礎(chǔ)團(tuán)隊,由之前負(fù)責(zé)預(yù)訓(xùn)練的 Nick Ryder 領(lǐng)導(dǎo)。他們表示,該團(tuán)隊將研究應(yīng)對訓(xùn)練數(shù)據(jù)的匱乏,以及大模型的擴(kuò)展定律將持續(xù)到什么時候。
據(jù) OpenAI 的一名員工稱,Orion 部分接受了 AI 生成的數(shù)據(jù)的訓(xùn)練,這些數(shù)據(jù)由其他 OpenAI 模型生成,包括 GPT-4 和最近發(fā)布的推理模型。然而,這位員工表示,這種合成數(shù)據(jù)導(dǎo)致了一個新問題,即 Orion 最終可能會在某些方面與那些舊模型相似。
風(fēng)險投資人 Ben Horowitz 表示:「我們正在以同樣的速度增加『用于訓(xùn)練 AI 的 GPU 數(shù)量』,但我們并沒有從中獲得任何智能改進(jìn)。」
OpenAI 研究人員正在利用其他工具在訓(xùn)練后過程中改進(jìn) LLM,通過改進(jìn)它們處理特定任務(wù)的方式。研究人員通過讓模型從大量已被正確解決的問題(如數(shù)學(xué)或代碼問題)中學(xué)習(xí)來實現(xiàn)這一目標(biāo),這一過程稱為強化學(xué)習(xí)。
他們還要求人類評估人員在特定的代碼或復(fù)雜問題任務(wù)上測試預(yù)訓(xùn)練模型,并對答案進(jìn)行評分,這有助于研究人員調(diào)整模型以改進(jìn)其對某些類型請求(例如寫作或代碼)的回答水平。這個過程稱為帶有人類反饋的強化學(xué)習(xí)(RLHF),也為較舊的人工智能模型提供了幫助。
為了處理這些評估,OpenAI 和其他人工智能開發(fā)人員通常依靠 Scale AI 和 Turing 等初創(chuàng)公司來管理數(shù)千名承包商。
隨著 OpenAI 技術(shù)的演進(jìn),研究人員繼續(xù)開發(fā)出了名為 o1 的推理模型,該模型需要更多時間「思考」LLM 訓(xùn)練的數(shù)據(jù),然后才能給出答案,這一概念稱為測試時間計算。
這意味著,如果在模型回答用戶問題時為其提供額外的計算資源,即使不更改底層模型,o1 的響應(yīng)質(zhì)量也可以繼續(xù)提高。一位了解這一過程的人士表示,如果 OpenAI 能夠不斷提高底層模型的質(zhì)量,即使速度較慢,也能產(chǎn)生更好的推理結(jié)果。
「這為大模型的擴(kuò)展開辟了一個全新的維度,」Brown 在 TEDAI 會議上表示。研究人員可以通過將「每個查詢花費一分錢提到每個查詢花費一毛錢」來改善模型響應(yīng)。
奧特曼也強調(diào)了 OpenAI 推理模型的重要性,它可以與 LLM 相結(jié)合。
「我希望推理能解鎖很多我們等待多年的事情 —— 例如,像這樣的模型能夠為科學(xué)研究做出貢獻(xiàn),幫助編寫更多非常困難的代碼,」奧特曼在 10 月的一次應(yīng)用開發(fā)者活動中說道。
在最近接受 Y Combinator 首席執(zhí)行官 Garry Tan 采訪時,奧特曼表示,「我們基本上知道該怎么做」才能實現(xiàn)通用人工智能,即與人類智力相當(dāng)?shù)募夹g(shù) —— 其中的一部分涉及「以創(chuàng)造性的方式使用現(xiàn)有模型」。
數(shù)學(xué)家和其他科學(xué)家表示,o1 對他們的工作很有幫助,因為它可以充當(dāng)可以提供反饋或想法的伙伴。但兩位了解情況的員工表示,該模型目前的價格比非推理模型高出六倍,因此它還沒有廣泛的客戶群。
「突破漸近線」
一些向人工智能開發(fā)者投入了數(shù)千萬美元的投資者懷疑,大語言模型的進(jìn)步速度是否開始趨于平穩(wěn)。
Ben Horowitz 的風(fēng)險投資公司已經(jīng)投資了 OpenAI、Mistral 和 Safe Superintelligence 等公司,他在 YouTube 頻道里表示:「我們正在以同樣的速度增加『用于訓(xùn)練人工智能的 GPU』的數(shù)量,但我們根本沒有從中獲得智能改進(jìn)。」
Horowitz 的同事 Marc Andreessen 在同一視頻中則表示,「有很多聰明人正在努力突破漸近線,想辦法達(dá)到更高水平的推理能力?!?/p>
企業(yè)軟件公司 Databricks 的聯(lián)合創(chuàng)始人兼主席聯(lián)合開發(fā)者 Ion Stoica 表示,大模型的表現(xiàn)可能在某些方面已經(jīng)停滯,但在其他方面仍在進(jìn)步。
Stoica 表示,盡管大模型在代碼和解決復(fù)雜、多步驟問題等任務(wù)方面不斷改進(jìn),但其在執(zhí)行通用任務(wù)(如分析一段文本的情感或描述醫(yī)療問題的癥狀)方面似乎進(jìn)展緩慢。
「對于常識性問題,你可以說,目前我們看到 LLM 的表現(xiàn)停滯不前。我們需要 [更多] 事實數(shù)據(jù),而合成數(shù)據(jù)沒有太大幫助,」他說道。
你覺得 AI 發(fā)展的 scaling laws 速度放緩了嗎?推理時間計算能否成為新的性能提升來源?請與我們分享你的觀點。
參考鏈接:
- https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows
- https://www.youtube.com/watch?v=xXCBz_8hM9w
- https://arxiv.org/abs/2211.04325
https://www.youtube.com/watch?v=hookUj3vkE4