AI 發(fā)展是否正在放緩?AI 發(fā)展將駛向何方? 原創(chuàng)
編者按: 人工智能真的已經(jīng)遇到發(fā)展瓶頸了嗎?隨著 OpenAI、Google 和 Anthropic 等頂級 AI 公司紛紛表示新模型開發(fā)收益在減少,這個問題引發(fā)了整個行業(yè)的深度思考。
我們今天為大家?guī)淼倪@篇文章,作者的核心觀點是:雖然傳統(tǒng)的模型規(guī)模擴展策略正在遭遇瓶頸,但這可能正是 AI 發(fā)展模式轉(zhuǎn)型的重要契機。
文章從多個維度深入剖析了當前 AI 發(fā)展面臨的挑戰(zhàn):首先,訓練數(shù)據(jù)的增長已接近極限,因為“我們只有一個互聯(lián)網(wǎng)”;其次,簡單地增加模型規(guī)模帶來的收益正在遞減;第三,模型的"涌現(xiàn)"能力并不會隨著規(guī)模擴大而必然出現(xiàn)。面對這些挑戰(zhàn),作者提出了幾個潛在的突破方向:探索合成數(shù)據(jù)的應用、發(fā)展推理層面的擴展能力,以及構(gòu)建更智能的 Agent 系統(tǒng)。
作者 | Lan Chu
編譯 | 岳揚
無論人工智能是否能穿越炒作的迷霧,我都感到生活在人類歷史上這個有趣的時代是如此幸運?;叵胛迥昵拔议_始接觸神經(jīng)網(wǎng)絡(luò)時,AI 連識別貓都顯得力不從心,那時的技術(shù)水平遠不如今日。
而如今,我們所做到的事情,對于我們的祖輩來說,恐怕就像是變戲法一樣神奇。人工智能行業(yè)的飛速發(fā)展,讓我深感敬佩。但接下來的問題是,這樣的發(fā)展勢頭能夠持續(xù)嗎?
Image source: ??https://ia.samaltman.com/??
01 大膽預測
數(shù)月前,Sam 大膽預測“超級智能 AI 將在幾千天內(nèi)成為現(xiàn)實”,并聲稱 AGI(盡管其定義尚不明確)是“現(xiàn)有硬件條件下就能達成的目標”。然而,行業(yè)領(lǐng)袖在 AI 發(fā)展預測上的表現(xiàn)并不總是那么可靠。一個典型的例子就是過去十年中對自動駕駛汽車的過分樂觀預期。因此,這樣的預測我們還是應該有所保留。
Source. The Information
很快,情況就出現(xiàn)了變化。OpenAI、Google 和 Anthropic 等領(lǐng)先的 AI 公司紛紛表示,新模型開發(fā)的收益正在逐漸減少[1]。Ilya Sutskever 指出,我們在擴大預訓練規(guī)模上似乎已經(jīng)觸碰到一個瓶頸?,F(xiàn)在,一個新的觀點正在成為主流,那就是模型擴展似乎已經(jīng)遇到了障礙。
02 那么,這是否標志著模型擴展的終結(jié)?
當前,關(guān)于模型擴展的終結(jié)似乎成為了熱門話題。
在 2010 年代和 2020 年代初期,我們見證了模型擴展的黃金時期。成功的秘訣似乎很簡單:將海量數(shù)據(jù)輸入大型神經(jīng)網(wǎng)絡(luò),經(jīng)過長時間訓練,就能目睹奇跡的出現(xiàn)。然而,這種策略最終帶來的回報只會遞減。那么,未來幾年我們還能期待些什么呢?
“所有的傳統(tǒng)機器學習模型最終都會遇到增長瓶頸;大語言模型(LLMs)或許也不例外?!?/p>
2.1 盡管計算能力在增強,但數(shù)據(jù)并沒有同步增長
我們只有一個互聯(lián)網(wǎng),而且已經(jīng)挖掘了所有可用數(shù)據(jù)。
語言模型訓練數(shù)據(jù)量的快速增長(先是整個維基百科,接著是社交媒體,最后是大部分互聯(lián)網(wǎng)內(nèi)容),如今似乎已經(jīng)停滯不前。盡管有些公司正在與出版商合作以獲取更多數(shù)據(jù),但我們必須承認:只有一個互聯(lián)網(wǎng),訓練數(shù)據(jù)不可能再有顯著的增長。 除非,我們開始尋找其他數(shù)據(jù)源?;ヂ?lián)網(wǎng)上除了豐富的文本,還有大量的圖片、視頻和音頻資源。根據(jù) Epoch AI 的一篇文章[2]估算,從在線多模態(tài)數(shù)據(jù)中提取的文本 tokens 數(shù)量,可能會比普通網(wǎng)絡(luò)爬蟲數(shù)據(jù)集多出 5 到 200 倍。
預訓練自回歸模型的時代終將落幕?!?Ilya Sutskever
2.2 那么,接下來要提的就是合成數(shù)據(jù)了
在 2024 年的 NeurIPS 會議上,Ilya 提到了合成數(shù)據(jù)的使用是未來的發(fā)展方向之一,這當然也是經(jīng)常被視為持續(xù)擴展模型規(guī)模的一條路徑。其核心思想是,在很多情況下,驗證數(shù)據(jù)的正確性以及評估數(shù)據(jù)質(zhì)量相對容易。合成訓練數(shù)據(jù)在某些案例中已經(jīng)取得了顯著成效,比如 AlphaGo[3] 在 2016 年戰(zhàn)勝了圍棋世界冠軍,以及 AlphaZero[4] 和 AlphaProof[5] 通過純粹在自我生成的數(shù)據(jù)上訓練,學會了玩游戲和解幾何題。
在編程領(lǐng)域,合成數(shù)據(jù)的一個成功案例是 CriticGPT[6]。OpenAI 在一個審查周期內(nèi)使用兩個 ChatGPT 實例,一個負責生成代碼,另一個則批判性地審查以便找出代碼中的錯誤。這個想法雖然簡單,但正如我們在下圖中所見,效果顯著!CriticAI 系統(tǒng)發(fā)現(xiàn)的問題數(shù)量遠超人類。
在編程和數(shù)學領(lǐng)域,我們可以生成大量示例,并迅速驗證哪些是正確的,從而創(chuàng)建一個較小的、更精細且高質(zhì)量的數(shù)據(jù)集。但對于其他領(lǐng)域,合成數(shù)據(jù)的適用性可能就有所限制了。我認為,合成數(shù)據(jù)的應用程度很大程度上取決于具體領(lǐng)域。
2.3 大模型的收益遞減現(xiàn)象
模型的表現(xiàn)不僅會受到訓練數(shù)據(jù)集規(guī)模的影響,也會受到模型自身規(guī)模的影響(如下圖所示)。
測試 loss 值與模型大小及訓練數(shù)據(jù)集規(guī)模之間的關(guān)系遵循冪律分布。圖片來源:作者根據(jù) OpenAI 的數(shù)據(jù)制作的圖像。
長期以來,我們通過無腦地增加模型規(guī)模和數(shù)據(jù)量來提升模型性能,但這種策略的效果已經(jīng)逐漸減弱。
目前,許多 AI 公司轉(zhuǎn)而致力于開發(fā)更小的模型。這些模型可能是性能適中但成本較低的“夠用”模型(比如谷歌的 Gemini mini系列),有時候這些小型模型甚至能超越某些旗艦模型(比如 OpenAI 的 GPT-4o 與 GPT-4 相比)。然而,這種性能提升是以更長的訓練時間為代價的。 我們還觀察到,新的架構(gòu)設(shè)計帶來了意想不到的成果,例如 Claude 的 Haiku 所采用的“混合專家”模型。
2.4 模型規(guī)模的擴大并不必然帶來“涌現(xiàn)”能力
過去十年的經(jīng)驗告訴我們,擴大模型規(guī)模、訓練計算量和數(shù)據(jù)集大小可以增強模型的性能。在大語言模型(LLMs)中,這一點通常體現(xiàn)在它們對序列中下一個單詞的預測能力上。
所謂“涌現(xiàn)”能力,指的是那些在小模型中未曾出現(xiàn),而在大模型中得以展現(xiàn)的能力。
雖然人工智能在我們設(shè)定的各項基準測試中表現(xiàn)日益精進,但它仍舊無法進行真正的推理。人們曾寄希望于,只要模型足夠大,就能突然學會推理。
我們經(jīng)常看到人工智能在數(shù)學和物理測試中超越博士生的報道,但同樣也會看到它在一些簡單測試中的失敗,而這些測試對小孩子來說卻是輕而易舉[7]。如果人工智能無法在其訓練數(shù)據(jù)之外進行有效泛化,那么繼續(xù)增加數(shù)據(jù)量最終也不會帶來實質(zhì)性的改善。
03 人工智能將走向何方?
現(xiàn)在,我們再次步入了一個充滿奇跡與驚喜的時代。大家都在尋找下一個可以擴展(scale)的領(lǐng)域。如今,擴展正確的事物比以往任何時候都更為重要?!狪lya Sutskever
3.1 推理層面的擴展
在模型擴展是否已達極限的爭論中,部分焦點已經(jīng)轉(zhuǎn)向了“推理擴展”[8]。OpenAI 的 o1[9] 就是這種推理擴展的一個實例。
與模型擴展側(cè)重于增加模型大小、訓練數(shù)據(jù)和計算資源不同,推理擴展著眼于優(yōu)化模型在運行過程中的處理和推理能力。 這些模型經(jīng)過微調(diào),以便在給出答案前進行“推理”。
近期的一些創(chuàng)新,如先推理后行動的提示詞技術(shù)、智能體、混合模型、幻覺檢測與緩解等,還需要一些時間才能成熟,以進一步提升模型的表現(xiàn)。
3.2 展望未來
盡管我們看到了擴展能力的局限性,但仍有不少人對未來保持樂觀。據(jù) Epoch AI 預測,未來 5 年內(nèi),我們有望繼續(xù)擴展數(shù)據(jù)、計算資源和硬件,足以訓練出計算能力是 GPT-4 十倍以上的新型模型。這一數(shù)字還有可能增長,但最大的挑戰(zhàn)恐怕是電力需求的激增。
展望 2030 年,人工智能訓練的擴展將面臨哪些限制,以訓練所需的計算 FLOP 來衡量。數(shù)據(jù)來源:Epoch AI[2]
在 NeuroIPS 的最新演講中,Ilya 對未來發(fā)展趨勢做出了一些預測,盡管具體的實施時間和方式尚不明確:
- 系統(tǒng)將變得智能體化:Agent 是今年人工智能的一大進步。例如,Anthropic 公司幾個月前推出的智能體模型,能夠與計算機互動并實現(xiàn) AI 的全面控制,令人印象深刻。
- 系統(tǒng)將能夠推理和理解。AI 的推理能力越強,其行為就越難以預測(頂尖的國際象棋 AI 對棋手來說就是不可預測的)。
- 系統(tǒng)將擁有自我意識,因為它具備了推理和理解的能力。
讓 AI 具備推理能力將是重要的一步,或許 OpenAI 的 o1 模型已經(jīng)為我們揭示了未來的發(fā)展方向:讓 AI 在給出答案前進行一段時間的思考和推理。AI 的推理能力越強,其不可預測性也就越高。然而,一旦我們擁有了強大的推理能力、完善的智能體系統(tǒng),并且減少了幻覺現(xiàn)象,實現(xiàn)通用人工智能乃至超級智能將不再遙不可及。
04 結(jié)束語
或許模型規(guī)模的擴大已經(jīng)到達極限,也可能尚未結(jié)束。大家都在探索下一步該如何走。但可以肯定的是,這種趨勢不會無限持續(xù)下去。模型規(guī)模擴大的終結(jié),反而帶來了一系列正面效應:人工智能的發(fā)展將重新依賴于創(chuàng)新思維和重大突破。有一點共識是明確的:未來充滿了不確定性。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
Lan Chu
Data Scientist | Write about data and AI.
?? LinkedIn ??https://www.linkedin.com/in/lanchuhuong/??
END
本期互動內(nèi)容 ??
?在你看來,AI發(fā)展的下一個突破點最可能出現(xiàn)在哪個方向:數(shù)據(jù)、算法還是推理能力?
??文中鏈接??
[2]??https://epoch.ai/blog/can-ai-scaling-continue-through-2030#data-scarcity??
[4]??https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/??
[5]??https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/??
[6]??https://arxiv.org/pdf/2407.00215??
[7]??https://arcprize.org/arc??
[8]??https://arxiv.org/pdf/2407.21787??
原文鏈接:
??https://medium.com/gitconnected/is-ai-progress-slowing-down-69d4f1215e49??
