102?參數(shù),AGI還需70年!清華人大預(yù)測屆時GPU總價達4000萬倍蘋果市值
AGI,就在今年;諾獎級AI,將2026年-2027年誕生。
不論是奧特曼,還是Anthropic首席執(zhí)行官Dario Amodei,AI界科技大佬紛紛認為「超級智能」近在眼前。
甚至,幾天前,紐約時報的一篇文章稱,美國政府知道AGI要來,并有了相應(yīng)的想法和對策。
AGI真的就要來了嗎?
最近,來自清華、中國人民大學(xué)的研究團隊最新研究,計算得出:
人類距離AGI還有70年!
他們提出了一個全新的框架「生存游戲」(Survival Game),以評估智能的高低。
在這個框架中,智能不再是模糊的概念,而是可以通過試錯過程中失敗次數(shù)進行量化——失敗次數(shù)越少,智能越高。
論文地址:https://arxiv.org/pdf/2502.18858
當(dāng)失敗次數(shù)的期望值和方差都保持有限時,意味著系統(tǒng)具備持續(xù)應(yīng)對新挑戰(zhàn)的能力,作者將其定義為智能的「自主水平」。
實結(jié)果發(fā)現(xiàn),在簡單任務(wù)中,基本的模式識別或規(guī)則推理,AI具備了自主能力,失敗次數(shù)低且穩(wěn)定。
然而,當(dāng)任務(wù)難度加大,比如視頻處理、搜索優(yōu)化、推薦系統(tǒng)、自研語言理解時,AI表現(xiàn)未達標(biāo)。
失敗次數(shù)激增,解決方案穩(wěn)定性隨之下降。
他們預(yù)測,要在通用任務(wù)中達到「自主水平」,AI模型有高達102?參數(shù)。
想象一下這個規(guī)模:訓(xùn)練這樣一個模型所需的H100 GPU總價值,竟然是蘋果市值的4×10?倍!
即便按照摩爾定律的樂觀估計,支撐這種參數(shù)規(guī)模的硬件條件也需要70年的技術(shù)積累。
這筆賬,究竟是如何算出的?
智能,「自然選擇」的試錯淬煉
首先,我們需要先談?wù)勚悄埽侨绾萎a(chǎn)生的?
它并非與生俱來的天賦,而是自然選擇在億萬年進化中塑造的必然產(chǎn)物。
今天,我們看到的每一種生命形式——無論是人類、動物還是植物——都遵循著這條法則。
「自然選擇」的過程就像一場無情的考試:物種必須在不確定性中探索,尋找生存的答案,反復(fù)嘗試直到成功。
如果找不到解決方案,它們就會在這場殘酷的考驗中被淘汰,無法延續(xù)。
受此啟發(fā),研究人員提出了「生存游戲」這一框架,用以量化并評估智能。
這里,智能的高低不再是抽象的概念,而是可以通過試錯過程中,找到正確解決方案的失敗次數(shù)來衡量。
也就是之前所說的,失敗次數(shù)越少,智能越高。
失敗次數(shù),作為一個離散隨機變量,其期望和方差的大小直接反映了智能水平。
如果期望和方差無限大,主體將永遠無法找到答案,也就無法在「生存游戲」中存活;反之,如果兩者都收斂,則表明主體具備高效解決問題的能力。
生存游戲,三大智能分級
基于失敗次數(shù)的期望和方差,研究人員將智能分為三個層次:
- 有限級:期望和方差都發(fā)散,主體只能盲目枚舉可能的解決方案,效率低下,難以應(yīng)對復(fù)雜挑戰(zhàn)。
- 勝任級:期望和方差有限但不穩(wěn)定,主體能在特定任務(wù)中找到答案,但表現(xiàn)不夠穩(wěn)健。
- 自主級:期望和方差都收斂且較小,主體能通過少量嘗試穩(wěn)定地解決問題,以可承受的成本自主運行。
這一分級不僅適用于生物智能,也為評估AI提供了科學(xué)的標(biāo)尺。
LLM停留在「有限級」
具體實驗中,研究人員將當(dāng)前最領(lǐng)先的大模型在「生存游戲」中進行評估,結(jié)果令人深思。
在手寫數(shù)字識別等簡單任務(wù)中,AI的表現(xiàn)達到了「自主級」,失敗次數(shù)少且穩(wěn)定,展現(xiàn)出高效的解決能力。
然而,當(dāng)任務(wù)復(fù)雜度提升到視覺處理、搜索引擎優(yōu)化、推薦系統(tǒng)、自然語言理解時,AI大多停留在「有限級」。
這意味著,它們無法有效縮小答案范圍,表現(xiàn)近似于「暴力枚舉」,既低效又容易出錯。
如下圖4所示視覺處理中,第一行展示了圖像分類任務(wù)的結(jié)果,不同圖像對應(yīng)不同的模型。
可以看到,所有模型都處于有限級。
隨著使用更大的MAE模型,衰減率增加,數(shù)據(jù)點逐漸接近勝任級。
在隨后的兩行中,展示了MS COCO和Flickr30k數(shù)據(jù)集的結(jié)果。同一行中的不同圖像對應(yīng)不同的模型。
結(jié)果表明,即使是當(dāng)今最先進的模型也處于有限級,衰減率在1.7或以下,遠未達到勝任級2的閾值。
從中,也可以看到與第一行類似的趨勢:模型越大,越接近勝任級,但邊際改善逐漸減小。
下圖5可以看到,在所有數(shù)據(jù)集和所有文本搜索模型中,LLM性能都停留在有限級。
圖6、圖7、圖8、圖9、圖10分別展示的是在推薦系統(tǒng)、編碼、數(shù)學(xué)任務(wù)、問答、寫作中,LLM的性能表現(xiàn)。
這種局限性與此前的一些研究樂觀結(jié)論,形成了鮮明的對比。
許多研究表明,AI已接近人類智能水平,但「生存游戲」揭示了一個更現(xiàn)實的圖景:
大多數(shù)AI系統(tǒng)仍處于初級階段,依賴人類監(jiān)督,無法獨立應(yīng)對復(fù)雜任務(wù)。
102?參數(shù),不可能的挑戰(zhàn)
研究人員發(fā)現(xiàn),AI的智能得分與模型規(guī)模呈對數(shù)線性關(guān)系。
基于這一規(guī)律,他們預(yù)測,要在通用語言任務(wù)中達到「自主級」,AI系統(tǒng)需要驚人的102?個參數(shù)。
這一規(guī)模相當(dāng)于全人類大腦神經(jīng)元總數(shù)的10?倍!
若要加載如此龐大的模型需要5×101?張H100 GPU,其總成本高達蘋果公司市值的4×10?倍。
即便是按照摩爾定律計算,硬件技術(shù)也需要70年才能支撐這一規(guī)模。
這一天文數(shù)字的代價表明,僅僅依靠擴大當(dāng)前AI技術(shù)的規(guī)模來解決人類任務(wù),幾乎是不可能的。
那么問題究竟出在哪?
AI淺層學(xué)習(xí),難以突破
為了探究AI的瓶頸,研究人員結(jié)合「自組織臨界性」(SOC)理論對「生存游戲」進行了深入分析。
結(jié)果顯示,許多人類任務(wù)具有「臨界性」的特征,即環(huán)境哪怕發(fā)生微小的變化,也可能需要完全不同的應(yīng)對策略。
比如,人類在對話中能根據(jù)語氣調(diào)整回應(yīng),在混亂場景中迅速鎖定目標(biāo)。
這些能力,依賴于對任務(wù)底層機制的深刻理解。
然而,當(dāng)前AI系統(tǒng)卻更像「表面模仿者」。它們通過大量數(shù)據(jù)記住問題的答案,并依賴探索來應(yīng)對新挑戰(zhàn)。
雖然大模型的參數(shù)規(guī)模scaling,可以提升模仿效果,但仍缺乏對深層機制的掌握,使得成本迅速失控。
這種「淺層學(xué)習(xí)」正是AI難以突破「自主級」的根本原因。
「生存游戲」揭示了AI與人類智能的差距,也為未來發(fā)展指明了方向。
要讓AI從「有限級」邁向「自主級」,不僅需要超越單純的規(guī)模scaling,還要設(shè)計出能夠理解任務(wù)本質(zhì)的系統(tǒng)。
人類之所以能在有限嘗試中,應(yīng)對復(fù)雜的挑戰(zhàn),正是因為我們掌握了超越表面的認知能力。
這種能力或許是,AI在短期內(nèi)難以企及的巔峰,但通過「生存游戲」的指引,我們可以逐步逼近這一目標(biāo)。
生存還是毀滅:從智能爆炸到人類滅絕
人工智能公司們正在競相構(gòu)建超級人工智能(ASI)——比全人類加起來還聰明的AI。如果這些公司成功,后果將不堪設(shè)想。
那么問題來了,我們將如何從今天的AI走向可能毀滅我們的ASI呢?
這就涉及到「智能爆炸」的概念。
什么是智能爆炸?
智能爆炸就是AI系統(tǒng)自我增強的一個循環(huán),簡單來說,就是AI變得越來越聰明,速度快到超乎想象,直到它們的智力遠遠超過人類。
這個想法最早由英國數(shù)學(xué)家I. J. Good提出。他二戰(zhàn)時曾在Bletchley Park做密碼破譯工作。
1965年,他在論文《Speculations Concerning the First Ultraintelligent Machine》(關(guān)于第一臺超智能機器的猜測)中寫道,假設(shè)有一臺「超智能機器」,它的智力能遠遠超過任何人類,不管那個人有多聰明。
因為設(shè)計機器本身就是一種智力活動,這種超智能機器就能設(shè)計出更厲害的機器。
這樣一來,就會毫無疑問地發(fā)生一場「智能爆炸」,人類的智力會被遠遠甩在后面。
所以,第一臺超智能機器可能是人類需要發(fā)明的最后一件東西——前提是這臺機器需要足夠溫順,我們能夠控制它。
簡單來說,Good和其他很多人認為,一旦AI的能力達到甚至超過最聰明的人類水平,就可能觸發(fā)智能爆炸。
人類能開發(fā)更聰明AI的那些本事,這種AI也會擁有。而且,它不僅能把整個過程自動化,還能設(shè)計出比自己更厲害的AI,層層遞進。
這就像滾雪球,一旦AI的能力突破某個關(guān)鍵點,它們的智力就會突然、大幅、飛速地增長。
后來有人指出,這個「奇點」可能沒必要非得超過最聰明的人類,只要它在AI研究領(lǐng)域的能力跟得上AI研究員就夠了——這比想象中低多了。
AI不需要去解什么特別難的「千禧年大獎難題」之類的東西,只要擅長AI研究就夠了。
智能爆炸不一定非得是AI自己改自己。AI也可以通過提升其他AI的能力來實現(xiàn),比如一群AI互相幫忙搞研究。
不管怎樣,一旦智能爆炸發(fā)生,我們就會迅速邁向ASI,這可能會威脅人類的生存。
「智能爆炸」還有多遠?
去年11月,METR發(fā)布了一篇論文,介紹了一個叫RE-Bench的AI測試工具,用來衡量AI系統(tǒng)的能力。
它主要對比人類和最前沿的AI在AI研究工程任務(wù)上的表現(xiàn)。
RE-Bench在7個不同環(huán)境中測試人類和AI,結(jié)果畫出了一張圖。
這張圖顯示(下圖),對于耗時2小時的任務(wù),AI已經(jīng)比人類研究者表現(xiàn)得更好;但如果是8小時的任務(wù),人類暫時還有優(yōu)勢。
不過,METR最近結(jié)合OpenAI的GPT-4.5系統(tǒng)測試發(fā)現(xiàn),AI能處理的任務(wù)時長正在迅速增加。比如,GPT-4o能在10分鐘任務(wù)中達到50%的成功率,o1-preview能搞定30分鐘任務(wù),而o1已經(jīng)能完成1小時的任務(wù)。
這說明AI在AI研究方面的能力提升很快。
不過,RE-Bench只測工程任務(wù),沒涵蓋整個AI研發(fā)過程,比如AI能不能自己想出新研究思路、開創(chuàng)全新范式等等。
但這和其他結(jié)果一致:AI的能力正在全面提升,各種測試基準(zhǔn)都快被「刷爆」了,新的測試基準(zhǔn)還沒來得及做出來就被超越。
所以,很難精確預(yù)測「智能爆炸」到底什么時候會發(fā)生,所以我們的策略不該指望能算準(zhǔn)時間。
就像Connor Leahy說的:「面對指數(shù)增長,你要么反應(yīng)太早,要么已經(jīng)太晚。」
我們不能用「智能爆炸」造出超級聰明又好用的AI嗎?
問題有兩方面。第一,沒人知道怎么確保比人類還聰明的AI是安全的、可控的。
別說ASI了,哪怕只是比我們稍微聰明一點的AI,都沒法保證安全。
第二是這種爆炸會來得太快,人類根本來不及監(jiān)督或控制整個過程?,F(xiàn)在的AI安全技術(shù)研究實在太落后了,我們沒理由相信能控制住ASI。
引發(fā)「智能爆炸」的可能姿勢
一、人為觸發(fā)
總不會有人蠢到故意引發(fā)「智能爆炸」吧?
還真有。
Anthropic的CEO Dario Amodei就公開呼吁「遞歸自我改進」(AI自己升級自己)。
當(dāng)然,他給自己找了個理由,說是為了讓美國及其盟友在全球舞臺上保持「領(lǐng)先優(yōu)勢」。
去年10月,微軟AI部門的CEO Mustafa Suleyman警告說,「遞歸自我改進」在5-10年內(nèi)會顯著提高風(fēng)險。
可同月,微軟CEO Satya Nadella在展示微軟AI產(chǎn)品時卻說:「想想這種遞歸性……用AI造AI工具,再用這些工具造更好的AI。」
二、機器自己搞亂
「智能爆炸」也可能由足夠厲害的AI自己啟動,不需要人類指揮。
這涉及到「工具趨同」(instrumental convergence)的概念:不管一個智能體的終極目標(biāo)是什么(我們甚至都沒法確保現(xiàn)代AI的目標(biāo)是我們想要的),有些子目標(biāo)對任何目標(biāo)都有用。
比如,為了更好地實現(xiàn)目標(biāo),AI可能會追求更多「權(quán)力」。為了獲得更多權(quán)力,AI可能覺得變聰明點挺有用,于是自己啟動「遞歸自我改進」,結(jié)果引發(fā)「智能爆炸」。
去年7月一篇論文發(fā)現(xiàn),有些AI會試圖改寫自己的獎勵函數(shù)。這說明AI可能會從常見的「鉆空子」行為,發(fā)展到更危險的「獎勵篡改」。
OpenAI的o1模型系統(tǒng)卡還透露,在一個網(wǎng)絡(luò)安全挑戰(zhàn)中,o1通過啟動一個修改過的挑戰(zhàn)容器,直接讀取答案作弊。報告特別指出,這是「工具趨同」行為的一個例子。
AGI的到來或許并非一蹴而就,而是需要跨越技術(shù)、成本與安全的重重障礙。
未來AI能否從「淺層模仿者」進化到「自主智能」,不僅取決于算力和數(shù)據(jù)的堆砌,更需要突破對任務(wù)本質(zhì)的深刻理解。
正如自然選擇淬煉了人類的智慧,或許AI的終極進化,也將是一場漫長而殘酷的「生存游戲」。
只是,我們準(zhǔn)備好了嗎?