2030年,AGI概率至少10%!AI范式轉(zhuǎn)變快,誰能預(yù)測GenAI下一代?
AGI已經(jīng)來了?還是快來了?還是說AGI也是一種「技術(shù)烏托邦」?
對于AI的能力,到底該如何預(yù)測?AGI帶給人類的是「祝?!惯€是「詛咒」?
最近,Epoch AI高級研究員Ege Erdil論證了如何預(yù)測AI的能力:
1) 基于當(dāng)前AI能力的外推預(yù)測:通常在估計AI在已具備基礎(chǔ)能力的任務(wù)上的進展速度時更可靠。
2) 第一性原理推理:在預(yù)測AI尚無法完成或只能極其勉強完成的任務(wù)時,往往更加準(zhǔn)確。
結(jié)合兩種方法,他認為到2030年實現(xiàn)人類智力水平的AI可能性至少10%,樂觀估計為20%。
此外,由于AI未來帶來的經(jīng)濟收益主要來源于它目前尚未掌握的任務(wù),如果僅僅依賴第一種外推法,那么極有可能嚴(yán)重低估AI未來的發(fā)展速度、廣度以及影響力。
預(yù)測AI也得講道理
在嘗試預(yù)測AI系統(tǒng)未來的能力及其將帶來的經(jīng)濟和社會影響時,通常有兩種不同的方法:
1)回顧過去以及事物變化的速度,然后嘗試將現(xiàn)在的情況外推到未來。這種方法傾向于分析過去的數(shù)據(jù)和趨勢來推測未來的走向。
2)基于第一性原理推理,考慮人腦的能力和資源使用情況、不同領(lǐng)域的訓(xùn)練數(shù)據(jù)的可用性、獲取不同任務(wù)的獎勵信號的成本等,以估計自動化任務(wù)的難度。這種方法更加理論化,它依賴于對基本事實的理解來進行邏輯推理。
這兩種方法代表了預(yù)測AI能力的兩種根本不同的方式。
第一種方法更常被經(jīng)濟學(xué)家所青睞,因為它依賴于歷史數(shù)據(jù)和趨勢分析,便于理解和應(yīng)用。
而第二種方法則更適合用于深入探討技術(shù)可行性及其限制,提供了關(guān)于AI發(fā)展可能遇到的技術(shù)障礙的洞察。
每種方法都有其獨特的優(yōu)勢和局限,在實踐中可能會結(jié)合使用以獲得更全面的視角。
采用第一種方法的人在預(yù)測時,往往假設(shè):在未來AI在最容易完成的任務(wù),與AI當(dāng)時能夠完成的任務(wù)相似。
一篇2013年出版的經(jīng)濟學(xué)論文中,F(xiàn)rey和Osborne試圖估算不同職業(yè)對計算機化的敏感程度,其中的一段話很好地概括了這一觀點:
……計算機能夠執(zhí)行的任務(wù)最終取決于程序員編寫一套程序或規(guī)則的能力,以便在各種可能的情況下正確引導(dǎo)技術(shù)。
因此,當(dāng)一個問題可以被明確指定——也就是說,成功的標(biāo)準(zhǔn)是可量化且可以被輕松評估時,計算機相較于人類勞動將表現(xiàn)得更加高效。
文章鏈接:https://oms-www.files.svdcdn.com/production/downloads/academic/The_Future_of_Employment.pdf
當(dāng)時這一預(yù)測或許合理,但在接下來的十年里,隨著深度學(xué)習(xí)的進步,它被證明是個錯誤。
AI:從監(jiān)督學(xué)習(xí)到GenAI
如今,LLM能夠執(zhí)行許多任務(wù),而人類甚至無法完全理解內(nèi)部原理。
而且,盡管清晰的問題定義仍然重要,但重要性體現(xiàn)在不同的方面。
在深度學(xué)習(xí)革命之后,AI經(jīng)濟學(xué)中出現(xiàn)了一種新的視角,即將AI系統(tǒng)視為「預(yù)測機器」(Prediction Machines)。
這一觀點是對當(dāng)時AI系統(tǒng)能力的反映:在2012年至2019年間,適用于預(yù)測任務(wù)的監(jiān)督學(xué)習(xí)方法主導(dǎo)了該領(lǐng)域。
因此,一些人再次犯下了類似的錯誤,簡單地假設(shè)它會像2010年代中期的監(jiān)督學(xué)習(xí)一樣,認為AI的未來只是擁有更強大的預(yù)測能力。
從《預(yù)測機器》中,可以看到一些相關(guān)的引用,清楚地說明了這一點:
…我們所見到的進步主要發(fā)生在機器學(xué)習(xí)領(lǐng)域,而機器學(xué)習(xí)更準(zhǔn)確地說是一種統(tǒng)計學(xué)的進步,盡管是非常重大的進步;具體來說,是在用于生成預(yù)測的統(tǒng)計方法上的進步。
新的AI技術(shù)將極大降低什么成本?預(yù)測。
因此,正如經(jīng)濟學(xué)所告訴我們的,不僅預(yù)測的使用將大幅增加,我們還會看到在一些新領(lǐng)域中,它令人驚訝地適用。
Frey和Osborne預(yù)測計算機化一樣,上述新推測也被后來的發(fā)展所推翻,尤其是AI領(lǐng)域向無監(jiān)督學(xué)習(xí)的轉(zhuǎn)變,以及如今所謂的「生成式AI」(Generative AI)的興起。
相比于上述例子,AI研究者和未來學(xué)家,常常使用的是從第一性原理出發(fā)的推理方法(first-principles reasoning)。
其中最著名的例子可能是Ray Kurzweil。
在1999年,他估算人腦的計算能力約為10^{16}次運算每秒,并結(jié)合摩爾定律(Moore’s Law)預(yù)測人類水平的AI系統(tǒng)將在2029年誕生。
摩爾定律
外推預(yù)測的風(fēng)險
使用簡單的模型將過去的數(shù)據(jù)外推到未來,是經(jīng)過驗證的預(yù)測方法,在許多領(lǐng)域都適用。
然而,在AI領(lǐng)域,如果僅依賴這種方法,存在嚴(yán)重的局限性。
最主要的問題在于,這類方法過度依賴AI過去和當(dāng)前的能力,導(dǎo)致低估未來AI的突破,特別是在當(dāng)前完全無法勝任的任務(wù)上。
采用這種方法時,預(yù)測者即便有意識地試圖考慮AI未來可能的進步,仍然傾向于認為未來的AI只是現(xiàn)在AI的增強版,其能力范圍會逐步擴展到與現(xiàn)有任務(wù)相鄰的領(lǐng)域。
目前,這種錯誤的最新表現(xiàn)形式是將AI的最新發(fā)展局限在「生成式AI」(Generative AI)的框架內(nèi)。
就像過去「預(yù)測機器」的概念一樣,這種狹隘的視角讓人誤以為,AI未來的能力可以通過簡單推測「今天的圖像生成器和聊天機器人會變得更便宜、更高效」來預(yù)測。
這種方法的局限性不可忽視。
為了說明并提醒大家AI發(fā)展的不可預(yù)測性,在下方列出了一張表格,其中展示2016年人們認為AI重要能力的清單,對比今天的發(fā)展,你會發(fā)現(xiàn)當(dāng)時的許多預(yù)測都已過時。
請注意,對2025年的用戶來說顯得重要的能力——問答、閱讀理解、圖像生成、編程、數(shù)學(xué)——在表中都沒有出現(xiàn)。
這些都是由于scaling law和算法進步而出現(xiàn)的新能力。
如果只使用樸素外推法來預(yù)測2025年AI系統(tǒng)性能,那么沒有人都預(yù)料到這些能力。
我們應(yīng)該期待,AI當(dāng)前能力與十年后能力之間的差異將同樣巨大。這應(yīng)該成為一種共識。
不宜外推AI對經(jīng)濟影響
在最近的論文中,Acemoglu犯了錯誤:過度依賴這種簡單外推法。
Acemoglu借鑒了其他幾位作者的研究,這些作者對不同經(jīng)濟任務(wù)受LLM自動化影響的程度以及在這些受影響任務(wù)上可能合理預(yù)期的成本節(jié)約進行了估算。
Acemoglu估計,由于AI的影響,未來十年經(jīng)濟產(chǎn)出將增長0.7%。結(jié)合三個不同的估算,得出了這個數(shù)字:
(1)Eloundou等人(2023年)的估計表明,在美國按工資賬單計算的大約20%的任務(wù)暴露于由大語言模型實現(xiàn)的自動化之下。
(2)Svanberg等人(2024年)估計,在當(dāng)前暴露于計算機視覺系統(tǒng)自動化的任務(wù)中,只有23%的任務(wù)實際進行自動化是具有成本效益的。
(3)Acemoglu假設(shè),在這些自動化任務(wù)上,相較于由人類執(zhí)行這些任務(wù),平均可以節(jié)省大約30%的勞動力成本。
(4)Acemoglu進一步估計,這些任務(wù)成本的大約50%實際上是勞動力成本,因此總成本節(jié)約約為15%(即30%的勞動力成本節(jié)約乘以勞動力成本占總成本的50%)。
最后,關(guān)于這種自動化對GDP影響的粗略計算方法是:
首先計算成本減少的任務(wù)比例,大約為0.2*0.23=4.6%。
然后,考慮到生產(chǎn)力提升的隱含值約為1/0.85=17.6%,這是因為成本節(jié)約了15%,意味著原本的成本效率提高到了100/(100-15)≈117.6%,即提升了17.6%。
最后,將這兩個數(shù)值相乘(4.6%*17.6%),得出總?cè)厣a(chǎn)率影響大約為0.8%。
這個分析提供了對自動化技術(shù)可能帶來的經(jīng)濟效益的量化視角,盡管實際情況可能會因多種因素而有所不同。
論文地址:https://shapingwork.mit.edu/wp-content/uploads/2024/05/Acemoglu_Macroeconomics-of-AI_May-2024.pdf
這是一個對可能總結(jié)為「LLMs,但更好」的假設(shè)性技術(shù)的經(jīng)濟產(chǎn)出影響的合理估計。
然而,這并不是我們應(yīng)該對未來10年內(nèi)的AI系統(tǒng)的期望:我們應(yīng)該期望它們能夠執(zhí)行許多當(dāng)前AI根本無法執(zhí)行的任務(wù)。
例如,下圖展示了測試時計算范式轉(zhuǎn)變對LLM數(shù)學(xué)性能影響。
基本觀點是,目前AI能夠做到的事情并不能講好未來的故事。
如果想要預(yù)測未來幾年之外的AI發(fā)展,那么將目光局限于當(dāng)前AI系統(tǒng)的能力,甚至局限于這些能力的當(dāng)前變化速度,并不是一個好的選擇。
推理模型超越數(shù)學(xué)性能的歷史趨勢
從先驗角度來看,在未來十年中,我們應(yīng)該期待會出現(xiàn)許多這樣的不連續(xù)性和突然涌現(xiàn)的能力。
因此,盡管基于當(dāng)前AI的能力進行預(yù)測似乎是一種更為穩(wěn)妥和合理的方法,但實際上這種方法很可能嚴(yán)重不準(zhǔn)確。
相反,允許技術(shù)進步突然加速和新能力出現(xiàn)的更具推測性的方法,可能會做出更好的預(yù)測。
有什么替代方法嗎?
無法回避的問題是,預(yù)測未來本身就非常困難,尤其是在缺乏明確趨勢可供外推的情況下。
例如,目前缺乏針對遠程辦公任務(wù)和機器人技術(shù)的高質(zhì)量基準(zhǔn)測試,即使有這樣的基準(zhǔn)測試,也會發(fā)現(xiàn)當(dāng)前系統(tǒng)在這些任務(wù)上表現(xiàn)非常差,而線性外推可能會將它們的成熟期推遲到幾十年甚至幾百年之后。
這顯然不是一種合理的方式來預(yù)測AI何時能在這些任務(wù)上表現(xiàn)出色,因為我們一再看到,基準(zhǔn)測試的分?jǐn)?shù)并不是時間的線性函數(shù)。
參考人類大腦預(yù)測AI能力
對于這些「尚未涌現(xiàn)」的任務(wù)——即人類可以完成但當(dāng)前AI完全無法完成的任務(wù),預(yù)測應(yīng)該參考人類大腦及其資源需求所提供的存在性證明。
對于人類大腦能夠執(zhí)行的認知任務(wù),可以說以下條件至少足以構(gòu)建能夠執(zhí)行該任務(wù)的神經(jīng)網(wǎng)絡(luò):
1、運行時計算能力:1e15 FLOP/s,這是估計大腦執(zhí)行計算的大致能力。
2、訓(xùn)練計算量:1e24 FLOP,人類在30歲之前大約存活了10億秒。
3、訓(xùn)練算法:大小遠小于100MB,并且進化搜索算法變體所需的計算量遠小于1e45 FLOP。大小限制來自基因組的大小,而搜索計算限制則來自進化過程中可能發(fā)生的有效計算的熱力學(xué)極限。
4、訓(xùn)練數(shù)據(jù)量:與人類在終身學(xué)習(xí)過程中接觸到的數(shù)據(jù)量相當(dāng)。
想要構(gòu)建能夠執(zhí)行類似人類任務(wù)的AI系統(tǒng),這些條件提供了一個理論上的下限。
在這些目標(biāo)中,在大多數(shù)任務(wù)上,目前的新進展是能滿足條件1、2和4。
要知道,直到大約2年前,AI系統(tǒng)的訓(xùn)練計算能力才突破1e24 FLOP,達到了條件2。
而尚未擁有展現(xiàn)出超越人類能力的AI系統(tǒng),這表明在許多領(lǐng)域,算法仍遜色于人類大腦:還沒有達到條件3。
2030年AGI可能性:10%-20%
搜索滿足條件3算法的實際算力需求,難以確定,也難以消除。
因此保守的估計是:在發(fā)現(xiàn)能超越人腦的算法上,需要投入的計算量,在目前累計的計算量(可能在1e26到1e30 FLOP之間)和1e45 FLOP之間均勻分布。
預(yù)計到本年代末,累計計算量將增加大約1000倍。
從目前的情況來看,這意味著人類大約有20%的機會找到正確的算法。
即使考慮到模型的不確定性,把這個概率減半,到2030年實現(xiàn)人類水平的AI的可能性仍有10%。
這甚至還沒有考慮到以下可能性:
與進化不同,人類能夠在算法搜索、模型訓(xùn)練和模型推理之間進行權(quán)衡,并將訓(xùn)練計算量分?jǐn)偟侥P偷乃胁渴饘嵗小?/span>
這較差的算法,可能通過更多的訓(xùn)練和推理計算來彌補。
事實上,Ege Erdil預(yù)計首批達到人類水平的AI系統(tǒng)會這樣做。
考慮到這一點,概率應(yīng)該會顯著高于10%。(盡管具體有高多少,還不知道。)
結(jié)合Moravec悖論,對AI在哪些任務(wù)上會首先達到人類水平有了一個預(yù)期:這些任務(wù)正是AI相對于人類具有更大數(shù)據(jù)優(yōu)勢和較小算法劣勢的任務(wù)。
例如,盡管Eloundou等人2023年的論文得出結(jié)論認為,需要科學(xué)技能的任務(wù),預(yù)計會抵抗LLM自動化。
論文鏈接:https://arxiv.org/abs/2303.10130
但Ege Erdil認為:「這種更廣泛的視角實際上表明,這反而是它更容易受到AI自動化影響的原因。」
原因是,相對于感覺運動和感知任務(wù),科學(xué)推理并不是那種人類具有高效算法的任務(wù)。
結(jié)論
基本的結(jié)論是,AI目前能做什么并不是重點。
如果想預(yù)測AI未來幾年之后的發(fā)展,僅僅以當(dāng)前AI系統(tǒng)的能力,甚至當(dāng)前這些能力的變化速度作為錨點,并不是一個好主意。
相反,應(yīng)該從各種任務(wù)的內(nèi)在難度出發(fā)來思考,盡管當(dāng)前AI系統(tǒng)在許多任務(wù)上完全無法勝任,但這恰恰反映了使用AI自動化這些任務(wù)所需的資源需求。
當(dāng)這樣做時,就會得到對AI進展更為樂觀的圖景,這更符合近期的歷史。
許多人現(xiàn)在提出的關(guān)于「生成式AI」系統(tǒng)能力本質(zhì)上受限的論點,如果放在2016年用來預(yù)測當(dāng)時AI系統(tǒng)的局限性,可能會表現(xiàn)得很糟糕。
如果我們希望我們的預(yù)測更準(zhǔn)確,就不應(yīng)該依賴那些過去表現(xiàn)不佳的預(yù)測方法。