大模型的泡沫什么時候破滅? 原創(chuàng)
作者 | 沈旸
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
對于技術(shù)泡沫,大家可能最熟悉的就是Gartner的技術(shù)成熟度曲線圖。過去幾年確實出現(xiàn)了許多備受關(guān)注的技術(shù),例如云計算、大數(shù)據(jù)、區(qū)塊鏈和元宇宙。新技術(shù)讓人激動,但很多企業(yè)在跟進(jìn)這些技術(shù)時往往猶豫不決,擔(dān)心不下注未來會被淘汰,也擔(dān)心投入巨大但方向錯誤。
例如,前幾年Facebook押注元宇宙,甚至將公司名稱改為Meta,但元宇宙的技術(shù)成熟度和市場發(fā)展并未達(dá)到預(yù)期。幸好,Meta公司在大模型時代及時調(diào)整方向,特別是在開源大模型上為社區(qū)做出了巨大貢獻(xiàn)。那么,這次大模型的技術(shù)發(fā)展周期是怎樣的,會出現(xiàn)短期見頂?shù)那闆r嗎?
圖片
Meta于7月23日發(fā)布了Llama 3.1 405B開源人工智能模型,這是Meta迄今為止最強(qiáng)大的模型,也是目前全球最強(qiáng)大的開源大模型。在某些方面,超大杯Llama 3.1 405B超過了GPT-4 0125,與GPT-4o和Claude 3.5互有勝負(fù)。例如,它在NIH/Multi-Needle基準(zhǔn)測試中的得分為98.1,在ZeroScrolls/Quality基準(zhǔn)測試中的得分為95.2,在處理長文本方面表現(xiàn)出色,在Human-Eval基準(zhǔn)測試中也略占上風(fēng)。
圖片
從最終效果來看,大力仍能出奇跡,Scaling Law依然有效。在Llama3.1的大模型中,70B和8B大小參數(shù)的模型也比之前的版本有了非常大的性能提升,這兩個規(guī)模的開源模型非常適合企業(yè)部署。
從2022年底OpenAI推出大模型后,從一開始的聊天應(yīng)用,到后來的RAG,Agent,多模態(tài),視頻處理等,AI的應(yīng)用落地實踐其實是越來越成熟,開源的大模型也被廣泛應(yīng)用在企業(yè)的各種業(yè)務(wù)場景中。
但是由于所有的大模型都幾乎用同一套標(biāo)準(zhǔn)的接口,使得大模型很難像傳統(tǒng)軟件那樣打造專屬的生態(tài)圈,從而建立競爭護(hù)城河。用戶從一個大模型切換到另外一個大模型,幾乎不需要什么成本,每個月都會有更新更好用成本更低的大模型出來。這也使得市場和投資界對大模型的商業(yè)價值持疑態(tài)度,認(rèn)為其發(fā)展可能類似于幾年前的各種技術(shù)概念泡沫。
圖片
Llama 3.1 405 模型是在一個包含了16384 塊Nvidia H100 80GB GPU 集群上訓(xùn)練了整整54天,其中出現(xiàn)了417 次意外中斷。如果按照每小時每張卡3美金的H100租賃成本,加上CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等硬件資源每小時預(yù)計5美金的成本來算,這次訓(xùn)練就需要1億美金的硬件成本。再加上數(shù)據(jù)購買、人工訓(xùn)練、維護(hù)和調(diào)優(yōu)的費(fèi)用,一次大模型的訓(xùn)練成本可能超過2億美金。而目前SpaceX發(fā)射一次星艦火箭的成本也不到一億美金,這已經(jīng)是當(dāng)前商業(yè)航天里運(yùn)力最強(qiáng)的火箭。
圖片
目前,人類正以極大的熱情投入AI領(lǐng)域,受益于AI的火熱,英偉達(dá)的股價在兩年內(nèi)上漲了10倍以上,市值超過3萬億美元。每個月都有企業(yè)宣布推出新的大模型,消耗了幾個小目標(biāo),不斷地刷新榜單。這不禁讓大家聯(lián)想到20世紀(jì)60年代美蘇爭霸時期的太空競賽。
1957年蘇聯(lián)成功發(fā)射世界上第一顆人造衛(wèi)星——斯普尼克一號。1958年,蘇聯(lián)宇航員尤里·加加林成為第一個進(jìn)入太空的人,乘坐東方1號(Vostok 1)繞地球飛行。這一事件引發(fā)了美國的極大震驚和反應(yīng),美國總統(tǒng)艾森豪威爾簽署了《國家航空航天法》,成立了美國國家航空航天局(NASA),以應(yīng)對蘇聯(lián)在太空競賽中的領(lǐng)先地位。
在1969年,美國成功實現(xiàn)了載人登月計劃。阿波羅11號任務(wù)中,尼爾·阿姆斯特朗(Neil Armstrong)和巴茲·奧爾德林(Buzz Aldrin)成為首批登上月球的人類。阿波羅計劃共進(jìn)行了17次任務(wù),其中6次成功登月,最后一次是1972年的阿波羅17號。阿波羅計劃的實際支出略高于預(yù)算,大約為257億美元。按現(xiàn)值計算,其花費(fèi)相當(dāng)于2000億美元,但它實現(xiàn)了人類歷史上的重大突破。太空競賽的角逐中,除了航天技術(shù)以外,還推動了計算機(jī)技術(shù)、材料科學(xué)和通信技術(shù)的進(jìn)步,我們今天非常多的技術(shù)都孵化于當(dāng)年的太空探索。
圖片
很多人可能會很好奇,既然登月計劃那么成功,人類為什么沒有繼續(xù)轉(zhuǎn)向火星和更遠(yuǎn)的太空呢?首先,技術(shù)上的挑戰(zhàn)遠(yuǎn)超預(yù)期?;鹦蔷嚯x地球遙遠(yuǎn)得多,火星到地球的距離約為月亮到地球距離的586倍;長達(dá)數(shù)月甚至數(shù)年的航行時間,以及在陌生星球上生活所需的復(fù)雜生命支持系統(tǒng),都給科學(xué)家們帶來了前所未有的難題。其次,高昂的成本也是一個無法忽視的因素,預(yù)計火星任務(wù)的預(yù)算將至少比阿波羅計劃高10倍以上?,F(xiàn)實是資源有限,必須優(yōu)先處理地球上的諸多問題,地球上即使是生存條件最惡劣的地方也比月球和火星更宜居。
盡管當(dāng)時的各國政府和科學(xué)家們對太空探索都充滿熱情,但下一個目標(biāo)跨度太大、成本太高,讓單純的刷榜行為失去了動力。阿波羅登月這一事件被認(rèn)為是太空競賽的巔峰,之后美蘇的競爭反而轉(zhuǎn)向了地球軌道空間站和無人深空探測等方向。
圖片
目前,大模型的訓(xùn)練可能也會遇到類似的瓶頸,那就是下一個目標(biāo)的成本可能高不可攀。目前最強(qiáng)的開源大模型已經(jīng)達(dá)到了4000億參數(shù),但仍未實現(xiàn)通用人工智能。假設(shè)下一步量變引起質(zhì)變的規(guī)模是十萬億參數(shù),訓(xùn)練更大的模型往往需要更多的參數(shù),其整體訓(xùn)練量和成本的增加遠(yuǎn)超過參數(shù)增長倍數(shù)。訓(xùn)練十萬億規(guī)模參數(shù)的大模型,可能需要幾十萬張H100的顯卡的集群這樣一次訓(xùn)練的成本可能達(dá)到100億美元。從過去的太空競賽來看,100億美元單個項目可能是目前人類社會能承受的極限。畢竟,下一個量級的百萬億參數(shù)大模型,其對應(yīng)訓(xùn)練總成本很可能超過1萬億美元,這幾乎是無法實現(xiàn)的。
如果100億美金砸下去了,10萬億規(guī)模參數(shù)的大模型還是沒法實現(xiàn)AGI,那么基于Transformer架構(gòu)的大模型是不是短期就到頭了?不過這個結(jié)果很可能會啟發(fā)人們?nèi)ヌ剿鱐ransformer之外的架構(gòu)體系,例如量子計算,類腦芯片等。
10萬億規(guī)模參數(shù)的大模型,會是Transformer架構(gòu)的登月時刻么?
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:沈旸
