自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型的泡沫什么時(shí)候破滅?

原創(chuàng) 精選
人工智能
如果100億美金砸下去了,10萬(wàn)億規(guī)模參數(shù)的大模型還是沒(méi)法實(shí)現(xiàn)AGI,那么基于Transformer架構(gòu)的大模型是不是短期就到頭了?不過(guò)這個(gè)結(jié)果很可能會(huì)啟發(fā)人們?nèi)ヌ剿鱐ransformer之外的架構(gòu)體系,例如量子計(jì)算,類腦芯片等。

作者 | 沈旸

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

對(duì)于技術(shù)泡沫,大家可能最熟悉的就是Gartner的技術(shù)成熟度曲線圖。過(guò)去幾年確實(shí)出現(xiàn)了許多備受關(guān)注的技術(shù),例如云計(jì)算、大數(shù)據(jù)、區(qū)塊鏈和元宇宙。新技術(shù)讓人激動(dòng),但很多企業(yè)在跟進(jìn)這些技術(shù)時(shí)往往猶豫不決,擔(dān)心不下注未來(lái)會(huì)被淘汰,也擔(dān)心投入巨大但方向錯(cuò)誤。

例如,前幾年Facebook押注元宇宙,甚至將公司名稱改為Meta,但元宇宙的技術(shù)成熟度和市場(chǎng)發(fā)展并未達(dá)到預(yù)期。幸好,Meta公司在大模型時(shí)代及時(shí)調(diào)整方向,特別是在開(kāi)源大模型上為社區(qū)做出了巨大貢獻(xiàn)。那么,這次大模型的技術(shù)發(fā)展周期是怎樣的,會(huì)出現(xiàn)短期見(jiàn)頂?shù)那闆r嗎?

圖片圖片

Meta于7月23日發(fā)布了Llama 3.1 405B開(kāi)源人工智能模型,這是Meta迄今為止最強(qiáng)大的模型,也是目前全球最強(qiáng)大的開(kāi)源大模型。在某些方面,超大杯Llama 3.1 405B超過(guò)了GPT-4 0125,與GPT-4o和Claude 3.5互有勝負(fù)。例如,它在NIH/Multi-Needle基準(zhǔn)測(cè)試中的得分為98.1,在ZeroScrolls/Quality基準(zhǔn)測(cè)試中的得分為95.2,在處理長(zhǎng)文本方面表現(xiàn)出色,在Human-Eval基準(zhǔn)測(cè)試中也略占上風(fēng)。

圖片圖片

從最終效果來(lái)看,大力仍能出奇跡,Scaling Law依然有效。在Llama3.1的大模型中,70B和8B大小參數(shù)的模型也比之前的版本有了非常大的性能提升,這兩個(gè)規(guī)模的開(kāi)源模型非常適合企業(yè)部署。

從2022年底OpenAI推出大模型后,從一開(kāi)始的聊天應(yīng)用,到后來(lái)的RAG,Agent,多模態(tài),視頻處理等,AI的應(yīng)用落地實(shí)踐其實(shí)是越來(lái)越成熟,開(kāi)源的大模型也被廣泛應(yīng)用在企業(yè)的各種業(yè)務(wù)場(chǎng)景中。

但是由于所有的大模型都幾乎用同一套標(biāo)準(zhǔn)的接口,使得大模型很難像傳統(tǒng)軟件那樣打造專屬的生態(tài)圈,從而建立競(jìng)爭(zhēng)護(hù)城河。用戶從一個(gè)大模型切換到另外一個(gè)大模型,幾乎不需要什么成本,每個(gè)月都會(huì)有更新更好用成本更低的大模型出來(lái)。這也使得市場(chǎng)和投資界對(duì)大模型的商業(yè)價(jià)值持懷疑態(tài)度,認(rèn)為其發(fā)展可能類似于幾年前的各種技術(shù)概念泡沫。

圖片圖片

Llama 3.1 405 模型是在一個(gè)包含了16384 塊Nvidia H100 80GB GPU 集群上訓(xùn)練了整整54天,其中出現(xiàn)了417 次意外中斷。如果按照每小時(shí)每張卡3美金的H100租賃成本,加上CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等硬件資源每小時(shí)預(yù)計(jì)5美金的成本來(lái)算,這次訓(xùn)練就需要1億美金的硬件成本。再加上數(shù)據(jù)購(gòu)買、人工訓(xùn)練、維護(hù)和調(diào)優(yōu)的費(fèi)用,一次大模型的訓(xùn)練成本可能超過(guò)2億美金。而目前SpaceX發(fā)射一次星艦火箭的成本也不到一億美金,這已經(jīng)是當(dāng)前商業(yè)航天里運(yùn)力最強(qiáng)的火箭。

圖片圖片

目前,人類正以極大的熱情投入AI領(lǐng)域,受益于AI的火熱,英偉達(dá)的股價(jià)在兩年內(nèi)上漲了10倍以上,市值超過(guò)3萬(wàn)億美元。每個(gè)月都有企業(yè)宣布推出新的大模型,消耗了幾個(gè)小目標(biāo),不斷地刷新榜單。這不禁讓大家聯(lián)想到20世紀(jì)60年代美蘇爭(zhēng)霸時(shí)期的太空競(jìng)賽。

1957年,蘇聯(lián)成功發(fā)射世界上第一顆人造衛(wèi)星——斯普尼克一號(hào)。1958年,蘇聯(lián)宇航員尤里·加加林成為第一個(gè)進(jìn)入太空的人,乘坐東方1號(hào)(Vostok 1)繞地球飛行。這一事件引發(fā)了美國(guó)的極大震驚和反應(yīng),美國(guó)總統(tǒng)艾森豪威爾簽署了《國(guó)家航空航天法》,成立了美國(guó)國(guó)家航空航天局(NASA),以應(yīng)對(duì)蘇聯(lián)在太空競(jìng)賽中的領(lǐng)先地位。

在1969年,美國(guó)成功實(shí)現(xiàn)了載人登月計(jì)劃。阿波羅11號(hào)任務(wù)中,尼爾·阿姆斯特朗(Neil Armstrong)和巴茲·奧爾德林(Buzz Aldrin)成為首批登上月球的人類。阿波羅計(jì)劃共進(jìn)行了17次任務(wù),其中6次成功登月,最后一次是1972年的阿波羅17號(hào)。阿波羅計(jì)劃的實(shí)際支出略高于預(yù)算,大約為257億美元。按現(xiàn)值計(jì)算,其花費(fèi)相當(dāng)于2000億美元,但它實(shí)現(xiàn)了人類歷史上的重大突破。太空競(jìng)賽的角逐中,除了航天技術(shù)以外,還推動(dòng)了計(jì)算機(jī)技術(shù)、材料科學(xué)和通信技術(shù)的進(jìn)步,我們今天非常多的技術(shù)都孵化于當(dāng)年的太空探索。

圖片圖片

很多人可能會(huì)很好奇,既然登月計(jì)劃那么成功,人類為什么沒(méi)有繼續(xù)轉(zhuǎn)向火星和更遠(yuǎn)的太空呢?首先,技術(shù)上的挑戰(zhàn)遠(yuǎn)超預(yù)期。火星距離地球遙遠(yuǎn)得多,火星到地球的距離約為月亮到地球距離的586倍;長(zhǎng)達(dá)數(shù)月甚至數(shù)年的航行時(shí)間,以及在陌生星球上生活所需的復(fù)雜生命支持系統(tǒng),都給科學(xué)家們帶來(lái)了前所未有的難題。其次,高昂的成本也是一個(gè)無(wú)法忽視的因素,預(yù)計(jì)火星任務(wù)的預(yù)算將至少比阿波羅計(jì)劃高10倍以上?,F(xiàn)實(shí)是資源有限,必須優(yōu)先處理地球上的諸多問(wèn)題,地球上即使是生存條件最惡劣的地方也比月球和火星更宜居。

盡管當(dāng)時(shí)的各國(guó)政府和科學(xué)家們對(duì)太空探索都充滿熱情,但下一個(gè)目標(biāo)跨度太大、成本太高,讓單純的刷榜行為失去了動(dòng)力。阿波羅登月這一事件被認(rèn)為是太空競(jìng)賽的巔峰,之后美蘇的競(jìng)爭(zhēng)反而轉(zhuǎn)向了地球軌道空間站和無(wú)人深空探測(cè)等方向。

圖片圖片

目前,大模型的訓(xùn)練可能也會(huì)遇到類似的瓶頸,那就是下一個(gè)目標(biāo)的成本可能高不可攀。目前最強(qiáng)的開(kāi)源大模型已經(jīng)達(dá)到了4000億參數(shù),但仍未實(shí)現(xiàn)通用人工智能。假設(shè)下一步量變引起質(zhì)變的規(guī)模是十萬(wàn)億參數(shù),訓(xùn)練更大的模型往往需要更多的參數(shù),其整體訓(xùn)練量和成本的增加遠(yuǎn)超過(guò)參數(shù)增長(zhǎng)倍數(shù)。訓(xùn)練十萬(wàn)億規(guī)模參數(shù)的大模型,可能需要幾十萬(wàn)張H100的顯卡的集群這樣一次訓(xùn)練的成本可能達(dá)到100億美元。從過(guò)去的太空競(jìng)賽來(lái)看,100億美元單個(gè)項(xiàng)目可能是目前人類社會(huì)能承受的極限。畢竟,下一個(gè)量級(jí)的百萬(wàn)億參數(shù)大模型,其對(duì)應(yīng)訓(xùn)練總成本很可能超過(guò)1萬(wàn)億美元,這幾乎是無(wú)法實(shí)現(xiàn)的。

如果100億美金砸下去了,10萬(wàn)億規(guī)模參數(shù)的大模型還是沒(méi)法實(shí)現(xiàn)AGI,那么基于Transformer架構(gòu)的大模型是不是短期就到頭了?不過(guò)這個(gè)結(jié)果很可能會(huì)啟發(fā)人們?nèi)ヌ剿鱐ransformer之外的架構(gòu)體系,例如量子計(jì)算,類腦芯片等。

10萬(wàn)億規(guī)模參數(shù)的大模型,會(huì)是Transformer架構(gòu)的登月時(shí)刻么?

想了解更多AIGC的內(nèi)容,請(qǐng)?jiān)L問(wèn):

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2017-04-18 14:39:16

機(jī)器學(xué)習(xí)人工智能互聯(lián)網(wǎng)

2020-05-12 11:25:50

MySQLES數(shù)據(jù)庫(kù)

2017-05-15 09:55:07

2018-12-20 10:50:47

區(qū)塊鏈數(shù)字貨幣比特幣

2024-01-02 10:21:11

2015-07-08 15:55:01

NSStringcopystrong

2020-09-16 10:02:08

神經(jīng)網(wǎng)絡(luò)樹(shù)模型

2013-11-28 16:03:24

2012-09-24 10:20:39

JavaScriptJS

2022-05-19 10:27:34

機(jī)器學(xué)習(xí)人工智能

2024-08-05 01:22:16

2018-10-10 20:22:12

人工智能AI無(wú)人駕駛

2017-06-28 15:06:51

PythonLambda函數(shù)

2021-08-13 11:31:23

HTTP

2015-10-20 15:59:57

注釋代碼程序

2015-10-26 09:38:52

避免注釋代碼

2021-09-29 09:24:21

GCGo STW

2019-08-26 10:36:22

6G5G網(wǎng)絡(luò)

2015-03-02 14:44:48

AngularJS jQuery超越

2021-01-30 19:59:37

性能項(xiàng)目開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)