自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

馬斯克燒幾十億美元造最大超算中心,10萬塊H100訓(xùn)練Grok追趕GPT-4o

人工智能 新聞
最近,許久沒有新動向的馬斯克放出了大消息——他旗下的人工智能初創(chuàng)公司xAI將投入巨資建造一個超算中心,以保證Grok 2及之后版本的訓(xùn)練。這個「超級計(jì)算工廠」預(yù)計(jì)于2025年秋季建成,規(guī)模將達(dá)到目前最大GPU集群的四倍。

前段時間,OpenAI、谷歌、微軟相繼開大會,AI圈子的競爭如火如荼。

這么熱鬧的時候,怎么能少得了馬斯克。

前段時間忙著特斯拉和星鏈的他,最近好像開始騰出手,而且不鳴則已、一鳴驚人,直接放出一個大消息——自己要造世界上最大的超算中心。

今年3月,他旗下的xAI發(fā)布了最新版的Grok 1.5,此后一直有關(guān)于Grok 2即將面世的傳說,但卻遲遲沒有官方消息。

圖片

難道是因?yàn)樗懔Σ粔颍?/span>

沒錯,億萬富翁可能也買不到足夠的芯片。今年四月他曾親自下場表示,沒有足夠多的先進(jìn)芯片,推遲了Grok 2模型的訓(xùn)練和發(fā)布。

圖片

他表示,訓(xùn)練Grok 2需要大約2萬個基于Hopper架構(gòu)的英偉達(dá)H100 GPU,并補(bǔ)充說Grok 3模型及更高版本將需要10萬個H100 芯片。

特斯拉第一季度的財(cái)報(bào)也顯示,公司此前一直受到算力的限制,當(dāng)時馬斯克的計(jì)劃還是年底前部署8.5萬個H100 GPU,將xAI從紅杉資本和其他投資者那里籌集的60億美元中的大部分都花在芯片上。

目前每臺H100的售價約為3萬美元,不算建造費(fèi)用和其他服務(wù)器設(shè)備,僅僅是芯片就需要花掉28億美元。

根據(jù)馬斯克的估算,這個芯片儲量訓(xùn)練Grok 2綽綽有余。

但可能老馬思考了一個月之后,覺得這一步邁得還不夠大,不夠有突破性。畢竟xAI的定位是要和OpenAI、谷歌這種強(qiáng)勁對手正面掰頭的,以后想訓(xùn)練模型可不能再因?yàn)樗懔Φ翩溩印?/span>

于是,他最近公開表示,xAI需要部署10萬個H100來訓(xùn)練和運(yùn)行Grok的下一個版本。

而且,xAI還計(jì)劃將所有芯片串聯(lián)成一個巨大的計(jì)算機(jī)——馬斯克稱之為「超級計(jì)算工廠」(Gigafactory of Compute)。

老馬這個月已經(jīng)向投資者表示,他希望在2025年秋季之前讓這臺超級計(jì)算機(jī)運(yùn)行起來,而且他將「個人負(fù)責(zé)按時交付超級計(jì)算機(jī)」,因?yàn)檫@對于開發(fā)LLM至關(guān)重要。

這臺超算可能由xAI與Oracle合作共建。這幾年來,xAI已經(jīng)從Oracle租用了帶有約1.6萬個H100芯片的服務(wù)器,是這些芯片最大的訂單來源。

如果不發(fā)展自己的算力,未來幾年xAI在云服務(wù)器上很可能就要花費(fèi)100億美元,算下來居然還是「超級計(jì)算工廠」比較省錢。

目前最大GPU集群

這個「超級計(jì)算工廠」一旦完工,規(guī)模將至少是當(dāng)前最大GPU集群的4倍。

比如Meta官網(wǎng)在3月發(fā)布的數(shù)據(jù)顯示,他們當(dāng)時推出了2個包含2.4萬個H100 GPU的集群用于Llama 3的訓(xùn)練。

圖片

雖然英偉達(dá)已經(jīng)宣布今年下半年開始生產(chǎn)并交付全新架構(gòu)Blackwell的B100 GPU,但馬斯克目前的計(jì)劃還是采購H100。

為什么不用最新型號的芯片,反而要大批量購入快要淘汰的型號?這其中的原因,老黃本人向我們解釋過——「在今天的AI競爭里,時間很重要」。

英偉達(dá)會每一年更新一代產(chǎn)品,而如果你想等我的下一個產(chǎn)品,那么你就丟失了訓(xùn)練的時間和先發(fā)優(yōu)勢。

下一個達(dá)到里程碑的公司會宣布一個突破性的AI,而接下來的第二名只在它上面提升0.3%。你要選擇做哪一種?

這就是為什么一直做技術(shù)領(lǐng)先的公司很重要,你的客戶會在你上面建設(shè)并且相信你會一直領(lǐng)先。這里面時間很重要。

這就是為什么我的客戶現(xiàn)在依然瘋狂的在建設(shè)Hopper系統(tǒng)。時間就是一切。下一個里程碑馬上就來。

然而,即使一切順利,「超級計(jì)算工廠」在馬斯克的「個人負(fù)責(zé)」下按時交付,這個集群到了明年秋天是否仍然有規(guī)模優(yōu)勢,也是一個未知數(shù)。

扎克伯格今年1月曾經(jīng)在Instagram上發(fā)帖,稱Meta到今年底將再部署35萬個H100,加上之前的算力總共相當(dāng)于60萬個H100,但他并未提及單個集群的芯片數(shù)量。

圖片

但這個數(shù)字沒過半年就幾乎翻了一番,5月初Llama 3發(fā)布前,有消息稱Meta已從英偉達(dá)額外購買了50萬塊GPU,總數(shù)達(dá)到 100 萬塊,零售價值達(dá)300億美元。

同時,微軟的目標(biāo)是到年底擁有180萬個 GPU,OpenAI甚至更加激進(jìn),希望為最新的AI模型使用1000萬個GPU。這兩家公司也在討論開發(fā)一個價值1000億美元的超級計(jì)算機(jī),包含數(shù)百萬個英偉達(dá)GPU。

這場算力之戰(zhàn),最后誰會勝出呢?

圖片

應(yīng)該是英偉達(dá)吧。

而且不僅僅是H100,英偉達(dá)CFO Colette Kress曾經(jīng)提到過一份Blackwell旗艦芯片的優(yōu)先客戶名單,包括OpenAI、亞馬遜、谷歌、xAI等等。

即將投產(chǎn)的B100,以及英偉達(dá)之后將要一年一更的芯片,將會源源不斷地進(jìn)入科技巨頭們的超算中心,幫助他們完成算力的升級迭代。

芯片短缺,電也不夠

馬斯克在談到特斯拉的算力問題時也補(bǔ)充說,雖然迄今為止芯片短缺是AI發(fā)展的一大制約因素,但電力供應(yīng)在未來一兩年將至關(guān)重要,甚至?xí)〈酒蔀樽畲蟮南拗埔蛩亍?/span>

包括新建的這家「超級計(jì)算工廠」的選址,最需要考慮的因素也是電力供應(yīng)。一個擁有10萬GPU的數(shù)據(jù)中心可能需要100兆瓦的專用電力。

要提供這種量級的電力,xAI總部辦公室所在的舊金山灣區(qū)顯然不是理想的選擇。為了降低成本,數(shù)據(jù)中心往往建在電力更便宜且供應(yīng)更充足的偏遠(yuǎn)地區(qū)。

例如,微軟和OpenAI除了計(jì)劃那個耗資千億美元的超算,也正在威斯康星州建造大型數(shù)據(jù)中心,建設(shè)成本約為100億美元;亞馬遜云服務(wù)的數(shù)據(jù)中心則選址在亞利桑那州。

「超級計(jì)算工廠」一個非??赡艿倪x址,是特斯拉總部,德克薩斯州奧斯汀市。

去年特斯拉宣布建造的Dojo就部署在了這里。這臺超算基于定制芯片,幫助訓(xùn)練AI自動駕駛軟件,也可以用于向外界提供云服務(wù)。

第一臺Dojo運(yùn)行在1萬個GPU上,建造成本約為3億美元。馬斯克4月表示,特斯拉目前共有3.5萬個GPU用于訓(xùn)練自動駕駛系統(tǒng)。

圖片

在數(shù)據(jù)中心進(jìn)行模型訓(xùn)練是一個極其耗電的過程。據(jù)估計(jì),訓(xùn)練GPT-3的耗電量為1287兆瓦時,大約相當(dāng)于130個美國家庭每年消耗的電量。

注意到AI電力問題的CEO不止馬斯克一人,Sam Altman本人曾向初創(chuàng)公司Helion Energy投資3.75 億美元,這家公司旨在利用核聚變提供一種更環(huán)保、更低成本的 AI 數(shù)據(jù)中心運(yùn)行方式。

馬斯克則沒有押注在核聚變技術(shù)上,他認(rèn)為,AI公司很快將開始爭奪降壓變壓器(step down transformer),可以將高壓電流轉(zhuǎn)換為電網(wǎng)可用的電力,「從公用電網(wǎng)獲得的電力(例如 300 千伏)降至 1 伏以下是一個巨大的下降」。

芯片之后,AI行業(yè)需要「transformers for Transformers」。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-05-27 00:50:00

2024-07-16 13:29:52

2024-07-23 13:10:20

2024-12-09 14:00:00

AI生成

2024-09-05 13:30:00

2024-10-31 13:39:47

2024-07-03 17:15:39

2025-02-19 10:28:22

2024-01-19 12:34:39

2024-03-13 11:49:04

人工智能Meta數(shù)據(jù)中心

2023-08-28 13:06:19

AI模型

2024-05-29 14:11:00

2024-07-08 08:40:00

2024-03-15 09:00:00

2024-08-05 08:20:00

馬斯克AI

2024-08-15 10:07:03

2025-02-18 14:59:16

2024-01-19 13:21:21

OpenAI人工智能AGI

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能

2024-04-07 00:20:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號