馬斯克19天建成世界最強AI集群!10萬塊H100「液冷怪獸」即將覺醒
凌晨4:20,大洋彼岸的最大超算訓(xùn)練集群開始轟鳴。
「420」也是馬斯克最喜歡玩的梗,象征著自由、不受約束和反傳統(tǒng)。
馬斯克頻繁把「420」用在他的產(chǎn)品定價,公司開會時間和星艦一發(fā)射時間上等等。
網(wǎng)友也在評論區(qū)打趣馬斯克超絕儀式感,不到4:20不開工。
在最新采訪中,馬斯克透露了更多關(guān)于新建超算和xAI模型進(jìn)展:
- Grok 2上個月完成了訓(xùn)練,大約用了15K H100
- Grok 2將于下個月發(fā)布,與GPT-4相當(dāng)
- Grok 3正在新建10萬塊液冷H100超算上,開始訓(xùn)練
- 預(yù)計Grok 3將在12月發(fā)布,「屆時將成為世界上最強大的人工智能」
10萬塊液冷H100,19天完成搭建
值得注意的是,這個全球最大的超算集群,大就大在擁有10萬塊H100,還是液冷的那種。
10萬塊H100是什么概念呢?
價格上來看,H100 GPU作為AI的關(guān)鍵組件、硅谷的熱門商品,據(jù)估計每塊成本在3萬到4萬美元之間,10萬塊H100就是一筆40億的大單。
而在全美TOP 5的高校機器學(xué)習(xí)博士曾發(fā)帖說,實驗室H100數(shù)量為0,要用GPU得靠搶。
李飛飛也在采訪里表示,斯坦福的自然語言處理小組只有64塊A100 GPU。
而馬斯克一出手就是10萬塊,這個數(shù)字令評論區(qū)垂涎欲滴。
算力上來看,算力大約是OpenAI用于訓(xùn)練GPT4的25000塊A100的20倍左右。
耗電上來看,僅僅是讓這個超級計算中心維持運轉(zhuǎn),所需要的電力總功率就達(dá)到70MW,相當(dāng)于這是一座普通電廠的裝機容量,可滿足20萬人的能源需求。
今年5月,馬斯克就曾表示,希望在2025年秋季前建成「超算工廠」。
現(xiàn)在看來,為了加速超級集群的建設(shè),他選擇了購買當(dāng)前一代的H100 GPU,而不是等待新一代的H200或其他即將推出的基于Blackwell的B100和B200 GPU。
盡管市場預(yù)期Nvidia的新Blackwell數(shù)據(jù)中心GPU將在2024年底前上市,馬斯克顯然沒有耐心等待。
當(dāng)前AI軍備競賽越發(fā)火熱,唯快不破,誰能最快地推出產(chǎn)品就能迅速占領(lǐng)市場。
xAI作為一家初創(chuàng)公司,更是要在與其他巨頭之戰(zhàn)中先聲奪人。
在之前,馬斯克與甲骨文的百億大單就談崩了,馬斯克嫌棄甲骨文速度太慢,認(rèn)為對方?jīng)]有以可行的速度構(gòu)建計算集群。
而甲骨文則覺得xAI建超算選址承擔(dān)不了電力的需求,隨著百億訂單的談判破裂, xAI和甲骨文停止了討論擴(kuò)大現(xiàn)有合作的可能性。
xAI只得在田納西州孟菲斯市建設(shè)自己的人工智能數(shù)據(jù)中心,與甲骨文的合作破裂意味著xAI要自己動手單干,通過10萬塊H100構(gòu)建獨立的數(shù)據(jù)中心,以擺脫甲骨文等云提供商能力的限制。
馬斯克自己也表示,xAI擁有世界最強的AI訓(xùn)練集群,可謂遙遙領(lǐng)先。
世界最強Grok-3開訓(xùn),年底發(fā)
在馬斯克最新一則采訪中,披露了建立超算的一些細(xì)節(jié)。
據(jù)大孟菲斯商會(Greater Memphis Chamber)主席Ted Townsend透露,馬斯克只花了大約一周的時間就決定將xAI的新超級計算機建造在孟菲斯。
Townsend說,經(jīng)過3月份的幾天旋風(fēng)式談判之后,馬斯克和他的團(tuán)隊選擇了田納西州的這座城市,因為這里有充足的電力和快速建設(shè)的能力。
并且,僅僅花費了19天超算中心就建造完成,馬斯克也在推文中贊揚了團(tuán)隊優(yōu)秀的工作。
Supermicro公司也為xAI提供了大部分硬件支持,其CEO Charles Liang也在馬斯克的推文下發(fā)表了評論,贊揚了團(tuán)隊的執(zhí)行能力。
如此之大的訓(xùn)練集群,目的就是為了訓(xùn)練Grok 3。
本月初,馬斯克就宣布8月底推出Grok 2,在Grok-2尚未發(fā)布的情況下,馬斯克也透露了Grok-3的部分細(xì)節(jié),為最強模型Grok 3造勢。
馬斯克在今年4月接受挪威主權(quán)基金負(fù)責(zé)人Nicolai Tangen采訪時說,Grok 2需要大約2萬張H100來進(jìn)行訓(xùn)練。
Grok 3將于年底發(fā)布,可以預(yù)見,基于10萬個GPU訓(xùn)練的Grok 3性能方面將比Grok 2更上一層樓。
如此巨大的超算中心,自然需要大量人才和技術(shù)的支持,馬斯克也繼續(xù)在推特上招兵買馬,讓數(shù)據(jù)優(yōu)勢、人才優(yōu)勢和算力優(yōu)勢全部擴(kuò)張到極致。