「諜戰(zhàn)」開啟!基建狂魔馬斯克122天交付10萬卡超算,對手大恐慌派間諜飛機(jī)偵查
122天交付10萬卡超算,神奇的「馬斯克速度」,直接把競爭對手們整崩潰了!
消息傳出,整個(gè)行業(yè)都震驚不已。
就在今天,The Information甚至曝出內(nèi)幕大瓜:有人甚至直接租飛機(jī),直接飛到馬斯克的數(shù)據(jù)中心上空偵查。
他們想知道,馬斯克究竟是什么超人,能創(chuàng)下這樣的奇跡。
要知道,正常來說,10萬H100的超算中心,通常需要3年建成,再需要1年調(diào)試,才能投入使用。
馬斯克這么一搞,讓OpenAI奧特曼連微軟都看不順眼了——你這樣顯得我們?nèi)醣耍?/span>
因?yàn)橄訔壩④浗〝?shù)據(jù)中心的速度太慢,OpenAI據(jù)說直接扭頭找了其他初創(chuàng)公司,來造十萬卡集群。
而英偉達(dá)CEO老黃,則毫不掩飾自己對馬斯克的溢美之詞——
全世界,只有一個(gè)人能做到這一點(diǎn)。Elon對工程、建筑、系統(tǒng)和資源掉配的理解,是獨(dú)一無二的。
間諜飛機(jī)出動(dòng),「馬斯克速度」不能忍了!
10月一個(gè)陽光明媚的日子,一架螺旋槳飛機(jī)在田納西州孟菲斯市中心一座大型工業(yè)建筑物上空多次盤旋。
機(jī)上的乘客,不斷地拍攝著這座設(shè)施的照片和視頻。
這是一次秘密偵查任務(wù)。
馬斯克將這座原本生產(chǎn)家用電器的制造廠,改造成了一個(gè)數(shù)據(jù)中心,里面裝有全球最大的AI模型訓(xùn)練算力集群之一。
馬斯克如此快速地為xAI建成了這臺(tái)AI超算,直接引發(fā)了OpenAI等對手領(lǐng)導(dǎo)層的焦慮和困惑。
那么,飛機(jī)上的神秘乘客是誰呢?
The Information得到的消息是,他們是來自競爭對手?jǐn)?shù)據(jù)中心的員工。
這個(gè)設(shè)施戒備森嚴(yán),所以他們只能以這種方式獲取信息。
他們注意到,馬斯克運(yùn)來大量燃?xì)鉁u輪機(jī)為設(shè)施供電,同時(shí)也希望xAI是如何控制建筑物內(nèi)服務(wù)器散熱的。
孟菲斯上空的這架偵察飛機(jī),只是科技史上最昂貴競賽的一次縮影罷了。
現(xiàn)在,微軟、Meta、谷歌、亞馬遜都在狂砸數(shù)百億美元建設(shè)新的數(shù)據(jù)中心,好為訓(xùn)練模型提供算力。
所有人都在為這樣一個(gè)簡單的信念冒險(xiǎn)下注:算力集群越大,它訓(xùn)出的AI模型就越好。
而這個(gè)信念,從ChatGPT在2022年底推出時(shí),就根植于業(yè)內(nèi)大多數(shù)人的腦海中。
馬斯克作為OpenAI的共同創(chuàng)始人和早期投資者,開始在這場數(shù)據(jù)中心競賽中是落后的。
但通過無視傳統(tǒng)的暴力建法,他如今已經(jīng)后來居上,掀起了巨大的波瀾。
Colossus超算有兩點(diǎn)震驚了競爭對手:一個(gè)是規(guī)模,一個(gè)是速度。
它有10萬塊GPU,規(guī)模是Meta等巨頭過去建造超算的數(shù)倍。
將如此多的GPU連接成一臺(tái)超算并不簡單,因?yàn)榉?wù)器會(huì)消耗大量電力,用于連接這些GPU的網(wǎng)絡(luò)設(shè)備也存在瓶頸。
xAI能以如此快的速度完成這個(gè)項(xiàng)目,更是前所未有的壯舉。
馬斯克和為Colossus提供GPU的AI芯片巨頭英偉達(dá)表示,這個(gè)數(shù)據(jù)中心和超算僅用122天就建成了。
在最近的一期播客中,英偉達(dá)CEO黃仁勛表示,這種規(guī)模的GPU集群通常需要三年時(shí)間來規(guī)劃和設(shè)計(jì),還需要額外一年時(shí)間才能投入運(yùn)行。
「毫無疑問,這個(gè)項(xiàng)目中所有人都在沒日沒夜地工作?!?/span>
孟菲斯數(shù)據(jù)中心之所以能這么快被馬斯克建成,部分原因似乎在于他省略了一些關(guān)鍵環(huán)節(jié)。
比如,在尚未從電網(wǎng)獲得足夠電力來運(yùn)行Colossus的情況下,他就開始推進(jìn)項(xiàng)目。
正是這種顛覆傳統(tǒng)的做法,讓馬斯克在其他領(lǐng)域?qū)覍页晒Α?/span>
比如在特斯拉,他就曾通過在停車場搭建Model 3的裝配線,來繞過加州工廠擴(kuò)建所需的許可證。
在SpaceX,他不斷推動(dòng)工程師們?nèi)サ羲J(rèn)為不必要的火箭零件,或使用那些并非專為太空設(shè)計(jì)的更經(jīng)濟(jì)的組件。
馬斯克建造超算的速度一曝出,就引起了OpenAI CEO奧特曼的高度警惕。
據(jù)悉,當(dāng)馬斯克在X上發(fā)布相關(guān)信息后,奧特曼就和微軟的基礎(chǔ)設(shè)施主管發(fā)生了爭執(zhí)。
奧特曼擔(dān)心,xAI很快就會(huì)擁有比OpenAI更強(qiáng)大的超算。
為此,OpenAI開始尋求微軟之外的替代方案。
在德克薩斯州阿比林市的一片皇帝上,一個(gè)數(shù)據(jù)中心即將建成。它預(yù)計(jì)將在明年投入使用,容納OpenAI的10萬個(gè)GPU集群。
為了提高施工速度,大部分組件都采用了異地預(yù)制的方式,一運(yùn)到現(xiàn)場就能快速安裝。
而微軟此前也和OpenAI籌建了更宏大的星際之門,將配備數(shù)百萬個(gè)GPU,單個(gè)項(xiàng)目造價(jià)超過千億美元。
或許過不了多久,阿比林和孟菲斯的超算都會(huì)顯得渺小了。
這種競爭態(tài)勢只會(huì)持續(xù)升級。因?yàn)樵跀?shù)據(jù)中心行業(yè),每個(gè)參與者都在嚴(yán)密監(jiān)控對手的一舉一動(dòng)。
因?yàn)?,?shù)據(jù)中心是一個(gè)參與者極少的市場。
馬斯克的超算工廠
今年年初,馬斯克開始著手打造自己想要的超算,來推動(dòng)xAI的發(fā)展。
剛創(chuàng)立xAI時(shí),他租用了甲骨文的GPU,來訓(xùn)練Grok。
為了提升Grok的性能,他需要更多算力!
據(jù)悉,今年5月,馬斯克和潛在投資者舉行了視頻會(huì)議,意在為xAI籌集數(shù)十億美元資金。
他向投資者展示的愿景,是打造世界最大超算,名為「超級算力工廠」(Gigafactory of Compute)。
他的計(jì)劃是這樣的:將英偉達(dá)當(dāng)時(shí)最先進(jìn)的10萬塊H100整合進(jìn)一個(gè)統(tǒng)一的計(jì)算集群。
圖表顯示,xAI建超算的速度比大多數(shù)公司快5倍。
根據(jù)一張PPT,xAI正以「前所未有的速度」推進(jìn)項(xiàng)目,并承諾「馬斯克將親自確保數(shù)據(jù)中心如期交付」。
當(dāng)時(shí),這個(gè)項(xiàng)目是與云服務(wù)商合作還是獨(dú)立進(jìn)行,馬斯克尚未做出決定。
幾周后,數(shù)位甲骨文高管與馬斯克進(jìn)行了視頻會(huì)議。馬斯克提議讓甲骨文負(fù)責(zé)超算的建造。(其創(chuàng)始人Larry Ellison是馬斯克的密友)
當(dāng)時(shí),馬斯克要求在2024秋季前完工。但甲骨文的高管們表示,這個(gè)deadline不可能。
一個(gè)關(guān)鍵問題,就是那棟建筑物的供電能力,根本無法滿足計(jì)劃部署的芯片數(shù)量。
對此,馬斯克表示出明顯的不滿。最后他決定:由xAI獨(dú)立建設(shè)孟菲斯數(shù)據(jù)中心,不再尋求與甲骨文的合作。
外媒報(bào)道談判破裂的事實(shí)后,馬斯克很快在X上發(fā)文回應(yīng):「甲骨文確實(shí)是一家優(yōu)秀的公司。但是,當(dāng)我們的成敗取決于必須保持絕對的領(lǐng)先速度時(shí),我們必須自己掌控方向盤,而不能甘居幕后?!?/span>
電從哪兒來?
為了實(shí)現(xiàn)這個(gè)雄心勃勃的進(jìn)度,馬斯克力推孟菲斯當(dāng)?shù)毓賳T以前所未有的速度批準(zhǔn)了數(shù)據(jù)中心項(xiàng)目。
當(dāng)時(shí),孟菲斯市非??释M(jìn)這一項(xiàng)目,愿意全力配合,這無疑是很大的利好。
大孟菲斯商會(huì)主席Ted Townsend表示:「我們不分晝夜地工作,隨時(shí)待命接收短信和電話,以展現(xiàn)與xAI發(fā)展速度和期望相匹配的執(zhí)行力?!?/span>
6月初,Townsend正式宣布,馬斯克已確定選擇孟菲斯,作為xAI超算的落戶地。
隨后幾周,xAI團(tuán)隊(duì)對孟菲斯制造廠展開全面改造,為即將安裝的大量英偉達(dá)GPU服務(wù)器機(jī)架騰出空間。
他們安裝了電氣系統(tǒng)、機(jī)械設(shè)備和管道設(shè)施,建立了服務(wù)器水冷系統(tǒng)。
原本,電力供應(yīng)可能會(huì)成為計(jì)劃的最大掣肘,因?yàn)槊戏扑够氐墓╇娔芰Ω緹o法滿足xAI大量高耗能GPU的需求。不意外的話,數(shù)據(jù)中心項(xiàng)目就要延期或擱置了。
但馬斯克是誰?他提出一個(gè)臨時(shí)解決方案:引入移動(dòng)式天然氣發(fā)電渦輪機(jī)作為補(bǔ)充電源。
同時(shí),他等待著當(dāng)?shù)夭块T審批基地新增100兆瓦電力供應(yīng)的申請。就在上周,相關(guān)部門批準(zhǔn)了這一請求。
這一舉動(dòng),立刻遭到環(huán)保組織的反對。
他們指控xAI未獲得許可就擅自發(fā)動(dòng)燃?xì)鉁u輪機(jī),導(dǎo)致空氣污染。
還有一個(gè)因素,促成馬斯克快速完工。
因?yàn)镃olossus只會(huì)用于xAI的自身業(yè)務(wù),并非對外租賃,因此使用前幾乎無需經(jīng)過任何合規(guī)測試。
對比鮮明的是,微軟在向OpenAI或其他Azure云計(jì)算客戶提供服務(wù)器之前,必須通過一系列嚴(yán)格的數(shù)據(jù)安全測試,因?yàn)檫@些客戶對系統(tǒng)運(yùn)行時(shí)間和隱私保護(hù)有嚴(yán)格要求。
數(shù)據(jù)中心運(yùn)營商DataBank的首席執(zhí)行官Raul Martynek直言:「「我們必須通過各種嚴(yán)格的行業(yè)認(rèn)證。我敢肯定,xAI的數(shù)據(jù)中心絕對無法達(dá)到這些認(rèn)證標(biāo)準(zhǔn)?!?/span>
業(yè)內(nèi)對馬斯克的超算也頗多質(zhì)疑。
多位數(shù)據(jù)中心高管指出,將原有制造廠房改造成能容納GPU服務(wù)器和液冷系統(tǒng)的數(shù)據(jù)中心,在技術(shù)上存在極大挑戰(zhàn)。
內(nèi)部人士透露,Colossus在過去幾個(gè)月中也的確出現(xiàn)過多次中斷。
但這些,并未打亂馬斯克的節(jié)奏。他和英偉達(dá)據(jù)馬斯克和英偉達(dá)透露,他們在首個(gè)服務(wù)器機(jī)架安裝完成后僅19天,就啟動(dòng)了新一代Grok模型的首次訓(xùn)練。
馬斯克的密友、多家馬斯克公司的長期投資者Antonio Gracias表示,xAI正在「從根本原理出發(fā),重新思考數(shù)據(jù)中心的建設(shè)流程,致力于實(shí)現(xiàn)更經(jīng)濟(jì)、更高效、更快速的建設(shè)方案?!?/span>
「這種場景,我在特斯拉、SpaceX都見過——馬斯克帶領(lǐng)著數(shù)十名工程師,以打造最優(yōu)秀、最高效的系統(tǒng)為使命,不斷突破創(chuàng)新?!?/span>
把同行們卷瘋了!
馬斯克給同行們的壓力,實(shí)在是太大了。
據(jù)說今年夏天,馬斯克超算飛速推進(jìn)的消息在業(yè)內(nèi)傳開后,亞馬遜、微軟和谷歌的數(shù)據(jù)中心高管們大吃一驚。
他們紛紛聯(lián)系英偉達(dá)的工作人員,追問同一個(gè)問題:馬斯克為何能取得如此驚人的速度?
Meta等科技巨頭還主動(dòng)接觸了一家規(guī)模較小的競爭對手云服務(wù)商,詢問是否能比自建更快地提供算力資源。
而隨著孟菲斯數(shù)據(jù)中心更多細(xì)節(jié)曝光,數(shù)據(jù)中心和云計(jì)算領(lǐng)域的高管們正在仔細(xì)研究每一張圖片,試圖從中獲取關(guān)鍵的設(shè)計(jì)信息。
期間,馬斯克本人就大方地在X上分享了數(shù)據(jù)中心內(nèi)部的多張圖片。
而上個(gè)月,一位行業(yè)分析師在實(shí)地參觀Colossus后,在YouTube上發(fā)布了一段視頻,也讓同行們大飽眼福。
有趣的是,原本要與xAI合作的甲骨文,在談判破裂后不久,就轉(zhuǎn)而與OpenAI簽署了算力協(xié)議。
合作的新項(xiàng)目將在德州的阿比林市落地,為共同開發(fā)這一地區(qū),甲骨文已經(jīng)和兩家創(chuàng)業(yè)公司Crusoe和Lancium達(dá)成協(xié)議。
就在上個(gè)月,Crusoe成功籌集了超過30億美元,用于數(shù)據(jù)中心的第一階段建設(shè)。中心即將部署10萬塊GB200系列GPU。
現(xiàn)在,大家都卷了起來。同馬斯克的項(xiàng)目一樣,Crusoe也在以驚人的速度推進(jìn)。
項(xiàng)目承包商表示,這是自己職業(yè)生涯中建設(shè)速度最快的項(xiàng)目之一:3月討論設(shè)計(jì)方案,6月正式開工。
現(xiàn)在,阿比林工地的施工團(tuán)隊(duì)正緊鑼密鼓地清理樹木,為變電站騰出空間,每天還在最大限度地進(jìn)行混凝土澆筑作業(yè)。
知情人士透露,OpenAI已要求合作方考慮部署燃?xì)廨啓C(jī)作為備用方案,以防現(xiàn)有電力供應(yīng)無法按期到位。
在最近一次工地參觀活動(dòng)中,有人問道:為什么要如此急切地推進(jìn)數(shù)據(jù)中心建設(shè)?
向?qū)Ыo出意味深長的回答:「在超級計(jì)算機(jī)領(lǐng)域,誰能率先建成,誰就幾乎能掌握世界的主導(dǎo)權(quán)。」