英偉達(dá)3個(gè)月賣出800噸H100!老黃竟自曝萬億GPU霸主「三無」策略
僅在今年第二季度,英偉達(dá)就已經(jīng)賣出了816噸H100!
假如這個(gè)速度不變,它有望在今年賣出3,266噸H100。并且,在接下來的每年里,英偉達(dá)都會(huì)賣出120萬張H100。
現(xiàn)在,云服務(wù)供應(yīng)商的大規(guī)模H100集群容量即將耗盡,全球陷入GPU短缺,硅谷大佬們都急了——整體算來,全球公司需要約432000張H100。
最近同時(shí)大火的,還有黃仁勛管理英偉達(dá)的方法。
「沒有計(jì)劃、沒有匯報(bào)、沒有層級(jí)」,如此隨性,如此佛系,甚至可以說,如此瘋狂。
就是這種管理辦法,讓英偉達(dá)市值超過1萬億,在半導(dǎo)體公司中一時(shí)風(fēng)頭無兩。
半導(dǎo)體巨人
英偉達(dá)聲稱,在2024財(cái)年第二季度,他們售出了價(jià)值103億美元的數(shù)據(jù)中心硬件。
價(jià)值103億美元是什么概念?
今天,市場研究公司Omdia給出了讓我們更容易理解的單位——816噸H100!
根據(jù)Omdia估計(jì),第二季度英偉達(dá)的H100 GPU出貨量超過了816噸。
一個(gè)英偉達(dá)H100 GPU,再加上散熱器,平均重量超過了3公斤,因此,第二季度的H100發(fā)貨量,保守估計(jì)也有30萬個(gè)。
Omdia的估算準(zhǔn)確嗎?
要知道,H100有三種不同的外形尺寸,重量也不盡相同。
H100 PCIe顯卡重達(dá)1.2千克,H100 SXM模組的重量尚不清楚,而帶散熱片的OAM模組重量可達(dá)2千克,它與H100 SXM的尺寸和TDP大致相同。
假設(shè)H100出貨量80%是模組,20%是顯卡,那么單個(gè)H100的平均重量應(yīng)為1.84千克左右。
所以,Omida的估算可以認(rèn)為大致準(zhǔn)確。當(dāng)然,實(shí)際重量可能少于816噸這個(gè)數(shù)字。
816噸是多重?
為了便于理解這個(gè)重量,我們可以拿以下這些東西來類比——
4.5架波音747
11架航天飛機(jī)
181,818臺(tái)PlayStation 5
32,727只金毛
假如英偉達(dá)在未來幾個(gè)季度保持相同的GPU銷量,那么它有望在今年售出3,266噸H100。
假如這個(gè)速度保持不變,每年英偉達(dá)都會(huì)賣出120萬個(gè)H100。
并且,還不止這些。
還有H800,以及上一代的A100、A800、A30。
這樣算的話,英偉達(dá)每季度實(shí)際銷售的GPU數(shù)量遠(yuǎn)遠(yuǎn)高于30萬個(gè),重量總計(jì)遠(yuǎn)超過816噸。
即便如此,仍然不能滿足全球的GPU荒——根據(jù)行業(yè)內(nèi)部消息,英偉達(dá)H100 2023年的產(chǎn)量,早已銷售一空,現(xiàn)在交錢訂購,至少要到2024年中才能拿到貨。
現(xiàn)在,H100早已一卡難求。
甚至還有外媒爆料:英偉達(dá)要在2024年,將H100的產(chǎn)量從今年的50萬張左右直接提高到150-200萬張。
顯然,隨著英偉達(dá)芯片在生成式AI的熱潮中愈加緊俏,這個(gè)預(yù)測并不夸張。
黃仁勛「第一性原理」
與此同時(shí),GPU的銷量暴漲,也讓英偉達(dá)成為了世界算力霸主,成功進(jìn)入萬億美元俱樂部。
這背后離不開領(lǐng)導(dǎo)人黃仁勛的「瘋狂式」的管理策略。
老黃表示,當(dāng)你創(chuàng)立一家公司時(shí),很自然地從第一性原理開始。
「就像我們正在建造一臺(tái)機(jī)器如何運(yùn)作一樣,什么是輸入,什么是輸出,處在什么條件下,行業(yè)標(biāo)準(zhǔn)又是什么.....」
用老黃的話來說,英偉達(dá)的使命是,解決世界那些幾乎不可能的計(jì)算問題。如果一個(gè)問題可以由普通的電腦解決,英偉達(dá)就會(huì)不做。
為了實(shí)現(xiàn)這一使命,英偉達(dá)吸引很多很多出色的人才,聚集在一起。
同時(shí)還需要,老黃管理這些人才的頂級(jí)策略,具體包括:
直接管理40名下屬,沒有1:1會(huì)議
英偉達(dá)不需要「金字塔」式的管理,而是將權(quán)力下放給每一個(gè)人。
老黃信奉扁平化的組織最富有能力,以便信息能夠快速傳播。
其中,組織的第一層——公司高層,就必須要考慮更加周全。他從不向任何人高管提供職業(yè)建議,因?yàn)楣芾韴F(tuán)隊(duì)中沒有人來向他尋求職業(yè)建議。
「他們已經(jīng)成功了,他們做得很好」。
另外,老黃從不進(jìn)行1對1會(huì)議,所有事情都在小組討論中進(jìn)行。
「如果你有一個(gè)戰(zhàn)略方向,為什么只告訴一個(gè)人?應(yīng)該讓每個(gè)人都知道」。
每個(gè)人都能隨時(shí)了解所有情況
在公司內(nèi)部,從來都不會(huì)召開副總裁會(huì)議、總監(jiān)會(huì)議。
老黃稱,自己參加的會(huì)議里,有來自不同組織的人,剛剛畢業(yè)的大學(xué)生,任何人都可以參加并發(fā)表意見。
不做狀態(tài)報(bào)告,而是email「前五件事情」
在英偉達(dá),每個(gè)人都不需要做狀態(tài)報(bào)告,因?yàn)槔宵S認(rèn)為這像是「元資訊」,太過精煉,基本上沒有有益的訊息。
相反,公司里的任何人都可以通過電子郵件向他發(fā)送自己的「前五件事情」。
你所學(xué)到的,你所觀察到的,你即將要做的,無論是什么事情,他每天早上都會(huì)閱讀100+郵件,去了解大家的TOP 5 things。
比如,你去了一家非常棒的餐廳、有了一個(gè)可愛的baby...,這才是真正重要的信息。
沒有正式的定期計(jì)劃
對于,如何去做規(guī)劃,讓公司最底層的想法展現(xiàn)出來、讓最好的工程師執(zhí)行。
老黃表示,對于我來說,沒有5年計(jì)劃,也沒有1年計(jì)劃,會(huì)根據(jù)不斷變化的業(yè)務(wù)和市場條件進(jìn)行重新評(píng)估。
總結(jié)來說,英偉達(dá)優(yōu)化組織結(jié)構(gòu)的目的是:(1)吸引優(yōu)秀人才;(2)保持盡可能小的團(tuán)隊(duì)規(guī)模;(3)使信息傳播盡可能迅速
就連英偉達(dá)深度學(xué)習(xí)研究員VP Bryan Catanzaro,直接現(xiàn)身證明,全部為真。
那么,在這樣的組織工作是一種什么樣的體驗(yàn)?
Bryan表示,在很多方面,這是一個(gè)非常穩(wěn)定的環(huán)境。許多資深員工已經(jīng)在英偉達(dá)工作了幾十年。這種風(fēng)格并不適合每一個(gè)人,但對很多人來說卻很有效。這是一個(gè)充滿活力的環(huán)境。
與馬斯克不同的是,老黃很少對外講述自己管理公司的方法。
今年在臺(tái)大的演講中,老黃曾講述了定義了今天英偉達(dá)樣貌的3個(gè)故事。這當(dāng)中,離不開他的決策和判斷,已經(jīng)思考。
最初,英偉達(dá)與SEGA簽約,為其打造游戲機(jī)。經(jīng)過一年的開發(fā)過程,卻發(fā)現(xiàn)使用的技術(shù)架構(gòu)是錯(cuò)誤的。
但是,黃仁勛發(fā)現(xiàn)即便糾正過來,也無濟(jì)于事,因?yàn)檫@一產(chǎn)品創(chuàng)造與微軟的Widows系統(tǒng)并不兼容。
于是,他聯(lián)絡(luò)了SEGA執(zhí)行長,解釋英偉達(dá)無法完成這個(gè)任務(wù),并還得到了SEGA的幫助,所幸沒有破產(chǎn)。
第二件事,就是2007年英偉達(dá)宣布的CUDA GPU加速計(jì)算技術(shù)。
為了向全世界推廣CUDA技術(shù),還專門創(chuàng)辦了GTC的會(huì)議。經(jīng)過多年努力,英偉達(dá)這項(xiàng)技術(shù)成為AI革命重要的推動(dòng)引擎。
第三件事,做出放棄手機(jī)市場的艱難決定,將重心放在顯卡上。
正如老黃所說,「戰(zhàn)略性的撤退、犧牲、決定放棄什麼是成功的核心,非常關(guān)鍵的核心?!?/span>
一位X的工程師稱,這一管理方式與馬斯克X公司的操作非常類似。
還有網(wǎng)友戲稱,老黃的這種管理方式,都可以在多模態(tài)智能體大模型體系中建模了。
如果老黃,能夠像馬斯克一樣出一本傳記,相信每個(gè)人都愿意去拜讀一下。
看看,英偉達(dá)的GPU如何取得成功,成為大廠的掘金鏟。
全球GPU缺口超40萬張
H100的短缺,早就讓硅谷大佬們都慌了!
Sam Altman就曾自曝,GPU已經(jīng)告急,希望用ChatGPT的用戶能少一點(diǎn)。??
「GPU非常短缺,使用我們產(chǎn)品的人越少越好」
Altman表示,受GPU限制,OpenAI已經(jīng)推遲了多項(xiàng)短期計(jì)劃(微調(diào)、專用容量、32k上下文窗口、多模態(tài))。
OpenAI聯(lián)合創(chuàng)始人兼職科學(xué)家Andrej Karpathy也透露過,現(xiàn)在誰家得到了多少塊H100,都是硅谷的頂級(jí)八卦。
這張?jiān)谏鐓^(qū)廣為流傳的圖曾做出如下估算——
-GPT-4可能在大約10000-25000張A100上進(jìn)行了訓(xùn)練
-Meta大約21000 A100
-Tesla大約7000 A100
-Stability AI大約5000 A100
-Falcon-40B在384個(gè)A100上進(jìn)行了訓(xùn)練
– Inflection使用了3500和H100,來訓(xùn)練與GPT-3.5能力相當(dāng)?shù)哪P?/span>
現(xiàn)在不光是科技公司排著隊(duì)購買H100,連沙特阿拉伯和阿聯(lián)酋都出手了,一下就買了幾千個(gè)H100 GPU。
馬斯克直言,現(xiàn)在想買到H100已經(jīng)難如登天。
根據(jù)馬斯克的說法,GPT-5可能需要30000-50000個(gè)H100。此前,摩根士丹利曾表示GPT-5使用25000個(gè)GPU,自2月以來已經(jīng)開始訓(xùn)練,不過Sam Altman之后澄清了GPT-5尚未進(jìn)行訓(xùn)。
而一篇名為「Nvidia H100 GPU:供需」文章曾推測,小型和大型云提供商的大規(guī)模H100集群容量即將耗盡,H100的需求趨勢至少會(huì)持續(xù)到2024年底。
微軟的年報(bào)中也向投資者強(qiáng)調(diào),GPU是其云業(yè)務(wù)快速增長的「關(guān)鍵原材料」。如果無法獲得所需的基礎(chǔ)設(shè)施,可能會(huì)出現(xiàn)數(shù)據(jù)中心中斷的風(fēng)險(xiǎn)因素。
據(jù)推測,OpenAI可能需要50000個(gè)H100,而Inflection需要22,000個(gè),Meta可能需要 25k,而大型云服務(wù)商可能需要30k(比如Azure、Google Cloud、AWS、Oracle)。
Lambda和CoreWeave以及其他私有云可能總共需要100k。Anthropic、Helsing、Mistral和Character可能各需要10k。
整體算來,全球公司需要約432000張H100。按每個(gè)H100約35k美元來計(jì)算,GPU總需求耗資150億美元。
這其中,還不包括國內(nèi)大量需要H800的互聯(lián)網(wǎng)公司。
而且,H100不光不愁賣,利潤率還高得嚇人。
業(yè)內(nèi)專家曾稱,英偉達(dá)H100的利潤率接近1000%。