自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

數(shù)十萬張缺口 GPU瓶頸到底卡住了誰?

商務(wù)辦公
每個想要在人工智能爆發(fā)中分一杯羹的人都需要GPU。準(zhǔn)確地說,是英偉達(dá)的A100和H100,它們在訓(xùn)練和推理大模型中扮演關(guān)鍵角色。如果要想要從頭訓(xùn)練大模型,至少需要上千張A100或H100,而推理和微調(diào)大模型也至少需要儲存100張。

GPU Utils 發(fā)布了一份關(guān)于英偉達(dá)GPU——主要是H100的研究報告,試圖梳理有關(guān)GPU供應(yīng)和需求的相關(guān)問題。在這篇主要針對美國市場的報告中,我們看到了目前阻礙大模型和人工智能發(fā)展的關(guān)鍵瓶頸GPU短缺是如何形成和發(fā)展的。

總的來說,GPU瓶頸的出現(xiàn)原因是多方面的,環(huán)環(huán)相扣的復(fù)雜工藝制造流程,半導(dǎo)體周期,對稀缺資源的搶占與恐慌乃至未曾預(yù)料到的人工智能的突然爆發(fā),都讓GPU算力變得無比緊張。

樂觀地看,2024年這一瓶頸或許會有所緩解。

數(shù)十萬張缺口,一百五十億需求

每個想要在人工智能爆發(fā)中分一杯羹的人都需要GPU。準(zhǔn)確地說,是英偉達(dá)的A100和H100,它們在訓(xùn)練和推理大模型中扮演關(guān)鍵角色。如果要想要從頭訓(xùn)練大模型,至少需要上千張A100或H100,而推理和微調(diào)大模型也至少需要儲存100張。

具體到每家的數(shù)量上,報告匯總了一些數(shù)據(jù):GPT4在1萬到2.5萬塊A100上訓(xùn)練,Meta有2.1萬塊A100,特斯拉有7000塊,Stability AI有5000塊,谷歌云大概有2.5萬塊H100,微軟Azure 有1萬到4萬塊,甲骨文可能也有同樣多的H100。值得一提的是,Azure的GPU基本都用來供應(yīng)OpenAI的訓(xùn)練了。

而根據(jù)馬斯克的說法,GPT5的訓(xùn)練可能會用到3萬到5萬張H100,因此對未來的估計上,報告指出OpenAI可能需要5萬張H100,Meta至少需要2.5萬張(也有人說實際上需要10萬乃至更多),所有的云服務(wù)廠商,微軟、谷歌云和亞馬遜云以及甲骨文各需要3萬張,私有云服務(wù)商,比如剛剛?cè)谫Y的CoreWeave等總需求是10萬張,而像Claude的開發(fā)者Anthropic這樣的初創(chuàng)公司也都至少需要1萬張GPU。

另外,一些金融公司比如JP Morgan等也在部署A100或H100,因此總體上看,對H100的需求超過了43萬張。

這還是不算中國市場的情況,由于制裁原因,字節(jié)跳動、百度、騰訊和阿里巴巴只能大量購買A100和H100的替代產(chǎn)品A800與H800,這一部分的需求沒有列入其中,根據(jù)《金融時報》的說法,其總額高達(dá)50億美金。

如果將這些數(shù)字相加,這就是目前英偉達(dá)面對的,總計規(guī)模高達(dá)200億美元的GPU需求。

黃仁勛沒有騙我,買的越多,省得越多

作為A100的更新版,H100擁有著更好的性能,盡管它的價格更昂貴,單張約為3.5萬美元。

根據(jù)產(chǎn)量需求和成本,大部分企業(yè)都把A100和H100混用以節(jié)省成本。具體來說,在大模型訓(xùn)練環(huán)節(jié)往往會使用3.2Tb/s 無限帶寬(IB)的H100 GPU,在模型推理環(huán)節(jié),則往往也可以使用A100。

相比A100,H100的升級主要體現(xiàn)在具有更低的緩存延遲和FP8計算能力,這兩者都顯著提升了顯卡處理模型的效率。另外,H100還具有更好的拓展性,方便實現(xiàn)大規(guī)模部署。

總的來說,H100的16位訓(xùn)練速度快了2.3倍,推理速度快了3.5倍,而它的成本——根據(jù)報告所說,僅是A100的1.5倍到2倍。

這正是黃仁勛在不同場合都反復(fù)強調(diào)的,the more you buy, the more you save. 買的越多,省得越多。

關(guān)于H100芯片的組合形式有多種,包括英偉達(dá)自己設(shè)計的DGX H100 ,但市場上大部分公司都選擇購買8個GPU版本的HGX H100 服務(wù)器,它是由英偉達(dá)的合作伙伴們生產(chǎn)的,價格大致在36萬到38萬美元之間。

HGX也有兩種版本,配備SXM接口或者PCIe接口,報告指出市場上70%到80%的需求都是SXM H100,因為這種接口可以實現(xiàn)最大的吞吐量并且不需要連接電源。

市場對H100的趨之若鶩,與競爭對手形成了鮮明的對比。

英偉達(dá)官方給出的關(guān)于訓(xùn)練GPT3時A100和H100的不同表現(xiàn)對比英偉達(dá)官方給出的關(guān)于訓(xùn)練GPT3時A100和H100的不同表現(xiàn)對比

沒有對手

根據(jù)英偉達(dá)的更新節(jié)奏,直到2024年底或2025年,H100的升級版才會到來,在此之前它將繼續(xù)統(tǒng)領(lǐng)大模型市場。

競爭對手并沒有坐以待斃,比如AMD剛剛推出了名為MI300系列的芯片,英特爾也有名為Gaudi2的加速計算芯片,它們至少在理論上都是英偉達(dá)的競爭對手。

然而在實際上,他們面對著比英偉達(dá)更大的問題。

報告中主要指出AMD的問題。首先重新配置AMD的設(shè)備——就算它可以完美適用大模型訓(xùn)練任務(wù),也需要開發(fā)和調(diào)試的時間,這意味著在時間上會落后于競爭對手。

其次,一個模型的訓(xùn)練成本接近3億美元,對芯片的需求往往會超過1萬張,沒有人會冒風(fēng)險大規(guī)模使用除了英偉達(dá)以外的芯片。

最后,限制英偉達(dá)GPU的瓶頸——復(fù)雜的生產(chǎn)工藝,同樣也在限制著AMD的產(chǎn)量——MI250同樣難以獲得。

至于另一個競爭對手Gaudi2,由于英特爾自己擁有工廠因此它或許在產(chǎn)量上有比較優(yōu)勢,但Gaudi2是一款幾乎全新的芯片,針對它的研究和測試還非常少,事實上英特爾自己還在對其進(jìn)行各種配套開發(fā)和優(yōu)化,預(yù)計到今年下半年晚些時候才能調(diào)試完畢,而這時H100已經(jīng)上市一年多了。

因此總結(jié)下來,目前為止H100就是是訓(xùn)練大模型最佳的GPU,沒有之一。

GPU瓶頸到底在哪里?

目前,H100的供應(yīng)已經(jīng)相當(dāng)短缺,有傳言說微軟Azure和谷歌云的容量實際上已經(jīng)快用完了,亞馬遜云也面對同樣的情況,傳言目前下單需要等數(shù)月乃至半年。

導(dǎo)致稀缺的原因是多方面的,最根本的是,GPU是一項極端復(fù)雜的技術(shù),需要世界上最先進(jìn)的生產(chǎn)工藝,而掌握這項工藝的工廠——臺積電,它的產(chǎn)能是有限的。

目前H100都由臺積電代工,使用4N工藝,也就是增強型5納米制程(相比之下A100使用的是N7),這幾乎是目前最復(fù)雜的芯片制作工藝,從開始生產(chǎn)到出售給客戶,H100中間經(jīng)歷的生產(chǎn)、包裝和測試環(huán)節(jié)一共需要6個月左右,這就意味著對H100的生產(chǎn)需要英偉達(dá)和臺積電進(jìn)行提前的布局,這在半導(dǎo)體行業(yè)來說是經(jīng)常的事,但這一次英偉達(dá)和臺積電顯然都對H100需求出現(xiàn)了錯誤的判斷。

這很好理解,因為ChatGPT爆發(fā)是去年底的事,那時關(guān)于今年的生產(chǎn)計劃(至少是上半年的計劃)已經(jīng)規(guī)劃好了,臺積電總體的生產(chǎn)能力是有限的,還需要在不同的大客戶之間分配,而產(chǎn)能爬坡也需要一個很長的過程——不要忘記生產(chǎn)H100這種GPU包含著全世界最復(fù)雜的工藝流程。

報告中特別指出生其中之一的瓶頸在于所謂CoWoS封裝(Chip on wafer on Substrate 芯片、晶圓、基板封裝),它目前的月產(chǎn)量是8000片,今年底有望提升至 11,000 片, 2024 年底則達(dá)到每月 14,500 至 16,600 片左右的水平,也就是說,想要提升一倍的產(chǎn)量,幾乎需要一年半的時間,這當(dāng)然也是由于生產(chǎn)工藝異常復(fù)雜導(dǎo)致。

這直接影響了H100的生產(chǎn),更何況并不是只有一家在使用CoWoS封裝工藝,英偉達(dá)的競爭對手AMD以及博通、思科和賽靈思等都同樣在使用這種工藝制作芯片,又一次,臺積電的產(chǎn)能瓶頸限制了GPU的供應(yīng)。

另外,H100所使用的HBM3系列內(nèi)存也是一個生產(chǎn)難點。報告指出英偉達(dá)主要在使用SK海力士的內(nèi)存,后者是這一領(lǐng)域的領(lǐng)軍者,特別是在HBM內(nèi)存的研發(fā)上。HBM技術(shù)直接把內(nèi)存堆棧放在GPU芯片上,實現(xiàn)了更高的帶寬和更低的功耗。今年4月20日,SK海力士宣布在全球率先研發(fā)出12層堆疊的HBM3內(nèi)存,單顆容量達(dá)到24GB。內(nèi)存容量越大,意味著GPU可以裝載下更大的模型,然而HBM3內(nèi)存的生產(chǎn)過程也十分復(fù)雜,產(chǎn)量提升同樣困難重重,實際上另外幾家芯片大廠,比如三星和美光,都很難提升HBM內(nèi)存的產(chǎn)量,據(jù)說SK海力士正在根據(jù)英偉達(dá)的要求增產(chǎn),在剛剛過去的SIGGRAPH 2023 上,黃仁勛發(fā)布了GH200超級芯片的更新版, 采用了增強的HBM3E內(nèi)存,這可以看作是英偉達(dá)在內(nèi)存領(lǐng)域同供應(yīng)商密切協(xié)作的一個例子。

裝有8個H100 的 HGX 服務(wù)器裝有8個H100 的 HGX 服務(wù)器

稀缺性螺旋、配貨機(jī)制與GPU金融化

通過和臺積電以及上下游供應(yīng)鏈的積極協(xié)調(diào),H100的產(chǎn)量會逐漸提升——英偉達(dá)在財報電話會上談到了這一點,盡管沒有對具體數(shù)字做任何承諾。

然而當(dāng)我們理解GPU瓶頸的時候,并不能簡單把它等同于產(chǎn)能瓶頸,這是報告中沒有明確指出,但又十分顯而易見的一點——這種稀缺同時還由各種市場和非市場因素造成。

當(dāng)然,首要的還是英偉達(dá)本身對產(chǎn)品的分配。GPU本就稀缺,因此在服務(wù)客戶的角度上,英偉達(dá)推行了一套和奢侈品配貨制度頗為類似的機(jī)制——由英偉達(dá)來挑選自己的客戶。

報告中指出,哪些客戶能拿到多少GPU有賴于英偉達(dá)的規(guī)劃,而英偉達(dá)更傾向于為那些沒有開發(fā)競品芯片的企業(yè)優(yōu)先分配GPU——谷歌云、亞馬遜云和Meta都在開發(fā)自己的芯片,因此英偉達(dá)似乎更愿意和甲骨文合作,DGX云基礎(chǔ)架構(gòu)的第一個合作對象就是甲骨文。

其次,英偉達(dá)希望了解最終的客戶是誰,它更傾向于為大企業(yè)和強大的初創(chuàng)公司提供算力,比如說英偉達(dá)投資的AI公司 Inflection 就擁有一個巨大的H100集群,而小型云服務(wù)商CoreWeave則擁有比谷歌云更多的H100。

CoreWeave完全使用英偉達(dá)的GPU,同時也不打算自己做芯片,因此更得英偉達(dá)青睞,英偉達(dá)甚至還參與了它的B輪融資。

CoreWeave的GPU資源有多富?它使用基于H100的云服務(wù)訓(xùn)練GPT3大模型只用了11分鐘,相比之下OpenAI用一萬張A100訓(xùn)練了14.8天。

CoreWeave提供的價格列表,HGX H100 每小時價格為4.76美元。CoreWeave提供的價格列表,HGX H100 每小時價格為4.76美元。

基于這種配貨的機(jī)制,市場上的GPU流動更不平衡,GPU變得不是一個只要有錢就能買到的東西,這助長了另一種稀缺性——囤積居奇。

大模型的算法和數(shù)據(jù)的技術(shù)難度相對比較透明,相比之下,算力是一道扎實的無法逾越的護(hù)城河,有多少GPU直接決定了AI公司的能力強弱,因此GPU囤積變成了許多公司的一種下意識行為——寧可備而不用,不可用而不備,這當(dāng)然加劇了GPU的稀缺。

遲遲不見提升的產(chǎn)量和坊間各種傳聞(比如上面所謂的配貨機(jī)制,它從來沒得到過官方的證實——就像愛馬仕從來也不承認(rèn)有所謂配貨機(jī)制一樣)則造成了一種稀缺的預(yù)期,就像對通貨膨脹的預(yù)期會真的導(dǎo)致通貨膨脹一樣,對缺貨的預(yù)期進(jìn)一步加劇了缺貨。

這甚至某種程度上導(dǎo)致了GPU變成了一種戰(zhàn)略資源,進(jìn)而成為一種金融衍生品。CoreWeave 在八月初剛剛進(jìn)行了一筆價值23億美元的債務(wù)融資,抵押物正是手中的H100,如果這筆錢純粹是基于對H100的市場均價(這里取37萬美元)估出來的話,意味著CoreWeave手中有超過6000臺HGX H100,也就是近5萬張顯卡。

在去年的GTC上,黃仁勛介紹H100在去年的GTC上,黃仁勛介紹H100

結(jié)語

GPU的缺貨嚴(yán)重影響了AI的發(fā)展,OpenAI  首席執(zhí)行官Sam Altman說過,使用我們產(chǎn)品的人越少對我們反而越好。

當(dāng)然你可以說Sam Altman在得了便宜賣乖(事實上也確實是),但某種程度上,這也是他的真心話,算力瓶頸在限制著所有人,這足以說明人類對AI突破的到來多么缺乏準(zhǔn)備。

生成式AI和transformer架構(gòu)都不是最新的發(fā)現(xiàn),它們的理論在很早就在學(xué)界廣為流傳,業(yè)界也不乏大舉投入其中的公司(當(dāng)然,OpenAI是最堅決的那個),然而直到ChatGPT和Stable Diffusion出現(xiàn)之前,它們不過是人們認(rèn)知中通往人工智能的某種方向而已,類似的方向還有很多,而并沒有人真的確定哪條道路是正確的。

由此我們可以看出英偉達(dá)的布局是多么具有前瞻性,把原本用于讓計算機(jī)顯示圖形的并行計算應(yīng)用于神經(jīng)網(wǎng)絡(luò),這讓英偉達(dá)比其它任何人都更早地積累了一系列相關(guān)技術(shù)、算法以及硬件設(shè)備,并由此創(chuàng)造了CUDA生態(tài),現(xiàn)在它們共同支撐起了英偉達(dá)萬億市值,成為一道短期內(nèi)很難攻破的企業(yè)護(hù)城河。

正如GPU的產(chǎn)能短期內(nèi)恐怕得不到解決一樣,AI產(chǎn)業(yè)短期內(nèi)依然要被英偉達(dá)的資源所左右,英偉達(dá)正在決定生成式AI的未來。

責(zé)任編輯:武曉燕 來源: 品玩網(wǎng)
點贊
收藏

51CTO技術(shù)棧公眾號