編輯 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
英偉達(dá)最強(qiáng)算力架構(gòu)Blackwell,有望來中國銷售了!
英偉達(dá)真的很拼,對于中國AI市場,總是不遺余力,甚至為突破美國對中的出口限制,絞盡腦汁。
7 月 22 日,據(jù)四位知情人士稱,Nvidia 正在為中國市場開發(fā)一款新的旗艦 AI 芯片,該芯片設(shè)計是為了突破當(dāng)前的美國商務(wù)部出口管制政策。
1.英偉達(dá)推“合規(guī)旗艦版”AI芯片為中國市場再次一博
作為當(dāng)之無愧的 AI 芯片巨頭,英偉達(dá)于 3 月推出了“Blackwell”芯片系列,該系列將于今年晚些時候量產(chǎn)。新處理器結(jié)合了兩塊硅片,大小與該公司之前的產(chǎn)品相同。在該系列中,B200 在某些任務(wù)(如提供聊天機(jī)器人的答案)上的速度比其前代產(chǎn)品快 30 倍。
美國針對向中國出售AI加速器的貿(mào)易限制,并沒有阻止英偉達(dá)將其最新的Blackwell架構(gòu)帶到中國。
據(jù)悉,這塊為中國市場定制的芯片,名為B20,將基于這家GPU巨頭在春季GTC上宣布的Blackwell架構(gòu)。與之前的Hopper架構(gòu)相比,Nvidia聲稱其基于Blackwell的芯片在原始浮點(diǎn)精度方面快了2.5~5倍。
而至于分銷方面,據(jù)外媒說法,英偉達(dá)已選擇“浪潮”作為該芯片的主要分銷商,據(jù)稱將于明年第二季度開始發(fā)貨,這一點(diǎn)小編認(rèn)為存疑,因為浪潮也在美國實(shí)體管制名單之列。
2.對華一禁再禁,出口限制究竟限制啥
然而,既有的出口管制可能會限制英偉達(dá)下一批中國市場芯片的性能功效。這是因為H20是目前英偉達(dá)在該地區(qū)無需許可即可銷售的最強(qiáng)大的芯片,其性能已經(jīng)接近出口限制的極限。
早在2022年10月,美國政府就頒布了全面限制措施,目的就是為了遏制中國芯片行業(yè)發(fā)展。不過當(dāng)時英偉達(dá)就迅速應(yīng)對,僅用了一個月不到的時間就為中國市場研發(fā)了一款新型先進(jìn)芯片,目的是在“不違規(guī)”的情況下繼續(xù)在中國市場提供服務(wù)。
不過時隔一年,拜登政府“變本加厲”地收緊了管制要求。去年10月實(shí)施的美國出口管制對“總處理能力”和“性能密度”設(shè)定了上限。這些規(guī)定實(shí)際上禁止了許多英偉達(dá)數(shù)據(jù)中心卡的銷售,并一度阻止了面向消費(fèi)者的RTX 4090的銷售,直到為中國市場推出特別型號后才恢復(fù)。
然而,在規(guī)則生效的一個月內(nèi),就已有三款旨在突破這些限制的削減版顯卡的傳言浮出水面。其中最強(qiáng)的是96GB的H20,其FP8性能高達(dá)296 teraFLOPS。
據(jù)介紹,B20加速器的性能上限將與H20相同,至少在FP8性能方面是如此。Blackwell引入了FP4數(shù)據(jù)類型的支持,因此,預(yù)計其公布的teraFLOPS數(shù)值將是H20的兩倍,盡管它們之間不能直接比較。
3.面向中國市場的芯片性能上限
到目前為止,對出口到受關(guān)注國家(即中國)的圖形處理單元(GPU)和人工智能加速器的主要性能上限主要集中在互連帶寬上。這指的是處理器之間相互通信的速度。去年的規(guī)定限制了雙向互連帶寬超過600GB/s的芯片的出口,除非獲得特別許可證。
為此,英偉達(dá)和英特爾都對其最新的GPU進(jìn)行了調(diào)整,降低了互連速度,以規(guī)避商務(wù)部的限制。我們之前提到的H800系列就是一個很好的例子。
拜登政府現(xiàn)在更進(jìn)一步,實(shí)施了一系列性能密度的上限。根據(jù)本周工業(yè)和安全局(BIS)提交的文件[PDF],這些規(guī)定中第一個也是最重要的一個限制了對以下產(chǎn)品的出口:
“具有一個或多個數(shù)字處理單元的集成電路具有以下任一特性:a.1. ‘總處理能力’為4800或更高,或a.2. ‘總處理能力’為1600或更高,且‘性能密度’為5.92或更高?!?/p>
計算任何給定GPU或加速器的總處理能力(TPP)分?jǐn)?shù)是一個相對直接的任務(wù)。首先,將每秒最大密集型萬億次操作(無論是浮點(diǎn)還是整數(shù))的數(shù)量乘以2,然后再乘以操作的位長度。如果針對不同精度(如INT4、FP8、FP16和FP32)宣傳了多個性能指標(biāo),則使用最高的TPP分?jǐn)?shù)。
以英偉達(dá)的L40S為例,計算公式大致如下:
2 x 733萬億次浮點(diǎn)運(yùn)算/秒 x 8位 = TPP為11,728
11728 TPP/609 mm2=性能密度為19.25
結(jié)果明顯遠(yuǎn)高于新規(guī)則規(guī)定的5.92性能密度限制,所以就不能對中國出售。
圖片
更詳細(xì)的計算方式不再贅述,目前英偉達(dá)受規(guī)則影響的GPU列表如下:A100、A800、H100、H800、L40、L40S和RTX 4090。
4.在性能限制邊緣試探B20性能會有哪些提升?
盡管美國的出口管制意味著這些芯片的浮點(diǎn)性能和計算密度仍然受到限制,但這并不意味著B20不能在性能上實(shí)現(xiàn)代際提升。在運(yùn)行預(yù)訓(xùn)練的大型語言模型時,性能(通常以每秒處理的令牌數(shù)來衡量)更多地受到內(nèi)存帶寬的限制,而不是芯片能推動多少FLOPS或TOPS。
因此,與H20相比,內(nèi)存帶寬的任何增加(顯然能夠達(dá)到4TB/s)都會帶來可觀的性能提升,至少在推理方面是這樣。這些收益的實(shí)際大小將取決于芯片的架構(gòu)以及它與多少HBM堆棧配對。
因此,像英偉達(dá)的H20這樣的芯片,即使在與大名鼎鼎的H100相比時,對于像運(yùn)行AI聊天機(jī)器人(而不是訓(xùn)練)這樣計算要求較低的工作負(fù)載來說,仍然非常強(qiáng)大。
英偉達(dá)拒絕了The Register對B20的置評請求。
5.拜登政府的態(tài)度“第二天就會反制”
美國商務(wù)部長吉娜·雷蒙多(Gina Raimondo)對英偉達(dá)和其他接近出口限制邊緣的芯片制造商并不太感冒,這已不是秘密。
“我告訴你們,如果你們圍繞一條特定的分界線重新設(shè)計芯片,使其能夠進(jìn)行人工智能操作,我將在第二天就對其進(jìn)行控制,”她在去年年底的一次國防論壇上明確提到了英偉達(dá)。
圖片
美媒報道,拜登政府將在未來幾個月內(nèi)實(shí)施更嚴(yán)格的出口管制,以扼殺中國的人工智能發(fā)展。
然而,這樣的措施并不能阻止中國國內(nèi)加速器的發(fā)展,比如摩爾線程、華為等公司開發(fā)的加速器。為了遏制這里的發(fā)展,據(jù)報道,拜登政府正在考慮實(shí)施一項名為“外國直接產(chǎn)品規(guī)則”的措施,這將使其能夠?qū)κ褂妹绹夹g(shù)的任何產(chǎn)品的銷售實(shí)施控制。
圖片
6.內(nèi)存帶寬也可能會受限制
媒體預(yù)測,接下來的內(nèi)存帶寬上限可能會嚴(yán)重限制美國芯片向中國的銷售。無論發(fā)生什么,任何額外的限制無疑都會對英偉達(dá)的業(yè)務(wù)產(chǎn)生重大影響,因為中國仍占該公司年收入的17%左右。
具體來講,內(nèi)存帶寬將直接影響芯片在給定時間內(nèi)能夠輸出的AI tokens(即單詞、短語、標(biāo)點(diǎn)符號或數(shù)字)的數(shù)量。同時,內(nèi)存容量決定了單個GPU或加速器上可以部署的模型大小。
考慮到內(nèi)存帶寬和容量對人工智能聊天機(jī)器人性能的巨大影響,相信未來美國還會對內(nèi)存帶寬上限進(jìn)行更為嚴(yán)格的限制。
7.英偉達(dá)在中國市場更多變數(shù)
事實(shí)上,自美國收緊了對中國尖端半導(dǎo)體出口的控制以來,英偉達(dá)已經(jīng)專門為中國市場設(shè)計了數(shù)款A(yù)I芯片。例如,HGX H20、L20 PCle和L2 PCle等。
早在去年,TrendForce在一份研究報告中表示:“英偉達(dá)也可能試圖將其目前稀缺的資源,如H800,分配給中國客戶使用?!?/p>
該公司CEO黃仁勛在第一財季的財報會議上表示,由于種種限制,中國數(shù)據(jù)中心業(yè)務(wù)已經(jīng)顯著降低,公司將繼續(xù)盡最大可能服務(wù)中國客戶。
“我們有值得尊敬的客戶,我們會盡最大努力服務(wù)好每一位客戶。我們在中國的業(yè)務(wù)確實(shí)比過去的水平下滑很多。由于限制,現(xiàn)在中國的競爭更加激烈。這些都是事實(shí)。但英偉達(dá)將繼續(xù)盡最大努力為中國市場的客戶提供服務(wù),會盡最大努力做到最好?!?/p>
不過英偉達(dá)的卡的確好用,也是全球的AI芯片的龍頭,好在,在美新規(guī)定生效之前,國內(nèi)許多互聯(lián)網(wǎng)巨頭,如字節(jié)跳動、百度、阿里巴巴和騰訊等囤積了“澎湃”的GPU算力。
但這次,最新的Blackwell架構(gòu)能否順利在華發(fā)貨,可能要取決于英偉達(dá)推出B20的時間,能否快于拜登政府更嚴(yán)厲的管制規(guī)定的出臺。