自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中國有望使用最強Blackwell架構!英偉達拼了!突破拜登政府芯片出口限制,為中國定制旗艦版B20! 原創(chuàng)

發(fā)布于 2024-7-23 15:03
瀏覽
0收藏

編輯 | 言征

出品 | 51CTO技術棧(微信號:blog51cto)

英偉達最強算力架構Blackwell,有望來中國銷售了!

英偉達真的很拼,對于中國AI市場,總是不遺余力,甚至為突破美國對中的出口限制,絞盡腦汁。

22 日,據(jù)四位知情人士稱,Nvidia 正在為中國市場開發(fā)一款新的旗艦 AI 芯片,該芯片設計是為了突破當前的美國商務部出口管制政策。

1.英偉達推“合規(guī)旗艦版”AI芯片為中國市場再次一博

作為當之無愧的AI芯片巨頭,英偉達于 3 月推出了“Blackwell”芯片系列,該系列將于今年晚些時候量產(chǎn)。新處理器結合了兩塊硅片,大小與該公司之前的產(chǎn)品相同。在該系列中,B200 在某些任務(如提供聊天機器人的答案)上的速度比其前代產(chǎn)品快 30 倍。

美國針對向中國出售AI加速器的貿易限制,并沒有阻止英偉達將其最新的Blackwell架構帶到中國。

據(jù)悉,這塊為中國市場定制的芯片,名為B20,將基于這家GPU巨頭在春季GTC上宣布的Blackwell架構。與之前的Hopper架構相比,Nvidia聲稱其基于Blackwell的芯片在原始浮點精度方面快了2.5~5倍。

而至于分銷方面,據(jù)外媒說法,英偉達已選擇“浪潮”作為該芯片的主要分銷商,據(jù)稱將于明年第二季度開始發(fā)貨,這一點小編認為存疑,因為浪潮也在美國實體管制名單之列。

2.對華一禁再禁,出口限制究竟限制啥

然而,既有的出口管制可能會限制英偉達下一批中國市場芯片的性能功效。這是因為H20是目前英偉達在該地區(qū)無需許可即可銷售的最強大的芯片,其性能已經(jīng)接近出口限制的極限。

早在2022年10月,美國政府就頒布了全面限制措施,目的就是為了遏制中國芯片行業(yè)發(fā)展。不過當時英偉達就迅速應對,僅用了一個月不到的時間就為中國市場研發(fā)了一款新型先進芯片,目的是在“不違規(guī)”的情況下繼續(xù)在中國市場提供服務。

不過時隔一年,拜登政府“變本加厲”地收緊了管制要求。去年10月實施的美國出口管制對“總處理能力”和“性能密度”設定了上限。這些規(guī)定實際上禁止了許多英偉達數(shù)據(jù)中心卡的銷售,并一度阻止了面向消費者的RTX 4090的銷售,直到為中國市場推出特別型號后才恢復。

然而,在規(guī)則生效的一個月內,就已有三款旨在突破這些限制的削減版顯卡的傳言浮出水面。其中最強的是96GB的H20,其FP8性能高達296 teraFLOPS。

據(jù)介紹,B20加速器的性能上限將與H20相同,至少在FP8性能方面是如此。Blackwell引入了FP4數(shù)據(jù)類型的支持,因此,預計其公布的teraFLOPS數(shù)值將是H20的兩倍,盡管它們之間不能直接比較。

3.面向中國市場的芯片性能上限

到目前為止,對出口到受關注國家(即中國)的圖形處理單元(GPU)和人工智能加速器的主要性能上限主要集中在互連帶寬上。這指的是處理器之間相互通信的速度。去年的規(guī)定限制了雙向互連帶寬超過600GB/s的芯片的出口,除非獲得特別許可證。

為此,英偉達和英特爾都對其最新的GPU進行了調整,降低了互連速度,以規(guī)避商務部的限制。我們之前提到的H800系列就是一個很好的例子。

拜登政府現(xiàn)在更進一步,實施了一系列性能密度的上限。根據(jù)本周工業(yè)和安全局(BIS)提交的文件[PDF],這些規(guī)定中第一個也是最重要的一個限制了對以下產(chǎn)品的出口:

“具有一個或多個數(shù)字處理單元的集成電路具有以下任一特性:a.1. ‘總處理能力’為4800或更高,或a.2. ‘總處理能力’為1600或更高,且‘性能密度’為5.92或更高?!?/p>

計算任何給定GPU或加速器的總處理能力(TPP)分數(shù)是一個相對直接的任務。首先,將每秒最大密集型萬億次操作(無論是浮點還是整數(shù))的數(shù)量乘以2,然后再乘以操作的位長度。如果針對不同精度(如INT4、FP8、FP16和FP32)宣傳了多個性能指標,則使用最高的TPP分數(shù)。

以英偉達的L40S為例,計算公式大致如下:

2 x 733萬億次浮點運算/秒 x 8位 = TPP為11,728

11728 TPP/609 mm2=性能密度為19.25

結果明顯遠高于新規(guī)則規(guī)定的5.92性能密度限制,所以就不能對中國出售。

中國有望使用最強Blackwell架構!英偉達拼了!突破拜登政府芯片出口限制,為中國定制旗艦版B20!-AI.x社區(qū)

更詳細的計算方式不再贅述,目前英偉達受規(guī)則影響的GPU列表如下:A100、A800、H100、H800、L40、L40S和RTX 4090。

4.在性能限制邊緣試探B20性能會有哪些提升?

盡管美國的出口管制意味著這些芯片的浮點性能和計算密度仍然受到限制,但這并不意味著B20不能在性能上實現(xiàn)代際提升。在運行預訓練的大型語言模型時,性能(通常以每秒處理的令牌數(shù)來衡量)更多地受到內存帶寬的限制,而不是芯片能推動多少FLOPS或TOPS。

因此,與H20相比,內存帶寬的任何增加(顯然能夠達到4TB/s)都會帶來可觀的性能提升,至少在推理方面是這樣。這些收益的實際大小將取決于芯片的架構以及它與多少HBM堆棧配對。

因此,像英偉達的H20這樣的芯片,即使在與大名鼎鼎的H100相比時,對于像運行AI聊天機器人(而不是訓練)這樣計算要求較低的工作負載來說,仍然非常強大。

英偉達拒絕了The Register對B20的置評請求。

5.拜登政府的態(tài)度“第二天就會反制”

美國商務部長吉娜·雷蒙多(Gina Raimondo)對英偉達和其他接近出口限制邊緣的芯片制造商并不太感冒,這已不是秘密。

“我告訴你們,如果你們圍繞一條特定的分界線重新設計芯片,使其能夠進行人工智能操作,我將在第二天就對其進行控制,”她在去年年底的一次國防論壇上明確提到了英偉達。

中國有望使用最強Blackwell架構!英偉達拼了!突破拜登政府芯片出口限制,為中國定制旗艦版B20!-AI.x社區(qū)

美媒報道,拜登政府將在未來幾個月內實施更嚴格的出口管制,以扼殺中國的人工智能發(fā)展。

然而,這樣的措施并不能阻止中國國內加速器的發(fā)展,比如摩爾線程、華為等公司開發(fā)的加速器。為了遏制這里的發(fā)展,據(jù)報道,拜登政府正在考慮實施一項名為“外國直接產(chǎn)品規(guī)則”的措施,這將使其能夠對使用美國技術的任何產(chǎn)品的銷售實施控制。

6.內存帶寬也可能會受限制

媒體預測,接下來的內存帶寬上限可能會嚴重限制美國芯片向中國的銷售。無論發(fā)生什么,任何額外的限制無疑都會對英偉達的業(yè)務產(chǎn)生重大影響,因為中國仍占該公司年收入的17%左右。

具體來講,內存帶寬將直接影響芯片在給定時間內能夠輸出的AI tokens(即單詞、短語、標點符號或數(shù)字)的數(shù)量。同時,內存容量決定了單個GPU或加速器上可以部署的模型大小。

考慮到內存帶寬和容量對人工智能聊天機器人性能的巨大影響,相信未來美國還會對內存帶寬上限進行更為嚴格的限制。

7.英偉達在中國市場更多變數(shù)

事實上,自美國收緊了對中國尖端半導體出口的控制以來,英偉達已經(jīng)專門為中國市場設計了數(shù)款AI芯片。例如,HGX H20、L20 PCle和L2 PCle等。

早在去年,TrendForce在一份研究報告中表示:“英偉達也可能試圖將其目前稀缺的資源,如H800,分配給中國客戶使用。”

該公司CEO黃仁勛在第一財季的財報會議上表示,由于種種限制,中國數(shù)據(jù)中心業(yè)務已經(jīng)顯著降低,公司將繼續(xù)盡最大可能服務中國客戶。

“我們有值得尊敬的客戶,我們會盡最大努力服務好每一位客戶。我們在中國的業(yè)務確實比過去的水平下滑很多。由于限制,現(xiàn)在中國的競爭更加激烈。這些都是事實。但英偉達將繼續(xù)盡最大努力為中國市場的客戶提供服務,會盡最大努力做到最好。”

不過英偉達的卡的確好用,也是全球的AI芯片的龍頭,好在,在美新規(guī)定生效之前,國內許多互聯(lián)網(wǎng)巨頭,如字節(jié)跳動、百度、阿里巴巴和騰訊等囤積了“澎湃”的GPU算力。

但這次,最新的Blackwell架構能否順利在華發(fā)貨,可能要取決于英偉達推出B20的時間,能否快于拜登政府更嚴厲的管制規(guī)定的出臺。

本文轉載自??51CTO技術棧??,作者:言征

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2024-7-23 16:26:25修改
收藏
回復
舉報
回復
相關推薦