英偉達閹割版B200A曝光!最強芯片架構(gòu)Blackwell難產(chǎn):產(chǎn)能不夠,刀法來湊
英偉達最強芯片B200被迫推遲三個月,傳聞鬧的沸沸揚揚。
老黃的對策來了:閹割版芯片B200A曝光。
這難道就是“產(chǎn)能不夠,刀法來湊”?
沒錯,根據(jù)SemiAnalysis分析,B200遇到的主要問題正是產(chǎn)能不足,更具體來說是臺積電的新封裝工藝CoWoS-L產(chǎn)能不足。
閹割版的B200A將先用于滿足中低端AI系統(tǒng)的需求。
閹割版B200A,內(nèi)存帶寬縮水
為什么說B200A是閹割版?
指標上主要體現(xiàn)在內(nèi)存帶寬,4TB/s,比年初發(fā)布會上B200宣傳的8TB/s直接縮水一半。
這背后就是封裝工藝由CoWoS-L退回CoWoS-S了,甚至B200A據(jù)稱也兼容三星等其他非臺積電的2.5D封裝技術(shù)。
總的來說CoWoS先進封裝目前有三個變體,CoWoS-S、CoWoS-R和CoWoS-L,主要區(qū)別在中介層(interposer)的方案。
中介層介于芯片晶圓和印刷電路板之間,實現(xiàn)芯片與封裝基板之間的信息交換,同時提供機械支撐和散熱能力。
CoWoS-S結(jié)構(gòu)最簡單,中介層就相當于一片硅板。
CoWoS-R使用了RDL技術(shù)(Redistribution layer,再分布層),中介層是多層結(jié)構(gòu)的薄金屬材料。
CoWoS-L最復雜,在RDL中介層中加入了一種LSI芯片(Local Silicon Interconnect,局部硅互聯(lián)),可以實現(xiàn)更高布線密度,也可以做成更大尺寸。
臺積電推出CoWoS-L,是出于舊版技術(shù)在尺寸和性能繼續(xù)增長上面臨困難。
比如在AMD的AI加速芯片MI300上,CoWoS-S中介層已經(jīng)擴大到了原標準的3.5倍,但仍難以滿足未來AI芯片性能增長需求。
但現(xiàn)在,有消息稱CoWoS-L在產(chǎn)能攀升中遇到一些問題,可能出現(xiàn)硅、中介層和基片之間的熱膨脹系數(shù)不匹配,從而導致彎曲,需要重新設計。
過去臺積電建立了大量的CoWoS-S產(chǎn)能,英偉達占據(jù)了最大份額?,F(xiàn)在英偉達的需求可以迅速轉(zhuǎn)向CoWoS-L,但臺積電需要時間才能把產(chǎn)能轉(zhuǎn)換到新工藝。
另外有消息稱,B200A的核心(內(nèi)部型號B102)將來也會用來造特別版B20,具體不展開了,懂得都懂。
B200訓大模型,還面臨其他挑戰(zhàn)
Blackwell主推的規(guī)格是“新一代計算單元”GB200 NVL72,一個機柜就有36塊CPU+72塊GPU。
算力很到位,一個機柜在FP8精度的訓練算力就高達720PFlops,直逼H100時代一個DGX SuperPod超級計算機集群(1000 PFlops)。
但耗電也很到位,據(jù)Semianalysis估算,功率密度約為每個機柜125kW,前所未有。在供電、散熱、網(wǎng)絡設計、并行、可靠性等方面帶來挑戰(zhàn)。
事實上,已經(jīng)用于大模型訓練的H100萬卡集群,業(yè)界也還沒有完全馴服好。
比如Llama 3.1系列的技術(shù)報告就指出,訓練期間平均3小時故障一次,其中GPU導致的問題占了58.7%。
總計419次故障中,148 次是由各種GPU故障(包括NVLink故障)引起,72次可以具體到是由HBM3內(nèi)存故障引起。
所以總的來看,就算老黃最終發(fā)貨了B200,AI巨頭真正建好B200集群投入大模型訓練,也還需要更多時間。
目前已經(jīng)開始訓練或接近完成的GPT-5、Claude 3.5 Opus、Llama 4等怕是用不上了,要到下下代模型才能見證Blackwell的威力。
One More Thing
針對B200推遲的傳聞,英偉達給出了官方回應:
Hopper的需求強勁,Blackwell的樣品試用已廣泛開始,產(chǎn)量有望下半年增加。
具體會不會延遲三個月,不做具體答復。
不過摩根士丹利在最新報告中比較樂觀,認為生產(chǎn)僅會暫停約兩周。