100%英偉達(dá)的錯(cuò):黃仁勛確認(rèn)Blackwell缺陷修復(fù),明年初出貨
「我們的 Blackwell 芯片存在設(shè)計(jì)缺陷,雖然可以正常使用,但該設(shè)計(jì)缺陷導(dǎo)致良率低下,」黃仁勛表示?!高@ 100% 是英偉達(dá)的錯(cuò)?!?/span>
自 3 月份發(fā)布以來(lái),全球科技公司都在瘋狂求購(gòu)的 Blackwell AI 芯片,似乎終于要到了出貨的時(shí)候。
本周三,在與高盛(Goldman Sachs)進(jìn)行的會(huì)議中,英偉達(dá)表示 Blackwell GPU 中影響良率的設(shè)計(jì)缺陷已宣告修復(fù),B100/B200 處理器的改進(jìn)版即將投入量產(chǎn)。
據(jù)路透社等外媒報(bào)道,英偉達(dá) CEO 黃仁勛本周承認(rèn),該缺陷完全由英偉達(dá)造成,并表示該現(xiàn)在已在臺(tái)積電的及時(shí)幫助下修復(fù)了缺陷。
今年 8 月,當(dāng)有關(guān)英偉達(dá)最新一代芯片 Blackwell 設(shè)計(jì)缺陷的第一批報(bào)道出現(xiàn)時(shí),一些媒體稱臺(tái)積電應(yīng)承擔(dān)責(zé)任 —— 并暗示這可能導(dǎo)致英偉達(dá)與其代工合作伙伴之間的關(guān)系緊張。
黃仁勛表示,事實(shí)并非如此。他還駁斥了有關(guān)兩家公司關(guān)系緊張的報(bào)道,并稱其為「假新聞」。為了讓 Blackwell 計(jì)算設(shè)備正常工作,英偉達(dá)設(shè)計(jì)了七種不同類型的芯片,并同時(shí)投入生產(chǎn)。
英偉達(dá)的 Blackwell 芯片采用全新一代架構(gòu),臺(tái)積電 4NP 工藝打造,擁有 2080 億個(gè)晶體管,在執(zhí)行大模型推理等任務(wù)時(shí)效率較前代提升了 30 倍,因而備受科技公司期待。
此種面積的芯片,顯然不能再通過(guò)傳統(tǒng)方式來(lái)打造。Blackwell 的 B100 和 B200 GPU 兩個(gè)型號(hào)使用臺(tái)積電的 CoWoS-L 封裝技術(shù)連接兩個(gè)芯片,該技術(shù)依賴于配備局部硅互連(LSI)橋接器的 RDL 中介層(以實(shí)現(xiàn)約 10 TB/s 的數(shù)據(jù)傳輸速率)。
英偉達(dá)表示,雙芯片的 GPU 沒(méi)有內(nèi)存局部性問(wèn)題或緩存問(wèn)題,CUDA 將其視為單塊 GPU,可見(jiàn)這些芯片的橋接器至關(guān)重要。然而,GPU 芯片、LSI 橋接器、RDL 中介層和主板基板之間的熱膨脹特性可能不匹配,導(dǎo)致系統(tǒng)彎曲和故障。
圖源:Nvidia
因此,英偉達(dá)在 8 月承認(rèn)了其 Blackwell GPU 的良品率低,需要修改 GPU 硅片的頂部金屬層和凸片,以提高生產(chǎn)良率。當(dāng)時(shí),英偉達(dá)在一份聲明中表示,「公司已經(jīng)對(duì) Blackwell GPU 的掩膜實(shí)施了修復(fù)?!?/span>
不過(guò),英偉達(dá)也重申,公司在第二季度與客戶一起對(duì) Blackwell GPU 進(jìn)行了抽樣檢查,并承認(rèn)必須生產(chǎn)「低良率 Blackwell 材料」才能滿足對(duì) Blackwell 處理器的需求。
同時(shí),黃仁勛在 2025 財(cái)年第二季度財(cái)報(bào)電話會(huì)議上表示,公司針對(duì) Blackwell B100 和 B200 GPU 的設(shè)計(jì)進(jìn)行了所有必要的變更,從而有望在第四季度實(shí)現(xiàn)量產(chǎn)。
英偉達(dá) Blackwell GPU 不同型號(hào)的參數(shù)規(guī)格。
其實(shí)在半導(dǎo)體行業(yè)中,影響良率的 bug 以及重大功能問(wèn)題并不是什么新鮮事。通常,公司通過(guò)修改金屬層(或兩層)等新步進(jìn)(stepping)來(lái)修復(fù)這些問(wèn)題。
據(jù)此前報(bào)道,英特爾的 Sapphire Rapids 有 500 個(gè) bug。因此,英特爾發(fā)布了大約十幾個(gè)步進(jìn)來(lái)修復(fù)所有 bug(其中五個(gè)是基礎(chǔ)重置)。每個(gè)新步進(jìn)大約需要三個(gè)月才能完成(包括識(shí)別問(wèn)題、修復(fù)問(wèn)題和生產(chǎn)新版本芯片)。
圖源:Intel
從這一點(diǎn)來(lái)看,英偉達(dá)和臺(tái)積電修復(fù) Blackwell GPU 的速度的確令人印象深刻。
目前,已修復(fù)的用于 AI 和超級(jí)計(jì)算機(jī)的 Blackwell GPU 預(yù)計(jì)將于最近幾天投入量產(chǎn),并在 2025 年初開(kāi)始發(fā)貨(仍在英偉達(dá) 2025 財(cái)年內(nèi))。
此外,根據(jù)英偉達(dá)在今年初披露的消息,AWS、谷歌、Meta 和微軟是其主要客戶(合計(jì)收入占比高達(dá) 40%),為滿足他們對(duì)其新一代 AI 算力的需求,該公司必須在本年度出貨一些最初低良率的 Blackwell GPU。不過(guò),2024 年究竟會(huì)有多少 Blackwell GPU 被「送」往數(shù)據(jù)中心,我們不得而知。
周三美股收盤(pán),剛剛創(chuàng)下歷史新高的英偉達(dá)股票收跌 2.81 %,回落到 140 美元以下。