過高的售價成為阻礙HBM(高帶寬內(nèi)存)普及的攔路虎
譯文IT供應(yīng)會利用顛覆性的技術(shù)和產(chǎn)品對現(xiàn)有的數(shù)據(jù)中心進行性能改進,高帶寬內(nèi)存 (HBM)便是其中之一。由于 HBM 比現(xiàn)有的內(nèi)存芯片技術(shù)快得多,且功耗更低,占用空間更小,因此在高性能計算 (HPC) 和 人工智能 (AI)等資源密集型應(yīng)用程序中將會變成主流技術(shù)。
不過,由于HBM的售價仍然較高,且需要重寫某寫應(yīng)用程序才能被真正采用,因此目前進入主流的應(yīng)用還需要一段路要走。
HBM 是如何工作的?
HBM 是美國芯片制造商 AMD 和韓國內(nèi)存芯片供應(yīng)商 SK Hynix 共同打造的產(chǎn)品,于 2008 年開始研發(fā),2013 年將規(guī)范移交給半導(dǎo)體行業(yè)的標(biāo)準(zhǔn)機構(gòu) JEDEC 聯(lián)盟。HBM2標(biāo)準(zhǔn)于2016年獲得批準(zhǔn),HBM3于今年1月正式公布。當(dāng)前, HBM 存儲芯片的主要制造商是韓國的三星、SK 海力士和美光科技。
與中央處理器 (CPU) 和圖形處理器 (GPU) 性能相比,HBM 旨在解決標(biāo)準(zhǔn)動態(tài)隨機存取存儲器 (DRAM) 的滯后性能和功能,最初的解決方案是在CPU和GPU上加入更多的 DRAM,并在主板上安裝更多的雙列直插式內(nèi)存模塊 (DIMM) 插槽,也稱為 RAM 插槽。
但問題的根源并不在于內(nèi)存本身,而在于總線。標(biāo)準(zhǔn) DRAM 總線為 4 至 32 位寬。HBM 總線為 1,024 位寬;根據(jù) AMD 公司副總裁兼產(chǎn)品 CTO 以及 HBM 內(nèi)存的聯(lián)合開發(fā)人員 Joe Macri 的說法,其寬度高達 128 倍。
除了增加總線以提高帶寬外,HBM 技術(shù)還通過堆疊縮小了內(nèi)存芯片的尺寸。因此,與最初設(shè)計用于替代的圖形雙倍數(shù)據(jù)速率 (GDDR) 內(nèi)存相比,HBM 芯片很小。1GB GDDR 內(nèi)存芯片占用 672 平方毫米,而 1GB HBM僅占 35 平方毫米。
HBM 堆疊高達 12 層,并通過稱為“硅通孔”(TSV) 的互連技術(shù)進行連接。TSV 貫穿 HBM 芯片層,就像電梯穿過建筑物一樣,大大減少了數(shù)據(jù)傳輸需要的時間。
由于 HBM 位于 CPU 或 GPU 旁邊的基板上,因此在 CPU/GPU 和內(nèi)存之間移動數(shù)據(jù)所需的功率更少,且CPU 和 HBM 直接相互通信,無需 DIMM 。
Joe Macri表示,HBM設(shè)計的想法不是變得非常狹窄和非常快,而是變得非常寬和非常慢。
Nvidia加速計算產(chǎn)品管理高級總監(jiān) Paresh Kharya 表示,標(biāo)準(zhǔn)的 DRAM 不太適合 HPC 使用,雖然 DDR 內(nèi)存可以接近 HBM 內(nèi)存的性能,但在能效方面必須擁有很多的 DIMM,因此它不是最佳的選擇。
誰在用 HBM ?
第一個將 HBM 用于 HPC 的供應(yīng)商是 Fujitsu,其基于 Arm 的 A64FX 處理器專為 HPC 任務(wù)而設(shè)計。由 A64FX 驅(qū)動的 Fugaku 超級計算機在 2020 年超級計算機 500 強名單中首次亮相,此后一直保持在該位置。
Nvidia 在其即將推出的Hopper GPU上使用 HBM3 ,而即將推出的Grace CPU使用 LPDDR5X 技術(shù),這是一種 DDR 衍生產(chǎn)品。AMD 在其 Instinct MI250X 加速器(基于其 GPU 技術(shù))上使用 HBM2E,而英特爾計劃在某些 Sapphire Rapids 一代至強服務(wù)器處理器以及企業(yè)用 Ponte Vecchio GPU 加速器上使用 HBM。
HBM 會被用于主流應(yīng)用嗎?
前沿的技術(shù)進入主流,都需要一定的時間。液體冷卻最初是一個邊緣概念,目的是挖掘 CPU 更多的性能,供游戲玩家使用。目前,每家服務(wù)器供應(yīng)商都為其處理器提供液體冷卻技術(shù),尤其是 AI 處理器。
那么HBM內(nèi)存能否成為主流?Macri 估計 HBM 和 DDR5 在相同容量下的價格差異超過 2 比 1。換句話說,1 GB 的 HBM 成本是 1 GB DDR5 的兩倍。因此,他的理由是,如果企業(yè)要為內(nèi)存支付溢價,那么他們將希望獲得投資回報。Macri表示,性能是真正提高 TCO 的最佳方式,因此如果企業(yè)想要獲得雙倍性能,那么必須將 TCO 提高一倍。
Futurum Research 的首席分析師 Daniel Newman 認(rèn)為 ,HBM 不會成為主流有兩個原因,首先是成本,如果成本很高,那么它就不會在主流的市場中廣泛使用。此外,發(fā)熱量也是阻礙其普及的另一個主要因素,因為除了需要為 CPU 芯片進行冷卻之外,還要為五個或更多內(nèi)存芯片共享同一個冷卻器,這意味著集成HBM的處理器要消耗大量功率,因此每個使用 HBM 的處理器都必須具有非凡的熱量管理能力。
當(dāng)然,企業(yè)如果想要為 AI 和 HPC 部署加速器,則期望在采購和運營方面的結(jié)果和成本相匹配。
HBM 會要求重寫應(yīng)用程序嗎?
關(guān)于HPC 和 AI 是否會自動利用 HBM 內(nèi)存的全部性能,還是需要重新架構(gòu),也是大家普遍關(guān)注的問題。IT 專家們表示,這完全取決于您第一次構(gòu)建應(yīng)用程序的方式。
Paresh Kharya 表示,應(yīng)用程序開發(fā)人員通常會繞過系統(tǒng)所能提供的限制。因此,有時必須重新設(shè)計或更新您的應(yīng)用程序以考慮可用的新功能。當(dāng)然,如果現(xiàn)有的應(yīng)用程序可以解決各種限制,例如內(nèi)存或延遲,那么開發(fā)人員將不得不重新設(shè)計或更新他們的應(yīng)用程序以考慮可用的新功能,因此這通常適用于任何新的計算架構(gòu)出現(xiàn)。
Macri 表示,如果應(yīng)用程序受內(nèi)存帶寬限制,那么它會運行得更快而無需重寫。如果它受內(nèi)存延遲限制,那么它就不會更快,需要重寫此應(yīng)用程序以刪除導(dǎo)致其受延遲限制的依賴項。此外,如果系統(tǒng)同時加載了許多應(yīng)用程序,那么即使應(yīng)用程序受延遲限制,HBM 系統(tǒng)也可能具有更好的性能,這是因為 HBM 的加載延遲會更低。
HBM 是否需要從 CPU 轉(zhuǎn)移到 GPU?
還是有一個問題是關(guān)于處理器架構(gòu)。
Objective Analysis 的首席分析師 Jim Handy 指出,HBM 與單指令多數(shù)據(jù) (SIMD) 處理器一起使用,這些處理器的編程方式與普通服務(wù)器處理器完全不同。X86 和 Arm 不是 SIMD,但 GPU 是。
Jim Handy 表示,任何已經(jīng)在普通處理器上運行的程序都必須重新配置和重新編譯才能利用 SIMD 架構(gòu)。因此,改變這種方式的不是 HBM,而是處理器類型。
HBM 技術(shù)不斷進步
目前市場上的 HBM 版本是 HBM2E,但在上個月,JEDEC 發(fā)布了 HBM3 的最終規(guī)格。在相同的工作電壓水平下,HBM3 的運行溫度低于 HBM2E。
HBM3 的每針數(shù)據(jù)速率也比 HBM2 提高了一倍,數(shù)據(jù)速率高達 6.4Gb/s。它還將獨立通道的數(shù)量從 8 個增加到 16 個,并且還有其他性能增強。
從 Nvidia 的 Hopper GPU 開始,所有主要的內(nèi)存廠商——SK 海力士、三星和美光等都在開發(fā) HBM3,產(chǎn)品將在今年慢慢開始上市。
目前,HBM 的使用僅僅停留在高性能的使用案例上。