自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="1pyck"><track id="1pyck"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

英偉達(dá)競(jìng)品來了，訓(xùn)練比H100快70%，英特爾發(fā)最新AI加速卡

作者：機(jī)器之心 2024-04-10 12:58:00

人工智能新聞

今天凌晨，英特爾在 Vision 2024 大會(huì)上展示了 Gaudi 3，這是其子公司 Habana Labs 的最新一代高性能人工智能加速器。

英偉達(dá)的 AI 加速卡，現(xiàn)在有了旗鼓相當(dāng)?shù)膶?duì)手。

今天凌晨，英特爾在 Vision 2024 大會(huì)上展示了 Gaudi 3，這是其子公司 Habana Labs 的最新一代高性能人工智能加速器。

Gaudi 3 將于 2024 年第三季度推出，英特爾現(xiàn)已開始向客戶提供樣品。憑借 1835 TFLOPS 的 FP8 計(jì)算吞吐量，英特爾相信它足以在廣闊的（且昂貴的）AI 計(jì)算領(lǐng)域中分得一杯羹。

根據(jù)內(nèi)部基準(zhǔn)測(cè)試，英特爾估計(jì) Gaudi 3 性能部分超過了英偉達(dá)的 H100，并且具有更好的能耗比。在一些關(guān)鍵的大型語言模型中，Gaudi 3 能夠擊敗英偉達(dá)的旗艦 H100/H200 Hopper 架構(gòu) GPU。

在當(dāng)前這個(gè)科技領(lǐng)域搶購(gòu)英偉達(dá) GPU 的時(shí)刻，Gaudi 3 或許能為英特爾在 AI 加速器市場(chǎng)打開一扇門。

Gaudi 3 的發(fā)布也正值英特爾對(duì)其 AI 加速器產(chǎn)品的定位發(fā)生變化之際：當(dāng)前，Gaudi 系列已升級(jí)為英特爾旗艦 AI 加速器。

Gaudi 3 是 Gaudi 2 硬件的直接演變。Habana Labs 在這一代沒有對(duì)架構(gòu)進(jìn)行大規(guī)模修改（這將在 Falcon Shores 中進(jìn)行）。

上一代 Gaudi 2 加速器基于臺(tái)積電 7nm 工藝打造，在 Gaudi 3 上 Habana 引入了更先進(jìn)的 5nm 工藝。Gaudi 3 芯片又添加了適量的計(jì)算硬件，從 2 個(gè)矩陣數(shù)學(xué)引擎和 24 個(gè)張量核心擴(kuò)展到 4 個(gè)矩陣數(shù)學(xué)引擎和 32 個(gè)張量核心。鑒于 Gaudi 3 的架構(gòu)變化有限，我們或許可以假設(shè)這些張量核心仍然是 256 字節(jié)寬的 VLIW SIMD 單元。

圖片來自 Anandtech

Habana 團(tuán)隊(duì)罕見地公開了 Gaudi 3 芯片 FP8 精度的總吞吐量：1835 TFLOPS，這讓 Gaudi 3 使用 8 位浮點(diǎn)計(jì)算產(chǎn)生的 AI 算力是 Gaudi 2 的兩倍，BFloat 16 格式的算力提升則達(dá)到了四倍。

在大語言模型的實(shí)際處理上，英特爾預(yù)計(jì)用 Gaudi 3 訓(xùn)練 GPT-3 175B 大型語言模型的時(shí)間比 H100 要快 40%，Llama2 的 70 億和 80 億參數(shù)版本的訓(xùn)練結(jié)果甚至比這個(gè)數(shù)字還要好。

在推理方面，兩者性能各有勝負(fù)，新芯片為兩個(gè)版本的 Llama 提供了 H100 95% 至 170% 的性能。而對(duì)于 Falcon 180B 型號(hào)來說，Gaudi 3 卻取得了四倍的優(yōu)勢(shì)。不出所料，與 Nvidia H200 相比，英特爾芯片的優(yōu)勢(shì)較小 ——Llama 為 80% 至 110%，F(xiàn)alcon 為 3.8 倍。

英特爾聲稱在測(cè)量能效時(shí)獲得了更引人注目的結(jié)果，預(yù)計(jì) H100 在 Llama 上的優(yōu)勢(shì)高達(dá) 220%，在 Falcon 上的數(shù)字則是 230%。

雖然英特爾沒有透露 Gaudi 3 芯片的晶體管總數(shù)，但新硬件的面積足夠小，以至于英特爾能夠?qū)蓚€(gè) die 封裝到單個(gè)芯片上，從而使完整的 Gaudi 3 加速器成為雙芯配置。與英偉達(dá)最近發(fā)布的 Blackwell 類似，兩塊相同的芯片被封裝在一起，并通過高帶寬鏈路連接，以便為芯片提供統(tǒng)一的內(nèi)存地址空間。

據(jù)英特爾稱，組合后的芯片將像單個(gè)芯片一樣工作，但英偉達(dá)沒有透露連接鏈路的任何重要細(xì)節(jié)。

奇怪的是，與芯片匹配的是有點(diǎn)「過時(shí)」的 HBM2e 內(nèi)存控制器，與 Gaudi 2 支持的內(nèi)存類型相同。由于堅(jiān)持使用 HBM2e，可用的最高容量堆棧為 16GB，為加速器提供了總共 128GB 的內(nèi)存。其時(shí)鐘頻率為 3.7Gbps/pin，總內(nèi)存帶寬為 3.7TB / 秒。每塊 Gaudi 3 芯片均提供 4 個(gè) HBM2e PHY，使芯片總數(shù)達(dá)到 8 個(gè)內(nèi)存堆棧。

同時(shí)，每個(gè) Gaudi 3 芯片都具有 48MB 板載 SRAM，為整個(gè)芯片提供 96MB SRAM。英特爾稱，SRAM 總帶寬為 12.8TB / 秒。英特爾沒有透露 Gaudi 3 加速器的時(shí)鐘速度。鑒于現(xiàn)有硬件數(shù)量增加了一倍多，這里或許會(huì)考慮整體較低的時(shí)鐘速度。

在這一點(diǎn)上，基本風(fēng)冷式 Gaudi 3 加速器的 TDP 為 900 瓦，比其前身的 600 瓦限制高出 50%。英特爾在這里使用 OAM 2.0 外形尺寸，它提供比 OAM 1.x (700W) 更高的功率限制。不過，英特爾還在開發(fā)并驗(yàn)證 Gaudi 3 的液冷版本，它將提供更高的性能，以換取更高的 TDP。所有形式的 Gaudi 3 都將使用 PCIe 連接其主機(jī) CPU。

網(wǎng)絡(luò)連接

除了 Gaudi 3 的核心架構(gòu)之外，Habana 對(duì) Gaudi 3 的另一項(xiàng)重大技術(shù)升級(jí)是在 I/O 方面?；氐?Gaudi 的早期，Habana 的芯片就依賴于全以太網(wǎng)架構(gòu)，使用以太網(wǎng)進(jìn)行節(jié)點(diǎn)內(nèi)芯片到芯片連接和橫向擴(kuò)展節(jié)點(diǎn)到節(jié)點(diǎn)連接。它本質(zhì)上與英偉達(dá)所做的相反 —— 是將以太網(wǎng)擴(kuò)展到芯片級(jí)別，而不是將 NVLink 擴(kuò)展到機(jī)架級(jí)別。

上一代的 Gaudi 2 每塊芯片提供 24 個(gè) 100Gb 以太網(wǎng)鏈路，Gaudi 3 將這些鏈路的帶寬增加了一倍，達(dá)到 200Gb / 秒，使芯片的外部以太網(wǎng) I/O 總帶寬達(dá)到 8.4TB / 秒。

與此同時(shí)，每塊芯片的剩余 3 個(gè)鏈路將用于為六組 800Gb 八路小型可插拔 (OSFP) 以太網(wǎng)鏈路提供信號(hào)。通過使用重定時(shí)器，端口將被分成兩個(gè)塊，然后在 5 個(gè)加速器上進(jìn)行平衡。

最終，英特爾希望提升 Gaudi 3 的可擴(kuò)展性。由于先進(jìn)大語言模型需要將許多節(jié)點(diǎn)鏈接在一起形成一個(gè)集群，以提供訓(xùn)練所需的內(nèi)存和計(jì)算性能，一直以來，英特爾都希望通過采用純以太網(wǎng)配置來贏得那些不想投資 InfiniBand 等專有 / 替代互連技術(shù)的客戶。

英特爾已經(jīng)開發(fā)了多達(dá) 512 個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)拓?fù)?，使?48 個(gè)主干交換機(jī)連接多達(dá) 32 個(gè)集群，每個(gè)集群包含 16 個(gè)節(jié)點(diǎn)。據(jù)英特爾稱，Gaudi 3 還可以進(jìn)一步擴(kuò)展，達(dá)到數(shù)千個(gè)節(jié)點(diǎn)。

性能對(duì)比

英特爾表示，與目前業(yè)內(nèi)先進(jìn)的 AI 加速器英偉達(dá) H100 相比，Gaudi 3 在 16 個(gè)加速器集群中以 FP8 精度訓(xùn)練 Llama2-13B 時(shí)，性能比 H100 快 70%。盡管 H100 已經(jīng)問世 2 年，但如果 Gaudi 3 成功的話，在任何訓(xùn)練方面都大幅擊敗 H100 對(duì)于英特爾來說將是一個(gè)巨大的勝利。

與此同時(shí)，英特爾預(yù)計(jì)采用 Gaudi 3 的 H200/H100 的推理性能將提高 1.3 倍至 1.5 倍，也許最值得注意的是，功耗比將提高多至 2.3 倍。

當(dāng)然，在這些推理工作負(fù)載中，英特爾有時(shí)仍然會(huì)輸給 H100，尤其是那些沒有 2K 輸出的工作負(fù)載，因此 Gaudi 3 還遠(yuǎn)未橫掃一切。

不過值得贊揚(yáng)的是，英特爾是迄今為止唯一一家提供 MLPerf 結(jié)果的主要硬件制造商。因此，無論 Gaudi 3 的表現(xiàn)如何（以及 Gaudi 2 目前的表現(xiàn)），他們?cè)诎l(fā)布行業(yè)標(biāo)準(zhǔn)測(cè)試結(jié)果方面比大多數(shù)人都光明正大得多。

樣品第二季度出貨

總而言之，英特爾將在下個(gè)季度發(fā)布首款 Gaudi 3 產(chǎn)品。該公司已經(jīng)在其實(shí)驗(yàn)室中擁有風(fēng)冷版本的 OEAM 加速器以進(jìn)行資格認(rèn)證，并向客戶提供樣品，同時(shí)液冷版本將于本季度提供樣品。

最后，對(duì)于 Gaudi 團(tuán)隊(duì)來說，英特爾還將首次提供采用更傳統(tǒng) PCIe 外形規(guī)格的 Gaudi 3 版本。HL-338 卡是一款 10.5 英寸全高雙槽 PCIe 卡。它提供與 OAM Gaudi 3 相同的所有硬件，甚至可達(dá)到 1835 TFLOPS FP8 的峰值性能。然而，它將配備對(duì) PCIe 插槽更友好的 600 瓦 TDP，比 OAM 卡低 300 瓦，因此持續(xù)性能應(yīng)該會(huì)明顯降低。

盡管英特爾 Keynote 中未有展示，但 PCIe 卡提供了兩個(gè) 400Gb 以太網(wǎng)端口，用于橫向擴(kuò)展配置。與此同時(shí)，英特爾將為 PCIe 卡提供一個(gè)「頂板」，類似于英偉達(dá)的 NVLink 橋，可以連接最多 4 個(gè) PCIe 卡以進(jìn)行卡間通信。OAM 外形尺寸仍將是實(shí)現(xiàn)每個(gè)加速器最高性能和最大化橫向擴(kuò)展?jié)摿Φ耐緩剑珜?duì)于需要在傳統(tǒng) PCIe 插槽中即插即用的客戶來說，現(xiàn)在也有了一個(gè)選擇。

PCIe 版本的 Gaudi 3 將于今年第四季度推出，同時(shí)推出液冷版本的 OAM 模塊。

責(zé)任編輯：張燕妮來源：機(jī)器之心

數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<bdo id="nyizr"></bdo>