自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="ugnq1"><p id="ugnq1"></p></sub>

<em id="ugnq1"><rt id="ugnq1"><form id="ugnq1"></form></rt></em>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

英特爾至強(qiáng)6獨(dú)享MRDIMM，內(nèi)存帶寬飆升，加速推理達(dá)2.4倍！

2024-12-26 16:00:00

人工智能新聞

英特爾至強(qiáng)6性能核處理器加速推理達(dá)2.4倍，可謂是獲得了業(yè)界的一波關(guān)注。通過深入分析其架構(gòu)，核數(shù)、內(nèi)存帶寬大幅提升的加持可謂功不可沒。也正因此，至強(qiáng)6得以推理性能激增，進(jìn)一步提升了推理性價(jià)比。而推理成本正是大語言模型落地最后最關(guān)鍵的挑戰(zhàn)。

之前的文章中，有業(yè)者預(yù)測(cè)至強(qiáng)6性能核處理器每顆計(jì)算單元芯片中的內(nèi)核數(shù)量為43，加上每個(gè)計(jì)算單元有兩組雙通道內(nèi)存控制器各占一個(gè)網(wǎng)格，那么總共占用43+2=45個(gè)網(wǎng)格，可以由5×9的布局構(gòu)成。

但這個(gè)假設(shè)有一個(gè)問題，要構(gòu)成128核的6980P，三顆芯片只屏蔽1個(gè)內(nèi)核，這良率要求比較高啊。

至今還未在公開渠道看到至強(qiáng)6性能核處理器的Die shot或架構(gòu)圖，但英特爾發(fā)布了晶圓照片作為宣傳素材。

雖然晶圓照片并不能提供每顆芯片的清晰信息，但隱約能感覺到，網(wǎng)格構(gòu)成更像是5×10，而不是5×9或6×8。

另外，左上角和左下角疑似內(nèi)存控制器的區(qū)域面積比預(yù)想的要大得多，每一側(cè)占了三個(gè)網(wǎng)格。

如果接受了兩組內(nèi)存控制器共占用6個(gè)網(wǎng)格的設(shè)定，那么每個(gè)芯片中就是50-6=44個(gè)內(nèi)核，在構(gòu)成6980P的時(shí)候分別屏蔽一到兩個(gè)核即可，感覺就合理多了。

在獲得相對(duì)可信的內(nèi)核數(shù)量后，新的疑惑就是：為什么至強(qiáng)6性能核的內(nèi)存控制器這么占地——這個(gè)區(qū)域有其他未知功能？還是因?yàn)樵黾恿薓RDIMM（Multiplexed Rank DIMM）的支持？

畢竟在此之前，英特爾的雙通道DDR5、三通道DDR4內(nèi)存控制器只占一個(gè)網(wǎng)格，甚至，連信號(hào)規(guī)模更大、帶寬更高的HBM控制器（至強(qiáng)CPU Max處理器）也是一個(gè)網(wǎng)格。

至強(qiáng)CPU Max處理器的HBM2e是工作在3,200MT/s，那么每個(gè)控制器帶寬是410GB/s，整顆CPU有超過2TB/s的HBM帶寬。

雖然對(duì)疑似內(nèi)存控制器區(qū)域所占芯片面積的疑惑未解，還需要進(jìn)一步解惑，但我們至少可以確定，英特爾在這一代至強(qiáng)的內(nèi)存控制器上是下了大本錢的。

至少在相當(dāng)一段時(shí)間內(nèi)，它是可以「獨(dú)占」MRDIMM的優(yōu)勢(shì)了。

至強(qiáng)6性能核的NUMA與集群模式

談服務(wù)器的內(nèi)存就繞不過NUMA（Non-Uniform Memory Access，非統(tǒng)一內(nèi)存訪問）。因?yàn)殡S著CPU內(nèi)核數(shù)量的增加，各內(nèi)核的內(nèi)存訪問請(qǐng)求沖突會(huì)迅速增加。

NUMA是一個(gè)有效的解決方案，將內(nèi)核分為若干組，分別擁有相對(duì)獨(dú)立的緩存、內(nèi)存空間。規(guī)模縮小后，沖突就會(huì)減少。

一般來說，NUMA劃分的原則是讓物理上臨近某內(nèi)存控制器的內(nèi)核為一個(gè)子集。這個(gè)子集被英特爾稱為SUB-NUMA Clustering，簡(jiǎn)稱SNC。同一SNC的內(nèi)核綁定了末級(jí)緩存（LLC）和本地內(nèi)存，訪問時(shí)的時(shí)延最小。

譬如，在第三代至強(qiáng)可擴(kuò)展處理器中，一個(gè)CPU內(nèi)可劃分兩個(gè)SNC域，每個(gè)SNC對(duì)應(yīng)一組三通道DDR4內(nèi)存控制器。如果關(guān)閉NUMA，那么整個(gè)CPU的內(nèi)存將對(duì)稱訪問。

而第四代至強(qiáng)可擴(kuò)展處理器使用了4顆芯粒的封裝，可以被劃分為2個(gè)或4個(gè)SNC域。

如果希望每個(gè)內(nèi)核可以訪問所有的緩存代理和內(nèi)存，可以將第四代至強(qiáng)可擴(kuò)展處理器設(shè)置為Hemisphere Mode或者Quadrant Mode，默認(rèn)是后者。

第五代至強(qiáng)可擴(kuò)展處理器是2顆芯粒，可以劃分為兩個(gè)SNC域。

在至強(qiáng)6性能核中，可以將每個(gè)計(jì)算單元芯片作為一個(gè)SNC，每個(gè)域擁有4個(gè)內(nèi)存通道，這被稱為SNC3 Mode。

如果要通過其他芯粒的緩存代理訪問所有內(nèi)存，那就是HEX Mode。

根據(jù)英特爾提供的數(shù)據(jù)，幾種不同模式的內(nèi)存訪問時(shí)延差異較大，與內(nèi)核、內(nèi)存控制器之間的「距離」直接相關(guān)。

至強(qiáng)6性能核的內(nèi)核規(guī)模、內(nèi)存控制器數(shù)量增加之后，相應(yīng)的訪問時(shí)延也會(huì)上升。

例如，根據(jù)我們前面的觀察，至強(qiáng)6性能核內(nèi)每個(gè)計(jì)算單元芯片中，內(nèi)核與內(nèi)存控制器的最遠(yuǎn)距離為10列，而第四代/第五代至強(qiáng)可擴(kuò)展處理器無NUMA的為8列。這反映在英特爾的數(shù)據(jù)上，就是至強(qiáng)6900P在SNC3 Mode的時(shí)延略高于上一代至強(qiáng)處理器的Quad Mode。

如果至強(qiáng)6900P設(shè)為HEX Mode，那么內(nèi)核與內(nèi)存控制器的最遠(yuǎn)距離將達(dá)到13甚至15列，時(shí)延增加會(huì)比較明顯。

整體而言，由于SNC3 Mode時(shí)延低，其將成為至強(qiáng)6服務(wù)器的默認(rèn)模式。這種模式主要是適合虛擬化/容器化這類常見云應(yīng)用，以及并行化程度高的計(jì)算（如編解碼）等。

當(dāng)然，HEX Mode可以直接訪問更大規(guī)模的內(nèi)存，這對(duì)于大型數(shù)據(jù)庫，尤其是以O(shè)LTP為代表的應(yīng)用來說更為有利。

Oracle和SQL通常建議關(guān)閉NUMA以獲得更佳的性能。Apache Cassandra 5.0這類引入向量搜索的數(shù)據(jù)庫也能從HEX Mode顯著獲益。部分科學(xué)計(jì)算也更適合HEX Mode，譬如通過偏微分方程建模的PETSs、分子動(dòng)力學(xué)軟件NAMD等。

HEX Mode的另一個(gè)典型場(chǎng)景是配合CXL內(nèi)存使用。

譬如英特爾在今年12月11日發(fā)布的一篇利用CXL內(nèi)存優(yōu)化系統(tǒng)內(nèi)存帶寬的論文中，使用了至強(qiáng)6900P搭配12條64GB DDR5 6400以及8個(gè)128GB CXL內(nèi)存模塊，其中至強(qiáng)6900P本地的768GB DDR5內(nèi)存在HEX Mode下配置為NUMA0，所有的1TB CXL內(nèi)存配置為NUMA1，采用優(yōu)化交錯(cuò)配置（Interleaving Strategy）。

測(cè)試表明，在內(nèi)存帶寬敏感的應(yīng)用中，使用CXL內(nèi)存擴(kuò)展可以提升20%～30%的性能。

MRDIMM領(lǐng)跑者

對(duì)于至強(qiáng)6性能核處理器而言，提升內(nèi)存帶寬最直接的方法莫過于MRDIMM。這也是這款處理器相比其他同類產(chǎn)品比較獨(dú)占的一項(xiàng)能力，近期看不到任何其他CPU廠商有明確支持MRDIMM的時(shí)間表，更不要說推出實(shí)際產(chǎn)品了。

相對(duì)而言，內(nèi)存廠商對(duì)MRDIMM的支持比較積極，美光、SK海力士、威剛都推出了相應(yīng)的產(chǎn)品，包括高尺寸（Tall formfactor，TFF）。

第一代DDR5 MRDIMM的目標(biāo)速率為8,800 MT/s，未來會(huì)逐步提升至12,800 MT/s、17,600 MT/s。

MRDIMM增加了多路復(fù)用數(shù)據(jù)緩沖器（MDB），改進(jìn)了寄存時(shí)鐘驅(qū)動(dòng)器（MRCD）。

MDB布置在內(nèi)存金手指附近，與主機(jī)側(cè)的CPU內(nèi)存控制器通訊。MDB主機(jī)側(cè)的運(yùn)行速度是DRAM側(cè)的雙倍，DRAM側(cè)的數(shù)據(jù)接口是主機(jī)側(cè)的雙倍。

MRCD可以生成4個(gè)獨(dú)立的芯片選擇信號(hào)（標(biāo)準(zhǔn)的RCD是兩個(gè)，對(duì)應(yīng)兩個(gè)Rank）。

MDB可通過兩個(gè)數(shù)據(jù)接口將兩個(gè)Rank分別讀入緩沖區(qū)，再?gòu)木彌_區(qū)一次性傳輸?shù)紺PU的內(nèi)存控制器，由此實(shí)現(xiàn)了帶寬翻倍。

由于MRCD可以支持4個(gè)Rank，也意味著可以支持雙倍的內(nèi)存顆粒。已經(jīng)展示的MRDIMM普遍引入更高的板型（TFF），單條容量也由此倍增。

由于至強(qiáng)6900P插座尺寸大增，導(dǎo)致雙路機(jī)型的內(nèi)存槽數(shù)量從上一代的32條減少到24條。要能夠繼續(xù)擴(kuò)展內(nèi)存容量，增加內(nèi)存條的面積（增加高度）確實(shí)是最簡(jiǎn)單直接的手段。

通過使用256GB的MRDIMM，雙路至強(qiáng)6900P機(jī)型可以獲得6TB內(nèi)存容量。除了更大的內(nèi)存帶寬，更高的內(nèi)存容量也非常有利于AI訓(xùn)練、大型數(shù)據(jù)庫等應(yīng)用的需求，進(jìn)一步強(qiáng)化至強(qiáng)6900P在AI機(jī)頭領(lǐng)域的優(yōu)勢(shì)。

與DDR5 6,400MT/s相比，MRDIMM 8,800MT/s的實(shí)際運(yùn)行頻率略低（4,400MT/s），導(dǎo)致輕量級(jí)的應(yīng)用不能從內(nèi)存帶寬的增加當(dāng)中明顯獲益。

其實(shí)類似的問題在內(nèi)存代際轉(zhuǎn)換之初均會(huì)存在，能夠充分利用更大內(nèi)存帶寬的主要還是計(jì)算密集的應(yīng)用，譬如加密、科學(xué)計(jì)算、信號(hào)處理、AI訓(xùn)練和推理等。從目前的測(cè)試看，對(duì)MRDIMM受益最大的應(yīng)用主要包括HPCG（High Performance Conjugate Gradient）、AMG（Algebraic Multi-Grid）、Xcompact3d這些科學(xué)計(jì)算類的應(yīng)用，以及大語言模型推理。

內(nèi)存帶寬與大模型推理

上一節(jié)有提到，并非所有應(yīng)用都能充分利用MRDIMM的內(nèi)存帶寬收益。

就本節(jié)重點(diǎn)要談的推理應(yīng)用而言，根據(jù)目前所見的測(cè)試數(shù)據(jù)，卷積神經(jīng)網(wǎng)絡(luò)為代表的傳統(tǒng)推理任務(wù)在MRDIMM中獲得的收益就比較小，不到10%的水平。

而在大語言模型推理當(dāng)中，MRDIMM的帶寬優(yōu)勢(shì)將得到充分的發(fā)揮，性能提升在30%以上，因?yàn)榇竽Ｐ褪谴_定性的渴求顯存/內(nèi)存容量和帶寬的應(yīng)用場(chǎng)景。

在這里就得提一下英特爾至強(qiáng)6性能核處理器發(fā)布會(huì)資料中的另一個(gè)細(xì)節(jié)：在多種工作負(fù)載的性能對(duì)比中，AI部分的提升幅度最為明顯，而且僅用了96核的型號(hào)（至強(qiáng)6972P）。

也就是說，至強(qiáng)6972P使用了至強(qiáng)8592+的1.5倍內(nèi)核，獲得了至少2.4倍的大語言模型推理性能。其中，右側(cè)的是Llama3 8B，int8精度，那么模型將占用約8GB的內(nèi)存空間。

以目前雙路24通道MRDIMM 8,800MT/s約1,690GB/s的總內(nèi)存帶寬而言，可以算出來每秒token數(shù)理論上限是211。

而雙路8592+是16通道DDR5 5,600MT/s，內(nèi)存總帶寬為717GB/s，token理論上限是接近90。二者的理論上限正好相差大約2.4倍。

在這個(gè)例子當(dāng)中，內(nèi)存帶寬的增長(zhǎng)幅度明顯大于CPU內(nèi)核數(shù)量的增長(zhǎng)。也就是說，在假設(shè)算力不是瓶頸的情況下，內(nèi)存或顯存容量決定了模型的規(guī)模上限，而帶寬決定了token輸出的上限。

一般來說，在控制模型參數(shù)量并進(jìn)行低精度量化（int8甚至int5、int4）之后，大語言模型推理時(shí)的算力瓶頸已經(jīng)不太突出，決定并發(fā)數(shù)量和token響應(yīng)速度的，主要還是內(nèi)存的容量和帶寬。通過MRDIMM，以及CXL內(nèi)存擴(kuò)展帶寬將是提升推理性能最有效的方式。

這也是目前CPU推理依舊受到重視的原因，除了可獲得性、資源彈性外，在內(nèi)存容量及帶寬的擴(kuò)展上要比VRAM便宜的多。

結(jié)語

隨著掌握更多的信息，至強(qiáng)6性能核處理器在內(nèi)存帶寬上的優(yōu)勢(shì)和潛力顯得愈發(fā)清晰了。

MDRIMM不但能夠大幅提升內(nèi)存帶寬，還能使可部署的內(nèi)存容量翻倍，顯著利好傳統(tǒng)的重負(fù)荷領(lǐng)域，如科學(xué)計(jì)算、大型數(shù)據(jù)庫、商業(yè)分析等，對(duì)于新興的向量數(shù)據(jù)庫也大有裨益。CXL還能夠進(jìn)一步起到錦上添花的作用。

過去幾年，增長(zhǎng)迅猛的大模型推理需求，讓至強(qiáng)可擴(kuò)展處理器（從第四代開始）利用GPU缺貨的契機(jī)證明了在AMX的加持下，純CPU推理也有不錯(cuò)的性能，而且易于采購(gòu)和部署。

隨著應(yīng)用深入，部分互聯(lián)網(wǎng)企業(yè)還挖掘了CPU推理的資源彈性，與傳統(tǒng)業(yè)務(wù)同構(gòu)的硬件更易于進(jìn)行峰谷調(diào)度。

至強(qiáng)6性能核處理器在核數(shù)、內(nèi)存帶寬均大幅提升的加持下，推理性能激增，進(jìn)一步提升了推理的性價(jià)比。

在解決了「能或不能」的問題之后，推理成本是大語言模型落地后最關(guān)鍵的挑戰(zhàn)?；蛟S在這方面，至強(qiáng)6性能核處理器配MRDIMM的組合，將會(huì)帶來一些新的解題思路。

責(zé)任編輯：張燕妮來源：新智元

英特爾推理模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<style id="euv3d"><rp id="euv3d"></rp></style>