Chiplet設(shè)計(jì)、性能240%提升,英特爾下一代數(shù)據(jù)中心CPU設(shè)計(jì)來了
下一代英特爾芯片,要有巨大的性能提升。
每年一度的 Hot Chips 是半導(dǎo)體業(yè)界最重要的技術(shù)會(huì)議。在其中,芯片領(lǐng)域?qū)<引R聚一堂,全球芯片廠商也經(jīng)常選擇在這里發(fā)布新產(chǎn)品,或是闡述未來的發(fā)展方向。
當(dāng)?shù)貢r(shí)間周一,在斯坦福大學(xué)舉辦的 Hot Chips 2023 上,英特爾首次披露了新一代數(shù)據(jù)中心芯片「Sierra Forest」,它的每瓦性能較前代提升了 240%,并有望于明年推出。
同時(shí),英特爾首次將旗下數(shù)據(jù)中心芯片分為兩類:一類是 Granite Rapids,專注于高能耗高性能;一類是 Sierra Forest,專注于高能效。
接下來看 Granite Rapids 和 Sierra Forest 這兩款數(shù)據(jù)中心芯片的具體細(xì)節(jié)。
整體來講,得益于引入了面積高效的 E 核(能效核),Granite Rapids 和 Sierra Forest 將有望成為迄今為止英特爾 Xeon(至強(qiáng) )可擴(kuò)展硬件生態(tài)系統(tǒng)中最重要的更新之一。
先來看 Sierra Forest,它是英特爾首款用于數(shù)據(jù)中心的 E 核 Xeon 可擴(kuò)展芯片,還是基于 EUV 的 Intel 3 工藝的主導(dǎo)產(chǎn)品。英特爾表示,Sierra Forest 有望于明年上半年上市。同時(shí),Granite Rapids 也采用相同的 Intel 3 工藝。
在設(shè)計(jì)上,Granite 和 Sierra 都是基于小芯片(chiplet)的設(shè)計(jì),依賴通過英特爾 EMIB(Embedded Multi-Die Interconnect Bridge, 嵌入式多核心互聯(lián)橋接)技術(shù)封裝在一起的計(jì)算和 I/O 小芯片的混合。不僅如此,這次的小芯片設(shè)計(jì)還有獨(dú)到之處,使用不同的計(jì)算 / IO 小芯片,而不是將「完整的」Xeon 小芯片封裝在一起。
這意味著,Granite 和 Sierra 可以共享基于 Intel 7 工藝構(gòu)建的、通用 I/O 小芯片。
除了共享平臺(tái)的詳細(xì)信息外,英特爾還首次提供了 E 核和 P 核(性能核)所用架構(gòu)的高級(jí)概述。正如現(xiàn)在多代 Xeon 的情況一樣,英特爾正在利用與其消費(fèi)部件相同的基本 CPU 架構(gòu)。
因此,Granite 和 Sierra 可以被認(rèn)為是解構(gòu)的 Meteor Lake 處理器,Granite 配備 Redwood Cove P 核心,而 Sierra 配備 Crestmont E 核心。
如前所述,這是英特爾首次嘗試為 Xeon 市場(chǎng)提供 E 核。對(duì)英特爾來說,這意味著要針對(duì)數(shù)據(jù)中心工作負(fù)載調(diào)整 E 核設(shè)計(jì),與上一代以消費(fèi)級(jí)應(yīng)用為中心的 E 核心設(shè)計(jì)大有不同。
英特爾透露,Crestmont 正在提供 6-wide 指令解碼路徑以及 8-wide 隱退后端。雖然不如英特爾的 P 核心強(qiáng)大,但 E 核心絕不是輕量級(jí)核心,英特爾的設(shè)計(jì)決策反映了這一點(diǎn)。盡管如此,它的設(shè)計(jì)在芯片空間和能耗方面都比 Granite 中的 P 核心要高效得多。
Crestmont 的 L1 指令高速緩存(I 高速緩存)將為 64KB,是早期設(shè)計(jì)中 I-cache 大小的兩倍。與此同時(shí),Crestmont E-core 系列的新成員可以將這些核心打包成 2 或 4 核集群,這與目前僅提供 4 核集群的 Gracemont 不同。最后,對(duì)于 Sierra/Crestmont,該芯片將提供與 Granite Rapids 盡可能接近的指令。這意味著有 BF16 數(shù)據(jù)類型支持,以及對(duì)各種指令集的支持,例如 AVX-IFMA 和 AVX-DOT-PROD-INT8。
同時(shí)對(duì)于 Granite Rapids,我們有 Redwood Cove P 核心。Redwood/Granite 是 Xeon 處理器的傳統(tǒng)核心,對(duì)于英特爾來說,變化并不像 Sierra Forest 那樣大,但這并不意味著他們沒有改進(jìn)。
在微架構(gòu)方面,Redwood Cove 獲得了與 Crestmont 相同的 64KB I 緩存,容量是其前身的 2 倍。但最值得注意的是,英特爾成功地進(jìn)一步降低了浮點(diǎn)乘法的延遲,將其從 4/5 個(gè)周期減少到僅 3 個(gè)周期。像這樣的基本指令延遲改進(jìn)很少見,因此我們總是期盼能夠出現(xiàn)。
除此之外,Redwood Cove 微架構(gòu)還有分支預(yù)測(cè)和預(yù)取等特性,這是英特爾的典型優(yōu)化目標(biāo)。它們可以采取的任何措施來改進(jìn)分支預(yù)測(cè)(并降低罕見失誤的成本),經(jīng)常會(huì)在性能方面帶來相對(duì)較大的紅利。
Redwood Cove 的 AMX 矩陣引擎獲得了 FP16 支持,尤其適用于 Xeon 系列,而 FP16 的使用不如已支持的 BF16 和 INT8 那么多,但它總體上改進(jìn)了 AMX 的靈活性。
對(duì)于內(nèi)存加密的支持也正在得到改進(jìn)。Granite Rapids 的 Redwood Cove 將支持 2048 個(gè) 256 位內(nèi)存 key,而 Sapphire Rapids 則支持 128 個(gè) key。
雖然現(xiàn)在談?wù)?Granite Rapids 和 Sierra Forest 的各個(gè) SKU 還為時(shí)過早,但英特爾已明確告訴我們,核心數(shù)量總體正在增加。Granite Rapids 芯片將提供比 Sapphire Rapids 更多的 CPU 內(nèi)核(SPR XCC 為 60 個(gè))。當(dāng)然,Sierra 的 144 個(gè)內(nèi)核將提供更多的 CPU 內(nèi)核。
在之前的 Xeon 推遲并花費(fèi)很長(zhǎng)時(shí)間才將 E 核 Xeon 可擴(kuò)展芯片推向市場(chǎng)之間,英特爾并沒有像以前那樣在數(shù)據(jù)中心市場(chǎng)占據(jù)主導(dǎo)地位,因此 Granite Rapids 和 Sierra Forest 將標(biāo)志著一個(gè)重要的拐點(diǎn),給英特爾數(shù)據(jù)中心產(chǎn)品的未來發(fā)展指明了道路。
我們知道,為互聯(lián)網(wǎng)和在線服務(wù)提供動(dòng)力的數(shù)據(jù)中心承載著巨量的算力需求,同時(shí)也需要消耗大量電力。最近幾年隨著 AI 等技術(shù)的發(fā)展,科技公司正面臨提升算力、降低能耗的挑戰(zhàn),這促使芯片公司專注于提升功耗效率。
目前,在數(shù)據(jù)中心芯片市場(chǎng),英特爾的份額正一步步被 AMD 和 Ampere(前英特爾高管 Renee James 成立的初創(chuàng)公司)等競(jìng)爭(zhēng)對(duì)手蠶食。
今年,Ampere 和 AMD 都已推出了自己的高效率云計(jì)算芯片,Arm 也在本次的 Hot Chips 2023 上提出了 Neoverse V2 平臺(tái)。競(jìng)爭(zhēng)愈加激烈的當(dāng)下,英特爾有危機(jī)感在所難免。