【工程師筆記】第七期:Xeon Phi要自我互連,CPU靠邊站
做技術(shù)的朋友可能有過類似這樣的感覺——每天都會(huì)遇到新的問題,或者學(xué)到新的知識(shí)。然而一個(gè)人的時(shí)間和精力畢竟有限,不是所有的崗位都能做到總是親力親為,每人最擅長(zhǎng)的領(lǐng)域也各不相同。為了使工程師自己踩過的坑、那些實(shí)用的心得體會(huì)也能給大家?guī)韼椭?,把?jīng)驗(yàn)記錄和分享出來就顯得尤為可貴,這就是我們開設(shè)《工程師筆記》專欄的目的。
在《從260核異構(gòu)申威看HPC Top500縮影》一文中,我給大家介紹過在最新的超算榜單上為國爭(zhēng)光的“神威太湖之光”。而在同一次大會(huì)上,Intel也正式發(fā)布了代號(hào)為Knights Landing的新一代Xeon Phi Processor x200(注意:不再是coprocessor/協(xié)處理器了)。
這個(gè)照片應(yīng)該是Intel的參考平臺(tái),尺寸上大致符合2U 4節(jié)點(diǎn)的密度,在Xeon Phi Processor兩側(cè)有6個(gè)DDR4內(nèi)存插槽。用紅圈標(biāo)出的部分應(yīng)該就是將Omni-Path網(wǎng)絡(luò)引出機(jī)箱的連接器件。
至本文截稿之時(shí),官網(wǎng)上我還沒找到關(guān)于Xeon Phi x200的詳細(xì)資料,不過早在去年底翻譯自國外的新聞中已經(jīng)有過不錯(cuò)的介紹。
如上圖,“Self Boot Socket”的Knights Landing除了DDR4內(nèi)存控制器之外,還可以提供36個(gè)PCIe Gen3 lane,感覺是移植了Xeon CPU的uncore部分設(shè)計(jì)。不過,提供2個(gè)Omni-Path 100Gb/s網(wǎng)口的型號(hào)就少了2個(gè)PCIe x16,讓我覺得這一代產(chǎn)品的片上OPA互連控制器走的還是PCIe?最右邊的PCIe插卡形態(tài),去掉了DDR內(nèi)存通道,能不能不要那個(gè)PCH南橋呢?
上下兩張圖可以結(jié)合起來看。我數(shù)了一下紅色Processing Tile的數(shù)量是38個(gè),如此則該架構(gòu)設(shè)計(jì)應(yīng)該支持最多76個(gè)核心,目前限制在72個(gè)可能是為了保證良品率,或者功耗考慮?
根據(jù)右邊的解釋,每個(gè)“tile”中有2個(gè)Core共享1MB L2 Cache,每個(gè)Core支持4線程并包含2個(gè)AVX-512矢量單元(浮點(diǎn)計(jì)算應(yīng)該就是靠它來進(jìn)行的)。Intel還提到了這些Core是基于Atom處理器內(nèi)核,記得之前還有一種說法是P54C。P54C即當(dāng)年Intel Pentium 75-166的核心代號(hào),1997年我自己的第一臺(tái)電腦用的就是奔騰133。
在2011年春季北京IDF上,我曾經(jīng)看到這套由微服務(wù)器廠商SeaMicro打造的高密度系統(tǒng),展板上介紹在10U機(jī)箱內(nèi)容納了256個(gè)雙核Atom,當(dāng)時(shí)負(fù)責(zé)展臺(tái)的朋友也提到了P54C。不知大家有沒有覺得神威太湖之光的節(jié)點(diǎn)布局有點(diǎn)像這個(gè)?
我猜測(cè)這個(gè)系統(tǒng)很早就開始用于預(yù)研今天的Xeon Phi Processor,當(dāng)然此時(shí)它還談不上芯片集成度和成本效益。從照片中看每顆Atom旁邊應(yīng)該都有一顆南橋(當(dāng)時(shí)還不是SoC),內(nèi)存等可能在PCB背面,4顆印著SeaMicro的芯片估計(jì)是用于互連。
撰寫上一篇《工程師筆記:一項(xiàng)Xeon E5-2600 v4測(cè)試數(shù)據(jù)的背后》的過程中,在Dell的Solutions Performance Analysis文檔中我看到了以上規(guī)格表,其中有non-AVX和AVX單元不同的TurboBoost超頻頻率。讓我們放大來看一下:
對(duì)于所有核心一起工作時(shí)的TurboBoost,non-AVX的頻率比AVX要高,而最大(少數(shù)核心工作)TurboBoost頻率有些型號(hào)的CPU也存在差別。
上圖來自Intel資料,描述了Xeon E5v4(Broadwell)的一點(diǎn)改進(jìn)。在此之前如果AVX和non-AVX負(fù)載在不同Core上混合運(yùn)行,只能統(tǒng)一跑在兩者中較低的TurboBoost頻率上。而在Xeon E5v4上,則運(yùn)行AVX的Core頻率不會(huì)降低到其它Core的TurboBoost水平。
我有個(gè)理解不知是否準(zhǔn)確:由于用途的原因,整數(shù)/浮點(diǎn)單元的設(shè)計(jì)偏重與配比是Xeon Phi Processor與Xeon CPU的重要區(qū)別。至于Intel為什么沒有進(jìn)一步像申威26010那樣“將MPE(管理單元)減少到4個(gè)來搭配256個(gè)CPE(計(jì)算單元)”?我覺得是考慮到通用性,畢竟Xeon Phi仍屬于x86指令集的一個(gè)擴(kuò)展。
目前正式發(fā)布支持Xeon Phi Processor x200服務(wù)器產(chǎn)品的公司還不多,其中包括SuperMicro的主板和準(zhǔn)系統(tǒng)(就是加個(gè)塔式機(jī)箱),或許只是先出個(gè)通用平臺(tái)還沒有太多特點(diǎn)。
SuperMicro K1SPA/E (-T) 主板示意圖,可以看到“巨大”的LGA-3647 CPU插座,據(jù)了解下一代Xeon E5可能也會(huì)用這個(gè)Socket。
上面是SuperMicro這款主板的結(jié)構(gòu)圖。涉及PCH 612的部分與傳統(tǒng)Xeon服務(wù)器并沒有明顯的不同;除了內(nèi)存通道之外,從處理器引出的PCIe x16 Gen3插槽也許不再支持拆分成x8或者x4,因?yàn)閄eon Phi的定位就是HPC,除了高速網(wǎng)絡(luò)互連應(yīng)該啥也不缺了。
戴爾的這款PowerEdge C6320p,可以理解為是在2U 4節(jié)點(diǎn)機(jī)箱基礎(chǔ)上將C6320 Xeon E5計(jì)算節(jié)點(diǎn)換成了Xeon Phi Processor節(jié)點(diǎn)。它比較接近前面我們列出的Intel參考平臺(tái),具備計(jì)算密度并適合大規(guī)模部署。
可能是由于初版資料,規(guī)格表中Xeon Phi Processor 72XX不支持的QPI還沒來得及修改徹底。C6320p有幾種硬盤/閃存支持選項(xiàng),提供戴爾統(tǒng)一的iDRAC8服務(wù)器管理,聽說可以直接安裝Red Hat企業(yè)版Linux,具體注意事項(xiàng)有待后續(xù)確認(rèn)。不過為了發(fā)揮AVX-512計(jì)算單元的能力,還是需要運(yùn)行相應(yīng)的編譯好的程序。
關(guān)于集成單端口Mellanox ConnectX-4 100GbE網(wǎng)卡這個(gè)可選項(xiàng),為什么不是InfiniBand EDR呢?其實(shí)該公司近幾年對(duì)以太網(wǎng)的支持也不錯(cuò),可以在同樣的硬件上實(shí)現(xiàn)兩種網(wǎng)絡(luò)支持,比如EoIB這樣的方式。
上圖來自戴爾網(wǎng)站,可見這個(gè)100Gb網(wǎng)口應(yīng)該是支持IB的。據(jù)了解PowerEdge C6320p也做好了支持Omni-Path的準(zhǔn)備,除了現(xiàn)在可以使用Intel Omni-Path Host Fabric Adapter 100 Series PCIe網(wǎng)卡之外,等今年四季度Xeon Phi Processor 72xxF推出之后,像Intel參考平臺(tái)中那樣將Omni-Path引出機(jī)箱的連接器件也可以使用。
以上圖表僅供參考,因?yàn)樵贗ntel的宣傳資料中您很可能會(huì)看到另外一些不同的測(cè)試數(shù)字。
True Scale就是當(dāng)初QLogic的40Gb/s InfiniBand產(chǎn)品線,可以看出100Gb/s的Intel Omni-Path在端口延時(shí)、發(fā)包速率上的優(yōu)勢(shì)。既然是在IB技術(shù)上發(fā)展而來,Omni-Path可能需要一個(gè)成熟的過程,但我不認(rèn)為有太大的困難。
Intel還列出了交換機(jī)方面的一些優(yōu)勢(shì)。比如Edge(邊緣)交換機(jī)48口比IB的36口多,服務(wù)器節(jié)點(diǎn)可以不通過邊緣交換機(jī)直連Director(導(dǎo)向器)等。
關(guān)于HPC網(wǎng)絡(luò)方面的最終戰(zhàn)局,我覺得要看Intel Omni-Path怎么個(gè)賣法。如果未來某一代CPU/Xeon Phi Processor無論你用不用全都集成的話……