下一代PCIe是可組合基礎(chǔ)設(shè)施進(jìn)步的關(guān)鍵
IT 中充斥著各種有前景的想法,而其中有些從未實(shí)現(xiàn)。隨著過(guò)去五年人們對(duì)可組合基礎(chǔ)設(shè)施的興趣趨于平緩,有的人可能會(huì)將其歸類(lèi)為失敗的想法,該技術(shù)是將硬件資源從其主機(jī)中分離。但我們還沒(méi)有準(zhǔn)備放棄這個(gè)想法,盡管可用的少量使用數(shù)據(jù)并不樂(lè)觀。
Statista對(duì)IT主管和經(jīng)理的一項(xiàng)調(diào)查發(fā)現(xiàn),只有11%的受訪者擁有可組合系統(tǒng)的生產(chǎn)部署,而52%的大多數(shù)人對(duì)該技術(shù)不感興趣。事實(shí)上,在調(diào)查的10項(xiàng)技術(shù)中,可組合基礎(chǔ)設(shè)施的關(guān)注度最低。
盡管如此,在過(guò)去幾年中還是出現(xiàn)了一些重要的產(chǎn)品開(kāi)發(fā)。這些發(fā)展為可組合傳播者帶來(lái)希望,讓他們相信可組合基礎(chǔ)設(shè)施可能應(yīng)用在企業(yè)中,特別是在為高性能計(jì)算 (HPC) 和 AI 工作負(fù)載構(gòu)建大型集群的企業(yè)中。
硬件可組合性:背景和技術(shù)
可組合硬件的想法可以追溯到大約十年前,當(dāng)時(shí)Calxeda 構(gòu)建了一個(gè)具有集成 10 Gb 以太網(wǎng)結(jié)構(gòu)的橫向擴(kuò)展、模塊化 Arm 服務(wù)器。當(dāng)時(shí)這個(gè)速度很快,并且連接了機(jī)箱中的相鄰節(jié)點(diǎn)。Calxeda盡管不再存在,但其知識(shí)產(chǎn)權(quán)現(xiàn)在由Silver Lining Systems使用,它最初被惠普用于其Project Moonshot服務(wù)器,可以說(shuō)是構(gòu)建可組合軟硬件系統(tǒng)的第一次嘗試。然而,惠普隨后放棄了它,轉(zhuǎn)而使用英特爾的新Atom處理器。Moonshot已發(fā)展成為HPE的Synergy產(chǎn)品線。
當(dāng)另一家初創(chuàng)公司Liqid于2015年推出基于PCIe結(jié)構(gòu)的可組合硬件的新方法時(shí),這一概念得到進(jìn)一步發(fā)展。Liqid系統(tǒng)的核心部件包括基于Broadcom組件的PCIe交換機(jī)。軟件管理系統(tǒng)可幫助配置和連接裸機(jī)服務(wù)器,這些服務(wù)器由CPU、內(nèi)存、網(wǎng)絡(luò)接口卡 (NIC)、存儲(chǔ)、GPU和現(xiàn)場(chǎng)可編程門(mén)陣列 (FPGA) 資源組成,這些資源集中在連接的服務(wù)器和擴(kuò)展機(jī)箱中。
為什么選擇 PCIe?
Liqid 最初使用內(nèi)部設(shè)計(jì)的交換機(jī),圍繞 PLX 的芯片構(gòu)建。后來(lái)它采用了Broadcom的 PEX8700 和 PEX9700 PCIe Gen 3.0 交換機(jī)芯片。在2020 年年中,Liqid和Broadcom合作開(kāi)發(fā)了 PCIe Gen 4.0 參考設(shè)計(jì)。此次合作使用 Broadcom 的 PEX88000 交換機(jī),其吞吐量是其 Gen 3.0 部分的兩倍,每個(gè)端口的帶寬為每秒 256 千兆傳輸。這些交換機(jī)提供 24 或 48 端口配置。每個(gè)端口默認(rèn)為四個(gè) PCIe 通道,可配置為 x8 或 x16,端口到端口延遲為 100 納秒。
由于 PCIe 普遍存在于現(xiàn)代處理器中、高帶寬(每通道 64 Gbps)、低延遲、無(wú)損傳輸和直接內(nèi)存訪問(wèn) (DMA) 支持,PCIe 成為服務(wù)器集群和可組合基礎(chǔ)設(shè)施的理想互連。其非透明橋接功能使主機(jī)處理器能夠?qū)⒔粨Q機(jī)端口視為 PCIe 端點(diǎn)。第 4.0 代交換機(jī)(例如 Broadcom PEX88000)嵌入了 Arm 處理器,用于配置、管理和處理熱插拔事件。它們通過(guò) I/O 共享和 DMA 等功能提供非阻塞、線速性能。
PCIe 的缺點(diǎn)包括端口成本比以太網(wǎng)更高,以及對(duì)電纜長(zhǎng)度的嚴(yán)格限制,將結(jié)構(gòu)限制在服務(wù)器機(jī)架內(nèi)。因此,以太網(wǎng)和 InfiniBand 已成為可組合基礎(chǔ)設(shè)施的替代方案。例如,Liqid 宣布多結(jié)構(gòu)支持所有資源類(lèi)型的可組合性:CPU、內(nèi)存、GPU、NIC、FPGA 和存儲(chǔ),跨所有主要結(jié)構(gòu)類(lèi)型,包括 PCIe Gen 3.0、Gen 4.0、以太網(wǎng)和 InfiniBand。而相比之下,HPE 在其 Synergy 可組合產(chǎn)品中僅支持以太網(wǎng),以及用于存儲(chǔ)的光纖通道 (FC)。
可組合架構(gòu)的應(yīng)用
可組合基礎(chǔ)設(shè)施最初被提議作為在 AI 環(huán)境中經(jīng)濟(jì)高效地共享昂貴 GPU 的方式,特別是對(duì)于計(jì)算量更密集的模型訓(xùn)練。然而,組合式對(duì)于 HPC 集群和裸機(jī)云基礎(chǔ)設(shè)施也是可行的,尤其是對(duì)于較小的利基提供商。它還適用于多租戶邊緣計(jì)算集群,例如,在 5G 基站或云“微”區(qū)域。多節(jié)點(diǎn)可組合架構(gòu)(使用 PCIe 到 NVMe、NVMe-oF、FC 或 InfiniBand )是分布式橫向擴(kuò)展存儲(chǔ)系統(tǒng)的流行選擇,其中 NVMe 磁盤(pán)池與服務(wù)器集群共享。
盡管與 PCIe 架構(gòu)無(wú)關(guān),但 PCIe NIC、GPU 和 FPGA 卡越來(lái)越多地在多個(gè) VM 之間共享和虛擬分割,這些VM使用 Nvidia 虛擬 GPU、FPGA 共享、SmartNIC 和數(shù)據(jù)處理單元 (DPU) 等技術(shù)。例如,VMware 最近推出了 Project Monterey 來(lái)擴(kuò)展一些功能VMware Cloud Foundation 到 DPU,例如 Nvidia 的 BlueField-2。該軟件使DPU的多個(gè)Arm內(nèi)核能夠托管ESXi實(shí)例,從主機(jī)CPU卸載網(wǎng)絡(luò)和存儲(chǔ)服務(wù)。
從長(zhǎng)遠(yuǎn)來(lái)看,VMware Cloud首席技術(shù)官Kit Colbert 認(rèn)為Monterey會(huì)不斷發(fā)展以支持多個(gè)主機(jī)和其他硬件加速器。
他在一篇博客文章中說(shuō):“該項(xiàng)目使我們能夠重新思考集群架構(gòu),并使集群更具動(dòng)態(tài)性、更受 API 驅(qū)動(dòng),并針對(duì)應(yīng)用程序需求進(jìn)行更優(yōu)化。我們通過(guò)硬件可組合性來(lái)實(shí)現(xiàn)這一點(diǎn)。”
跨服務(wù)器共享和動(dòng)態(tài)分配硬件資源的選項(xiàng)正在成倍增加。它們提供對(duì)硬件加速器的更廣泛訪問(wèn),以及通過(guò)更高的資源利用率降低成本。