烽火FitServer 高性能計(jì)算服務(wù)器成功中標(biāo)
武漢大學(xué)超算采購項(xiàng)目
近日,烽火FitServer 高密度計(jì)算服務(wù)器及高速網(wǎng)絡(luò)解決方案在“武漢大學(xué)100G高速網(wǎng)絡(luò)及網(wǎng)格計(jì)算集群采購項(xiàng)目”中一舉中標(biāo),提供“計(jì)算、存儲(chǔ)、分析、運(yùn)維”一站式解決方案。此次中標(biāo)與實(shí)施,標(biāo)志著烽火在服務(wù)器領(lǐng)域從服務(wù)器生產(chǎn)商轉(zhuǎn)化為***超算解決方案提供商。
武漢大學(xué)(簡稱武大)是國家教育部直屬重點(diǎn)綜合性大學(xué),屬于首批國家“985工程”和“211工程”雙***建設(shè)高校。學(xué)校參與了三峽工程、南水北調(diào)、西電東輸?shù)?**重點(diǎn)工程項(xiàng)目的科學(xué)研究和工程建設(shè),在南北極科學(xué)考察、重大傳染性疾病防治等科技領(lǐng)域中不斷取得新的突破,馬協(xié)型、紅蓮型雜交稻、高頻地波監(jiān)測雷達(dá)、GPS全球衛(wèi)星定位與導(dǎo)航、高性能混合動(dòng)力電池等應(yīng)用型科技成果不僅具有重大的科學(xué)理論價(jià)值,還產(chǎn)生了巨大的社會(huì)經(jīng)濟(jì)效益。
HPC平臺(tái)作為武大科研不可或缺的工具,通過對(duì)實(shí)際情況對(duì)其進(jìn)行深入分析和研究,學(xué)?,F(xiàn)有高算平臺(tái)已經(jīng)不能滿足當(dāng)前的科研工作需求,亟需建設(shè)現(xiàn)代化的高速交換網(wǎng)絡(luò),以實(shí)現(xiàn)內(nèi)部網(wǎng)絡(luò)的帶寬提升,延時(shí)降低,形成高效穩(wěn)定的高算網(wǎng)絡(luò)平臺(tái),滿足日益增長的高算帶寬和低延時(shí)需求。100G高速網(wǎng)絡(luò)及網(wǎng)格計(jì)算集群項(xiàng)目就是HPC平臺(tái)升級(jí)的重要一步。
網(wǎng)格計(jì)算集群,是對(duì)高算平臺(tái)的加速和補(bǔ)充,能針對(duì)特定的應(yīng)用做到有效的加速,不但可以提升計(jì)算能力和速度,還能減輕HPC平臺(tái)的壓力,做到資源的合理利用,降低整體HPC平臺(tái)的建設(shè)TCO。武大100G高速網(wǎng)絡(luò)及網(wǎng)格計(jì)算集群總體設(shè)計(jì)以“高性能、高可靠性、高安全性、良好的可擴(kuò)展性、可管理性和統(tǒng)一的網(wǎng)管系統(tǒng)”為原則,目標(biāo)是建立一套穩(wěn)定可靠、開放、可有效管理的100G高算網(wǎng)絡(luò)系統(tǒng),計(jì)算節(jié)點(diǎn)采用融合架構(gòu),整個(gè)系統(tǒng)易于擴(kuò)充、通用、方便計(jì)算節(jié)點(diǎn)接入,能夠滿足各項(xiàng)高算系統(tǒng)要求,支持大規(guī)模業(yè)務(wù)量并行處理。
計(jì)算節(jié)點(diǎn)部分
網(wǎng)格計(jì)算集群節(jié)點(diǎn)采用FitServer 高密度計(jì)算服務(wù)器,是專門為HPC設(shè)計(jì)的半寬、單處理器插槽,支持***等級(jí)并行計(jì)算的高性能產(chǎn)品。這款產(chǎn)品不但可以支持***的Intel® Xeon Phi™ 協(xié)處理器家族,還可選配高達(dá)100G的Intel® Omni-Path™ fabric內(nèi)部高速互聯(lián)網(wǎng)絡(luò)組件。節(jié)點(diǎn)主板支持6根內(nèi)存插槽,2個(gè)PCIe Gen 3插槽及其他擴(kuò)展口。FitServer 高密度計(jì)算服務(wù)器產(chǎn)品與Intel® Xeon Phi™ 協(xié)處理器、Intel® Omni-Pathfabric三者搭配,能最小化計(jì)算節(jié)點(diǎn)性能瓶頸。
網(wǎng)絡(luò)部分
在考慮網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、網(wǎng)絡(luò)傳輸效率、穩(wěn)定可靠性等因素,武大100G網(wǎng)絡(luò)的接入隨著集群的發(fā)展還會(huì)有增長。本次采用小交換機(jī)堆疊的胖樹兩層架構(gòu)設(shè)計(jì),核心層和接入層2:1的阻塞比建設(shè)網(wǎng)絡(luò),兼顧性能和整體投入,后續(xù)擴(kuò)展也可以在保證性能的同時(shí)輕易將接入節(jié)點(diǎn)數(shù)量增加到1500節(jié)點(diǎn)以上,即便還有大于2000節(jié)點(diǎn)接入需求,所有采購的交換機(jī)也可轉(zhuǎn)為接入交換機(jī),達(dá)到資源的有效利用。
核心采用4臺(tái)100G Intel Omni-Path Edge Switch 100 Series 48 Por(簡稱:48口OPA交換機(jī))交換機(jī)作為核心層,其中2臺(tái)交換機(jī)配置管理模塊。10臺(tái)接入交換機(jī)分別通過100G的光纖接入核心層中的交換機(jī),這樣,既完成了互連,又增強(qiáng)了設(shè)備的可靠性,確保網(wǎng)絡(luò)不會(huì)出現(xiàn)單點(diǎn)故障。
對(duì)于高算網(wǎng)絡(luò)平臺(tái),全實(shí)現(xiàn)全面的安全管理也是在方案設(shè)計(jì)時(shí)考慮的問題。在本次方案中設(shè)計(jì)了管理節(jié)點(diǎn)交換機(jī),配置兩臺(tái)帶管理功能的交換機(jī)確保管理平臺(tái)的高可用,并配置Intel® Omni-Path Fabric Suite Fabric Manager GUI系統(tǒng),該網(wǎng)管平臺(tái)提供了一個(gè)直觀的,可伸縮的儀表面板與分析工具,用于監(jiān)測全網(wǎng)運(yùn)行的OPA交換機(jī)和端口,對(duì)整個(gè)100G的網(wǎng)絡(luò)做到圖形化界面管理,大大減輕運(yùn)維人員的工作量,提升管理效率。
技術(shù)服務(wù)與培訓(xùn)
隨著烽火服務(wù)器存儲(chǔ)產(chǎn)品逐漸應(yīng)用于國內(nèi)外客戶,公司建立起立足中國并輻射全球的服務(wù)體系。烽火將利用強(qiáng)大的技術(shù)研發(fā)實(shí)力、完善的質(zhì)量保證體系、先進(jìn)的生產(chǎn)工藝和測試方案,為客戶提供先進(jìn)、穩(wěn)定、可靠的基礎(chǔ)建設(shè)產(chǎn)品及解決方案。同時(shí),在升級(jí)服務(wù)器存儲(chǔ)產(chǎn)品硬件的基礎(chǔ)上,不斷改進(jìn)服務(wù)質(zhì)量,從設(shè)備安裝調(diào)試、工程維護(hù)、用戶培訓(xùn)等各個(gè)環(huán)節(jié),確保用戶得到高效快捷的售后技術(shù)服務(wù)。