華為KunLun高性能計算解決方案助力清華天文課題研究
天文物理研究對計算平臺的要求
天體物理研究試圖回答以下一些問題:宇宙是如何產(chǎn)生和發(fā)展的、宇宙中的物質(zhì)構(gòu)成是什么、他們又是如何演化和相互作用的?除了觀測和理論分析,大規(guī)模數(shù)值模擬成為當今天體物理研究的不可或缺的重要手段和工具。同時,各種巡天計劃產(chǎn)生了海量數(shù)據(jù),這些數(shù)據(jù)的存儲、共享和分析也成了天文學發(fā)展的巨大挑戰(zhàn)。
宇宙結(jié)構(gòu)起源是天體物理的前沿問題之一。研究早期宇宙有兩個重要工具,一個是宇宙微波背景輻射,另一個是來自宇宙早期的中性氫的輻射。對前者的研究碩果累累,獲得了兩個諾貝爾獎。相比之下,對宇宙早期中性氫的研究卻剛剛起步,一方面是由于觀測的困難,另一方面也是理論上的不足。目前,隨著國際上一些大的觀測設(shè)備的建立(比如平方公里陣列SKA),宇宙早期中性氫的觀測將變成可能,但與此同時,對理論的需求約越來越迫切。
由于物理對象的復(fù)雜性,理論研究早已超出了一支筆和一張紙可以計算的范疇,而必須依賴大規(guī)模數(shù)值計算。針對中性氫這一熱門研究方向,清華大學引進了專門人才進行數(shù)值模擬研究,將對宇宙早期的環(huán)境進行物理建模,獲得有理論指導意義的先進成果。
綜上所述,清華大學天體物理中心急需搭建一套高性能計算系統(tǒng),該系統(tǒng)主要提供兩種服務(wù),一方面是大規(guī)模數(shù)值模擬及結(jié)果分析,另一方面將提供海量天文數(shù)據(jù)的存儲、共享、數(shù)據(jù)分析和建模。這套系統(tǒng)的成功運行,預(yù)計會在未來幾年內(nèi)在這一領(lǐng)域產(chǎn)生高顯示度的成就,使得清華大學在宇宙早期中性氫等相關(guān)研究領(lǐng)域獲得國際的***水平。
通過數(shù)值模擬得到的宇宙年齡在7億年時的中性氫(綠色區(qū)域)、電離氫(橙色區(qū)域)和作為電離源的***代星系(藍色點)的分布圖,此時宇宙中平均72%的氫呈電離態(tài)。三維模擬空間的邊長是約合5億光年,圖示是二維截面。
高性能計算(High performance computing,縮寫HPC) 指通常使用很多處理器(作為單個機器的一部分)或者某一集群中組織的幾臺計算機(作為單個計算資源操作)的計算系統(tǒng)和環(huán)境。HPC系統(tǒng)主要由計算、存儲、網(wǎng)絡(luò)、集群軟件組成,其中的計算節(jié)點分為MPI節(jié)點(瘦節(jié)點)、胖節(jié)點、GPU加速節(jié)點。雙路節(jié)點稱為瘦節(jié)點,一般是2路服務(wù)器組成集群,胖節(jié)點配置大容量內(nèi)存。胖節(jié)點主要是相對于普通的雙路計算節(jié)點而言,按照目前的技術(shù)發(fā)展,所謂胖節(jié)點至少有4 顆物理CPU 以上,內(nèi)存至少能擴展到512GB以上。胖節(jié)點內(nèi)部一般采用NUMA 架構(gòu),所有CPU 能夠全局共享系統(tǒng)內(nèi)存,并保持cache 一致性。胖節(jié)點相比雙路“瘦”節(jié)點,***的優(yōu)勢在于單機的CPU 核數(shù)多、單機計算能力強,內(nèi)存擴展能力強,另外,胖節(jié)點的本地磁盤IO 擴展和PCI-E 板卡擴展能力一般也比雙路瘦節(jié)點高。
清華大學天體物理研究使用的共享內(nèi)存并行程序雖然在單節(jié)點內(nèi)并行的效率較高,但跨節(jié)點的并行較難實現(xiàn)。相比之下,路胖節(jié)點的CPU 核心數(shù)多,計算能力強,能夠更好的實現(xiàn)共享內(nèi)存并行程序的需求。通過對計算能力需求的評估,胖節(jié)點要具備16個CPU以上的擴展能力,內(nèi)存至少要達到4TB以上,且必須是開放的、先進的架構(gòu),維護要簡單。另外,由于系統(tǒng)基本會全時運行,所以要求系統(tǒng)具備超高的可靠性。同時,考慮到院系一般沒有專人負責系統(tǒng)維護,所以希望能夠提供專業(yè)的高性能計算服務(wù),貼身運維保障。
華為聯(lián)合華算為清華提供最***高性能計算系統(tǒng)
華為公司和上海華算為清華提供高性能計算聯(lián)合解決方案,硬件平臺采用華為KunLun開放架構(gòu)小型機+新一代V3統(tǒng)一存儲系統(tǒng),華算提供軟件安裝和定制開發(fā)、HPC性能優(yōu)化、運維保障等服務(wù),兩者強強聯(lián)合***解決了清華天文研究的需求。
華算信息科技有限公司(CHPC),坐落在中國上海,是專業(yè)的高性能計算和高性能存儲應(yīng)用解決方案及服務(wù)供應(yīng)商,致力于為科技創(chuàng)新用戶提供創(chuàng)新的高性能計算和存儲解決方案及專業(yè)的IT服務(wù),以幫助用戶增強科研和生產(chǎn)業(yè)務(wù)的技術(shù)創(chuàng)新能力。CHPC提供高性能計算解決方案 、高性能存儲解決方案、創(chuàng)新的軟件和專業(yè)服務(wù)。CHPC的解決方案和服務(wù)被科學、技術(shù)和商業(yè)用戶廣泛用于解決具有挑戰(zhàn)性的數(shù)據(jù)密集型計算、復(fù)雜的數(shù)據(jù)管理和關(guān)鍵任務(wù)問題。業(yè)務(wù)遍及學術(shù)和教育、天氣和氣候、天文、生命科學、能源、航空航天、建筑設(shè)計、商業(yè)情報等行業(yè)。華算是華為公司在HPC領(lǐng)域的重要合作伙伴,在天文、生命科學等領(lǐng)域都有過很深入的合作。
該平臺選擇華為KunLun做為計算平臺的胖節(jié)點,KunLun 開放架構(gòu)小型機是華為公司推出的以Intel® Xeon® E7 4800/8800處理器為核心、華為自研芯片實現(xiàn)計算互連的x86架構(gòu)系統(tǒng),本期初始配置16個處理器共256個計算核心,4TB超大內(nèi)存,***可擴展至32個處理器,24TB內(nèi)存。在這個配置下可以模擬宇宙大尺度的再電離過程(1024^3格點,邊長3億光年的立方體模擬空間)。由于華為KunLun使用共享內(nèi)存的并行化方案,省去了集群運算中的信息傳遞時間,極大地提高了運算速度。
KunLun植根于開放生態(tài)、提供業(yè)界領(lǐng)先的高性能和高可靠特性。相比封閉架構(gòu)小型機,KunLun在靈活性、互通性和經(jīng)濟性等方面具有顯著優(yōu)勢,具有穩(wěn)定可靠、***性能和生態(tài)開放的特點:
穩(wěn)定可靠
創(chuàng)新的RAS 2.0技術(shù),業(yè)界唯一支持CPU和內(nèi)存等核心部件在線更換,保障業(yè)務(wù)連續(xù)性。且KunLun可以基于對應(yīng)用進程和部件工作狀態(tài)的實時監(jiān)控與分析并做出提前預(yù)警,對潛在的故障主動識別并及時隔離,達到99.9996%的超高可靠性,年理論計劃外宕機時間小于3分鐘,全面超越傳統(tǒng)小型機,確保關(guān)鍵業(yè)務(wù)持續(xù)運行,為清華天文課題研究保駕護航。
***性能
創(chuàng)新的NC互聯(lián)芯片實現(xiàn)32顆CPU高速互聯(lián),性能相比傳統(tǒng)小型機提升40%以上,在***的SPEC整型和浮點計算能力的兩項基準測試中,KunLun雙雙破紀錄,拿下***。提供硬分區(qū)技術(shù),實現(xiàn)多分區(qū)特性,靈活滿足業(yè)務(wù)所需,可靠性相比基于虛擬化軟件實現(xiàn)的軟分區(qū)提升5倍以上。
生態(tài)開放
華為KunLun開放架構(gòu)小型機擁有目前業(yè)界最完整和最成熟的產(chǎn)業(yè)鏈生態(tài)環(huán)境,目前已通過主流數(shù)據(jù)庫、中間件和OS廠商的兼容性認證,提供端到端解決方案。
此外,華為KunLun率先在業(yè)界采用8英寸觸摸屏用于本地維護,圖形化展現(xiàn)、完善的權(quán)限管理機制,輕松幫清華用戶實現(xiàn)高效管理體驗。
本次選擇華為新一代OceanStor V3存儲系統(tǒng)實現(xiàn)天文科研數(shù)據(jù)的統(tǒng)一存儲,一套系統(tǒng)支持塊、文件,承載多業(yè)務(wù),初期配置180TB存儲容量,性能和容量可彈性擴展,滿足清華用戶未來5到10年的業(yè)務(wù)增長需求;華為V3存儲為用戶提供最簡單的管理平臺,初始配置設(shè)備只需5步,40秒內(nèi)即可完成,擴展容量僅需2步操作,15秒內(nèi)即可完成;提供全局拓撲展示、容量分析、性能分析、故障定位和端到端業(yè)務(wù)可視等強大功能;用戶可使用Pad、手機即時管理存儲系統(tǒng),系統(tǒng)狀態(tài)信息自動送達,無需專人值守,完全滿足清華用戶對運維管理的強烈訴求。
華為&華算聯(lián)合解決方案非常適合天文領(lǐng)域?qū)Ω咝阅苡嬎愕男枨?,該系統(tǒng)的上線將為清華天文物理研究提供穩(wěn)定、可靠、高效的高性能計算平臺,并為平臺的擴建、更新等提供全方位的服務(wù)。
結(jié)束語:華為的硬件是華為高性能計算的基石,華為具有多種可以運用于高性能計算的硬件,包括服務(wù)器、存儲、網(wǎng)絡(luò)等,通過集成業(yè)界專業(yè)的集群管理軟件和并行計算環(huán)境,為客戶提供一整套軟硬件集成優(yōu)化的高性能計算平臺系統(tǒng)。華為以KunLun高性能服務(wù)器構(gòu)建超級計算系統(tǒng),自研的互聯(lián)芯片可以實現(xiàn)單節(jié)點***32路CPU互聯(lián)和24TB內(nèi)存容量,能夠滿足科研高校解決各類***科研問題而帶來的海量計算需求。