直播周回顧日記Day2:高性能計(jì)算云時(shí)代 自在如風(fēng)不為硬件所縛
6月21日,亞馬遜云科技聯(lián)合51COT共同推出的這是我的架構(gòu)——直播周系列節(jié)目第二季第二集精彩繼續(xù)。本集邀請(qǐng)到的是亞馬遜云科技高級(jí)解決方案架構(gòu)師楊志浩和亞馬遜云科技高性能計(jì)算產(chǎn)品經(jīng)理耿煜,由他們共同分享“云端ARM助力HPC客戶擺脫硬件束縛,實(shí)現(xiàn)創(chuàng)新”的技術(shù)智慧和實(shí)踐經(jīng)驗(yàn)。基于亞馬遜云科技自研的Graviton實(shí)例如何在高性能計(jì)算場景下實(shí)現(xiàn)降本增效,讓我們一起回顧本期直播:
金風(fēng)慧能的云上之旅
直播一開始楊志浩向我們介紹了金風(fēng)慧能依托云上Graviton 2實(shí)例實(shí)現(xiàn)高性能計(jì)算的案例。金風(fēng)慧能專注于提供新能源數(shù)字化、智能化產(chǎn)品及解決方案,以安全和提質(zhì)增效為核心目標(biāo),覆蓋風(fēng)電場運(yùn)行的全生命周期。其氣象預(yù)報(bào)和功率預(yù)測(cè)產(chǎn)品正是部署在基于亞馬遜云科技Graviton實(shí)例,Graviton在HPC場景下的優(yōu)越性能,為金風(fēng)慧能實(shí)現(xiàn)降本增效提供了有力支撐。楊志浩簡單介紹了金風(fēng)慧能氣象應(yīng)用場景的架構(gòu),通過將來自氣象局、亞馬遜云科技托管的公開數(shù)據(jù)集和觀測(cè)儀器的數(shù)據(jù)進(jìn)行處理、計(jì)算、分析,對(duì)天氣情況進(jìn)行預(yù)報(bào),并預(yù)測(cè)風(fēng)電場發(fā)電量,實(shí)現(xiàn)高效、精準(zhǔn)的電力調(diào)度。
為了滿足海量數(shù)據(jù)的快速、準(zhǔn)確處理,同時(shí)兼顧業(yè)務(wù)成本,金風(fēng)慧能的選擇是亞馬遜云科技Graviton。通過將WRF全流程部署在基于Graviton 2的ARM架構(gòu)計(jì)算平臺(tái)上,保證了計(jì)算前后的一致性,滿足長期穩(wěn)定快速運(yùn)行的算力集群。據(jù)楊志浩介紹,Graviton 2獨(dú)特的長期運(yùn)算價(jià)格模式,非常適用于金風(fēng)慧能每日全天候的計(jì)算需求。與傳統(tǒng)HPC不同,亞馬遜云科技的云上HPC能夠?yàn)榭蛻籼峁└屿`活彈性的購買方式,客戶通過預(yù)留實(shí)例能夠獲得更高性價(jià)比。亞馬遜云科技針對(duì)云上HPC的快速部署,還推出了Paraller Cluster服務(wù),為客戶提供單任務(wù)多節(jié)點(diǎn),多隊(duì)列不同實(shí)例類型并行計(jì)算的靈活選擇。對(duì)于數(shù)據(jù)存儲(chǔ)問題,亞馬遜云科技的FSx for Lustre為客戶提供數(shù)據(jù)流轉(zhuǎn)存儲(chǔ)全套解決方案,同時(shí)滿足未來單任務(wù)多節(jié)點(diǎn)運(yùn)行的共享存儲(chǔ)需求。在Graviton 2全套HPC架構(gòu)的助力下,相較于傳統(tǒng)的本地?cái)?shù)據(jù)中心解決方案,金風(fēng)慧能的綜合成本降低了70%。
云計(jì)算為高性能計(jì)算賦能
隨著數(shù)據(jù)時(shí)代不斷加速前進(jìn),客戶對(duì)運(yùn)算能力的要求日漸提高。然而傳統(tǒng)的數(shù)據(jù)中心解決方案由于其建設(shè)周期長、成本高,大大增加了企業(yè)成本,阻滯了生產(chǎn)效能。云計(jì)算架構(gòu)的靈活優(yōu)勢(shì),幫助HPC突破了硬件束縛。耿煜為我們講述了美國笛卡爾實(shí)驗(yàn)室的案例,借助云計(jì)算,笛卡爾實(shí)驗(yàn)室僅用24分鐘就完成172,692個(gè)core集群的構(gòu)建,計(jì)算峰值達(dá)到理論最大峰值的70%,整個(gè)測(cè)試僅花費(fèi)2萬美金。耿煜坦言道,如果是采用傳統(tǒng)的數(shù)據(jù)中心建設(shè)方案,全部費(fèi)用大概需要2,000~3,000萬美金。云上HPC作為全球范圍內(nèi)高性能計(jì)算客戶的新寵兒,具備靈活的資源調(diào)度和無限的運(yùn)算能力,同時(shí)有效降低成本,為客戶帶來了全新的云上體驗(yàn)。
ARM身兼重任,HPC更上一層樓
2018年亞馬遜云科技發(fā)布了自研的第一代ARM架構(gòu)Graviton處理器,并很快推出第一款支持Graviton的實(shí)例。而在此之前,x86架構(gòu)處理器曾是亞馬遜云科技的唯一選擇。從x86到ARM,Graviton是否能夠承擔(dān)云計(jì)算的核心重任?客戶又是否能獲得平滑的切換?耿煜給出的答案是肯定的。耿煜談道,從亞馬遜云科技視角看,亞馬遜云科技正在不遺余力的打造基于Graviton的整個(gè)云上HPC生態(tài)。從市場來看,包括工業(yè)制造、電子芯片設(shè)計(jì)、生命科學(xué)、能源、地質(zhì)、天氣,包括智能駕駛等等很多場景實(shí)際上都在用ARM架構(gòu)構(gòu)建整個(gè)集群。從HPC場景看,HPC相關(guān)軟件也在不斷地向ARM的架構(gòu)進(jìn)行適配。
亞馬遜云科技定制化解決方案
耿煜為我們展示了HPC工作負(fù)載的四個(gè)維度。第一個(gè)維度是解耦合工作負(fù)載,相對(duì)應(yīng)的維度就是分布的/網(wǎng)絡(luò)化工作負(fù)載,表現(xiàn)出松耦合的特征。從數(shù)據(jù)存儲(chǔ)的體量上來看,有些場景是依賴于海量的數(shù)據(jù),有些則是較輕量的數(shù)據(jù)存儲(chǔ)。亞馬遜云科技基于這四個(gè)維度對(duì)客戶需求進(jìn)行劃分,針對(duì)不同需求提供全生命周期的定制化ARM架構(gòu)解決方案。
HPC降本增效亞馬遜全程保駕護(hù)航
耿煜介紹了5類亞馬遜云科技推出的HPC場景服務(wù)。第一類是亞馬遜云科技最為重要的產(chǎn)品之一——Amazon EC2彈性計(jì)算實(shí)例,云上客戶可以使用最高達(dá)24TB的內(nèi)存的計(jì)算實(shí)例,滿足對(duì)于單節(jié)點(diǎn)性能有很高要求的客戶,搭載的Graviton 2處理器,提高40%的性價(jià)比,非常適合高網(wǎng)絡(luò)吞吐且可以適配ARM的計(jì)算優(yōu)化型工作負(fù)載。第二類是Parallel Cluster,能夠幫助客戶一鍵式創(chuàng)建集群,客戶只需要編寫簡單的腳本,就能完成集群的快速配置,根據(jù)不同任務(wù)需求,還可以彈性調(diào)整集群大小。第三類是Elastic Fabric Adapter,能為客戶提供高達(dá)400G的網(wǎng)絡(luò)存儲(chǔ)。第四類是FSx系列,將HPC場景下的集群分布式文件系統(tǒng)適配到用戶常用的幾大類中,在云上可以提供本地物理服務(wù)器構(gòu)建的節(jié)點(diǎn)所達(dá)不到的性能,且其性能隨著存儲(chǔ)容量線性增長,非常適用于HPC任務(wù)受制于存儲(chǔ)的客戶。第五類是Amazon Batch,協(xié)助客戶完成容器化集群的構(gòu)建。亞馬遜云科技通過這5大類服務(wù),為客戶對(duì)性價(jià)比、高性能、安全性的需求提供了全套解決方案。
靈活自在,成本無憂
區(qū)別于傳統(tǒng)HPC短期計(jì)價(jià),亞馬遜云科技運(yùn)用其云上優(yōu)勢(shì),為客戶提供長期HPC計(jì)價(jià)模式,助力客戶實(shí)現(xiàn)成本壓縮。耿煜介紹道,亞馬遜云科技在為客戶設(shè)計(jì)HPC架構(gòu)時(shí),通常會(huì)根據(jù)客戶是否有經(jīng)常性的任務(wù)、突發(fā)型任務(wù),并且根據(jù)任務(wù)需求量、任務(wù)是否允許中斷,為客戶量身定制解決方案。同時(shí)亞馬遜云科技也支持短期HPC計(jì)算算力采購需求,耿煜呼吁,鼓勵(lì)客戶更多地使用亞馬遜云科技的云上資源,達(dá)到更高的成本優(yōu)化。
這是我的架構(gòu)——直播周系列節(jié)目第二季第二集完美收官,明天各路大咖又將帶來怎樣的思想碰撞,敬請(qǐng)期待!