敢為天下先 OpenStack支撐黑龍江電力核心業(yè)務云化
改革開放以來,我國能源電力取得了舉世矚目的發(fā)展成就,發(fā)電裝機、用電量、電網(wǎng)規(guī)模均位列世界***。如何響應國家號召,加強供給側(cè)結(jié)構(gòu)性改革,增強持續(xù)增長動力,以提高供給體系的結(jié)構(gòu)和效率,是電力行業(yè)的當務之急。作為國家電網(wǎng)公司全資的黑龍江省電力公司(以下簡稱:黑龍江電力),在負責建設、運行維護省電網(wǎng)及保障全區(qū)安全可靠供電任務的同時,積極擁抱云計算技術,通過技術創(chuàng)新實現(xiàn)自身的戰(zhàn)略使命成為了當務之急。
作為國家經(jīng)濟命脈,電力系統(tǒng)任何中斷都會造成巨大的社會和經(jīng)濟影響。因此國家電網(wǎng)實時監(jiān)控著各個省電力公司的業(yè)務系統(tǒng)運行情況。這對原本主要依靠專有硬件設備堆砌來解決系統(tǒng)可靠性的省電力系統(tǒng)向靈活敏捷的云化轉(zhuǎn)型,提出巨大挑戰(zhàn)。
經(jīng)過審慎的評估、選型,黑龍江電力與在OpenStack領域擁有豐富中大規(guī)模企業(yè)級實踐經(jīng)驗及技術實力的EasyStack合作建起首期即超過200節(jié)點的電力云計算平臺,率先在電力行業(yè)走出核心業(yè)務擁抱云計算的***步!目前,包括營銷、財務管控、電能量現(xiàn)代化應用、移動作業(yè)管理、全國電力市場技術支撐、電網(wǎng)GIS等業(yè)務生產(chǎn)系統(tǒng)均已在黑龍江電力云平臺順利上線,同期上線的還包括大數(shù)據(jù)分析、數(shù)據(jù)交換等數(shù)據(jù)處理系統(tǒng)。整個云平臺計劃達到700臺物理節(jié)點,成為電力系統(tǒng)內(nèi)***、示范性云平臺系統(tǒng)。
黑龍江電力云平臺初期設備規(guī)劃
考慮到整個云平臺的設計規(guī)模將達到700臺物理服務器,同時所承載的是電力行業(yè)核心生產(chǎn)系統(tǒng),云平臺的可靠性和可用性要求成為首要設計指標,針對這一現(xiàn)狀,黑龍江電力公司與EasyStack一道對整個云平臺的總體架構(gòu)進行了充分探討,對影響整個平臺可靠性的關鍵組件提出了針對性設計與優(yōu)化方案。
黑龍江電力云平臺網(wǎng)絡架構(gòu)示意圖
具備OpenStack控制平面高可用與高性能的云管理平臺
整個OpenStack云平臺的高可用主要依賴控制平面的高可用,設計難點在于如何平衡關鍵服務可靠性與平臺可擴展性之間的矛盾,同時從計算、網(wǎng)絡、存儲等模塊優(yōu)化OpenStack平臺消息機制,經(jīng)過優(yōu)化后,平臺組件間的冗余消息大幅減少,消息轉(zhuǎn)發(fā)效率大幅提升,為承載千臺規(guī)模計算節(jié)點打下了基礎。
電力行業(yè)需要穩(wěn)定可靠的IT系統(tǒng)。在黑龍江電力云平臺方案中,通過使用集群/主備/負載均衡等HA方式,對MySQL/Message Queue/API服務/Web訪問等服務配置起全方位高可用方案。
通過HA以及云平臺的高可靠設計等方案的實施使之區(qū)別并領先于其它OpenStack發(fā)行版,可用于承載核心業(yè)務的中大規(guī)模云計算環(huán)境,輕松應對電力系統(tǒng)傳統(tǒng)與創(chuàng)新的業(yè)務挑戰(zhàn)。
深入優(yōu)化計算、存儲以及網(wǎng)絡性能,從KVM、OVS、Ceph等***層技術開始源代碼級優(yōu)化,最終提供接近物理硬件能力的計算、存儲和網(wǎng)絡性能,為黑龍江電力各個核心業(yè)務系統(tǒng)提供了高性能、可靠的服務平臺。
計算虛擬化
采用傳統(tǒng)的單臺物理服務器部署單臺OS的方式,單臺物理機也只能部署一套應用,這樣就會造成部分業(yè)務系統(tǒng)的資源壓力利用率不足或者資源壓力過大。如果一臺物理機機故障或宕機也會造成業(yè)務無法遷移,SLA能力下降,對業(yè)務連續(xù)性產(chǎn)生重大影響。
通過實施OpenStack云計算,可以按照黑龍江電力各個業(yè)務所需的計算能力的規(guī)模,將各個業(yè)務部署到合適的物理中,有效整合物理機資源,提高資源利用率。通過每個VM隔離應用,保證單個VM的資源需求得到滿足。在單臺物理機故障或宕機的情況下,將業(yè)務系統(tǒng)按計劃遷移到其他物理機或者盡快在其他物理機恢復,保證SLA,降低業(yè)務連續(xù)性風險。通過與黑龍江各個業(yè)務系統(tǒng)應用軟件集群相結(jié)合,實現(xiàn)整個業(yè)務系統(tǒng)的高可靠性、高連續(xù)性、快速擴展性。
此次實施采用的基礎架構(gòu)中的服務器為黑龍江電力原有的聯(lián)想、曙光、戴爾、華為等數(shù)百臺不同型號與采購周期的物理服務器,尚未專門采購過新的服務器設備。部署在這些X86的操作系統(tǒng)為開源的Linux操作系統(tǒng)軟件Centos6.5,計算虛擬化軟件為Linux平臺下廣泛使用、性能優(yōu)異、穩(wěn)定可靠的KVM,同樣為開源軟件。
在黑龍江電力云平臺方案中,使用OpenStack,Centos,KVM這樣的開源軟件可以避免廠商鎖定,對幾乎所有的x86服務器均開放,同時對MySQL,Oracle,Weblogic等數(shù)據(jù)庫和中間件應用服務器也能開放性的支撐,達到自主、可控的目的,同時降低軟硬件的CAPEX(資本支出)和OPEX(運營支出)。
分布式存儲Ceph
在OpenStack中,Cinder組件可以支持管理多種后端存儲,包括傳統(tǒng)的商業(yè)存儲,如EMC,HP,IBM等存儲產(chǎn)品。但黑龍江電力如使用上述商業(yè)存儲產(chǎn)品存在以下諸多問題:
1 商業(yè)存儲產(chǎn)品采購周期長,成本高,維護貴
2 需要同時采購配套的SAN交換機,光纖線,機柜,配套電力、空調(diào)等基礎設施
3 需要服務器同時采購HBA卡,不同廠商服務器采購時需要考慮HBA卡的兼容性,每臺服務器系統(tǒng)還需要安裝相應的HBA卡驅(qū)動
4 部署前需要重新布置光纖線纜
5 與存儲廠商配合劃Zone、聯(lián)調(diào)測試等耗時費力、成本高
鑒于以上原因,同時考慮黑龍江電力業(yè)務系統(tǒng)對性能和可靠性,擴展性的要求以及目前設備環(huán)境現(xiàn)狀(盡量避免由于實施需要采購新設備、增加部署工作量、延長云平臺方案實施周期等,只要對目前設備環(huán)境做少許變更即可實施),黑龍江電力采用利用開源技術實現(xiàn)的分布式存儲Ceph,并使用Cinder可以使用Ceph作為后端存儲。Ceph主要特點:
1 統(tǒng)一存儲,提供對象存儲,塊存儲及文件系統(tǒng)
2 無任何單點故障
3 數(shù)據(jù)多份冗余
4 存儲容量可擴展
5 自動容錯及故障自愈。
6 支持快照、備份、恢復,支持QEMU及Libvirt虛擬化
Ceph底層是RADOS(可靠、自動、分布式對象存儲)。RADOS分發(fā)策略依賴CRUSH(基于可擴展哈希算法的可控復制)算法。該算法負責數(shù)據(jù)對象實際分布與數(shù)據(jù)恢復,處理比如數(shù)據(jù)和負載分布、性能***化,當存儲設備發(fā)生故障、添加或移除存儲設備時,最小化遷移數(shù)據(jù)來恢復來恢復故障,有效減少熱點盤對Ceph集群性能的影響。
黑龍江電力在實際部署時,每臺機器的SATA盤和SSD盤數(shù)量不同,將兩塊SSD做成RAID1,保證主機系統(tǒng)的可靠性和性能。每臺機器剩余的SSD和SATA分別作為SSD極速、HDD高容量兩個資源池的OSD。兩個資源池的數(shù)據(jù)副本均設置為3份。SSD極速資源池為將隨機性訪問較多、單次訪問數(shù)據(jù)塊較小,響應時間要求短的業(yè)務提供數(shù)據(jù)服務。HDD高容量為連續(xù)訪問較多、單次訪問數(shù)據(jù)塊較大,響應時間要求不高的業(yè)務提供數(shù)據(jù)服務。
部署了基于Ceph的分布式高性能存儲方案,極大的提高了云主機的IO性能,足以應對各種苛刻的企業(yè)應用需求。黑龍江電力云平臺現(xiàn)狀可以在10秒內(nèi)完成一臺云主機的創(chuàng)建;支持實時快照,對1T硬盤的快照的操作耗時不超過2秒。
由于數(shù)據(jù)量增長迅猛,黑龍江電力在方案部署期間進行了多次存儲擴容, 在擴容過程中 ,由于數(shù)據(jù)量較大, 為保證不影響已上線業(yè)務的正常運行, 通過降低Ceph rebalance優(yōu)先級的方式, 在不影響業(yè)務的情況下, 實現(xiàn)了存儲的在線擴容,這也證明了Ceph的良好的性能、可靠性、可擴展性。
網(wǎng)絡虛擬化
OpenStack中的網(wǎng)絡虛擬化服務由Neutron提供?;诳刹灏蔚募軜?gòu),Neutron提供租戶隔離的從二層到七層的虛擬網(wǎng)絡服務。Neutron目前實現(xiàn)了FLAT(根據(jù)Mac地址轉(zhuǎn)發(fā))、VLAN(根據(jù)VLAN和Mac地址轉(zhuǎn)發(fā))、GRE(overlay技術,在三層網(wǎng)絡上封裝三層數(shù)據(jù)包)、VxLAN(overlay技術,在三層網(wǎng)絡上封裝二層數(shù)據(jù)幀)四種網(wǎng)絡拓撲和多種Mechenism Driver,比如OpenVSwitch,Linuxbridge。
黑龍江電力原來生產(chǎn)系統(tǒng)使用VLAN隔離各個業(yè)務系統(tǒng),要求網(wǎng)絡轉(zhuǎn)發(fā)延遲低。VLAN對比GRE和VxLAN實現(xiàn)簡單,同時不用多次封裝、解封裝數(shù)據(jù)包,延遲低,性能好。OpenVSwitch對比Linuxbridge,可以通過編程擴展讓大型網(wǎng)絡的管理自動化,同時支持多種標準協(xié)議,比如NetFlow,Lacp,802.1ag等。
為了滿足業(yè)務對網(wǎng)絡性能和擴展性,可靠性的需求,此次虛機網(wǎng)絡沒有通過L3 router轉(zhuǎn)發(fā), 而是直接連接至對應VLAN網(wǎng)關,來保證用戶實際的使用性能與感受。最終方案通過使用VLAN+OpenVSwitch方式配置網(wǎng)絡,合理分配不同網(wǎng)絡平面的流量。
黑龍江電力云平臺網(wǎng)絡邏輯示意圖
其中:
通信網(wǎng)——用于云內(nèi)部虛擬機間通信;
業(yè)務網(wǎng)——用于虛擬機提供外部業(yè)務訪問;
存儲網(wǎng)——用于Ceph集群間數(shù)據(jù)拷貝;
部署網(wǎng)——用于物理主機云環(huán)境部署;
管理網(wǎng)——用于OpenStack與被管理主機間通信;
通過多個網(wǎng)絡節(jié)點,實現(xiàn)公網(wǎng)的負載均衡及HA,高性能和高可用, 網(wǎng)絡節(jié)點使用Router級別的Active/Standby方式實現(xiàn)HA,使用獨立的網(wǎng)絡路由監(jiān)控服務確保網(wǎng)絡HA的穩(wěn)定性。
按照網(wǎng)絡規(guī)劃,在交換機上設置VLAN以對應不同網(wǎng)絡平面。生產(chǎn),存儲網(wǎng)絡通過高性能的萬兆網(wǎng)卡傳輸。
OpenStack云環(huán)境運維
大規(guī)模集群的部署涉及到資產(chǎn)管理的問題,黑龍江電力方案中所有物理機機器均已登記在冊,并在機架的固定位置標號。EasyStack安裝工具Roller為指定固定IP地址,保證新集群部署完畢之后與現(xiàn)有資產(chǎn)表保持完全一致。后期運維同樣可以使用Roller靈活擴展集群規(guī)模。
通過運用Python腳本,黑龍江電力云平臺實現(xiàn)了公司內(nèi)部IM平臺(合創(chuàng)圈)的自動化部署,運維人員僅需發(fā)送文字,即可實現(xiàn)交互完成部署。此外,方案中還運用了自動運維、巡檢腳本, 來定期設置與執(zhí)行運維任務。
OpenStack云計算監(jiān)控——業(yè)務連續(xù)性的保障
黑龍江電力方案中還集成了Zabbix監(jiān)控, 配置了OpenStack相關監(jiān)控項。一旦物理機、OpenStack服務、或Ceph集群出現(xiàn)異常, Zabbix均能監(jiān)控到并自動報警. 將報警信息以短信、微信的形式發(fā)送到相關運維人員的手機上。通過與EasyStack 的Zabbix監(jiān)控集成,實現(xiàn)現(xiàn)場大屏幕、指示燈,及自動化短信發(fā)送。
為集群定制監(jiān)控項目,通過直觀的Web Dashboard,查看集群各項指標的當前及歷史運行狀態(tài)。設置異常告警閾值,即時通知管理員,修復異常狀況。通過各項數(shù)據(jù)的規(guī)律提前判斷是否需要擴容等。
OpenStack安全
黑龍江電力對OpenStack安全是主要從權限管理(Keystone)和網(wǎng)絡(Neutron)安全管理來控制對云平臺安全的保證。實現(xiàn)對OpenStack各個組件之間的API調(diào)用進行身份識別;通過用戶(User),租戶或項目(Tenant、Project),角色(Role)控制服務消費者對各個服務資源的訪問權限。
此外,黑龍江電力還運用OpenStack實現(xiàn)三層分級賬戶權限管理, 為不同權限級別的用戶呈現(xiàn)不同的導航界面,Admin云管理員管理整個OpenStack集群,每個業(yè)務項目組擁有自己的賬戶,來部署自己的虛機與修改。
結(jié)語:電力+互聯(lián)網(wǎng) 擁抱云計算正當時
目前,黑龍江電力云計算平臺共計部署物理主機272臺,完成營銷系統(tǒng)、財務管控、PMS2.0、電力交易、GIS平臺等80%系統(tǒng)遷移。營銷系統(tǒng)已連續(xù)運行13個月,運行效率提升近30%,100%業(yè)務系統(tǒng)完成入云。
其中,營銷月結(jié)時計算時長從原12小時縮短到72分鐘,效率提升900%; 營銷系統(tǒng)合帳報表耗時從原1小時47分鐘縮短到4分鐘效率提升2575%;高峰頁面訪問響應時長由6-8秒縮短至1-2秒,效率提升300%。
黑龍江電力云平臺系統(tǒng)遷移前后測試對比表
借電力云平臺的搭建,黑龍江電力還完成了Hadoop平臺搭建,實現(xiàn)離線數(shù)據(jù)分析;以在線統(tǒng)一日志分析平臺(基于SPARK)實現(xiàn)對服務器、網(wǎng)絡設備、安全設備、數(shù)據(jù)庫、系統(tǒng)中間件、權限管理系統(tǒng)、端設備的日志收集,對即時通訊系統(tǒng)信息分析。
黑龍江電力信通公司副總經(jīng)理趙威表示,“本次國家電網(wǎng)黑龍江公司的OpenStack云平臺,實現(xiàn)了計算、存儲、網(wǎng)絡資源徹底的云化,并將全部業(yè)務系統(tǒng)遷移到云計算平臺中,在1年的運營過程中,不僅穩(wěn)定可靠,更大幅提升了運行效率。我們還將在此基礎上開展運維自動化相關工具的研究,并實現(xiàn)與大數(shù)據(jù)平臺相結(jié)合。該OpenStack云平臺將為黑龍江電力進一步實現(xiàn)業(yè)務創(chuàng)新提供穩(wěn)定靈活、自主可控的基礎架構(gòu)支撐。”
“十三五”期間,在云計算、大數(shù)據(jù)等相關技術的推動下,各行各業(yè)都在謀求變化,試圖構(gòu)建新的產(chǎn)業(yè)格局,占據(jù)產(chǎn)業(yè)發(fā)展的制高點的時機,而黑龍江電力敢為天下先,以創(chuàng)新的態(tài)度與穩(wěn)健的方式將電力核心業(yè)務系統(tǒng)與OpenStack云平臺+互聯(lián)網(wǎng)的結(jié)合,將會在電力系統(tǒng)中投映出更加璀璨的未來。