G行云計算系列之全棧云管理篇
本文轉載自微信公眾號「匠心獨運維妙維效」,作者馮帆。轉載本文請聯系匠心獨運維妙維效公眾號。
一、引言
當前云計算市場競爭愈演愈烈,云廠商百家爭鳴,各類云服務與云產品五花八門、層出不窮,例如AWS和阿里云就分別提供超過一百種云產品和云服務,這些云服務中有許多是專有的,云廠商把這些專有服務變成自己區(qū)分于其他廠商的手段。這導致云計算市場缺乏事實上的標準......盡管不少人呼吁云計算標準化,但云的差異化卻日益增長。目前大多企業(yè)數據中心基礎設施不斷云化,為了減少對單一廠商的依賴、使企業(yè)能夠充分利用每個廠商的相對優(yōu)勢、優(yōu)化云的使用和成本,企業(yè)通常不會只選用一家云廠商的產品。但是引入的云廠商越多,管理任務就會變得越復雜。這導致云管理技術迅速發(fā)展,試圖解決各家云廠商服務之間存在的技術壁壘問題。
全棧云作為G行123+N數字化銀行發(fā)展體系中基礎技術平臺的云計算平臺,目前已正式投產運行,標志著建云任務已初步完成,但云的建成只是起點,用好云管好云才是難點和重點,“雙棧并舉、一棧多芯”的技術架構給我們帶來了豐富的技術應用場景,但也帶來了使用和管理上的復雜性。建立成熟的云管理方法論、以平臺工具支撐,將是接下來發(fā)揮云效能、為企業(yè)創(chuàng)造價值的關鍵。本文主要介紹G行為什么要把全棧云納入其云管理體系中。
二、G行云管理平臺建設回顧
時間回到2014年,隨著G行對云計算平臺建設的快速推進,G行總行生產云、分行生產云、全行開發(fā)測試云已初具規(guī)模,基礎設施涉及X86架構、超融合架構、Power小機,私有云涉及VMwarevSphere、FusionSphere、OpenStack、KVM、Hyper-V、小機虛擬化等技術。云基礎設施環(huán)境相對復雜,而云計算平臺的資源規(guī)模在G行基礎設施中的占比越來越大,如何對云進行有效管理并顯著提高云架構帶來的收益,這一問題在當時給G行基礎設施管理帶來了巨大的挑戰(zhàn),G行云管理平臺項目在這個背景下應運而生。
G行云管理平臺的建設目標如下:
提升異構基礎架構統一納管能力,支持超多家云廠商異構資源的納管。
- 精細化的管理,除各類計算資源外還可管理NAS、防火墻、F5、各類數據庫、中間件等各類服務。
- 個性化的服務供給,支持用戶自助服務編排。
- 支持跨部門跨團隊協作,提供7*24小時用戶自助服務,服務工單自動跟蹤催單,加快服務效率。
- 提供一整套云上資源運維工具與規(guī)范。
- 加強運維過程安全機制,對各種異構資源、用戶使用資源具體行為等進行安全審核與監(jiān)控。
三、為什么要把全棧云納入云管理體系?
站在建云的角度,全棧云的建設是先進的,這里不再說明,讀者可以回顧全棧云建設篇。站在用云、上云、管云的角度,全棧云是復雜的,“雙棧并舉、一棧多芯”的技術架構給我們帶來了豐富的技術應用場景,但也帶來了使用和管理上的復雜性。首先,對于應用系統項目組來說,全棧云技術壁壘較高,“VPC、VBC、安全組、EIP、LB、微隔離...”映入眼簾的首先是一堆新概念,心里首先會產生畏懼感。所以我們設立了全棧云運營小組,讓應用交付人員來做全棧云咨詢的工作,幫助項目組理解這些技術概念、梳理系統上云結構。
圖1
站在云管理的角度,通過我們積累的云管理標準與體系,整合并封裝全棧云雙技術棧,對應用系統屏蔽掉他們并不關心的技術細節(jié),把全棧云試運營過程中固定下來的經典的應用部署模型與云服務目錄通過G行云管理平臺線上提供,同時也支持項目組根據自己的需求進行可視化、拖拉拽式的調整,自動生成上云工單。我們的應用交付人員對工單進行審批和調整,以業(yè)務和服務為視角,將單一或多個應用以不同的業(yè)務或應用場景可視化的編排為應用集群,實現一鍵自動化的跨云部署。這對于整個全棧云運營來說,是極大釋放生產力的。
圖2:云管理平臺云資源編排引擎
四、推進云管理服務生態(tài)建設
G行123+N數字化銀行發(fā)展體系中的‘2’代表兩大平臺,一是云計算平臺、二是大數據平臺,在這個體系中云計算平臺最關鍵的任務就是推進全行應用系統上云,所以最能衡量全棧云的指標就是上了多少應用系統、尤其多少關鍵、重要的應用系統,應用系統上云的的確確是我們的第一要務。但是應用系統上全棧云絕不是我們硬生生把應用系統抬上去,因為上云對于系統來說只是開始,不是結束。我們要站在應用系統角度思考,我們給應用系統帶來了哪些。除了更豐富的云服務,提供基礎的計算、存儲和網絡云服務外,我們還要努力推進云管理服務生態(tài)的建設,提供災備即服務:為核心業(yè)務提供數據可靠性和業(yè)務連續(xù)性保障;安全即服務:支持租戶靈活按需申請安全服務能力;PaaS服務:為滿足容器、微服務架構,以及中間件和數據庫的服務化能力,其他還包括全棧云韌性能力、應用流量可視化、DNS服務、容器安全等,為應用系統上云做好周邊服務,解決其后顧之憂。
我們也要對全棧云本身進行治理和加固,努力提高云資源使用率、降低云資源浪費,通過我們積累的云管理流程與算法,推進云的可持續(xù)發(fā)展,積極響應我國碳中和戰(zhàn)略。同時對全棧云基礎架構,云和數據資源、應用等多種資源監(jiān)控告警、日志分析、調用鏈展示等,將被動告警變主動監(jiān)控。用多種告警壓縮方法(匯聚,閃斷,震蕩,關聯,屏蔽)來提供故障快速定位能力,減少監(jiān)控的告警數量;將支持基于對象關系的告警關聯方法,高效定位故障。同時故障自動工單派發(fā),故障自愈,實現端到端自動閉環(huán)。增加AI手段,包括KPI異常檢測(動態(tài)基線),自動檢測指標數據是否異常,如果判斷異常則產生告警;容量預測,通過對云存儲歷史數據的分析,模型訓練,預測未來時間段的容量使用趨勢。
圖3
不管是全棧云,還是以后的云平臺,我們都應以“傳統設施即服務”的觀念,基于我們在云管理領域的積累,圍繞任何IT即服務,實現‘交付’和‘治理’全覆蓋。真正實現以業(yè)務為中心,面向服務,側重資源和應用治理,加快業(yè)務創(chuàng)新,推動G行IT云化從前期的資源建設向能力建設轉型,實現了以業(yè)務價值為導向驅動IT建設的目標。同時為數據中心賦能,構建最符合G行的實際使用場景,讓云管理成為“科技業(yè)務”的“入口”。向下提供各類IT資源及能力的通道,向上提供各種框架,包括審批流程自定義、應用編排應用編排、作業(yè)編排、IT能力編排、計量計費引擎、自定義報表等,實現廣泛的IaaS、PaaS各類應用服務,支持廣泛的異構資源,同時將能力對外圍系統開放。
圖4