G行云計算系列之全棧云運營篇
引言
全棧云作為G行123+N數(shù)字化銀行發(fā)展體系中基礎技術平臺的云計算平臺,目前已正式投產運行,標志著建云任務已初步完成,但云的建成只是起點,用好云才是難點,建立成熟的方法論、平臺工具和人力支撐,將是接下來發(fā)揮云效能、為企業(yè)創(chuàng)造價值的關鍵。為此,本文結合業(yè)內實踐和G行現(xiàn)狀,分享下G行全棧云運營體系構建的實踐經驗。
圖1 建云和用云
01運維與運營的區(qū)別
準確來講,運維和運營沒有明確的分界線,是不同的能力階段。簡而言之,運維是為了保證產品能夠高效穩(wěn)定地服務用戶,運營則是為了幫助用戶更好地使用產品,并輔助運營主體發(fā)現(xiàn)用戶需求、改進產品能力。全棧云場景下,兩者的差異主要體現(xiàn)在服務目標、服務對象、服務內容等三方面。
1. 服務目標方面。運維的主要目標是保障全棧云穩(wěn)定運行,能夠持續(xù)交付用戶所需的云資源;運營的主要目標是向用戶提供其所需的服務,并保證用戶獲得服務的滿意度,同時維持合理的服務成本,使應用上云產生真正的價值。
2. 服務對象方面。運維活動側重于全棧云的軟硬件層面,服務對象主要包括網絡、存儲、服務器、安全設備等基礎設施及平臺軟件;運營活動則偏重云服務及平臺用戶層面,服務對象主要指平臺用戶及服務SLA。
3. 服務內容方面。運維活動內容主要包括平臺軟硬件的故障處理、配置方案設計和配置變更等;運營活動內容主要包括平臺演進和容量管理、應用上云支撐、云上應用的運行保障等。
02全棧云運營體系的構建思路
2.1 概述
運營管理活動包括運營目標、運營方針、運營模式、運營體系等四個層次。運營目標是組織運轉的中長期目標,建立在其責任與定位基礎上。運營方針是為達成運營目標而提出的在一定時期內的總體性指導意見,是實現(xiàn)運營目標的主要途徑和重點方向。運營模式是運營的總體方式方法,說明了在運營方針的指導下運營要素的定義及運營要素之間關系。運營體系則是運營目標、運營方針、運營模式等抽象理論指導在企業(yè)內的具體實踐落地。
圖2 運營管理概念圖
總而言之,運營目標和運營方針用于指導運營模式的建立,運營模式用于指導運營體系的規(guī)劃,運營體系則用于支撐運營模式的維持和運轉。
2.2 運營目標
云的運營目標通常包括以下幾方面內容:
1. 為企業(yè)應用提供滿足其運行要求的服務,即設計、開發(fā)、建設、交付貼近企業(yè)應用運行要求服務,并盡可能實現(xiàn)能力共享。
2. 實現(xiàn)友好的服務交付過程,即制定合理的服務申請、審核和交付過程,能夠按時、按質、按量交付應用運行所需要的服務。
3. 設備資源的有效利用,即在充分滿足應用運行需求的基礎上降低設備和平臺的采購、建設、維護成本。
現(xiàn)階段G行全棧云的運營目標是實現(xiàn)資源的精細化管理和敏捷交付,支撐金融科技創(chuàng)新。
2.3 運營方針
云的運營方針在運營的不同階段,應根據企業(yè)戰(zhàn)略和用戶需求的轉變而調整。建設初期的工作重點在于提升服務交付能力,建設中期的工作重點在于提升產品質量和產品豐富程度,建設后期的工作重點則在于提升客戶滿意度。運營方針的改變影響到組織的力量投入與政策傾斜,可能會造成運營模式的調整。
全棧云現(xiàn)階段運營方針為立足企業(yè)級服務視角,以用戶為中心,業(yè)務需求為導向,通過快速迭代完善全棧云運營體系建設,實現(xiàn)面向公司各級業(yè)務主體的價值創(chuàng)造,助力運營目標的實現(xiàn)。
03全棧云運行體系的設計實踐
3.1 運營框架
關于云的運營,業(yè)內暫無通用解決方案,大多仍參考華為、阿里等商業(yè)化云服務提供商的運營模式體系。G行主要參考了華為云的運營模式,結合全棧云運營現(xiàn)狀和差距分析,以典型場景和需求為載體,構建了“兩大運營內容、四大支撐體系”的運營體系框架,旨在實現(xiàn)IT資源、能力服務的“企業(yè)級”共享。其中,兩大運營內容包含平臺運營、應用運營,四大支撐體系包括組織體系、流程體系、工具體系、評價體系。
圖3 全棧云運營框架設計
3.2 運營內容
3.2.1 平臺運營
以全棧云的穩(wěn)定運行為基礎,面向客戶業(yè)務需求,適配不同的服務和技術要求,保障業(yè)務應用的可靠運行,同時兼顧平臺自身的優(yōu)化和擴展。從自身的服務要求出發(fā),可以拆分為租戶精細運營、可視化運營、自動化運維三大專題:
1)租戶精細化運營:通過多級租戶分權分域管理、租戶計量機制、云服務產品目錄管理、以及各級租戶的容量管理達到租戶按組織層級管理的便捷性。
2)可視化運營:通過數(shù)據中心展示、租戶資源展示、應用性能展示了解硬件資源和云資源狀態(tài)情況,監(jiān)控各級租戶資源分配及使用情形,掌握應用資源、組件、KPI、應用拓撲等性能趨勢。
3)自動化運維:通過運行保障、故障智能診斷、維護操作自動化構建全棧云場景下自動化運維能力,實現(xiàn)運維流程的集中化、標準化、規(guī)范化,故障診斷的場景化和智能化,有效降低因重復操作帶來的工作壓力,降低操作風險,提高運維質量,提升運維效率和滿意度。
3.2.2 應用運營
面向用戶的業(yè)務需求,提供具有針對性的定制化運營服務,解決用戶在應用上云過程中的問題,指導用戶快速上云。應用運營根據上云過程行為分成業(yè)務快速上云、應用開發(fā)支持、資源按需供給專題:
1)業(yè)務快速上云:通過建立一套完整的上云評估機制,針對應用類系統(tǒng)上云可行性和風險進行分析,結合應用類系統(tǒng)需求從部署模型、資源交付、高可用架構等方面制定上云方案,并設計相應的云服務,構建開放共享的云服務清單,保證業(yè)務上云的便捷高效。
2)資源按需供給:對租戶項目的云資源配額進行審批、登記、部署、發(fā)放和狀態(tài)跟蹤,通過制定資源發(fā)放和回收策略,合理發(fā)放云資源并周期性重檢回收閑置的云資源,降低業(yè)務系統(tǒng)穩(wěn)定運行成本,確保資源合理分配和使用。
3.3 支撐體系
人員組織體系:遵循組織協(xié)同一體化、職責定義清晰化、活動處理流程化、團隊建設梯隊化、個人能力縱深化等原則,建議設立以下班組或團隊:調控組、運行組、產品組、客服組、交付組、專家組。
流程規(guī)范體系:為有效開展全棧云運營工作,實現(xiàn)服務能力和服務質量的持續(xù)提升,服務成本的持續(xù)優(yōu)化,適應從運維向運營的轉型,需重新規(guī)劃流程和規(guī)范,為運營服務提供流程體系保障。
工具平臺體系:按照標準化、模板化、工具化、自動化、智能化的持續(xù)演進原則,將運營過程中的各類技術和流程調用封裝成成熟、可靠、易用的工具產品,降低人員技能要求,降低人力成本,降低手工操作風險。圍繞應用上云和故障診斷,主要打造上云資源申請模板工具、資源交付監(jiān)控工具、上云遷移工具、調用鏈分析工具等支撐工具。
價值評價體系:從質量、進度、成本等維度,構建以“服務連續(xù)性指標”、“客戶服務指標”、“資源與能力建設指標”為核心的服務評價體系,搭建與運營體系相適應的能力模型和考核指標,通過對服務質量的分析,衡量內部團隊運作效率和外部運營效果,明確流程設計是否科學、上云服務是否及時等,激發(fā)運營人員的積極性和創(chuàng)造性,推動運營體系的改進和優(yōu)化。
總結
所謂“三分建設、七分運營”,云的建成只是起點,云的運營才是后續(xù)的重點。G行在設計全棧云運營體系時,充分分析了全棧云運營所面臨的問題與挑戰(zhàn),并結合現(xiàn)有的安全運營體系,按照“服務方式從被動向主動轉變,思維方式從成本導向向價值導向轉變”的工作思路,從運營目標、運營方針、運營模式、運營體系等四個層次完成了整體運營設計。希望以上內容也能夠為同業(yè)提供參考,同時G行也希望與同業(yè)開展深入交流,共同打造面向整個行業(yè)的運營解決方案。