監(jiān)控和智能運維助力DevOps平臺建設
譯文DevOps平臺的作用日趨重要,尤其是在通過DevOps模型執(zhí)行軟件交付的時候。DevOps平臺以開發(fā)者為中心,面向多租戶提供自助服務,同時是多云戰(zhàn)略的重要組成部分。它為開發(fā)者提供指引、標準化工具和技術,以便輕松的構建、測試和迭代產(chǎn)品。然而,在建立DevOps模型時,彈性擴展是一個不容忽視的核心功能。
DevOps將單一產(chǎn)品分解為更小但有價值的組件,這些組件可以作為獨立云服務進行交付。一旦建立基于此模型的交付團隊,它將以SLA(Service Level Agreements,服務等級協(xié)議)的形式提供服務。為了實現(xiàn)這些要求,必須建立健全的監(jiān)控和告警實踐。與其他任何DevOps實踐一樣,自動化運維是終極目標。但是,當面對監(jiān)控和告警信息時,AIOps平臺則是黃金標準。
平臺價值
如果沒有AIOps平臺,告警信息和事件數(shù)量可能會迅速失控。如何識別并關聯(lián)來自不同系統(tǒng)的告警信息,特別是來自獨立系統(tǒng)或團隊的告警信息,同樣是亟待解決的問題。至關重要的是,在問題事件發(fā)展到很嚴重之前,沒有內(nèi)置的智能程序可以協(xié)助預測并識別問題,因此像機器學習這樣的高級工具和技術是無法進行自我修復的。
為了確保構建有效的AIOps平臺,必須深入理解監(jiān)控數(shù)據(jù)。對致力于實現(xiàn)AIOps目標的DevOps工程師來說,創(chuàng)建可以對告警信息進行優(yōu)先級排序,并將結果傳遞至高級修復工具中的監(jiān)控平臺是非常必要的。P1(Priority 1,優(yōu)先級1)事件總是需要立即響應,但是P1級別的事件很少。對于客戶來說,更常見的是低級別事件。然而,跨系統(tǒng)的低級別事件碰到一起,很可能會導致嚴重的問題。理解和響應這些需求,并關聯(lián)不同系統(tǒng)的告警信息,需要建立健全的監(jiān)控系統(tǒng)。
如果想要這些修復措施產(chǎn)生效果,就需要建立事件之間的關聯(lián)關系,而這些關聯(lián)關系需要依據(jù)規(guī)則庫建立,并通過自動化工具進行管理。需要明確的是,先進的監(jiān)控系統(tǒng)會提供更多的告警信息,因此監(jiān)控的擴展能力將變得很重要。這就是云原生DevOps平臺最有價值的部分,因為它提供了有效的方法,以快速管理不斷增長的數(shù)據(jù)量。
“左移”和“右移”
要轉向AIOps模型,需要對實踐和工具的左移和右移進行組合并實施。這意味著在開發(fā)階段的早期,就需要結合來自產(chǎn)品線持續(xù)的反饋,優(yōu)先考慮監(jiān)控。一旦在此模型下大規(guī)模管理監(jiān)控和告警信息,就可以通過AIOps平臺來利用機器學習和其他先進分析技術將這些任務自動化管理,進而獲得更積極、有效和動態(tài)的觀測和修復能力。最終,通過滿足服務等級目標、改進交付體驗和提升客戶滿意度,公司將更具彈性。
如果沒有AIOps平臺,修復措施將需要不同領域(從云基礎設施到應用系統(tǒng)架構)的專家共同開會,以確定事件的根本原因,這將消耗大量的時間和資源。AIOps平臺可以確保在P1事件發(fā)生時將關聯(lián)告警信息立即通報相關領域專家,從而減少服務中斷時間,并采取有針對性的補救措施。
提升開發(fā)者和用戶體驗
如果服務提供商希望建立先進的DevOps生態(tài),AIOps是必不可少的。它可為開發(fā)者提供安全的CI/CD管道,為產(chǎn)品變更提供有效保障。由于產(chǎn)品質量驗證是自動化的,因此這進一步提高了企業(yè)的“右移”能力。這一舉措自然減輕了開發(fā)者在質量管理方面的負擔,也減少了同行評審的要求。因為應用程序和功能特性可以安全的快速迭代,同時服務可用性也得到持續(xù)維護和優(yōu)化,因此AIOps模型同樣提升了客戶滿意度。
研究表明,大多數(shù)事件(74%)發(fā)生時客戶是先于支持團隊發(fā)現(xiàn)問題的。66%的現(xiàn)有監(jiān)控解決方案僅僅識別了不足一半的性能故障或中斷問題,而且隨著IT系統(tǒng)(特別是由云服務引起的)復雜性增強,將會導致更多的中斷問題發(fā)生。當這些問題逐漸暴露,向更加智能的解決方案靠攏,自然是非常清晰且迫切的需求。現(xiàn)在的客戶不僅希望服務提供商的服務可用性水平幾近百分百,同時還要求服務表現(xiàn)可視化。
監(jiān)控平臺可以通過先進的報表和數(shù)據(jù)工具提供可視化服務,從而輕松的創(chuàng)建多用途的儀表板(儀表數(shù)據(jù)展示界面)。這些數(shù)據(jù)同樣可以被DevOps工程師用來創(chuàng)建自我修復的工作流,這些工作流可以被內(nèi)嵌在AIOps平臺,進一步提升開發(fā)人員體驗。
在構建DevOps平臺時,DevOps工程師的最終目標是開發(fā)一個為開發(fā)人員量身定制的環(huán)境。減少開發(fā)人員在實現(xiàn)各種操作(例如安全、測試和監(jiān)控功能)中花費的時間,讓他們可以專注提升交付服務,為開發(fā)人員和客戶創(chuàng)造更好的體驗。通過AIOps平臺將自動化引入修復任務,可大大降低生產(chǎn)階段報錯的可能。這就是所有服務提供商在其DevOps戰(zhàn)略中所追求的目標模型。
譯者介紹
仇凱,51CTO社區(qū)編輯,目前就職于北京宅急送快運股份有限公司,職位為信息安全工程師。主要負責公司信息安全規(guī)劃和建設(等保,ISO27001),日常主要工作內(nèi)容為安全方案制定和落地、內(nèi)部安全審計和風險評估以及管理。
原文標題:How Monitoring and AIOps Delivers the Ultimate DevOps Platform,作者:Prashant Jain