解密AIOps:Tech Neo第十四期技術(shù)沙龍精彩回顧
原創(chuàng)運維領(lǐng)域數(shù)據(jù)龐雜,如何開辟一條蹊徑是很多運維人員在探索思考的事情。
隨著AI技術(shù)在各個應(yīng)用領(lǐng)域的落地及實踐,IT運維也將迎來一個智能化運維的新時代。算法的效率提升了AIOps的價值,通過持續(xù)學習,智能運維將把運維人員從紛繁復(fù)雜的告警和噪音中解放出來。那么,基于算法的IT運維與自動化運維的區(qū)別是什么?在現(xiàn)階段,運維中的哪些痛點適合引入人工智能技術(shù)?如何加速落地?
8月26日下午51CTO在北京舉辦了第十四期以“Tech Neo”為主題的技術(shù)沙龍活動,進一步拓寬運維/開發(fā)人員的運維思路、激發(fā)創(chuàng)新能力。51CTO在本次沙龍活動中邀請了來自清華計算機系副教授,智能運維算法專家裴丹老師、搜狗SRE負責人黃昕老師,以及京東金融資深架構(gòu)師沈建林老師,通過基于算法的IT運維實踐與探索,和運維/開發(fā)者一起探討全新的AIOps實現(xiàn)方式,開啟智能運維新時代。
從報警到預(yù)警——如何有效提升SLO
活動開始,***位分享的講師是來自搜狗SRE負責人黃昕老師一開場就提出如何建立SLO,讓運維的工作可評價?在整個分享過程中,黃昕老師把整個過程分為五個部分:***是要使得業(yè)務(wù)線的信任,第二,通過了解業(yè)務(wù)需求,明確穩(wěn)定性需求,第三,避免不可抗力,第四,根據(jù)需求選擇監(jiān)控系統(tǒng),第五,數(shù)據(jù)先行,不要在意一城一池的得失。
對于預(yù)警系統(tǒng)的實現(xiàn),黃昕老師分享了以下5個方式:
- 信息的產(chǎn)生和收集
- 對數(shù)據(jù)的清洗和合并
- 規(guī)則庫的管理
- 數(shù)據(jù)的實時處理
- 在故障前報警,對用戶無感
預(yù)警系統(tǒng)框架
***,黃昕老師還與在場的運維開發(fā)人員交流了運維準入門檻,故障自動恢復(fù),以及未來的展望。
智能運維如何落地
接下來,由清華計算機系副教授,智能運維算法專家裴丹教授為大家分享智能運維如何落地內(nèi)容。在演講開始,裴丹教授通過運維背景介紹,普世化智能運維關(guān)鍵技術(shù),意在讓所有公司都能用上***的智能運維技術(shù)。裴丹教授認為,解決智能運維普世化的問題在數(shù)據(jù)、算法、算力、人才方面上。
第二部分是分解定義智能運維中的關(guān)鍵技術(shù),通過分解關(guān)鍵技術(shù)來定義科研問題。裴丹老師指出的科研問題要求分別為:
***:清晰輸入,數(shù)據(jù)可獲得;
第二:清晰輸出,輸出目標切實可行;
第三:有high-level的技術(shù)路線圖;
第四:有參考文獻;
第五:非智能運維領(lǐng)域的學術(shù)界能理解能解決。
***,裴丹教授還指出,Gartner報告中關(guān)于智能運維的問題描述太寬泛。
智能運維如何做好?裴丹教授認為,機器學習本身有很多成熟的算法和系統(tǒng),及其大量的優(yōu)秀的開源工具。 如果成功的將機器學習應(yīng)用到運維之中,還需要三個方面的支持:數(shù)據(jù), 標注的數(shù)據(jù),應(yīng)用。
數(shù)據(jù):互聯(lián)網(wǎng)應(yīng)用本身具有海量的日志。需要做優(yōu)化存儲。 數(shù)據(jù)不夠還需要自主生成。
標注的數(shù)據(jù):日常運維工作會產(chǎn)生標注的數(shù)據(jù)。 比如出了一次事件后,運維工程師會記錄下過程, 這個過程會反饋到系統(tǒng)之中, 反過來提升運維水平。
應(yīng)用:運維工程師師智能運維系統(tǒng)的用戶。 用戶使用過程發(fā)現(xiàn)的問題可以對智能系統(tǒng)的優(yōu)化起正向反饋作用。
***裴丹教授通過智能運維的三個案例,基于與百度運維、搜索部門的合作分享。***個案例是基于機器學習的KPI自動化異常檢測。
上圖表示運維人員判斷kpi曲線的異常并標注出來, 系統(tǒng)對標注的特征數(shù)據(jù)進行學習 。(典型的監(jiān)督式學習),這里需要高效的標注工具來節(jié)省運維人員的時間: 如可以拖拽,放大等方式。***,裴丹教授在通過構(gòu)建KPI異常檢測系統(tǒng)中分享了相關(guān)的實踐與挑戰(zhàn)等相關(guān)的解決方案。
人肉運維進階
***一位來來自京東金融資深架構(gòu)師 沈建林老師,分享人肉運維進階內(nèi)容。沈建林老師開場通過運維的理想與實現(xiàn),談?wù)勛约簩\維工作的一些看法,接著通過服務(wù)監(jiān)控的使命切入本次分享的主題。在服務(wù)監(jiān)控設(shè)計原則中,沈建林老師分為六大部分,分別為微內(nèi)核、樂觀策略、零侵入、約定大于配置、動態(tài)路由、集中管控等原則來設(shè)計。
在第三部分技術(shù)實現(xiàn)內(nèi)容的分享中,沈建林老師通過日志采集方案對比、分布式服務(wù)跟蹤的挑戰(zhàn)、SGM整體技術(shù)架構(gòu)、SGM Agent靜態(tài)架構(gòu)、SGM Agent動態(tài)架構(gòu)、SGM Agent采集內(nèi)容、SGM擴展方式等等技術(shù)手段,解決了從人肉運維到進階的技術(shù)實現(xiàn)方式。
分享結(jié)束后,參會的運維/開發(fā)者與分享嘉賓就當前運維技術(shù)新概念、框架、思路,和目前工作中遇到的一些問題以及針對嘉賓分享的內(nèi)容提出自己的疑惑和想法進行交流、學習,得到嘉賓的指導和建議。
51CTO Tech Neo技術(shù)沙龍是51CTO在2016年開始定期組織的IT技術(shù)人員線下交流活動,目前僅限北京地區(qū),周期為每月1次,每期關(guān)注一個話題,范圍涉及大數(shù)據(jù)、云計算、機器學習、物聯(lián)網(wǎng)等多個技術(shù)領(lǐng)域。