WatsonAIOps - 釋放 AI 力量,讓 IT 運營效率和安全永續(xù)再上臺階
對于大多數(shù)依賴 IT 系統(tǒng)來支持任務(wù)關(guān)鍵型業(yè)務(wù)應(yīng)用的企業(yè)而言,信息技術(shù) (IT) 運營管理是一個令人頭疼的問題。
盡管工程師本著良好的初衷,進行了巧妙的設(shè)計,采用了可靠的開發(fā)實踐,但部署在企業(yè)中為關(guān)鍵業(yè)務(wù)應(yīng)用服務(wù)的軟件和硬件系統(tǒng)還是很容易出現(xiàn)中斷,每年都會造成數(shù)百萬美元的勞動力和收入損失,以及引發(fā)客戶的不滿。
為了更準確地預(yù)測 IT 宕機情況并做出回應(yīng),IT 團隊著手篩選從拓撲、日志、憑單和警報等來源中提取的數(shù)據(jù)。但是,即使有了這些不同的數(shù)據(jù)源和雜亂的工具,團隊仍然無法從單一的共享視角來解決宕機問題。幸運的是,IBM Cloud Pak for Watson AIOps 可以為您實現(xiàn)這一切!
日志異常預(yù)測
Watson AIOps 最新的日志異常檢測技術(shù)正在申請多項專利,它能夠從日志聚合工具(例如 Splunk、Humio、LogDNA 和 Logstash)中自動解析 IT 應(yīng)用和基礎(chǔ)架構(gòu)日志,以便實時自動檢測異常。這比基于閾值或錯誤字符串匹配類型的傳統(tǒng)警報技術(shù)要快得多,因而大大縮短了診斷事件的平均時間。我們使用深度學習算法在日志解析過程中從日志中提取特征,并進行異常預(yù)測。用戶不必設(shè)置靜態(tài)閾值或手動規(guī)則來檢測異常。它會積極地讓 IT 運維人員參與進來,診斷異常并解決事件。此外,它會解釋通過您選擇的 IT 工具集揭示出的洞察,這樣 IT 運維人員就可以在未來自動解決相同類型的事件。
指標異常預(yù)測
Watson AIOps 基于指標的異常檢測技術(shù)可以分析來自各種系統(tǒng)(例如 New Relic、AppDynamics 和 SolarWinds)的指標數(shù)據(jù),自動了解企業(yè)中指標的正常行為,并檢測其中的異常。它采用一套久經(jīng)驗證的時間序列算法來捕獲季節(jié)因素和重要趨勢,并執(zhí)行預(yù)測。
事件分組
事件表示 IT 運營環(huán)境中發(fā)生了值得注意的事情。例如,應(yīng)用不可用或磁盤容量已滿/空間不足等。事件分組和分類的目的是幫助 IT 運營管理人員減少干擾,讓他們集中精力解決一些需要及時關(guān)注的重要事件。Watson AIOps 使用多種算法(例如時間、空間和關(guān)聯(lián)規(guī)則挖掘)對從指標、日志和憑單中檢測到的異常進行分組,從而實現(xiàn)事件分組。
靜態(tài)和動態(tài)拓撲管理
應(yīng)用和網(wǎng)絡(luò)拓撲是指一種映射或圖表,它顯示了企業(yè)中不同任務(wù)關(guān)鍵型應(yīng)用之間的連接情況。靜態(tài)拓撲是指一種基于以上構(gòu)建而構(gòu)建的映射,并部署了應(yīng)用和基礎(chǔ)架構(gòu)組件信息。反之,動態(tài)拓撲是指一種動態(tài)映射,隨著環(huán)境在運行時發(fā)生變化,它可以捕獲資源及其關(guān)系,并提供近乎實時的相同可視性。
通過使用 Watson AIOps 中的拓撲管理器,您可以將當前拓撲與歷史拓撲進行比較,從而回答“發(fā)生了什么事?”和“正在發(fā)生什么事?”之類的問題。它可以幫助您調(diào)查導(dǎo)致事件發(fā)生的詳細信息,并查看拓撲(和狀態(tài))隨時間推移的變化。此外,可以在拓撲上確定故障位置。
故障定位和爆炸半徑
實體提及是在異常日志、警報、憑單和事件中引用的資源名稱(例如,服務(wù)或應(yīng)用組件名稱、服務(wù)器名稱、服務(wù)器 IP 地址、pod ID、節(jié)點 ID 等)。對事件進行分組后,將會提取異常日志、指標、警報和事件中的實體提及??梢允褂猛負滟Y源來解析這些實體,以便找到問題,并將識別出的實體放在相應(yīng)的動態(tài)拓撲實例上,這些實例與實體提及被發(fā)現(xiàn)的時間相匹配。通過遍歷應(yīng)用、基礎(chǔ)架構(gòu)和網(wǎng)絡(luò)層中的拓撲圖,我們能夠確定受影響的組件,稱為爆炸半徑。
事件解決
Watson AIOps 通過連接到 ServiceNow 之類的工具來提取和挖掘先前的事件憑單數(shù)據(jù),從而針對當前診斷出的問題提供及時且相關(guān)的最佳行動建議。當前事件特征可以用于查詢有索引的憑單數(shù)據(jù),不僅可以搜索和檢索最重要的相關(guān)先前事件記錄,還可以從每條相關(guān)記錄中提取重要的實體與操作(又稱名詞加動詞)短語,以便 SRE 輕松快速地了解建議的操作。我們應(yīng)用各種自然語言處理技術(shù)來提取實體與操作短語,包括基于規(guī)則的系統(tǒng)。
交付洞察和實施操作
在 Watson AIOps 中,上述所有洞察都是通過 ChatOps 和儀表板來提供。實時洞察通過 ChatOps 直接交付到 SRE 所在的工作地點。ChatOps 除了可以探索洞察證據(jù)外,還支持與其他協(xié)作者進行交互,分享精選的事件解決建議。通過 ChatOps,SRE 可以啟動日志、指標和憑單監(jiān)控工具,了解更多詳細信息。同樣,SRE 還可以啟動交互式儀表板,詳細探索事件、事件組、指標異常和拓撲。然后可以通過 Runbook 執(zhí)行來自動運行適用的操作/運行手冊。
關(guān)于人工智能模型生命周期管理的說明
Watson AIOps 采用一組具有代表性的指標、日志和憑單數(shù)據(jù),用于訓練和構(gòu)建無監(jiān)督模型。這些模型被設(shè)置為通過使用環(huán)境中的最新數(shù)據(jù)來持續(xù)學習,并根據(jù)用戶反饋進行改進。為了贏得信任,所有人工智能模型都具有透明和可解釋的特征,在 AI 預(yù)測和模型中提供信任和透明度,仍然是全球企業(yè)最關(guān)注的問題。
Watson AIOps 中的 AI 管道。
Watson AIOps 下一步將何去何從?
在下幾代 Watson AIOps 解決方案中,我們構(gòu)想了這樣一種 IT 運營環(huán)境,它不僅功能齊全,可觀察,具有自我意識,而且實現(xiàn)了自動和自主操作。AIOps 解決方案不僅能夠以被動響應(yīng)模式幫助解決問題,還可以通過從一開始就設(shè)計“開發(fā)、安全和運營 (DevSecOps)”生命周期活動,實現(xiàn)高效運營,提前避免發(fā)生問題。例如,智能檢查和關(guān)口可以防止有風險的部署進入生產(chǎn)環(huán)境,阻止未經(jīng)充分測試的代碼模塊以及帶有危險安全漏洞的代碼進入部署階段。我們迫不及待地想要塑造未來,邀您與我們一起踏上這段旅程。
了解更多IBM相關(guān):http://cloud.51cto.com/act/ibm2021q3/cloud#p2