存儲管理和AIOps
隨著人們向基于服務的基礎(chǔ)設(shè)施部署和自動化程度的提高,存儲管理員的角色正在發(fā)生變化。智能運維(AIOps)提供了一個框架,既可以減輕資源管理中繁瑣任務的負擔,同時也解決了通過擴展人力資源無法解決的挑戰(zhàn)。以下將探討AIOps的內(nèi)容以及供應商如何滿足客戶的需求。
背景
AIOps是調(diào)研機構(gòu)Gartner公司在2016年創(chuàng)造的一個術(shù)語。它描述了三個學科(自動化、性能管理和服務管理)組成一個框架來改進基礎(chǔ)設(shè)施管理員的能力,其實現(xiàn)由多個層組成。
- 第1層–數(shù)據(jù)源。實現(xiàn)自動化以及管理員執(zhí)行的典型任務需要配置和使用數(shù)據(jù)。這包括來自系統(tǒng)的遙測和應用程序。
- 第2層–實時處理。這意味著實時收集和處理遙測數(shù)據(jù),以獲取即時價值。
- 第3層-規(guī)則/模式。需要使用已經(jīng)確定的規(guī)則和模式來分析數(shù)據(jù)。供應商已經(jīng)在開發(fā)算法,這些算法可以使用PB級的遙測分析,并將其轉(zhuǎn)換為諸如異常檢測和故障診斷之類的工具。
- 第4層–域算法。其中包括特定于站點的知識,以了解本地化的使用模式和要求。
- 第5層–自動化。使用應用程序接口(API)和命令行界面(CLI)來驅(qū)動諸如供應和退役(面向客戶)之類的任務。這還包括自動化性能管理,例如在可用基礎(chǔ)設(shè)施中重新平衡工作負載。
跨越所有這些層的是使用機器學習來觀察和檢測遙測數(shù)據(jù)中的趨勢,異常,這對于工作人員而言是不切實際或無法計算的。因此需要了解人工智能/機器學習如何協(xié)助提供更有效的數(shù)據(jù)和存儲管理。
人為因素
為什么企業(yè)需要在存儲管理中引入諸如AIOps之類的工具?雖然全球創(chuàng)建的信息量繼續(xù)呈指數(shù)級增長,但企業(yè)中生成的數(shù)據(jù)(更重要的是存儲在企業(yè)中的數(shù)據(jù))也呈指數(shù)級增長。以前被丟棄甚至沒有創(chuàng)建的數(shù)據(jù)如今被視為具有某種可感知的未來價值。企業(yè)越來越多地使用機器學習和人工智能,從越來越多的機器生成的數(shù)據(jù)獲取信息。企業(yè)現(xiàn)在正在存儲數(shù)PB字節(jié)的信息,并希望對此進行實際操作。
敏捷性
業(yè)務流程正在推動對數(shù)據(jù)存儲容量的更大需求,但這只是IT組織所面臨挑戰(zhàn)的一方面。平均修復時間(MTTR)對于確保基礎(chǔ)設(shè)施可用性水平接近100%變得至關(guān)重要。IT組織通常希望在問題發(fā)生之前就識別并解決問題,而不是等待嚴重的失敗。
- 存儲和數(shù)據(jù)保護中對API的需求;
- 存儲的智慧;
- 存儲管理和DevOps。
減少或管理硬件干預措施還有其他積極方面。IT部門希望將工程師在數(shù)據(jù)中心更換故障設(shè)備的時間降到很低。任何數(shù)據(jù)中心干預都是一種風險。眾所周知,工程師會因更換而拔出錯誤的硬件,或者意外地碰到設(shè)備并造成意外的停機或重啟。
隨著企業(yè)之間的競爭,從數(shù)據(jù)分析中獲取價值的時間越來越短。這意味著開發(fā)人員希望在更短的周期內(nèi)訪問存儲設(shè)備,最好是自動化和按需訪問。隨著資源的創(chuàng)建、使用和返回到數(shù)據(jù)池中,人們預計其配置越來越靈活,這是任何存儲管理員都無法有效跟蹤的。
第1層-指標
為了實現(xiàn)有效的AIOps,系統(tǒng)需要測量存儲操作信息的元數(shù)據(jù)和度量。這些端點從存儲系統(tǒng)的物理和邏輯方面收集數(shù)據(jù)。例如,單個HDD硬盤或SSD硬盤操作的數(shù)據(jù)提供了有關(guān)溫度、永久性和瞬態(tài)介質(zhì)故障、吞吐量、性能和設(shè)備正常運行時間的信息。此集合擴展到存儲機箱,記錄有關(guān)前端端口活動、處理器和內(nèi)存負載、服務器溫度和室溫的統(tǒng)計信息。
數(shù)據(jù)收集不僅限于硬件。存儲軟件非常復雜,許多供應商已將其設(shè)計模塊化。軟件端點可以跟蹤內(nèi)部應用程序崩潰、過度使用內(nèi)存、硬件驅(qū)動程序中的錯誤以及甚至用于驅(qū)動軟件的命令的使用。最后一點看起來似乎是一個不尋常的指標,但是,查看最終用戶是否在充分利用可用的命令功能或配置正確的最佳實踐選項集可能會很有用。
第2、3和4層–實時處理
如果無法實時進行整理和分析,那么所有這些信息都將毫無用處。通常,人們看到兩層分析方法。首先,供應商將數(shù)據(jù)整理到大型的中央存儲庫或數(shù)據(jù)倉庫中,這些存儲庫或數(shù)據(jù)倉庫代表了整個客戶安裝群中數(shù)以萬億計的各個端點數(shù)據(jù)。
這些數(shù)據(jù)集合提供了足夠的信息,可以對硬盤故障或可能影響整個客戶群的配置問題進行統(tǒng)計分析。作為信息的長期存檔,供應商使用這些數(shù)據(jù)來修復硬盤固件中的錯誤或主動替換易發(fā)生故障的介質(zhì)。這個數(shù)據(jù)源還可用于驗證存儲操作系統(tǒng)軟件的質(zhì)量。
最終,這種類型的數(shù)據(jù)收集對供應商有利,因為它有助于提高系統(tǒng)可用性并減少由字段引發(fā)的支持調(diào)用的數(shù)量。不過,客戶也看到了好處。通過代碼更新可能引入的錯誤或其他問題可以避免或減輕。向管理員提供信息以做出明智的決策,而不是遇到其他客戶已經(jīng)遇到的問題。
異常現(xiàn)象
整理大量單個客戶數(shù)據(jù)的第二個好處是能夠使用機器學習和人工智能技術(shù),突出配置中的異常或問題。這些場景可能包括確定性能熱點、容量或吞吐量的意外增長,或基礎(chǔ)設(shè)施的其他組件(如主機或虛擬機監(jiān)控程序?qū)?中的配置數(shù)據(jù)問題。
供應商越來越多地提供識別勒索軟件,在多個硬件配置之間重新平衡工作負載,并為將來的升級或硬件更換提供建議的功能。最后一個選項特別有用,因為它允許管理員建立一個模型,該模型選擇最有效的新硬件配置進行升級和替換。
人工智能/機器學習
在討論過程中,都提到了機器學習和人工智能的使用。為什么這一點作為現(xiàn)代基礎(chǔ)設(shè)施管理的特征變得如此重要?在存儲領(lǐng)域,管理員將認識到許多問題很容易消耗數(shù)小時或數(shù)天的工作時間。
一些良好的例子包括確定性能熱點(并加以解決)、跨系統(tǒng)(前端或后端)平衡I/O活動以及跨多個存儲平臺管理容量增長。幸運的是,通過設(shè)計、現(xiàn)代存儲解決方案可以自動解決許多挑戰(zhàn),從而節(jié)省管理員數(shù)小時的時間來處理更有價值的任務,從而為他們的客戶增加價值。
盡管在設(shè)計上取得了這些進步,但是仍然出現(xiàn)了人類難以識別的異?,F(xiàn)象(勒索軟件就是一個很好的例子)。人工智能提供了自動分析大量數(shù)據(jù)并創(chuàng)建經(jīng)過訓練的模型的功能,然后可以對活躍系統(tǒng)進行實時分析。
新工具
人們需要新的管理工具才能利用AIOps的優(yōu)勢。存儲供應商已經(jīng)開始從基于GUI的系統(tǒng)轉(zhuǎn)移到管理界面,現(xiàn)在提供命令行界面(CLI)和應用程序接口(API)。命令行界面(CLI)提供了將命令集成到腳本和自動構(gòu)建過程中的能力。應用程序接口(API)提供了更高級的交互級別,尤其是在提取報告或遙測數(shù)據(jù)時。
這并不意味著圖形界面就此終結(jié)。實際上,更加精明的存儲供應商已經(jīng)轉(zhuǎn)向使用GUI作為顯示系統(tǒng)狀態(tài),顯示增長和性能趨勢的儀表板,并且通常轉(zhuǎn)向基于異常的系統(tǒng)基礎(chǔ)設(shè)施可視化。
評估供應商
人們應該如何在供應商AIOps解決方案之間進行選擇?這是選擇產(chǎn)品時要遵循的一些指示。
- 供應商是否正在收集并積極使用遙測數(shù)據(jù)?
- 如何將問題反饋給存儲管理員(警報、電子郵件、儀表板)?
- 從存儲平臺外部收集了多少信息?
- 數(shù)據(jù)如何匿名和保護?
最后一點,因為許多IT組織將關(guān)注共享存儲庫中存儲的數(shù)據(jù)的安全性。存儲供應商應該能夠準確說明如何存儲和管理數(shù)據(jù),包括隨著時間的推移顛覆非必要數(shù)據(jù)的過程。
架構(gòu)師的觀點
盡管自動化永遠無法完全取代存儲管理員,但是諸如使用AIOps實現(xiàn)的功能可以提高存儲團隊的效率,并使管理員騰出更多精力從事更有價值的任務,例如與企業(yè)緊密合作以應對未來需求。企業(yè)中數(shù)據(jù)的增長速度意味著企業(yè)必須找到提高單個團隊成員效率的方法。如果沒有AIOps之類的解決方案,企業(yè)將難以與競爭對手進行競爭,并可能無法充分利用數(shù)據(jù)資產(chǎn)。