自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一份優(yōu)秀的設(shè)計參考:備份系統(tǒng)運行數(shù)據(jù)收集及分析方法

存儲 數(shù)據(jù)管理
數(shù)據(jù)備份是為應(yīng)對潛在的數(shù)據(jù)丟失風(fēng)險,而將業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)加以復(fù)制并轉(zhuǎn)儲到備份存儲的工作。為統(tǒng)一調(diào)度不同的數(shù)據(jù)備份作業(yè),集成管理數(shù)據(jù)備份服務(wù)器以及不同類型的備份存儲介質(zhì),企業(yè)需要規(guī)劃建設(shè)與業(yè)務(wù)系統(tǒng)架構(gòu)相適應(yīng)的數(shù)據(jù)備份系統(tǒng)。

前言

信息系統(tǒng)的運行雖然遵循一定的運行規(guī)律,但也呈現(xiàn)出動態(tài)的、易干擾、難以預(yù)測的特征。對于 IT 系統(tǒng)運維人員來說,我們最關(guān)注的是系統(tǒng)的穩(wěn)定運行,有時會過于擔(dān)憂系統(tǒng)的運行風(fēng)險,有時也對某些運行中的風(fēng)險麻痹大意,甚至在面對潛在的、未知的故障時,還會十分恐慌??謶衷从谖粗?, IT 運維人員需要克服這種恐懼,讓運維從容不迫。本文將從個人運維實踐經(jīng)驗出發(fā),研究設(shè)計備份系統(tǒng)運行數(shù)據(jù)采集及分析方法,從而能更加洞察系統(tǒng)的運行規(guī)律,希望對同行有一定的借鑒和參考價值。

1. 需求?

數(shù)據(jù)備份是為應(yīng)對潛在的數(shù)據(jù)丟失風(fēng)險,而將業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)加以復(fù)制并轉(zhuǎn)儲到備份存儲的工作。為統(tǒng)一調(diào)度不同的數(shù)據(jù)備份作業(yè),集成管理數(shù)據(jù)備份服務(wù)器以及不同類型的備份存儲介質(zhì),企業(yè)需要規(guī)劃建設(shè)與業(yè)務(wù)系統(tǒng)架構(gòu)相適應(yīng)的數(shù)據(jù)備份系統(tǒng)。

作為數(shù)據(jù)安全的一道重要防線,穩(wěn)定運行的數(shù)據(jù)備份系統(tǒng)是至關(guān)重要的。備份系統(tǒng)運維側(cè)重于關(guān)注備份作業(yè)是否出現(xiàn)報錯,備份存儲是否存在異常,出現(xiàn)異?;蚬收蠒r如何去排查、分析、干預(yù)等方面?;趥浞菹到y(tǒng)運行數(shù)據(jù)的收集及分析,來構(gòu)建備份系統(tǒng)較全面的數(shù)字模型,主要用于解決以下三個痛點:

缺乏有效的故障預(yù)警:粗粒度、滯后性的運維方式增加了備份系統(tǒng)的故障率,進(jìn)而影響了備份作業(yè)的成功率。

故障溯源困難:故障會導(dǎo)致運行錯誤,故障分析定位的過程則是從運行錯誤回溯到故障,找出錯誤源頭,這也是傳統(tǒng)運維方式的痛點之一。

系統(tǒng)管控能力不足:備份系統(tǒng) 不同于一般的業(yè)務(wù)系統(tǒng),往往會忽略了運維的過程管理,包括配置管理、變更管理、容量管理等。如果系統(tǒng)管控能力不足,會大大增加運維風(fēng)險,嚴(yán)重影響系統(tǒng)的穩(wěn)定運行。

2. 設(shè)計策略

部分大數(shù)據(jù)、智能化運維項目更注重于形,即先搭平臺,數(shù)據(jù)收集起來,再慢慢看能做什么樣的數(shù)據(jù)分析和應(yīng)用。這樣的設(shè)計策略沒有認(rèn)識到數(shù)據(jù)質(zhì)量的重要性,也輕視了系統(tǒng)運行規(guī)律和運維經(jīng)驗的指導(dǎo)作用,系統(tǒng)的有效性大大降低。如果數(shù)據(jù)質(zhì)量不高或缺失了某些關(guān)鍵指標(biāo)數(shù)據(jù),數(shù)據(jù)分析的結(jié)果必然會有偏差。

因此,總體設(shè)計策略應(yīng)先關(guān)注領(lǐng)域分析,即有必要深入分析備份系統(tǒng)的整體架構(gòu),了解系統(tǒng)各組件之間的關(guān)系、數(shù)據(jù)流路徑;然后是數(shù)據(jù)的場景化設(shè)計,針對具體的運維場景確定數(shù)據(jù)分析及應(yīng)用場景,再追溯確認(rèn)需要采集的指標(biāo)數(shù)據(jù);最后詳細(xì)設(shè)計數(shù)據(jù)收集和數(shù)據(jù)分析方法。整體設(shè)計流程如圖 1 所示:

圖片

圖 1. 設(shè)計策略流程圖

3. 領(lǐng)域分析

3.1 備份系統(tǒng)整體架構(gòu)

備份系統(tǒng)主要包括備份管理系統(tǒng)、備份客戶端、備份網(wǎng)絡(luò)以及備份存儲介質(zhì)這幾種組件,如圖 2 所示:

圖片

圖 2. 備份系統(tǒng)整體架構(gòu)圖

  • 備份管理系統(tǒng)

包括備份管理軟件和備份管理服務(wù)器,承擔(dān)備份作業(yè)調(diào)度管理、備份存儲介質(zhì)管理等責(zé)任,是典型的 C/S 架構(gòu),讀取備份客戶端數(shù)據(jù),并將數(shù)據(jù)寫入備份介質(zhì)中。

  • 備份客戶端

執(zhí)行備份任務(wù)的業(yè)務(wù)主機,是用戶感知層,一般需安裝備份軟件客戶端代理程序,并與備份服務(wù)端通信。

  • 備份網(wǎng)絡(luò)

承擔(dān)備份數(shù)據(jù)流的傳輸任務(wù),一般分為基于 TCP/IP 的備份 LAN 和基于 FC 的備份 SAN 。

  • 備份存儲介質(zhì)

承擔(dān)備份數(shù)據(jù)存儲的備份設(shè)備或介質(zhì),常見的包括磁帶庫,虛擬帶庫, NAS 存儲等。

3.2 備份數(shù)據(jù)流

備份系統(tǒng)的數(shù)據(jù)流主要包括備份作業(yè)數(shù)據(jù)流和數(shù)據(jù)恢復(fù)數(shù)據(jù)流,如圖 3 和圖 4 所示。需要強調(diào)的是,數(shù)據(jù)流傳輸并不是一個直接調(diào)用返回的動作,而是一個持續(xù)的數(shù)據(jù)傳輸過程,在數(shù)據(jù)流傳輸路徑的任意一個環(huán)節(jié)出現(xiàn)堵塞或者故障,備份或恢復(fù)作業(yè)即會受到影響;另外,由于源端或目的端重復(fù)刪除技術(shù)的應(yīng)用,備份與恢復(fù)的數(shù)據(jù)流并不對稱,需要分別分析。

圖片

圖 3. 備份作業(yè)數(shù)據(jù)流圖

圖片

圖 4. 恢復(fù)作業(yè)數(shù)據(jù)流圖

4. 場景設(shè)計

4.1 故障管理場景

故障管理是運維場景中最重要的一環(huán),一般可分為事前、事中、事后三個階段。事前階段的重點是評估分析,做好故障預(yù)防;事中階段則包括故障告警、故障處理和恢復(fù);事后階段需要做好分析改進(jìn)。下文將對備份系統(tǒng)常見的故障場景做具體分析。

4.1.1 作業(yè)時長增加

數(shù)據(jù)備份和恢復(fù)作業(yè)的時長增加是一種隱性故障,一般影響較小。但對于關(guān)鍵業(yè)務(wù)系統(tǒng)來說,超出備份時間窗口,帶來的影響有時也是無法容忍的;而數(shù)據(jù)恢復(fù)作業(yè)時長有時也決定了故障恢復(fù)時間長短。

數(shù)據(jù)備份恢復(fù)時長一般隨數(shù)據(jù)量的增長而緩慢增長,但異常情況下,備份恢復(fù)速度也會降低。在事前階段,我們可以判斷數(shù)據(jù)量是否有突增,可以提前調(diào)整備份時間;事中階段可關(guān)注數(shù)據(jù)吞吐量,如達(dá)不到速度預(yù)期,甚至嚴(yán)重超出備份時間窗口,可能需要及時中止備份恢復(fù)作業(yè);事后階段主要是排查定位速度下降的原因,主要排查方向是備份網(wǎng)絡(luò)帶寬被占用、讀取數(shù)據(jù)源的速度下降以及寫入備份存儲的速度下降這三類。

4.1.2 硬件故障

硬件故障的影響依賴于硬件冗余情況,備份服務(wù)器、備份網(wǎng)絡(luò)、磁帶機、磁帶等等硬件都需要有冗余,這種問題對備份系統(tǒng)的影響一般是一次性的。除了硬件設(shè)備自身故障以外,還可能存在兼容性問題導(dǎo)致的硬件故障問題,這類問題可能會間歇性的影響到備份作業(yè)的成功率,定位難度也比較高。

在事前階段,我們需要關(guān)注硬件自身的狀態(tài),可提前預(yù)防硬件故障帶來的影響;事中階段,一般來說硬件故障會導(dǎo)致作業(yè)報錯,即使硬件自身狀態(tài)正常,但通過運行日志能判斷到硬件故障的可能性較大,需要及時將故障硬件排除出去,先保障備份作業(yè)的成功率;事后階段,綜合運行日志情況和故障處理情況,可進(jìn)一步去定位是硬件自身故障還是兼容性問題,為故障最終處理提供依據(jù)。

4.1.3 軟件異常

一般軟件異常指的是軟件提供的服務(wù)不達(dá)預(yù)期,可能是代碼缺陷或服務(wù)異常終止,可以分為前端和后端異常,前端異常會導(dǎo)致備份恢復(fù)作業(yè)報錯,后端異常主要是影響 server 后端作業(yè)。前端異常涉及到備份軟件 server 和 client , client 影響的是使用該代理的備份作業(yè), server 端的影響較大。

在事前階段,我們需要確認(rèn)備份軟件進(jìn)程和服務(wù)端口是否正常,防患于未然;在事中階段應(yīng)根據(jù)作業(yè)報錯或受影響情況,結(jié)合運行日志去判斷異常的軟件組件,從而權(quán)衡需要如何去干預(yù)軟件運行中異常;事后階段則需要復(fù)盤運行狀態(tài)和運行日志,為后續(xù)類似的軟件異常能預(yù)防和定位,提供更多數(shù)據(jù)依據(jù)。

4.1.4 資源爭用

備份系統(tǒng)是一種 C/S 架構(gòu)系統(tǒng),會共享備份服務(wù)器和備份存儲資源。資源共享會帶來資源爭用,也是資源容量不足引起的。典型的資源爭用引起的故障場景主要有磁帶機可用數(shù)量不足、備份服務(wù)器計算資源或網(wǎng)絡(luò)資源占滿、備份存儲容量不足或服務(wù)能力不足,會帶來備份作業(yè)報錯或性能下降導(dǎo)致的作業(yè)超出時間窗口等不利影響。

在事前階段,我們需要做好資源調(diào)度規(guī)劃,合理配置不同時間段的備份任務(wù);在事中階段,可以通過監(jiān)視資源調(diào)度情況和運行日志中的資源等待情況,及時判斷出是否發(fā)生了資源爭用,可及時中止以確保優(yōu)先級更高的作業(yè)任務(wù)的完成;事后階段則是根據(jù)運行中出現(xiàn)的資源爭用情況來修改資源調(diào)度規(guī)劃,必要時也可以申請更多的備份資源。

4.2 運維管理場景

運維管理是通過制度化、流程化、標(biāo)準(zhǔn)化的運維手段來指導(dǎo) IT 系統(tǒng)的運維,是一套持續(xù)改進(jìn)的機制。相比故障管理場景,運維管理場景更關(guān)注的是在平時運維工作中如何去應(yīng)用備份系統(tǒng)運行數(shù)據(jù),以達(dá)到持續(xù)改進(jìn)優(yōu)化的目的。通過數(shù)據(jù)收集及數(shù)據(jù)分析,可以更好地實現(xiàn)對備份系統(tǒng)管控,主要集中在下面幾個場景。

4.2.1 數(shù)據(jù)管理

數(shù)據(jù)管理的目標(biāo)是保障數(shù)據(jù)安全可靠,對備份系統(tǒng)來說,個人認(rèn)為主要是三點內(nèi)容需要關(guān)注:一是定時備份作業(yè)是否成功,可通過收集備份作業(yè)結(jié)果來確認(rèn);二是重要的備份數(shù)據(jù)通常還會做數(shù)據(jù)復(fù)制,保持主備站點兩到三份相同的數(shù)據(jù)備份,需要定期確認(rèn)數(shù)據(jù)是否成功同步;三是備份的數(shù)據(jù)需要有數(shù)據(jù)恢復(fù)驗證機制,可定期確認(rèn)備份介質(zhì)中數(shù)據(jù)的完整性,并針對不同數(shù)據(jù)類型的備份做數(shù)據(jù)恢復(fù),以驗證數(shù)據(jù)正確性。

4.2.2 容量管理

備份系統(tǒng)容量管理工作中主要關(guān)注的是數(shù)據(jù)存儲和性能兩方面的容量場景。數(shù)據(jù)存儲容量場景關(guān)注多的是備份數(shù)據(jù)源的容量增長趨勢、備份存儲介質(zhì)可用容量等,及時做好容量預(yù)估,容量估算過程中還需要考慮到重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)壓縮技術(shù)的應(yīng)用;性能容量場景是對備份系統(tǒng)整體的服務(wù)能力做評估,評估備份作業(yè)并發(fā)的能力、數(shù)據(jù)傳輸?shù)耐掏?、備份客戶端和服?wù)端的計算資源消耗情況等等。

4.2.3 配置管理

配置管理場景可以關(guān)注新增或優(yōu)化的備份策略信息以及備份介質(zhì)中存儲的備份數(shù)據(jù)信息。備份策略信息包括主控服務(wù)器、備份服務(wù)器、備份客戶端、備份策略集、存儲策略、定時策略以及存儲庫等的詳細(xì)配置信息,是備份管理軟件的核心邏輯信息,需要妥善保存;備份介質(zhì)主要包括在線介質(zhì)和離線介質(zhì),備份介質(zhì)離線保存后,更需要關(guān)注備份介質(zhì)中存儲的備份數(shù)據(jù)信息,以便及時調(diào)取訪問,該配置信息變化頻率較快,需要保持最新版本的配置信息。

4.2.4 監(jiān)控優(yōu)化

監(jiān)控優(yōu)化場景主要關(guān)注三個方向:一是豐富監(jiān)控指標(biāo),二是監(jiān)控閾值優(yōu)化,三是告警關(guān)聯(lián)。原有的備份系統(tǒng)監(jiān)控指標(biāo)主要集中在備份系統(tǒng)軟硬件的運行狀態(tài)、備份作業(yè)的成功失敗情況,這些監(jiān)控指標(biāo)對于潛在故障的覆蓋程度不夠,系統(tǒng)運行日志中的部分關(guān)鍵字也是監(jiān)控的重點;監(jiān)控指標(biāo)中部分閾值設(shè)置時可能采用的是通用經(jīng)驗方式,會出現(xiàn)告警誤報的情況,是需要更加系統(tǒng)運行情況來動態(tài)調(diào)整的;告警關(guān)聯(lián)則更利于故障溯源,利用運維經(jīng)驗、系統(tǒng)規(guī)則可將分散的監(jiān)控告警信息關(guān)聯(lián)起來,便于定位故障。

4.2.5 統(tǒng)計報表

統(tǒng)計報表是運維工作中一項重要工作,可定期回顧系統(tǒng)運行情況。統(tǒng)計報表場景中,可結(jié)合運行數(shù)據(jù)訂制每日、每周、每月的運行情況定時報表,包括特定時間段內(nèi)的不同備份數(shù)據(jù)對象的備份作業(yè)統(tǒng)計信息,包括完成作業(yè)數(shù)、失敗作業(yè)數(shù)、運行中的作業(yè)數(shù)、備份存儲消耗情況等等。

5. 數(shù)據(jù)收集設(shè)計

場景設(shè)計確定了數(shù)據(jù)分析的應(yīng)用場景,也進(jìn)一步可以確定所需收集的數(shù)據(jù)。那么數(shù)據(jù)收集設(shè)計的目標(biāo)是至少涵蓋到已設(shè)計場景中所需的指標(biāo)數(shù)據(jù),并且這些指標(biāo)數(shù)據(jù)可在多種數(shù)據(jù)源中獲得。

設(shè)計總體目標(biāo)是數(shù)據(jù)收集能夠兼顧到高效和低開銷,同時對 IT 系統(tǒng)來說是低影響、無風(fēng)險的。具體設(shè)計方面可按照數(shù)據(jù)源的不同進(jìn)行分類,并針對不同數(shù)據(jù)源設(shè)計不同的數(shù)據(jù)收集方法、數(shù)據(jù)采集周期以及采集的數(shù)據(jù)指標(biāo)信息。

5.1 運行日志

備份軟件的運行日志一般針對記錄不同的組件的運行日志及其錯誤日志,是研究備份系統(tǒng)運行的重要數(shù)據(jù)源。日志文件有一定的固定格式,每一行日志一般可分為日期、時間、日志級別、詳細(xì)信息等字段,對應(yīng)于一條記錄信息,發(fā)送到 Kafka ,并最終存儲到 ELK 。

備份軟件是 C/S 架構(gòu), server 與 client 的日志采集方法和周期設(shè)置上會做區(qū)分。Server 端日志數(shù)據(jù)較多,產(chǎn)生速度快,且不屬于一般業(yè)務(wù)系統(tǒng),可以在 server 端服務(wù)器上安裝 Log agent (可自己編寫日志代理程序,也可使用 filebeat 等輕量級日志采集工具)去實時采集;client 端服務(wù)器上一般運行著業(yè)務(wù)系統(tǒng),為降低對其他系統(tǒng)的影響,可設(shè)置定時任務(wù),每分鐘執(zhí)行腳本將 client 日志發(fā)送到日志服務(wù)器上,再有日志代理程序發(fā)送數(shù)據(jù)。日志采集的整體架構(gòu)設(shè)計如圖 5 所示:

圖片

圖 5. 日志采集架構(gòu)圖

5.2 硬件設(shè)備信息

硬件設(shè)備主要指的是備份存儲、磁帶庫、虛擬帶庫、 SAN 交換機等專有硬件設(shè)備,一般可通過 snmp 輪詢、訪問硬件設(shè)備 API 以及 CMD 命令輸出等方法來收集硬件狀態(tài)信息,適宜于設(shè)置定時任務(wù)定時采集硬件設(shè)備信息。

硬件設(shè)備上可采集的指標(biāo)數(shù)據(jù)包括硬件整體及其各部件狀態(tài)信息、硬件的邏輯配置拓?fù)浜腿萘啃畔?、備份存儲控制?CPU 負(fù)載、備份存儲 IO 帶寬和延時、 SAN 交換機對應(yīng)端口的吞吐數(shù)據(jù)、網(wǎng)絡(luò)端口 IO 錯誤計數(shù)器信息等。

5.3 備份軟件接口數(shù)據(jù)

備份軟件也會有對應(yīng)的 API 接口或 CMD 接口來獲取備份軟件的具體信息,可自行編程定期抓取相關(guān)數(shù)據(jù)。備份軟件接口數(shù)據(jù)可分成配置數(shù)據(jù)和運行數(shù)據(jù),其中配置數(shù)據(jù)的頻度較低,可以每天抓取一份信息即可;而運行數(shù)據(jù)是動態(tài)的,變化頻率較高,定時抓取頻率可設(shè)為分鐘級。配置數(shù)據(jù)主要包括主控服務(wù)器、備份服務(wù)器、備份客戶端、備份策略集、存儲策略、定時策略以及存儲庫等的詳細(xì)配置信息;運行信息主要包括每日的定時備份作業(yè)以及其他后臺作業(yè)完成信息、備份作業(yè)關(guān)聯(lián)的備份介質(zhì)信息、備份介質(zhì)中存儲的備份數(shù)據(jù)信息、軟件運行事件及告警信息。

5.4 其他監(jiān)控數(shù)據(jù)源

其他監(jiān)控數(shù)據(jù)源中需要收集的數(shù)據(jù)主要是備份客戶端和服務(wù)端的操作系統(tǒng)性能數(shù)據(jù) , 包括 CPU 負(fù)載、磁盤 IO 、網(wǎng)卡 IO 吞吐信息等監(jiān)控系統(tǒng)中通用的監(jiān)控數(shù)據(jù)指標(biāo),另外還需要收集備份軟件相關(guān)的進(jìn)程和服務(wù)端口信息。監(jiān)控軟件一般都留有數(shù)據(jù)接口,也可以直接訪問監(jiān)控數(shù)據(jù)庫直接獲取監(jiān)控數(shù)據(jù),數(shù)據(jù)的采集周期則依照其他監(jiān)控數(shù)據(jù)域的更新頻率來設(shè)定。

6 數(shù)據(jù)分析設(shè)計

數(shù)據(jù)分析是處理加工收集到的數(shù)據(jù),并對數(shù)據(jù)加以詳細(xì)研究和概況總結(jié),提取有用信息并形成結(jié)論。拋開一些具體的工具方法,我總結(jié)了一下日常運維中通用的數(shù)據(jù)經(jīng)驗,主要是兩點:一是對技術(shù)的深入理解,我們會對不同類型的組件做分類,也會找出組件之間的各種關(guān)聯(lián),這樣才能對一些技術(shù)更加了解;二是對數(shù)據(jù)變化的敏感性,比較典型的例子是我們對一個系統(tǒng)每日做巡檢, CPU 負(fù)載可能穩(wěn)定在某些值附近或者在特定時刻才會發(fā)生數(shù)值突變,如果某一天 CPU 負(fù)載數(shù)據(jù)不再遵循這樣的波動規(guī)律,這種數(shù)據(jù)的變化就是我們需要捕獲并深入關(guān)注的。

在備份系統(tǒng)的具體數(shù)據(jù)分析工作中,可以從上文提到的數(shù)據(jù)場景出發(fā)來應(yīng)用不同的數(shù)據(jù)分析方法,但我個人覺得也可以以場景為輔助,而從數(shù)據(jù)類型入手。上文已設(shè)計了不同數(shù)據(jù)源的數(shù)據(jù)收集方法,個人覺得也可以分為靜態(tài)配置數(shù)據(jù)、動態(tài)運行數(shù)據(jù)以及日志數(shù)據(jù)這三種類型數(shù)據(jù)。下文將詳細(xì)介紹這三種類型數(shù)據(jù)的數(shù)據(jù)分析方法。

6.1 靜態(tài)配置數(shù)據(jù)

在備份系統(tǒng)的數(shù)據(jù)分析中,靜態(tài)配置數(shù)據(jù)是骨。靜態(tài)配置數(shù)據(jù)的數(shù)據(jù)分析最適宜采用的方法是詳細(xì)分類和關(guān)聯(lián)分析,理清配置不同種類的數(shù)據(jù)元素以及它們之間關(guān)聯(lián)關(guān)系。

備份系統(tǒng)的配置數(shù)據(jù)主要包括硬件設(shè)備及其組件的配置信息、備份軟件層的備份策略信息以及網(wǎng)絡(luò)拓?fù)湫畔⒌?。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。優(yōu)先對配置數(shù)據(jù)進(jìn)行分析,可以幫助我們理清備份作業(yè)的靜態(tài)時序信息、備份作業(yè)和存儲資源的關(guān)系、硬件設(shè)備間的聯(lián)系、不同備份客戶端的基礎(chǔ)信息以及架構(gòu)拓?fù)湫畔⒌取?/p>

6.2 動態(tài)運行數(shù)據(jù)

在備份系統(tǒng)的數(shù)據(jù)分析中,動態(tài)運行數(shù)據(jù)則是血肉。在靜態(tài)配置數(shù)據(jù)的分析結(jié)果的基礎(chǔ)上,動態(tài)運行數(shù)據(jù)可以提供更加詳細(xì)的關(guān)聯(lián)關(guān)系,不再是元素種類之間的關(guān)聯(lián),而是具體元素之間的關(guān)聯(lián);根據(jù)時序信息,回溯歷史數(shù)據(jù)可以刻畫同一元素的數(shù)據(jù)趨勢圖;結(jié)合數(shù)據(jù)詳細(xì)分類結(jié)果,運用數(shù)據(jù)對比的分析方法,橫向比較可以刻畫出同類型元素之間的數(shù)據(jù)趨勢對比圖,縱向比較可以將現(xiàn)時與歷史一段時間內(nèi)的數(shù)據(jù)趨勢做對比。

備份系統(tǒng)的動態(tài)運行數(shù)據(jù)主要包括硬件狀態(tài)、軟件進(jìn)程運行狀態(tài)、作業(yè)運行信息、網(wǎng)絡(luò) IO 信息、備份存儲 IO 信息、備份存儲使用信息、備份服務(wù)器系統(tǒng)資源使用信息、事件及告警等。除了進(jìn)一步完善分類與關(guān)聯(lián)關(guān)系外,備份系統(tǒng)運行數(shù)據(jù)的做單維度分析可以得到每日作業(yè)完成情況圖、整體存儲使用趨勢圖、備份網(wǎng)絡(luò) IO 趨勢圖、單個備份作業(yè)存儲資源使用趨勢圖、備份存儲 IO 趨勢圖等,如圖 6 所示;多維度分析可以得到不同客戶端使用的存儲資源對比趨勢圖、不同備份存儲使用情況對比圖及 IO 對比圖、不同備份作業(yè) IO 與歷史數(shù)據(jù)對比圖等,如圖 7 所示。

圖片

圖 6 單維度分析 - 存儲使用趨勢圖

圖片

圖 7 多維度分析 - 多類型客戶端存儲使用趨勢圖

6.3 日志數(shù)據(jù)

在備份系統(tǒng)的數(shù)據(jù)分析中,日志數(shù)據(jù)可以說是重要寶藏。目前主流的日志分析工具解決了日志存儲的方法,但主要是基于 Web 日志分析,采用關(guān)鍵詞搜索、詞頻統(tǒng)計等方法來做分析。而在備份系統(tǒng)運行的場景中,這方便了日志檢索,我們還需要做的是基于日志信息來抽象串聯(lián)出備份系統(tǒng)運行中一個個子工作流程。

靜態(tài)與動態(tài)數(shù)據(jù)的數(shù)據(jù)分析已經(jīng)相對生動了,但還是缺少很多細(xì)節(jié)信息。我們就以一個備份作業(yè)的運行日志為例,來串聯(lián)出這個例子的工作流程細(xì)節(jié),如圖 8 所示:首先定時調(diào)度計劃被觸發(fā),會先檢查客戶端狀態(tài),然后按照定時計劃腳本中的配置和備份策略信息開啟備份作業(yè)會話,每一個備份作業(yè)會話會去申請磁帶機或其他備份數(shù)據(jù)存儲路徑,這時會話會處于等待狀態(tài),直到申請的資源被滿足;介質(zhì)管理組件接到資源申請后,會根據(jù)當(dāng)前的資源使用情況和申請的優(yōu)先級,分配磁帶機及磁帶給對應(yīng)的作業(yè)會話;一旦作業(yè)會話發(fā)現(xiàn)其申請的資源已被分配并被掛載后,這時客戶端會讀取 源數(shù)據(jù),并 將數(shù)據(jù)傳輸?shù)揭褣燧d的備份存儲,直到作業(yè)會話結(jié)束;當(dāng)所有作業(yè)會話都成功完成后,該作業(yè)才會返回成功。

圖片

圖 8. 備份作業(yè)工作流程細(xì)節(jié)

整個工作流程中,會以作業(yè) ID 、作業(yè)會話 ID 、備份設(shè)備 ID 等信息與實際組件相對應(yīng),從而能還原出該備份作業(yè)的運行情況。如果其中某個子流程出現(xiàn)問題,通過日志分析就能還原該故障過程,迅速定位故障對應(yīng)的作業(yè) ID 、會話 ID 、客戶端或備份設(shè)備 ID 等。

結(jié)語

數(shù)據(jù)收集及分析工作是一項長期性的工作,需要持續(xù)改進(jìn)、不斷優(yōu)化,這正如 IT 系統(tǒng)不斷演化,也如我們所從事的運維工作一樣,需要日積月累,才能日益精進(jìn)。?

責(zé)任編輯:武曉燕 來源: twt企業(yè)IT社區(qū)
相關(guān)推薦

2018-08-15 13:49:06

數(shù)據(jù)分析學(xué)習(xí)Python

2023-05-19 06:53:58

GPT分析報告

2019-11-14 21:21:50

數(shù)據(jù)挖掘數(shù)據(jù)處理數(shù)據(jù)分析

2015-08-21 13:44:17

數(shù)據(jù)分析

2024-11-07 08:50:56

用戶分析分類維度標(biāo)簽

2023-09-01 14:02:25

用戶分析攻略

2018-07-29 15:33:04

2024-07-10 12:11:30

數(shù)據(jù)經(jīng)營分析業(yè)務(wù)

2017-01-05 18:39:35

數(shù)據(jù)分析大數(shù)據(jù)時代分析報告

2018-01-29 16:29:35

數(shù)據(jù)開發(fā)從業(yè)

2019-10-12 00:39:23

MySQL數(shù)據(jù)庫Oracle

2020-07-15 15:38:15

人臉識別照片活化手機

2019-09-23 11:29:21

mysql數(shù)據(jù)庫開發(fā)

2019-06-28 09:27:20

高可用架構(gòu)支付

2019-03-24 14:14:40

代碼閱讀源代碼

2022-10-20 12:11:32

數(shù)據(jù)數(shù)據(jù)分析分類維度

2018-05-15 09:15:03

CNN卷積神經(jīng)網(wǎng)絡(luò)函數(shù)

2020-10-11 21:52:10

數(shù)據(jù)AI指南

2021-09-04 23:23:35

Protobuf存儲數(shù)據(jù)

2023-09-29 22:41:26

Kubernetes云原生
點贊
收藏

51CTO技術(shù)棧公眾號