自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

淺談運維工具體系

運維 系統(tǒng)運維
本文作者提供了運維流程管理、運維發(fā)布變更、運維監(jiān)控告警三個方面的具體工具,可作為工作日記使用。

[[140765]]

運維流程管理工具

1.發(fā)布變更流程管理工具

做為系統(tǒng)接口與其他角色的工作銜接。并提供審批環(huán)節(jié)控制發(fā)布變更的風險。流程管理工具并不負責具體的業(yè)務(wù)操作的執(zhí)行,只是作為單據(jù)系統(tǒng)跟蹤流程和確保閉環(huán)。

2.告警和突發(fā)管理工具

體現(xiàn)業(yè)務(wù)受損的告警自動建單管理。人工確認之后升級為突發(fā)單。通過建單管理告警和突發(fā)確保流程的閉環(huán),以及每次故障都能夠總結(jié)出經(jīng)驗,并未度量業(yè)務(wù)的可用性提供KPI。

運維發(fā)布變更工具

1.版本管理工具(數(shù)據(jù)庫)

所有的發(fā)布應(yīng)該以版本管理為起點。研發(fā)給的版本包先入版本管理工具,再從版本管理工具分發(fā)到現(xiàn)網(wǎng)發(fā)布。杜絕 rsync 一臺服務(wù)器發(fā)布另外一臺的做法。

2.配置管理工具(數(shù)據(jù)庫)

版本加配置等于現(xiàn)網(wǎng)每臺機器的狀態(tài)。最粗粒度的配置管理是到 IP 級別,相當于對機器做資產(chǎn)管理,分組到不同的業(yè)務(wù),模塊和大區(qū)等業(yè)務(wù)概念上。細粒度一點會管理到進程以及進程的相關(guān)配置。

3.配置和版本下發(fā)工具

把指定的版本,結(jié)合配置好的配置下發(fā)到現(xiàn)網(wǎng)的機器上。不同的版本和配置方式需要完全不同的下發(fā)方式。以 ssh/fabric 為代表的下發(fā)方式是以腳本為中心的。以 puppet/chef 為代表的下發(fā)方式是以配置為中心的。

4.現(xiàn)網(wǎng)狀態(tài)同步工具

為了規(guī)避現(xiàn)網(wǎng)狀態(tài)漂移,與管理工具內(nèi)的記錄不一致。需要有一個工具定時上報現(xiàn)網(wǎng)的實際狀況。

5.服務(wù)調(diào)度工具

發(fā)布變更經(jīng)常需要一個串行的流程,先做A模塊,再做B模塊。很多機器的時候,需要把能并發(fā)的操作并發(fā)執(zhí)行,不能并發(fā)的操作確保串行執(zhí)行。同時很多發(fā)布變更流程需要操作管理范圍外的服務(wù),比如云端的DNS服務(wù)器記錄等。這就需要有一個服務(wù)調(diào)度工具統(tǒng)一調(diào)度配置和版本下發(fā)工具,流程單據(jù)工具,以及其他系統(tǒng)的API接口共同組裝成一個流程。

6.資源管理和隔離工具

以xen/kvm為代表的工具讓運維可以更靈活的切割資源。比如虛擬機的快速起停,ip在idc內(nèi)的漂移等。以 lxc/docker 為代表的工具讓運維可以進一步的切割資源到進程級別。資源隔離代理的細粒度的資源控制可以獲得更好的資源利用率,以及更容易進行可伸縮的資源配置。

7.發(fā)布變更統(tǒng)一界面

包裝所有的下層工具,提供簡單的界面完成標準化的發(fā)布變更操作。

運維監(jiān)控告警工具

1.采集工具

一般是采集日志文件,也可以是定時輪詢 DB 或者其他系統(tǒng)的接口。流行的開源方案是 logstash。

2.收集工具

采集工具上報給收集工具?;蛘哂砷_發(fā)直接修改代碼上報指標給收集工具。流程的開源方案還是 logstash。

3.統(tǒng)計入庫工具

上報可能是每次調(diào)用就上報一次,統(tǒng)計工具負責統(tǒng)計出一分鐘內(nèi)的次數(shù)。上報也可能是每5秒上報一次數(shù)值,統(tǒng)計工具負責統(tǒng)計出一分鐘內(nèi)的***值。統(tǒng)計工具的存在是為了上報的方便。流行的開源方案是 statsd,也有大公司基于 storm 來做二次開發(fā)的。

4.時間序列數(shù)據(jù)庫

所有定時指標會落地到數(shù)據(jù)庫里。監(jiān)控告警所需要的數(shù)據(jù)庫需要能夠支撐非常大的數(shù)據(jù)量,但是并沒有很嚴格的 ACID 要求。

5.運維事件數(shù)據(jù)庫

記錄所有的告警。包括從其他系統(tǒng)獲得告警,以及對現(xiàn)網(wǎng)的所有變更操作記錄。這些數(shù)據(jù)用于支撐告警的原因定位。

6.指標異常檢測工具

基于數(shù)學模型發(fā)現(xiàn)指標是否與過去的穩(wěn)定模式背離,而推測出現(xiàn)網(wǎng)狀態(tài)的變化。

7.撥測工具

定時 PING 或者 HTTP GET,模擬實際用戶發(fā)現(xiàn)服務(wù)是否中斷,產(chǎn)生告警。同時也產(chǎn)生指標上報給收集系統(tǒng)。撥測又分為本地撥測,和遠程撥測。本地撥測可以用于發(fā)現(xiàn)磁盤只讀等本機告警。遠程撥測可以模擬用戶的地理分布,把網(wǎng)絡(luò)的鏈路狀況也包含在撥測覆蓋的范圍內(nèi)。

8.告警收斂工具

綜合所有來源的告警,進行頻率收斂,根源分析。統(tǒng)一匯總成報告催促人工修復(fù)。

9.告警自動修復(fù)工具

接受告警進行自動化的處理。幫運維完成固定的故障機下架退庫等操作。或者在業(yè)務(wù)本身沒有做高可用的情況下,做故障機替換,ip漂移等現(xiàn)網(wǎng)修復(fù)操作,一定程度地提高業(yè)務(wù)可用性。

10.告警通知工具

重要的告警需要升級為電話。需要有高可用的電話,短信,微信等通知接口。

11.監(jiān)控告警統(tǒng)一界面

屏蔽下層各種工具,提供統(tǒng)一的agent安裝,指標采集設(shè)置,指標曲線展示,告警查詢的界面。一個地方知道現(xiàn)網(wǎng)的所有的問題。

責任編輯:火鳳凰 來源: Segmentfault
相關(guān)推薦

2023-05-09 07:16:54

2013-08-29 09:19:08

2017-04-26 09:40:00

2019-03-19 08:41:38

Linux運維變更

2018-10-24 05:14:11

2015-12-28 17:28:16

云計算運維華為

2012-12-28 16:30:05

IT運維服務(wù)企業(yè)

2017-04-19 09:25:04

系統(tǒng)運維架構(gòu)

2019-07-17 14:03:44

運維DevOps實踐

2016-09-13 10:35:16

微信Q運維CMDB

2009-07-01 11:55:00

國家部委IT運維管理體系

2012-05-30 15:57:49

ERP項目運維

2013-04-27 14:36:28

2009-07-01 09:57:00

2018-04-10 09:49:17

IT運維人員京東運維體系

2015-12-15 17:21:47

運維產(chǎn)品能力分層體系

2015-06-25 09:07:04

天璣科技

2022-12-16 18:37:37

數(shù)據(jù)庫

2020-04-21 10:11:12

運維體系趨勢

2020-08-27 06:28:22

SRE運維體系可觀測系統(tǒng)
點贊
收藏

51CTO技術(shù)棧公眾號