自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

詳解Linux運維工具:運維流程管理、運維發(fā)布變更、運維監(jiān)控告警

運維 系統(tǒng)運維
應用上線后,運維工作才剛開始,具體工作可能包括:升級版本上線工作、服務監(jiān)控、應用狀態(tài)統(tǒng)計、日常服務狀態(tài)巡檢、突發(fā)故障處理、服務日常變更調整、集群管理、服務性能評估優(yōu)化、數(shù)據(jù)庫管理優(yōu)化、隨著應用PV增減進行應用架構的伸縮、安全、運維開發(fā)工作。

 概述

應用上線后,運維工作才剛開始,具體工作可能包括:升級版本上線工作、服務監(jiān)控、應用狀態(tài)統(tǒng)計、日常服務狀態(tài)巡檢、突發(fā)故障處理、服務日常變更調整、集群管理、服務性能評估優(yōu)化、數(shù)據(jù)庫管理優(yōu)化、隨著應用PV增減進行應用架構的伸縮、安全、運維開發(fā)工作。

今天重點介紹運維流程管理、運維發(fā)布變更、運維監(jiān)控告警三個方面所需要的工具。

一、運維流程管理工具

 

1.發(fā)布變更流程管理工具

做為系統(tǒng)接口與其他角色的工作銜接。并提供審批環(huán)節(jié)控制發(fā)布變更的風險。流程管理工具并不負責具體的業(yè)務操作的執(zhí)行,只是作為單據(jù)系統(tǒng)跟蹤流程和確保閉環(huán)。

2.告警和突發(fā)管理工具

體現(xiàn)業(yè)務受損的告警自動建單管理。人工確認之后升級為突發(fā)單。通過建單來管理告警和突發(fā)確保流程的閉環(huán),以及每次故障都能夠總結出經(jīng)驗,并為度量業(yè)務的可用性提供KPI。

二、運維發(fā)布變更工具

 

1.版本管理工具(數(shù)據(jù)庫)

所有的發(fā)布應該以版本管理為起點。研發(fā)給的版本包先入版本管理工具,再從版本管理工具分發(fā)到現(xiàn)網(wǎng)發(fā)布。杜絕 rsync 一臺服務器發(fā)布另外一臺的做法。

2.配置管理工具(數(shù)據(jù)庫)

版本加配置等于現(xiàn)網(wǎng)每臺機器的狀態(tài)。最粗粒度的配置管理是到 IP 級別,相當于對機器做資產管理,分組到不同的業(yè)務,模塊和大區(qū)等業(yè)務概念上。細粒度一點會管理到進程以及進程的相關配置。

3.配置和版本下發(fā)工具

把指定的版本,結合配置好的配置下發(fā)到現(xiàn)網(wǎng)的機器上。不同的版本和配置方式需要完全不同的下發(fā)方式。以 ssh/fabric 為代表的下發(fā)方式是以腳本為中心的。以 puppet/chef 為代表的下發(fā)方式是以配置為中心的。

4.現(xiàn)網(wǎng)狀態(tài)同步工具

為了規(guī)避現(xiàn)網(wǎng)狀態(tài)漂移,與管理工具內的記錄不一致。需要有一個工具定時上報現(xiàn)網(wǎng)的實際狀況。

5.服務調度工具

發(fā)布變更經(jīng)常需要一個串行的流程,先做A模塊,再做B模塊。很多機器的時候,需要把能并發(fā)的操作并發(fā)執(zhí)行,不能并發(fā)的操作確保串行執(zhí)行。同時很多發(fā)布變更流程需要操作管理范圍外的服務,比如云端的DNS服務器記錄等。這就需要有一個服務調度工具統(tǒng)一調度配置和版本下發(fā)工具,流程單據(jù)工具,以及其他系統(tǒng)的API接口共同組裝成一個流程。

6.資源管理和隔離工具

以xen/kvm為代表的工具讓運維可以更靈活的切割資源。比如虛擬機的快速起停,ip在idc內的漂移等。以 lxc/docker 為代表的工具讓運維可以進一步的切割資源到進程級別。資源隔離代理的細粒度的資源控制可以獲得更好的資源利用率,以及更容易進行可伸縮的資源配置。

7.發(fā)布變更統(tǒng)一界面

包裝所有的下層工具,提供簡單的界面完成標準化的發(fā)布變更操作。

三、運維監(jiān)控告警工具

 

1.采集工具

一般是采集日志文件,也可以是定時輪詢 DB 或者其他系統(tǒng)的接口。流行的開源方案是 logstash。

2.收集工具

采集工具上報給收集工具?;蛘哂砷_發(fā)直接修改代碼上報指標給收集工具。流程的開源方案還是 logstash。

3.統(tǒng)計入庫工具

上報可能是每次調用就上報一次,統(tǒng)計工具負責統(tǒng)計出一分鐘內的次數(shù)。上報也可能是每5秒上報一次數(shù)值,統(tǒng)計工具負責統(tǒng)計出一分鐘內的***值。統(tǒng)計工具的存在是為了上報的方便。流行的開源方案是 statsd,也有大公司基于 storm 來做二次開發(fā)的。

4.時間序列數(shù)據(jù)庫

所有定時指標會落地到數(shù)據(jù)庫里。監(jiān)控告警所需要的數(shù)據(jù)庫需要能夠支撐非常大的數(shù)據(jù)量,但是并沒有很嚴格的 ACID 要求。

5.運維事件數(shù)據(jù)庫

記錄所有的告警。包括從其他系統(tǒng)獲得告警,以及對現(xiàn)網(wǎng)的所有變更操作記錄。這些數(shù)據(jù)用于支撐告警的原因定位。

6.指標異常檢測工具

基于數(shù)學模型發(fā)現(xiàn)指標是否與過去的穩(wěn)定模式背離,而推測出現(xiàn)網(wǎng)狀態(tài)的變化。

7.撥測工具

定時 PING 或者 HTTP GET,模擬實際用戶發(fā)現(xiàn)服務是否中斷,產生告警。同時也產生指標上報給收集系統(tǒng)。撥測又分為本地撥測,和遠程撥測。本地撥測可以用于發(fā)現(xiàn)磁盤只讀等本機告警。遠程撥測可以模擬用戶的地理分布,把網(wǎng)絡的鏈路狀況也包含在撥測覆蓋的范圍內。

8.告警收斂工具

綜合所有來源的告警,進行頻率收斂,根源分析。統(tǒng)一匯總成報告催促人工修復。

9.告警自動修復工具

接受告警進行自動化的處理。幫運維完成固定的故障機下架退庫等操作?;蛘咴跇I(yè)務本身沒有做高可用的情況下,做故障機替換,ip漂移等現(xiàn)網(wǎng)修復操作,一定程度地提高業(yè)務可用性。

10.告警通知工具

重要的告警需要升級為電話。需要有高可用的電話,短信,微信等通知接口。

11.監(jiān)控告警統(tǒng)一界面

屏蔽下層各種工具,提供統(tǒng)一的agent安裝,指標采集設置,指標曲線展示,告警查詢的界面。從一個地方就可以知道現(xiàn)網(wǎng)的所有問題。

篇幅有限,關于linux運維管理工具方面的內容就介紹到這,實際上基本是只有在甲方才有可能實現(xiàn)的比較完整,大家也可以針對性去做一個了解。

責任編輯:武曉燕 來源: 今日頭條
相關推薦

2016-12-13 13:15:49

運維

2019-06-06 08:50:08

運維監(jiān)控工具

2011-03-21 14:43:42

2019-03-15 10:13:10

運維云計算運營

2010-01-21 22:19:25

網(wǎng)絡優(yōu)化運維管理摩卡軟件

2014-08-04 10:10:35

IT運維自動化運維

2021-06-21 08:59:55

監(jiān)控Netflix優(yōu)化

2021-06-21 08:30:14

Netflix監(jiān)控系統(tǒng)微服務

2010-07-01 09:53:00

IT運維管理流程

2013-05-06 15:10:18

IT運維管理大數(shù)據(jù)

2022-10-20 17:37:46

運維智能管理平臺

2013-03-29 09:15:08

IT運維運維人員運維工程師

2013-04-12 13:30:47

2015-07-16 16:31:58

運維工具

2016-08-10 19:49:59

優(yōu)云運維

2020-06-30 09:35:25

智能運維云架構IT運營

2018-03-27 16:23:53

運維AI智能

2019-02-19 09:14:52

IT運維系統(tǒng)

2018-08-16 08:37:03

機房運維硬件

2009-07-22 13:19:36

IT運維管理科學管理
點贊
收藏

51CTO技術棧公眾號