自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

運(yùn)維經(jīng)驗(yàn)分享:關(guān)于系統(tǒng)運(yùn)維監(jiān)控的幾點(diǎn)建議

運(yùn)維 系統(tǒng)運(yùn)維
目前很多企業(yè)信息化系統(tǒng)都有自己的監(jiān)控平臺(tái)和監(jiān)控手段,本文作者根據(jù)自身公司監(jiān)控存在的問題,總結(jié)了一些經(jīng)驗(yàn)并提出一些在系統(tǒng)運(yùn)維監(jiān)控方面的建議,希望能給大家?guī)韼椭?/div>

  目前很多企業(yè)信息化系統(tǒng)都有自己的監(jiān)控平臺(tái)和監(jiān)控手段,無論是采用哪種手段去實(shí)現(xiàn)對(duì)系統(tǒng)的實(shí)時(shí)監(jiān)控和故障告警,大多采用的方式也只有兩種:集中式監(jiān)控和分布式監(jiān)控。本文作者根據(jù)自身公司監(jiān)控存在的問題,總結(jié)了一些經(jīng)驗(yàn)并提出一些在監(jiān)控平臺(tái)的建議,以供大家參考學(xué)習(xí),如有考慮不周的地方還希望大家多多批評(píng)指正。

  為了更好、更有效的保障系統(tǒng)上線后的穩(wěn)定的運(yùn)行。對(duì)于服務(wù)器的硬件資源、性能、帶寬、端口、進(jìn)程、服務(wù)等都必須有一個(gè)可靠和可持續(xù)的監(jiān)測(cè)機(jī)制,統(tǒng)計(jì)分析每天的各種數(shù)據(jù),從而能及時(shí)反映出服務(wù)器哪里存在性能瓶頸、安全隱患等。另外是要有危機(jī)意識(shí),就是了解服務(wù)器有可能出現(xiàn)哪些嚴(yán)重的問題,出現(xiàn)這些問題后該如何去迅速處理。比如數(shù)據(jù)庫的數(shù)據(jù)丟失,日志容量過大,被黑客入侵等等。

  一、上線之前的準(zhǔn)備工作

  1、首先是備份,做好定時(shí)備份策略,備份所有你認(rèn)為重要的數(shù)據(jù),并且定期檢查你的備份是否有效、全面;

  2、日志輪換,無論你想用哪種輪換方式,控制日志增長避免驅(qū)動(dòng)器已滿是你的目的;

  3、做一定的安全措施,如防火墻iptables的訪問控制,用denyhosts防止黑客遠(yuǎn)程暴力破解;

  4、mysql遠(yuǎn)程登錄權(quán)限等等;

  5、最后就是服務(wù)器、網(wǎng)元設(shè)備的監(jiān)控。

  二、監(jiān)控策略

  1、定義告警優(yōu)先級(jí)策略

  一般的監(jiān)控到的結(jié)果是成功或者失敗,如Ping不通、訪問網(wǎng)頁出錯(cuò)、連接不到Socket,發(fā)生時(shí)這些稱之為故障,故障是最優(yōu)先的告警。除此之外,還能監(jiān)控到返回的延時(shí)、內(nèi)容等,如Ping返回的延時(shí)、訪問網(wǎng)頁的時(shí)間、訪問網(wǎng)頁取到的內(nèi)容等。利用返回的結(jié)果可以自定義告警條件,如Ping監(jiān)控的返回延時(shí)一般是10-30ms之間,當(dāng)延時(shí)大于100ms時(shí)候,表示網(wǎng)絡(luò)或者服務(wù)器可能出現(xiàn)問題,引起網(wǎng)絡(luò)響應(yīng)慢,需要立即檢查是否流量過大或者服務(wù)器CPU太高等問題。

2、定義告警信息內(nèi)容標(biāo)準(zhǔn)

  當(dāng)服務(wù)器或應(yīng)用發(fā)生故障時(shí)告警信息內(nèi)容非常多,如告警運(yùn)行業(yè)務(wù)名稱、服務(wù)器IP、監(jiān)控的線路、監(jiān)控的服務(wù)錯(cuò)誤級(jí)別、出錯(cuò)信息、發(fā)生時(shí)間等。預(yù)先定義告警內(nèi)容及標(biāo)準(zhǔn)使收到的告警內(nèi)容具有規(guī)范性及可讀性。這點(diǎn)對(duì)于用短信接受告警內(nèi)容特別有意義,短信內(nèi)容最多是70個(gè)字符,要在70個(gè)字符完全知道故障內(nèi)容比較困難,更需要預(yù)先定義內(nèi)容規(guī)范。如:“視頻直播服務(wù)器10.0.211.65 在2012-10-18 13:00電信線路監(jiān)控第到1次失敗”,清晰明了的知道故障信息。

  3、通過郵件接收匯總報(bào)表

  每天收到一封網(wǎng)站服務(wù)器監(jiān)控的匯總報(bào)表郵件,花個(gè)兩三分鐘就大致了解網(wǎng)站和服務(wù)器狀態(tài)。

  4、 集中監(jiān)控和分布式監(jiān)控相結(jié)合

  • 主動(dòng)(集中)監(jiān)控雖然能不需要安裝代碼和程序,非常安全和方便,但缺少很多細(xì)致的監(jiān)控內(nèi)容,如無法獲取硬盤大小、CPU的使用率、網(wǎng)絡(luò)的流量等,這些監(jiān)控內(nèi)容非常有用,如CPU太高表示有網(wǎng)站或者程序出問題,流量太高表示可能被攻擊等。
  • 被動(dòng)(分布式)監(jiān)控常用的是SNMP(簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議),通過SNMP能監(jiān)控到大部分你感興趣的內(nèi)容。大部分操作系統(tǒng)支持SNMP,開通管理非常方便,也非常安全。SNMP缺點(diǎn)是比較占用帶寬,會(huì)消耗一定的CPU和內(nèi)存,在CPU太高和網(wǎng)絡(luò)流量大情況下,無法有效進(jìn)行監(jiān)控。

  5、定義故障告警主次

  對(duì)于監(jiān)控同一臺(tái)服務(wù)器的服務(wù),需要定義一個(gè)主要監(jiān)控對(duì)象,當(dāng)主要監(jiān)控對(duì)象出現(xiàn)故障,只發(fā)送主要監(jiān)控對(duì)象的告警,其它次要的監(jiān)控對(duì)象暫停監(jiān)控和告警。例如用Ping來做主要監(jiān)控對(duì)象,如果Ping不通出現(xiàn)Timeout,表示服務(wù)器已經(jīng)當(dāng)機(jī)或者斷網(wǎng),這時(shí)只發(fā)送服務(wù)器Ping告警持續(xù)監(jiān)控Ping,因?yàn)樵倮^續(xù)監(jiān)控和告警其它服務(wù)已經(jīng)沒有必要。這樣能大大減少告警消息數(shù)量,又讓監(jiān)控更加合理、更加有效率。

  本地監(jiān)控腳本的規(guī)范化部署

  6、對(duì)在本地部署的監(jiān)控腳本要進(jìn)行統(tǒng)一規(guī)范的部署并記錄到KM系統(tǒng)。

  7、實(shí)現(xiàn)對(duì)常見性故障業(yè)務(wù)自我修復(fù)功能

  實(shí)現(xiàn)對(duì)常見性故障業(yè)務(wù)自我修復(fù)功能腳本進(jìn)行統(tǒng)一部署并對(duì)修復(fù)后故障進(jìn)行檢查告警檢查頻次不多于3次。

  8、對(duì)監(jiān)控的業(yè)務(wù)系統(tǒng)進(jìn)行分級(jí)

  一級(jí)系統(tǒng)實(shí)現(xiàn)7*24小時(shí)告警,二級(jí)系統(tǒng)實(shí)現(xiàn)7*12小時(shí)告警,三級(jí)系統(tǒng)實(shí)現(xiàn)5*8小時(shí)告警。

  9、 監(jiān)控范圍及目標(biāo)

  實(shí)現(xiàn)對(duì)負(fù)載均衡設(shè)備、網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)設(shè)備、安全設(shè)備、數(shù)據(jù)庫、中間件及應(yīng)用軟件等IT資源的全面監(jiān)控管理;同時(shí)自動(dòng)收集、過濾、關(guān)聯(lián)和分析各種管理功能產(chǎn)生的故障事件,實(shí)現(xiàn)對(duì)故障的提前預(yù)警和快速定位;對(duì)網(wǎng)絡(luò)和業(yè)務(wù)應(yīng)用等IT資源的性能進(jìn)行監(jiān)控,定期提供性能報(bào)表和趨勢(shì)報(bào)表,為性能優(yōu)化及未來系統(tǒng)擴(kuò)容提供科學(xué)依據(jù)。

  通常情況下,我們可以將監(jiān)控對(duì)象這么來分:

  1.服務(wù)器監(jiān)控,主要監(jiān)控服務(wù)器如:CPU 負(fù)載、內(nèi)存使用率、磁盤使用率、登陸用戶數(shù)、進(jìn)程狀態(tài)、網(wǎng)卡狀態(tài)等。

  2.應(yīng)用程序監(jiān)控,主要監(jiān)控該應(yīng)用程序的服務(wù)狀態(tài),吞吐量和響應(yīng)時(shí)間,因?yàn)椴煌瑧?yīng)用需要監(jiān)控的對(duì)象不同,這里不一一列舉。

  3.數(shù)據(jù)庫監(jiān)控,只所以把數(shù)據(jù)庫監(jiān)控單獨(dú)列出來,足以說明它的重要性,一般監(jiān)控?cái)?shù)據(jù)庫狀態(tài),數(shù)據(jù)庫表或者表空間的使用情況,是否有死鎖,錯(cuò)誤日志,性能信息等等。

  4.網(wǎng)絡(luò)監(jiān)控,主要監(jiān)控當(dāng)前的網(wǎng)絡(luò)狀況,網(wǎng)絡(luò)流量等。

以上四條應(yīng)該算是最基本的,也是保證網(wǎng)站正常運(yùn)行必須要知道的幾點(diǎn)內(nèi)容,這樣才能實(shí)現(xiàn)我們常說的“運(yùn)籌帷幄之中,決勝千里之外”。

責(zé)任編輯:黃丹 來源: 博客
相關(guān)推薦

2011-06-30 13:41:52

系統(tǒng)運(yùn)維

2010-12-21 17:31:48

2011-02-28 14:14:06

2014-04-02 10:56:21

2019-03-19 08:41:38

Linux運(yùn)維變更

2022-08-24 09:50:40

系統(tǒng)運(yùn)維

2011-03-21 14:43:42

2014-04-03 16:50:28

CactiNagios監(jiān)控

2010-12-24 15:21:54

系統(tǒng)運(yùn)維

2018-09-27 08:59:29

2020-12-30 08:09:46

運(yùn)維Prometheus 監(jiān)控

2019-03-15 10:13:10

運(yùn)維云計(jì)算運(yùn)營

2014-02-26 15:35:22

服務(wù)器運(yùn)維

2020-12-29 10:45:22

運(yùn)維Prometheus-監(jiān)控

2013-12-12 10:21:34

IT運(yùn)維管理選型

2016-02-16 17:14:13

高可用系統(tǒng)大眾點(diǎn)評(píng)

2020-12-28 10:13:32

運(yùn)維Prometheus監(jiān)控

2016-04-06 10:02:23

手機(jī)微博運(yùn)維監(jiān)控

2013-03-29 09:15:08

IT運(yùn)維運(yùn)維人員運(yùn)維工程師

2016-12-13 13:15:49

運(yùn)維
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)