使用Nagios實現(xiàn)網(wǎng)絡(luò)監(jiān)控 續(xù)
好啦!開始講述第二部分:使用Nagios實現(xiàn)網(wǎng)絡(luò)監(jiān)控
歡迎來到Nagios的世界,這是一個開放源碼的網(wǎng)絡(luò)監(jiān)控工具。除了免費之外,Nagios還擁有強大的功能和可伸縮性,它能夠使用自動化的網(wǎng)絡(luò)監(jiān)控為IT管理節(jié)省大量的時間。
在這一部分,我將向你展示一個Nagios配置的例子。而在此篇文章的第一部分,我們已經(jīng)討論過Nagios的有效性和它的體系結(jié)構(gòu)。查看第一部分
Nagios配置
就像我們在第一部分討論的一樣,配置在成功部署Nagios中扮演著重要的角色。Nagios的配置結(jié)構(gòu)在概念上相當直截了當,但需要特別注意一些細節(jié)。本質(zhì)上,需要分層定義主機和服務(wù),還要定義需運行何種檢查和在檢查失敗后要進行的操作。
這里是一個主機配置文件記錄的例子:
- define host{
- host_name linux-server
- alias linux-server
- address 192.168.1.254
- check_command check-host-alive
- max_check_attempts 5
- contact_groups linux-admins
- notification_interval 30
- notification_period 24x7
- notification_options d,u,r
- }
多數(shù)記錄都是不解自明的。機器有名字(name),地址(address),需要運行的檢查(check_command check-host-alive),以及在確定存在問題前,所要運行的最大檢查次數(shù)。如果存在問題,根據(jù)上面的配置,linux-admins組將不分白天與黑客(24x7),在每個小時的第30分,會收到警告信息。因此為了這種方法,機器必須進行自身檢查,以取包自己持續(xù)運行。
這里還有一個服務(wù)器配置文件記錄的例子:
- define service{
- host_name linux-server
- service_description check-disk-sda1
- check_command check-disk!/dev/sda1
- max_check_attempts 5
- normal_check_interval 5
- retry_check_interval 3
- check_period 24x7
- notification_interval 30
- notification_period 24x7
- notification_options w,c,r
- contact_groups linux-admins
- }
同樣,多數(shù)的記錄條目都很容易就能夠被理解。此服務(wù)器運行于在遷移個例子中定義的主機之上(服務(wù)必須有一個條目,指明他們所屬于的服務(wù)器)。然后是服務(wù)的描述以及檢查它是否持續(xù)正常運行的命令,還有需要運行的最大檢查次數(shù)等等。
一個明顯的問題是,“現(xiàn)在我已經(jīng)正在監(jiān)控我的所有將建和軟件,但我怎樣才能夠發(fā)現(xiàn)或找出發(fā)生了什么?”除了在每個配置記錄(notification_options條目)中定義的問題警告提醒機制之外,Nagios還提供了大量可重寫的CGI腳本來提供監(jiān)視信息;本質(zhì)上,可以提供一個系統(tǒng)信息的儀表板(dashboard)。這些腳本提供的有整個系統(tǒng)的狀態(tài)、網(wǎng)絡(luò)問題、趨勢等等。在儀表板信息和警告提醒之間,Nagios允許你采取更加超前的方法來管理你的IT基礎(chǔ)設(shè)施?;氐?A >第一部分
【編輯推薦】