開源還是商用?十大云運維監(jiān)控工具橫評
隨著云計算和互聯(lián)網(wǎng)的高速發(fā)展,大量應(yīng)用需要橫跨不同網(wǎng)絡(luò)終端,并廣泛接入第三方服務(wù)(如支付、登錄、導(dǎo)航等),IT系統(tǒng)架構(gòu)越來越復(fù)雜。快速迭代的產(chǎn)品需求和良好的用戶體驗,需要IT運維管理者時刻保障核心業(yè)務(wù)穩(wěn)定可用,而企業(yè)運維中的痛點和難點也急需解決。
1、面向業(yè)務(wù)的運維,不但關(guān)心單點IT資源的運行狀態(tài),更關(guān)心整個業(yè)務(wù)系統(tǒng)的健康狀態(tài)
2、如果企業(yè)使用了大量的API和模塊化應(yīng)用,那么關(guān)注每個接口的性能變化情況和指標(biāo)
3、對于運維主管及企業(yè)管理層來說,特別需要上墻的監(jiān)控大屏
4、運維需要每周、每月查看報告趨勢分析,但傳統(tǒng)運維工具數(shù)據(jù)導(dǎo)出困難
5、需要第一時間轉(zhuǎn)雀和快速發(fā)現(xiàn)故障節(jié)點,減少業(yè)務(wù)中斷帶來的損失
云智慧對業(yè)內(nèi)主流的開源運維監(jiān)控系統(tǒng)和商業(yè)運維監(jiān)控系統(tǒng)進(jìn)行對比,分析各種產(chǎn)品的定位、目標(biāo)用戶和功能特點,希望幫助廣大運維、開發(fā)和創(chuàng)業(yè)者找到最適合自己的運維工具。
開源運維監(jiān)控產(chǎn)品篇
Zabbix
推薦星級:★★★★★
Zabbix是一個基于WEB界面的提供分布式系統(tǒng)監(jiān)控以及網(wǎng)絡(luò)監(jiān)控功能的企業(yè)級開源運維平臺,也是目前國內(nèi)互聯(lián)網(wǎng)用戶中使用最廣的監(jiān)控軟件,云智慧遇到的85%以上用戶在使用Zabbix做監(jiān)控解決方案。

入門容易、上手簡單、功能強(qiáng)大并且開源免費是云智慧對Zabbix的最直觀評價。Zabbix易于管理和配置,能生成比較漂亮的數(shù)據(jù)圖,其自動發(fā)現(xiàn)功能大大減輕日常管理的工作量,豐富的數(shù)據(jù)采集方式和API接口可以讓用戶靈活進(jìn)行數(shù)據(jù)采集,而分布式系統(tǒng)架構(gòu)可以支持監(jiān)控更多的設(shè)備。理論上,通過Zabbix提供的插件式架構(gòu),可以滿足企業(yè)的任何需求。
用戶群:85%以上的泛互聯(lián)網(wǎng)企業(yè)。
優(yōu)點:
1. 支持多平臺的企業(yè)級分布式開源監(jiān)控軟件
2. 安裝部署簡單,多種數(shù)據(jù)采集插件靈活集成
3. 功能強(qiáng)大,可實現(xiàn)復(fù)雜多條件告警,
4. 自帶畫圖功能,得到的數(shù)據(jù)可以繪成圖形
5. 提供多種API接口,支持調(diào)用腳本
6. 出現(xiàn)問題時可自動遠(yuǎn)程執(zhí)行命令(需對agent設(shè)置執(zhí)行權(quán)限)
缺點:
1. 項目批量修改不方便
2. 社區(qū)雖然成熟,但是中文資料相對較少,服務(wù)支持有限;
3. 入門容易,能實現(xiàn)基礎(chǔ)的監(jiān)控,但是深層次需求需要非常熟悉Zabbix并進(jìn)行大量的二次定制開發(fā),難度較大;
4. 系統(tǒng)級別報警設(shè)置相對比較多,如果不篩選的話報警郵件會很多;并且自定義的項目報警需要自己設(shè)置,過程比較繁瑣;
5. 缺少數(shù)據(jù)匯總功能,如無法查看一組服務(wù)器平均值,需進(jìn)行二次開發(fā);
6. 數(shù)據(jù)報表需要特殊二次開發(fā)定義;
Nagios
推薦星級:★★★★☆
Nagios是一款開源的企業(yè)級監(jiān)控系統(tǒng),能夠?qū)崿F(xiàn)對系統(tǒng)CPU、磁盤、網(wǎng)絡(luò)等方面參數(shù)的基本系統(tǒng)監(jiān)控,以及SMTP,POP3,HTTP,NNTP等各種基本的服務(wù)類型。另外通過安裝插件和編寫監(jiān)控腳本,用戶可以實現(xiàn)應(yīng)用監(jiān)控,并針對大量的監(jiān)控主機(jī)和多個對象部署層次化監(jiān)控架構(gòu)。

Nagios最大的特點是其強(qiáng)大的管理中心,盡管其功能是監(jiān)控服務(wù)和主機(jī)的,但Nagios自身并不包括這部分功能代碼,所有的監(jiān)控、告警功能都是由相關(guān)插件完成的。
用戶群:適合復(fù)雜IT環(huán)境的企業(yè)
優(yōu)點:
1. 出錯的服務(wù)器、應(yīng)用和設(shè)備會自動重啟,自動日志滾動
2. 配置靈活,可以自定義shell腳本,通過分布式監(jiān)控模式
3. 支持以冗余方式進(jìn)行主機(jī)監(jiān)控,報警設(shè)置多樣
4. 命令重新加載配置文件無需打擾Nagios的運行
缺點:
1. 事件控制臺功能很弱,插件易用性差
2. 對性能、流量等指標(biāo)的處理不給力
3. 看不到歷史數(shù)據(jù),只能看到報警事件,很難追查故障原因
4. 配置復(fù)雜,初學(xué)者投入的時間、精力和成本比較大
Ganglia
推薦星級:★★★★☆
Ganglia是加州大學(xué)伯克利分校發(fā)起的一個開源集群監(jiān)控項目,設(shè)計之初是用于監(jiān)控數(shù)以千計的網(wǎng)絡(luò)節(jié)點。Ganglia是一個跨平臺可擴(kuò)展的,高性能計算系統(tǒng)下的分布式監(jiān)控系統(tǒng)。它已被廣泛移植到各種操作系統(tǒng)和處理器架構(gòu)上。

用戶群:適用于大型服務(wù)器集群用戶。
優(yōu)點:
1. 適合監(jiān)控系統(tǒng)性能,通過曲線很容易見到每個節(jié)點的工作狀態(tài)
2. 可以自定義監(jiān)控項,監(jiān)控展示有表格和圖像兩種,支持手機(jī)版
3. 部署方便,通過不同的分層管理上萬臺機(jī)器,無需逐個添加配置
缺點:
1. 沒有內(nèi)置的消息通知系統(tǒng)
2. 沒有報警機(jī)制,出現(xiàn)問題不能夠及時報警
Zenoss
推薦星級:★★★★☆
Zenoss Core是Zenoss的開源版本,其商用版本為ZenossEnterprise。作為企業(yè)級智能監(jiān)控軟件,Zenoss Core允許IT管理員依靠單一的WEB控制臺來監(jiān)控網(wǎng)絡(luò)架構(gòu)的狀態(tài)和健康度。Zenoss Core的強(qiáng)大能力來自于深入的列表與配置管理數(shù)據(jù)庫,以發(fā)現(xiàn)和管理公司IT環(huán)境的各類資產(chǎn)。Zenoss同時提供與CMDB關(guān)聯(lián)的事件和錯誤管理系統(tǒng),以協(xié)助提高各類事件和提醒的管理效率。

優(yōu)點:
1. Zenoss比較出色的地方在于它的Dashboard,可以配置很多portlet
2. 每個用戶的界面都是分開管理的,自定義dashboard不會影響其他用戶
3. 強(qiáng)大監(jiān)控功能支持服務(wù)器、路由交換、防火墻、存儲、數(shù)據(jù)庫、中間件監(jiān)控
4. 采用基于HBASE的opentsdb存儲任意時間段的數(shù)據(jù)
5. 將狀態(tài)監(jiān)控,性能監(jiān)控,資源管理,良好的報告機(jī)制進(jìn)行有機(jī)的整合
缺點:
1. 對資源要求較高,即使只管理少數(shù)幾臺設(shè)備,也需要消耗大量硬件及內(nèi)存等附加資源。
2. 針對windows系統(tǒng),開源版只提供SNMP,通過WMI檢測CPU,Disk,軟硬件和性能只在收費版提供。
Open-falcon
推薦星級:★★★☆☆
Open-falcon是小米運維團(tuán)隊從互聯(lián)網(wǎng)公司的需求出發(fā),根據(jù)多年的運維經(jīng)驗,結(jié)合SRE、SA、DEVS的使用經(jīng)驗和反饋,開發(fā)的一套面向互聯(lián)網(wǎng)的企業(yè)級開源監(jiān)控產(chǎn)品。

Open-falcon架構(gòu)
用戶群:目前有幾十家企業(yè)用戶不同程度使用。
優(yōu)點:
1. 自動發(fā)現(xiàn),支持falcon-agent、snmp、支持用戶主動push、用戶自定義插件支持
2. 支持每個周期上億次的數(shù)據(jù)采集、告警判定、歷史數(shù)據(jù)存儲和查詢
3. 高效的portal、支持策略模板、模板繼承和覆蓋、多種告警方式、支持callback調(diào)用
4. 單機(jī)支撐200萬metric的上報、歸檔、存儲
5. 采用rrdtool的數(shù)據(jù)歸檔策略,秒級返回上百個metric一年的歷史數(shù)據(jù)
6. 多維度的數(shù)據(jù)展示,用戶自定義Screen
7. 通過各種插件目前支持Linux、Windows、Mysql、Redis、Memache、RabbitMQ和交換機(jī)監(jiān)控。
缺點:由于發(fā)布時間較短,很多基礎(chǔ)的服務(wù)監(jiān)控插件(如Tomcat、apache等)還不支持,很多功能還在不斷完善中,另外由于缺少專門的支持,雖然有開放社區(qū),但是解決問題的效率相對較低。
商用運維監(jiān)控系統(tǒng)篇
監(jiān)控寶
推薦星級:★★★★★
監(jiān)控寶是云智慧為用戶提供IT性能監(jiān)控(IT Performance Monitoring)的SaaS產(chǎn)品,包含網(wǎng)站監(jiān)控、服務(wù)器監(jiān)控、中間件監(jiān)控、數(shù)據(jù)庫監(jiān)控、應(yīng)用監(jiān)控、API監(jiān)控和頁面性能監(jiān)控等功能。包含免費版、暢享版和企業(yè)版,目前用戶約40萬,監(jiān)控寶app也是國內(nèi)唯一提供移動監(jiān)控服務(wù)的產(chǎn)品。

用戶群:覆蓋電子商務(wù)、移動互聯(lián)網(wǎng)、廣告?zhèn)髅?、在線游戲、教育醫(yī)療等行業(yè)的幾十萬用戶,小米、陌陌、高德、用友、金山、途牛、聚美優(yōu)品、陸金所、中國平安、建行信用卡中心、春雨醫(yī)生、暢游、國家電網(wǎng)、中國電信、滴滴打車、春秋航空、鳳凰網(wǎng)等各行業(yè)領(lǐng)先企業(yè)和中國互聯(lián)網(wǎng)百強(qiáng)企業(yè)超過30%在使用監(jiān)控寶。
優(yōu)點:
作為國內(nèi)最早提供基于SaaS服務(wù)的網(wǎng)絡(luò)監(jiān)控平臺,監(jiān)控寶不但為初級用戶提供免費的標(biāo)準(zhǔn)服務(wù),企業(yè)用戶還可以按需購買所需的監(jiān)控、告警資源,最大限度的節(jié)省企業(yè)運維成本;
監(jiān)控寶通過遍布全球的300多個分布式監(jiān)測節(jié)點,對網(wǎng)絡(luò)進(jìn)行穩(wěn)定性和可用性的主動監(jiān)控和實時分析,支持http(https)、ftp、ping、udp、tcp、smtp、traceroute等多種協(xié)議,測量CDN效果及DNS狀態(tài),全網(wǎng)全地域性能趨勢分析。
實時捕捉服務(wù)器深層性能指標(biāo),支持Linux/Unix/Windows系統(tǒng)及云平臺,支持CPU使用率、CPU平均負(fù)載、內(nèi)存使用比例、磁盤IO、磁盤空間使用率、網(wǎng)絡(luò)流量和系統(tǒng)進(jìn)程數(shù)統(tǒng)計等物理指標(biāo)及30多種應(yīng)用服務(wù),云主機(jī)監(jiān)控端一鍵開啟,無需復(fù)雜配置。對于應(yīng)用服務(wù)的監(jiān)控,監(jiān)控寶已經(jīng)支持常見的應(yīng)用類型包括:Apache、Lighttpd、Nginx、Tomcat、IIS、Memcache和Redis,存儲層監(jiān)控支持Hadoop、MySQL、MongoDB、SQLServer、Oracle的健康狀態(tài)及性能監(jiān)控。
監(jiān)控寶是國內(nèi)目前唯一支持API監(jiān)控的網(wǎng)絡(luò)監(jiān)控產(chǎn)品,通過API接口調(diào)用模擬用戶使用過程,支持對get、post、put、delete、head、options六種請求方式進(jìn)行實時監(jiān)控;支持JSON、XML、Text、Response Status驗證及Postman腳本導(dǎo)入。
Docker監(jiān)控也是監(jiān)控寶的獨家功能,能夠?qū)崟r監(jiān)控Docker容器的CPU、內(nèi)存、網(wǎng)絡(luò)流量及Swap狀態(tài),讓開發(fā)者和運維人員在使用Docker時清晰掌握其資源消耗狀況。
監(jiān)控寶提供頁面性能管理,基于國際標(biāo)準(zhǔn)制定頁面性能指數(shù),識別加載元素的狀態(tài)及正確性,對全網(wǎng)全用戶加載響應(yīng)時間分析,同時準(zhǔn)確定位問題元素及優(yōu)化建議。
及時有效的告警通知對運維來說至關(guān)重要,監(jiān)控寶可以根據(jù)SLA設(shè)置告警閾值,第一時間發(fā)送告警通知。監(jiān)控寶覆蓋最全面的告警通知方式:電子郵件、短信、電話語音、URL回調(diào)通知、App Push等。另外監(jiān)控寶提供分級告警通知,能夠根據(jù)告警事件的不同等級將不同的告警推送給不同的人員,支持企業(yè)分層管理!
監(jiān)控寶目前對其Smart Agent進(jìn)行了開源,用戶可以根據(jù)業(yè)務(wù)需求定制化開發(fā)Agent,同時用戶的數(shù)據(jù)安全得到保障。
監(jiān)控寶提供私有化部署解決方案,滿足政企、金融行業(yè)專有網(wǎng)絡(luò)監(jiān)控的需求。
來自Compuware、CA、IBM等企業(yè)IT服務(wù)資深專家,超過5年的本土化企業(yè)級SaaS服務(wù)經(jīng)驗,以及超過百人的技術(shù)服務(wù)團(tuán)隊,為用戶提供最佳的服務(wù)保障。
360網(wǎng)站服務(wù)監(jiān)控
推薦星級:★★☆☆☆
360網(wǎng)站服務(wù)監(jiān)控是一款面向廣大站長的網(wǎng)站監(jiān)控產(chǎn)品,提供免費的網(wǎng)站、服務(wù)器監(jiān)控。

用戶群:個人站長
優(yōu)點:
服務(wù)免費,支持網(wǎng)站HTTP監(jiān)控、PING監(jiān)控、域名DNS監(jiān)控和服務(wù)器監(jiān)控
提供網(wǎng)站訪問全景數(shù)據(jù)和簡單配置信息
缺點:
只支持簡單的網(wǎng)站和服務(wù)器監(jiān)控,歷史數(shù)據(jù)保留15天,且免費監(jiān)控點數(shù)量僅為四個
最后一次產(chǎn)品更新是2014年9月,目前已停止更新和運營支持
阿里云監(jiān)控
推薦星級:★★★★☆
阿里云監(jiān)控是一款免費網(wǎng)站監(jiān)控產(chǎn)品,可監(jiān)控站點和服務(wù)器,并提供多種告警方式:短信,旺旺,郵件。

用戶群:阿里云用戶
優(yōu)點:
與阿里云服務(wù)捆綁緊密,允許用戶自定義數(shù)據(jù)監(jiān)控
阿里云多IDC間內(nèi)網(wǎng)數(shù)據(jù)傳輸,不占用客戶公網(wǎng)資源
支持對業(yè)務(wù)數(shù)據(jù)的通用統(tǒng)計,從各個角度反應(yīng)服務(wù)的運行情況
缺點:
所有服務(wù)基于阿里云,功能單一,擴(kuò)展性差
功能不夠強(qiáng)大,只能滿足基礎(chǔ)監(jiān)控需求
百度云觀測
推薦星級:★★☆☆☆
百度云觀測是百度推出的一款云服務(wù)產(chǎn)品,類似于360云監(jiān)控、阿里云監(jiān)控,主要是為站長提供免費的一站式網(wǎng)站監(jiān)測、預(yù)警服務(wù),功能覆蓋網(wǎng)站運行狀況、安全和訪問速度等多個方面。

用戶群:個人站長
優(yōu)點:
對于用戶每日訪問的站點進(jìn)行安全檢測
國內(nèi)各大城市云節(jié)點覆蓋,支持CDN、DNS狀態(tài)和主機(jī)監(jiān)控
缺點:
需要進(jìn)行網(wǎng)站認(rèn)證
監(jiān)控點少,功能簡單,只能監(jiān)測網(wǎng)站狀態(tài),不支持服務(wù)器、應(yīng)用監(jiān)控。
小蜜蜂網(wǎng)站監(jiān)測
推薦星級:★☆☆☆☆
小蜜蜂網(wǎng)站監(jiān)測是一款針對中小企業(yè)需求開發(fā)的綜合測量網(wǎng)站運營情況線上工具,可以定時監(jiān)控網(wǎng)站或服務(wù)器器的可用率(Uptime),一旦網(wǎng)站無法連結(jié)、或是服務(wù)器發(fā)生錯誤,即可發(fā)送告警通知。

用戶群:中小企業(yè)網(wǎng)站管理員
優(yōu)點:
小蜜蜂通過探測節(jié)點和Last Mile兩種模式監(jiān)測網(wǎng)站可用性,支持多種站點監(jiān)控類型和不同的網(wǎng)絡(luò)訪問傳輸協(xié)議;
提供多樣化監(jiān)控告警設(shè)置,并支持站內(nèi)實時告警消息,支持RSS。
缺點:
只支持基本的網(wǎng)站監(jiān)控,監(jiān)控點不可選,監(jiān)控服務(wù)不穩(wěn)定;
網(wǎng)站性能歷史數(shù)據(jù)不夠詳細(xì),且無法導(dǎo)出。
隨著新技術(shù)的不斷發(fā)展,云服務(wù)已經(jīng)互聯(lián)網(wǎng)企業(yè)的必須,但是長期以來會存在傳統(tǒng)物理主機(jī)和云主機(jī)、私有云和公有云并存的狀態(tài)。此外,互聯(lián)網(wǎng)企業(yè)的發(fā)展速度非常快,小米、滴滴出行等很多企業(yè)都是在短短幾年內(nèi)發(fā)展起來的,因此選擇一款合適的云監(jiān)控產(chǎn)品,伴隨企業(yè)同步成長,是非常必要的。