一文搞定K8S監(jiān)控告警平臺選型
前言
最近在搞K8S的監(jiān)控告警平臺選型,對比了目前比較流行兩款開源平臺kube-prometheus、夜鶯,也踩了一些坑分享一下
kube-prometheus
項目地址:https://github.com/prometheus-operator/kube-prometheus
圖片
目前使用最廣泛的k8s 的開源監(jiān)控告警平臺,在Prometheus基礎上,增加了對 k8s 的各種指標的監(jiān)控,使用了Kubernetes Operator進行了封裝,幾乎可以一鍵部署,部署起來以后登錄Grafana,就可以看到各種指標,如下圖
圖片
圖片
優(yōu)點
1. 生態(tài)好,基于Prometheus,相關開源組件較多,比如mysql-exporter、redis-exporter
2. 對 k8s相關組件監(jiān)控比較完善
3. 用戶基數大
缺點
1. 部署包部分鏡像地址要修改,否則在國內下載不下來
2. Prometheus數據要通過PVC掛載,否則重啟數據會丟失
3. Grafana的時間要進行修改,默認是 UTC 時間
4. 監(jiān)控指標很方便,但是告警配置比較弱,模板這些都要自己實現,同時告警通知沒有與飛書、釘釘、微信這些打通,不過好在有第三方實現:PrometheusAlert
5. 監(jiān)控第三方中間件,比較繁瑣,沒有一個大一統的方案,比如要監(jiān)控MySQL,需要找 Mysql Helm 包下載在部署,Redis 同理,每個中間件配置部署都得走一遍,有點耗時
夜鶯
項目地址:https://github.com/ccfos/nightingale
圖片
夜鶯監(jiān)控是一款開源云原生觀測分析平臺,采用 All-in-One 的設計理念,集數據采集、可視化、監(jiān)控告警、數據分析于一體,與云原生生態(tài)緊密集成,提供開箱即用的企業(yè)級監(jiān)控分析和告警能力。夜鶯于 2020 年 3 月 20 日,在 github 上發(fā)布 v1 版本,目前最新版本是 V6 版本。
夜鶯是Open-Falcon的團隊基于云原生新開發(fā)的觀測分析平臺,可以說是總結之前的一些經驗,搞的很不錯,官方提供的基于Helm 的安裝包,可以進行快速部署,地址:https://github.com/flashcatcloud/n9e-helm
圖片
圖片
優(yōu)點
1. 開箱即用,支持 Docker、Helm Chart、云服務等多種部署方式;集數據采集、監(jiān)控告警、可視化為一體;
2. 大一統的監(jiān)控數據采集,夜鶯的采集端為Categraf,覆蓋支持上百種采集對象,比如K8s、中間件、服務器、交換機等,只需要配置下地址即可采集
圖片
3. 完善的告警機制,這是夜鶯相比其他平臺最大的優(yōu)勢,它提供了簡易圖形化的配置、內置了常用組件的告警規(guī)則、支持國內各種通知媒介,比如:飛書、釘釘、企微、電話、郵箱、telegram等
圖片
圖片
4. 支持多數據源,支持Prometheus、Es、Loki、TDengine,也就是說可以與kube-prometheus項目進行整合使用。
圖片
缺點
1. 對 k8s 監(jiān)控相對弱一點,沒有kube-prometheus完善,需要自己去配置相應的采集指標,不過好在官方文檔有指引
2. 對 Grafana 支持性差點,雖然官方說,可以支持導入 Grafana 報表,但是在使用過程中,還是發(fā)現有些組件不兼容,目前還在逐步完善
3. 夜鶯的報表導出無法直接導入到Grafana中,這可能也是夜鶯商業(yè)化的考慮一個點,要對用戶有粘性
4. 生態(tài)沒有Prometheus+Grafana好,Prometheus有CNCF作為背書,Grafana已經是數據可視化默認選擇,所以很多開源系統都是基于這套方案來實現
總結
以上我們對比了兩種監(jiān)控告警平臺,都有優(yōu)缺點,可以根據自身需求選擇其一進行使用,如果既想要完善的告警管理,又想要Grafana和完善 K8S指標監(jiān)控,可以把兩者結合起來使用,目前有不少公司是這樣做的