無監(jiān)控，不運維！Prometheus 在線服務(wù)的監(jiān)控實操指南

2022-07-11 13:43:51

開源

本文會介紹我近期使用Prometheus構(gòu)建的一套完整的，可用于中小規(guī)模（小于500節(jié)點）的半自動化（少量人工操作）監(jiān)控系統(tǒng)方案。

本文可以看做是對《SRE》一書第10章《基于時間序列數(shù)據(jù)進(jìn)行有效報警》的實踐總結(jié)。

Prometheus是一款開源的業(yè)務(wù)監(jiān)控軟件，可以看作是Google內(nèi)部監(jiān)控系統(tǒng) Borgmon 的一個（非官方）實現(xiàn)。

主動監(jiān)控

監(jiān)控是運維系統(tǒng)的基礎(chǔ)，我們衡量一個公司/部門的運維水平，看他們的監(jiān)控系統(tǒng)就可以了。

監(jiān)控手段一般可以分為三種：

主動監(jiān)控：業(yè)務(wù)上線前，按照運維制定的標(biāo)準(zhǔn)，預(yù)先埋點。具體的實現(xiàn)方式又有多種，可能通過日志、向本地 Agent 上報、提供 REST API 等。
被動監(jiān)控：通常是對主動監(jiān)控的補(bǔ)充，從外圍進(jìn)行黑盒監(jiān)控，通過主動探測服務(wù)的功能可用性來進(jìn)行監(jiān)控。比如定期ping業(yè)務(wù)端口。
旁路監(jiān)控：主動監(jiān)控和被動監(jiān)控，通常還是都在內(nèi)部進(jìn)行的監(jiān)控，內(nèi)部運行平穩(wěn)也不能保證用戶的體驗都是正常的（比如用戶網(wǎng)絡(luò)出問題），所以仍然需要通過輿情監(jiān)控、第三方監(jiān)控工具等的數(shù)據(jù)來間接的監(jiān)控真實的服務(wù)質(zhì)量。

主動監(jiān)控是最理想的方案，后兩種主要用作補(bǔ)充，本文只關(guān)注主動監(jiān)控。

監(jiān)控實際是一個端到端的體系（基礎(chǔ)設(shè)施-服務(wù)器-業(yè)務(wù)-用戶體驗），本文只關(guān)注業(yè)務(wù)級別的主動監(jiān)控。

Prometheus

為什么選擇Prometheus而不是其它TSDB實現(xiàn)（如InfluxDB）？主要是因為Prometheus的核心功能，查詢語言 PromQL，它更像一種可編程計算器，而不是其那么像 SQL，也意味著 PromQL 可以近乎無限之組合出各種查詢結(jié)果。

比如，我們有一個http服務(wù)，監(jiān)控項 http_requests_total 用于統(tǒng)計請求次數(shù)。某一組監(jiān)控數(shù)據(jù)可能是這個樣子：

http_requests_total{instance="1.1.1.1:80",job="cluster1",location="/a"} 100
http_requests_total{instance="1.1.1.1:80", job="cluster1", location="/b"} 110
http_requests_total{instance="1.1.1.2:80", job="cluster2", location="/b"} 100
http_requests_total{instance="1.1.1.3:80", job="cluster3", location="/c"} 110

這里有3個標(biāo)簽，分別對應(yīng)抓取的實例，所屬的 Job（一般我用集群名），訪問路徑（你可以理解為Nginx的location），Prometheus多維數(shù)據(jù)模型意味著我們可以在任意一個或多個維度進(jìn)行計算：

如果你想統(tǒng)計單機(jī)qps，sum(rate(http_requests_total[1m])) by (instance)
如果想用統(tǒng)計每個集群每個不同 location 的 path 的 qps， sum(rate(http_requests_total[1m])) by (job, path)，PromQL會依據(jù)標(biāo)簽job-path的值聚合出結(jié)果。

除了PromQL，豐富的數(shù)據(jù)類型可以提供更有意義的監(jiān)控項：

Counter（計數(shù)器）：標(biāo)識單調(diào)遞增的數(shù)據(jù)，比如接口訪問次數(shù)。
Gauge（刻度）：當(dāng)前瞬時的一個狀態(tài)，可能增加，也可能減小，比如CPU使用率，平均延時等等。
Historgram（直方圖）：用于統(tǒng)計數(shù)據(jù)的分布，比如95 percentile latency。

大部分監(jiān)控項都可以使用Counter來實現(xiàn)，少部分使用Gauge和Histogram，其中Histogram在服務(wù)端計算是相當(dāng)費CPU的，所以也沒要導(dǎo)出太多Histogram數(shù)據(jù)。

最后，Prometheus采用PULL模型的實時抓取存儲計算，主動去抓取監(jiān)控實例數(shù)據(jù)，相比于PUSH模型對業(yè)務(wù)侵入更低，相比于基于log的離線統(tǒng)計則更實時，而監(jiān)控實例只需提供一個文本格式的/metrics接口也更容易debug。

服務(wù)框架的改造

筆者所在團(tuán)隊使用統(tǒng)一的服務(wù)框架來規(guī)范項目開發(fā)并有效降低了開發(fā)難度。

這里先介紹下我們的服務(wù)框架：

類似于 Nginx 的多進(jìn)程架構(gòu)（master/worker），但同時也支持多線程的事件循環(huán)編程模型
支持多種接入?yún)f(xié)議（HTTP，Thrift，PB等），但主流是HTTP
業(yè)務(wù)通過 Module 來加載進(jìn)框架執(zhí)行（類似 Nginx 的 module，但更簡單）
提供純異步的下游訪問 API

為了使服務(wù)框架可以導(dǎo)出內(nèi)部監(jiān)控項，主要涉及幾方面的工作：

提供基礎(chǔ)數(shù)據(jù)類型

目前并沒有官方的Prometheus Client Library，幾種開源實現(xiàn)也都不太符合框架的需求。目前實現(xiàn)了支持多線程多進(jìn)程的Counter和Histogram（除了初始化之外，更新操作都是無鎖的），而Gauge由于多進(jìn)程場景有的情況是無法聚合監(jiān)控數(shù)據(jù)的（沒用統(tǒng)一的聚合方法，并不一定都可以相加），所以沒有提供具體實現(xiàn)
基礎(chǔ)數(shù)據(jù)要有類似注冊表的功能，方便自動導(dǎo)出數(shù)據(jù)到/metrics接口

在服務(wù)框架埋點

要足夠靈活，將容易變化的信息通過標(biāo)簽來表達(dá)。

比如一個web服務(wù)可能有echo，date兩個location，如果要統(tǒng)計它們qps，不要定義echo_requests_total, date_requests_total兩個不同名字的 metrics，而應(yīng)該定義一個名為http_requests_total的 metrics，通過標(biāo)簽location（分別為echo/date）來區(qū)分，這樣再增加/減少接口是不需要改代碼的

理想情況是業(yè)務(wù)幾乎為各種通信功能自行埋點，所以內(nèi)置埋點要將常用監(jiān)控項都要覆蓋到（QPS，Latency，Error Ratio）

數(shù)據(jù)的抓取與展現(xiàn)

具備導(dǎo)出能力后，就可以通過Prometheus 進(jìn)行抓取了，但還有幾個小坑：

用戶定義的metrics名字，可能是不符合Prometheus規(guī)范的，而遇到一條不合法的數(shù)據(jù)，Prometheus就會停止抓取，所以導(dǎo)出數(shù)據(jù)時要先做一遍過濾和改寫

要控制導(dǎo)出數(shù)據(jù)規(guī)模，一些只對單機(jī)監(jiān)控有意義的數(shù)據(jù)可以不導(dǎo)出（框架有針對單機(jī)的監(jiān)控頁面）

在使用 Prometheus 時，也有幾個地方要注意：

Prometheus即是一個CPU密集型（查詢）也是一個IO密集型（數(shù)據(jù)落地）的，CPU數(shù)量是多多益善，內(nèi)存越大越好（來緩存抓取的數(shù)據(jù)，所以應(yīng)該減少不必要的業(yè)務(wù)數(shù)據(jù)導(dǎo)出），盡量要使用SSD（這個很關(guān)鍵?。驗橐坏㏄rometheus的內(nèi)存使用量達(dá)到閾值會停止抓取數(shù)據(jù)！這個停止抓取的時間，至少是分鐘級，甚至是無法恢復(fù)！所以只要有條件就要用SSD。

Prometheus號稱支持 reload，但目測不是很好用，比如你修改了告警規(guī)則文件，重載之后，新舊告警規(guī)則似乎會一起計算執(zhí)行….

Prometheus本身也提供圖形界面，但是很簡陋：

通常還是使用Grafana來展示監(jiān)控數(shù)據(jù)。

因為是統(tǒng)一的業(yè)務(wù)框架，統(tǒng)一的監(jiān)控指標(biāo)，所以 Grafana 的 Dashboard 很容易統(tǒng)一配置：

我沒有找到將默認(rèn)模板打包進(jìn) Grafana 的方法，只能迂回的創(chuàng)建了一個新的Grafana Plugin，在啟動之后，每個業(yè)務(wù)實例只需要啟動下這個插件，然后配置一個默認(rèn)的 Prometheus 數(shù)據(jù)源，就可以使用統(tǒng)一的監(jiān)控 Dashboard
Dashboard 分為3行

第一行展示實時的 QPS，平均延時，平均排隊時間，Coredump 數(shù)量，下游引擎失敗率，下游引擎延時變化
第二行展示業(yè)務(wù)的延遲（50%和95%延遲），流量，吞吐（按照不同錯誤碼）
第三行展示下游引擎的延遲（50%和95%延遲），流量，吞吐（按照不同錯誤碼）

能夠展示 Prometheus 強(qiáng)大威力的是，這里面每一個圖表，都可以同時展示所有機(jī)房的監(jiān)控指標(biāo)，而每一個指標(biāo)的計算只需要一條 Query 語句。比如第一行第五列，各個機(jī)房的各個下游的失敗率統(tǒng)計并排序，只用了一條語句：

topk(5, 100*sum(rate(downstream_responses{error_code!="0"}[5m])) by (job, server)/sum(rate(downstream_responses[5m])) by (job, server))

注意這里的 Range Vector Selector - [5m]，意味著我們是基于過去5分鐘的數(shù)據(jù)來計算rate，這個值取的越小，得到的監(jiān)控結(jié)果波動越大，越大則越平滑，選擇多大的值，取決于你想要什么結(jié)果。建議圖表使用5m，而告警規(guī)則計算采用1m。如果業(yè)務(wù)不是很重要，可以適當(dāng)增大這個值。

這一套監(jiān)控模板基本覆蓋了業(yè)務(wù)對可用性監(jiān)控的需求，同時業(yè)務(wù)也可以自己定義監(jiān)控指標(biāo)并進(jìn)行監(jiān)控。

AlertManager

Prometheus 周期性進(jìn)行抓取數(shù)據(jù)，完成抓取后會檢查是否有告警規(guī)則并進(jìn)行計算，滿足告警規(guī)則就會觸發(fā)告警，發(fā)送到 alertmanager?；谶@個流程，當(dāng)你在監(jiān)控圖表看到異常時，告警已經(jīng)先行觸發(fā)了。

默認(rèn)情況我們配置了不到10條告警規(guī)則，要注意的是周期的選擇，過長的話會產(chǎn)生較大延遲，太短的話一個小的流量波動都會導(dǎo)致大量報警出現(xiàn)。

Prometheus 的設(shè)計是產(chǎn)生報警，但報警的匯總、分發(fā)、屏蔽則在 AlertManager 服務(wù)完成。

AlertManager 目前還是非常簡單的，但它可以將告警繼續(xù)分發(fā)到其他接收者：

可以通過 webhook 機(jī)制，發(fā)送告警到一個中間服務(wù)轉(zhuǎn)換格式再發(fā)送到內(nèi)部告警接口
如果使用第三方告警管理平臺，如PageDuty、OneAlert，可以直接用內(nèi)置的 pageduty 支持或 webhook 發(fā)送告警過去
如果是一窮二白的團(tuán)隊，建議配置 email + slack，實現(xiàn)告警歸檔和手機(jī) Push

更復(fù)雜告警分級管理，AlertManager 還是有很長的路要走，這個話題也值得今后單獨講下。

Prometheus + Grafana + Mesos

Prometheus + Grafana 的方案，加上統(tǒng)一的服務(wù)框架，可以滿足大部分中小團(tuán)隊的監(jiān)控需求。我們將這幾個組件打包一起部署在 Mesos 之上，統(tǒng)一的安裝包進(jìn)一步降低監(jiān)控系統(tǒng)部署的難度，用戶需要配置一些簡單的參數(shù)即可。但還需要注意幾點：

目前并沒有將 Prometheus 和 Grafana 容器化部署，因為這兩者本身就沒有什么特殊依賴；安裝包存儲在 minio 中。
由于 Prometheus 系統(tǒng)的特殊性，我們通常將其指定在一臺固定的機(jī)器上執(zhí)行，且將數(shù)據(jù)落地到一個固定的目錄，這樣重啟 Prometheus 的影響會非常低
Grafana 是展示給用戶的，需要盡可能的保持固定入口，所以我們通過 HAPROXY_CONSUL 給其配置了代理

結(jié)論

Prometheus 是相當(dāng)強(qiáng)大并快速成長的一個監(jiān)控系統(tǒng)實現(xiàn)，雖然在穩(wěn)定性、性能、文檔上仍有很大提升空間，但對于中小團(tuán)隊是一個很棒的選擇，通過定制服務(wù)框架，設(shè)計完善的埋點，統(tǒng)一的Prometheus/Grafana配置模板，再加上Mesos平臺，可以半自動化的部署實時業(yè)務(wù)監(jiān)控系統(tǒng)。

責(zé)任編輯：龐桂玉來源：馬哥Linux運維

Prometheus 監(jiān)控

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡