自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何用 ELK 搭建 TB 級的日志監(jiān)控系統(tǒng)?

安全 應(yīng)用安全
日志文件采集端我們使用 FileBeat,運維通過我們的后臺管理界面化配置,每個機器對應(yīng)一個 FileBeat,每個 FileBeat日志對應(yīng)的 Topic 可以是一對一、多對一,根據(jù)日常的日志量配置不同的策略。

本文主要介紹怎么使用 ELK Stack 幫助我們打造一個支撐起日產(chǎn) TB 級的日志監(jiān)控系統(tǒng)。在企業(yè)級的微服務(wù)環(huán)境中,跑著成百上千個服務(wù)都算是比較小的規(guī)模了。在生產(chǎn)環(huán)境上,日志扮演著很重要的角色,排查異常需要日志,性能優(yōu)化需要日志,業(yè)務(wù)排查需要業(yè)務(wù)等等。

然而在生產(chǎn)上跑著成百上千個服務(wù),每個服務(wù)都只會簡單的本地化存儲,當(dāng)需要日志協(xié)助排查問題時,很難找到日志所在的節(jié)點。也很難挖掘業(yè)務(wù)日志的數(shù)據(jù)價值。

那么將日志統(tǒng)一輸出到一個地方集中管理,然后將日志處理化,把結(jié)果輸出成運維、研發(fā)可用的數(shù)據(jù)是解決日志管理、協(xié)助運維的可行方案,也是企業(yè)迫切解決日志的需求。

我們的解決方案

圖片

通過上面的需求我們推出了日志監(jiān)控系統(tǒng),如上圖:

  • 日志統(tǒng)一收集、過濾清洗。
  • 生成可視化界面、監(jiān)控,告警,日志搜索。

圖片

功能流程概覽如上圖:

  • 在每個服務(wù)節(jié)點上埋點,實時采集相關(guān)日志。
  • 統(tǒng)一日志收集服務(wù)、過濾、清洗日志后生成可視化界面、告警功能。

我們的架構(gòu)

圖片

①日志文件采集端我們使用 FileBeat,運維通過我們的后臺管理界面化配置,每個機器對應(yīng)一個 FileBeat,每個 FileBeat日志對應(yīng)的 Topic 可以是一對一、多對一,根據(jù)日常的日志量配置不同的策略。

除了采集業(yè)務(wù)服務(wù)日志外,我們還收集了 MySQL 的慢查詢?nèi)罩竞湾e誤日志,還有別的第三方服務(wù)日志,如:Nginx 等。

最后結(jié)合我們的自動化發(fā)布平臺,自動發(fā)布并啟動每一個 FileBeat 進(jìn)程。

②調(diào)用棧、鏈路、進(jìn)程監(jiān)控指標(biāo)我們使用的代理方式:Elastic APM,這樣對于業(yè)務(wù)側(cè)的程序無需任何改動。

對于已經(jīng)在運營中的業(yè)務(wù)系統(tǒng)來說,為了加入監(jiān)控而需要改動代碼,那是不可取的,也是無法接受的。

Elastic APM 可以幫我們收集 HTTP 接口的調(diào)用鏈路、內(nèi)部方法調(diào)用棧、使用的SQL、進(jìn)程的 CPU、內(nèi)存使用指標(biāo)等。關(guān)注公號:碼猿技術(shù)專欄,回復(fù)關(guān)鍵詞:1111 獲取阿里內(nèi)部的Java性能調(diào)優(yōu)手冊

可能有人會有疑問,用了 Elastic APM,其它日志基本都可以不用采集了。還要用 FileBeat 干嘛?

是的,Elastic APM 采集的信息確實能幫我們定位 80% 以上的問題,但是它不是所有的語言都支持的比如:C。

其二、它無法幫你采集你想要的非 Error 日志和所謂的關(guān)鍵日志,比如:某個接口調(diào)用時出了錯,你想看出錯時間點的前后日志;還有打印業(yè)務(wù)相關(guān)方便做分析的日志。

其三、自定義的業(yè)務(wù)異常,該異常屬于非系統(tǒng)異常,屬于業(yè)務(wù)范疇,APM 會把這類異常當(dāng)成系統(tǒng)異常上報。

如果你后面對系統(tǒng)異常做告警,那這些異常將會干擾告警的準(zhǔn)確度,你也不能去過濾業(yè)務(wù)異常,因為自定義的業(yè)務(wù)異常種類也不少。

③同時我們對 Agent 進(jìn)行了二開。采集更詳細(xì)的 GC、堆棧、內(nèi)存、線程信息。

④服務(wù)器采集我們采用普羅米修斯。

⑤由于我們是 Saas 服務(wù)化,服務(wù) N 多,很多的服務(wù)日志做不到統(tǒng)一規(guī)范化,這也跟歷史遺留問題有關(guān),一個與業(yè)務(wù)系統(tǒng)無關(guān)的系統(tǒng)去間接或直接地去對接已有的業(yè)務(wù)系統(tǒng),為了適配自己而讓其更改代碼,那是推不動的。

牛逼的設(shè)計是讓自己去兼容別人,把對方當(dāng)成攻擊自己的對象。很多日志是沒有意義的,比如:開發(fā)過程中為了方便排查跟蹤問題,在 if else 里打印只是有標(biāo)志性的日志,代表是走了 if 代碼塊還是 else 代碼塊。

甚至有些服務(wù)還打印著 Debug 級別的日志。在成本、資源的有限條件下,所有所有的日志是不現(xiàn)實的,即使資源允許,一年下來將是一比很大的開銷。

所以我們采用了過濾、清洗、動態(tài)調(diào)整日志優(yōu)先級采集等方案。首先把日志全量采集到 Kafka 集群中,設(shè)定一個很短的有效期。

我們目前設(shè)置的是一個小時,一個小時的數(shù)據(jù)量,我們的資源暫時還能接受。

⑥Log Streams 是我們的日志過濾、清洗的流處理服務(wù)。為什么還要 ETL 過濾器呢?

因為我們的日志服務(wù)資源有限,但不對啊,原來的日志分散在各各服務(wù)的本地存儲介質(zhì)上也是需要資源的哈。

現(xiàn)在我們也只是匯集而已哈,收集上來后,原來在各服務(wù)上的資源就可以釋放掉日志占用的部分資源了呀。

沒錯,這樣算確實是把原來在各服務(wù)上的資源化分到了日志服務(wù)資源上來而已,并沒有增加資源。

不過這只是理論上的,在線上的服務(wù),資源擴(kuò)大容易,收縮就沒那么容易了,實施起來極其困難。

所以短時間內(nèi)是不可能在各服務(wù)上使用的日志資源化分到日志服務(wù)上來的。這樣的話,日志服務(wù)的資源就是當(dāng)前所有服務(wù)日志使用資源的量。

隨存儲的時間越長,資源消耗越大。如果解決一個非業(yè)務(wù)或非解決不可的問題,在短時間內(nèi)需要投入的成本大于解決當(dāng)前問題所帶來收益的話,我想,在資金有限的情況下,沒有哪個領(lǐng)導(dǎo)、公司愿意采納的方案。

所以從成本上考慮,我們在 Log Streams 服務(wù)引入了過濾器,過濾沒有價值的日志數(shù)據(jù),從而減少了日志服務(wù)使用的資源成本。

技術(shù)我們采用 Kafka Streams 作為 ETL 流處理。通過界面化配置實現(xiàn)動態(tài)過濾清洗的規(guī)則。

大概規(guī)則如下:

  • 界面化配置日志采集。默認(rèn) Error 級別的日志全量采集。
  • 以錯誤時間點為中心,在流處理中開窗,輻射上下可配的 N 時間點采集非 Error 級別日志,默認(rèn)只采 info 級別。
  • 每個服務(wù)可配 100 個關(guān)鍵日志,默認(rèn)關(guān)鍵日志全量采集。
  • 在慢 SQL 的基礎(chǔ)上,按業(yè)務(wù)分類配置不同的耗時再次過濾。
  • 按業(yè)務(wù)需求實時統(tǒng)計業(yè)務(wù) SQL,比如:高峰期階段,統(tǒng)計一小時內(nèi)同類業(yè)務(wù) SQL 的查詢頻率??蔀?DBA 提供優(yōu)化數(shù)據(jù)庫的依據(jù),如按查詢的 SQL 創(chuàng)建索引。
  • 高峰時段按業(yè)務(wù)類型的權(quán)重指標(biāo)、日志等級指標(biāo)、每個服務(wù)在一個時段內(nèi)日志最大限制量指標(biāo)、時間段指標(biāo)等動態(tài)清洗過濾日志。
  • 根據(jù)不同的時間段動態(tài)收縮時間窗口。關(guān)注公號:碼猿技術(shù)專欄,回復(fù)關(guān)鍵詞:1111 獲取阿里內(nèi)部的Java性能調(diào)優(yōu)手冊
  • 日志索引生成規(guī)則:按服務(wù)生成的日志文件規(guī)則生成對應(yīng)的 index,比如:某個服務(wù)日志分為:debug、info、error、xx_keyword,那么生成的索引也是 debug、info、error、xx_keyword 加日期作后綴。這樣做的目的是為研發(fā)以原習(xí)慣性地去使用日志。

⑦可視化界面我們主要使用 Grafana,它支持的眾多數(shù)據(jù)源中,其中就有普羅米修斯和 Elasticsearch,與普羅米修斯可謂是無縫對接。而 Kibana 我們主要用于 APM 的可視分析。

日志可視化

我們的日志可視化如下圖:

圖片

圖片

圖片

圖片

圖片

圖片

責(zé)任編輯:武曉燕 來源: 碼猿技術(shù)專欄
相關(guān)推薦

2020-06-11 09:00:59

ELKTB級監(jiān)控

2020-05-18 14:55:34

監(jiān)控系統(tǒng)架構(gòu)技術(shù)

2022-03-08 08:21:21

Spring日志分析系統(tǒng)日志數(shù)據(jù)

2011-03-23 09:05:40

Nagios監(jiān)控

2015-11-25 11:16:45

2025-04-07 00:00:00

云原生架構(gòu)Kubernetes

2017-08-16 15:11:10

ELK集群監(jiān)控

2017-04-24 15:12:53

西部數(shù)據(jù)硬盤

2020-12-02 13:19:47

Shell監(jiān)控文件Linux

2022-03-17 15:34:47

printf日志

2022-02-25 08:19:12

項目npm倉庫業(yè)務(wù)組件庫

2021-09-13 08:20:13

Loki日志系統(tǒng)

2018-01-30 14:26:49

監(jiān)控應(yīng)用性能管理運維管理

2011-03-24 08:56:23

nagios監(jiān)控

2023-04-26 08:34:46

支付通道監(jiān)控系統(tǒng)

2015-04-07 09:04:23

Monit服務(wù)器監(jiān)控系統(tǒng)

2017-05-03 13:03:15

互聯(lián)網(wǎng)

2022-04-29 09:04:35

日志平臺開發(fā)

2017-04-06 21:29:58

數(shù)據(jù)分析ELK架構(gòu)

2023-04-18 08:21:23

KafkaApache預(yù)訂應(yīng)用
點贊
收藏

51CTO技術(shù)棧公眾號