微服務(wù)分布式架構(gòu)中,如何實現(xiàn)日志鏈路跟蹤?
背景
開發(fā)排查系統(tǒng)問題用得最多的手段就是查看系統(tǒng)日志,在分布式環(huán)境中一般使用ELK來統(tǒng)一收集日志,但是在并發(fā)大時使用日志定位問題還是比較麻煩,我們來看下面的圖:
上圖一個用戶請求一個url,整個鏈路如圖,每個處理層都會產(chǎn)生日志,那我們?nèi)绾伟堰@些日志串在一些,形成一個請求全路徑日志。
在現(xiàn)有的系統(tǒng)中,由于大量的其他用戶/其他線程的日志也一起輸出穿行其中導(dǎo)致很難篩選出指定請求的全部相關(guān)日志。那我們?nèi)绾蝸硖幚砟?
解決思路
我們可以把每個請求弄一個唯一標識,然后我們可以在日志打印的時候代上每個請求都使用一個唯一標識,而且那個唯一標識需要傳遞給下游服務(wù),下游服務(wù)打印日志的時候也帶上這個唯一標識,這樣就很好的追蹤全部的鏈路顯示在日志中。
那技術(shù)實現(xiàn)方案是什么呢?我們應(yīng)該盡可能的對代碼無入侵,使用Logback的MDC機制日志模板中加入traceId標識,取值方式為%X{traceId}。
什么是MDC
MDC(Mapped Diagnostic Context,映射調(diào)試上下文)是 log4j 和 logback 提供的一種方便在多線程條件下記錄日志的功能。MDC 可以看成是一個與當前線程綁定的Map,可以往其中添加鍵值對。
MDC 中包含的內(nèi)容可以被同一線程中執(zhí)行的代碼所訪問。當前線程的子線程會繼承其父線程中的 MDC 的內(nèi)容。當需要記錄日志時,只需要從 MDC 中獲取所需的信息即可。MDC 的內(nèi)容則由程序在適當?shù)臅r候保存進去。對于一個 Web 應(yīng)用來說,通常是在請求被處理的最開始保存這些數(shù)據(jù)。
方案實現(xiàn)
由于MDC內(nèi)部使用的是ThreadLocal所以只有本線程才有效,子線程和下游的服務(wù)MDC里的值會丟失;所以方案主要的難點是解決值的傳遞問題,主要包括以幾下部分:
- API網(wǎng)關(guān)中的MDC數(shù)據(jù)如何傳遞給下游服務(wù)
- 服務(wù)如何接收數(shù)據(jù),并且調(diào)用其他遠程服務(wù)時如何繼續(xù)傳遞
- 異步的情況下(線程池)如何傳給子線程
修改日志模板
logback配置文件日志格式添加該標識
網(wǎng)關(guān)添加過濾器
此過濾器就是來解決網(wǎng)關(guān)如何把MDC的數(shù)據(jù)傳遞給下游服務(wù):
生成traceId并通過header傳遞給下游服務(wù)
上面代碼有個MDC是屬于org.slf4j.MDC中的,下面就是常量的值:
- /**
- * 日志鏈路追蹤id信息頭
- */
- String TRACE_ID_HEADER = "x-traceId-header";
- /**
- * 日志鏈路追蹤id日志標志
- */
- String LOG_TRACE_ID = "traceId";
下游服務(wù)增加spring攔截器
接收并保存traceId的值:
下游服務(wù)增加feign攔截器
繼續(xù)把當前服務(wù)的traceId值傳遞給下游服務(wù):
解決父子線程傳遞問題
主要針對業(yè)務(wù)會使用線程池(異步、并行處理),并且spring自己也有@Async注解來使用線程池,要解決這個問題需要以下兩個步驟:
重寫logback的LogbackMDCAdapter
由于logback的MDC實現(xiàn)內(nèi)部使用的是ThreadLocal不能傳遞子線程,所以需要重寫替換為阿里的TransmittableThreadLocal。
TransmittableThreadLocal 是Alibaba開源的、用于解決 “在使用線程池等會緩存線程的組件情況下傳遞ThreadLocal” 問題的 InheritableThreadLocal 擴展。若希望 TransmittableThreadLocal 在線程池與主線程間傳遞,需配合TtlRunnable和TtlCallable使用。
- 其他代碼與ch.qos.logback.classic.util.LogbackMDCAdapter一樣,只需改為調(diào)用copyOnInheritThreadLocal變量。
TtlMDCAdapterInitializer類用于程序啟動時加載自己的mdcAdapter實現(xiàn):
擴展線程池實現(xiàn)
增加TtlRunnable和TtlCallable擴展:
場景測試
測試代碼如下:
- log.info("測試")
- @Async
- public void test(){
- log.info("測試1")
- }
- userService.findByUserName("gu");
api網(wǎng)關(guān)打印的日志
ELK聚合日志通過traceId查詢整條鏈路日志
當系統(tǒng)出現(xiàn)異常時,可直接通過該異常日志的traceId的值,在日志中心查詢該請求的所有日志信息,類似下圖:
總結(jié)
到此分布式的日志跟蹤就已經(jīng)完成了,這樣就很好的可以排查整個微服務(wù)的日志鏈路,謝謝!!!
作者:享學(xué)課堂
鏈接:https://www.jianshu.com/p/a3ebc9249b69
來源:簡書