驚訝!我定的日志規(guī)范被CTO在全公司推廣了
打印日志是一門藝術(shù),但長期被開發(fā)同學(xué)所忽視。日志就像車輛保險(xiǎn),沒人愿意為保險(xiǎn)付錢,但是一旦出了問題又都想有保險(xiǎn)可用。
圖片來自 Pexels
我們打印日志的時(shí)候都很隨意,可是用的時(shí)候會(huì)吐槽各種 SB 包括自己!寫好每一條日志吧,與君共勉!
日志是什么?
日志,維基百科的定義是記錄服務(wù)器等電腦設(shè)備或軟件的運(yùn)作。
日志文件提供精確的系統(tǒng)記錄,根據(jù)日志最終定位到錯(cuò)誤詳情和根源。日志的特點(diǎn)是,它描述一些離散的(不連續(xù)的)事件。
例如:應(yīng)用通過一個(gè)滾動(dòng)的文件輸出 INFO 或 ERROR 信息,并通過日志收集系統(tǒng),存儲(chǔ)到一些存儲(chǔ)引擎(Elasticsearch)中方便查詢。
日志有什么用?
在上文中我們解釋了日志的作用是提供精準(zhǔn)的系統(tǒng)記錄方便根因分析。那么具體在哪些具體方面它可以發(fā)揮作用?
①打印調(diào)試:即可以用日志來記錄變量或者某一段邏輯。記錄程序運(yùn)行的流程,即程序運(yùn)行了哪些代碼,方便排查邏輯問題。
②問題定位:程序出異?;蛘叱龉收蠒r(shí)快速的定位問題,方便后期解決問題。因?yàn)榫€上生產(chǎn)環(huán)境無法 DEBUG,在測試環(huán)境去模擬一套生產(chǎn)環(huán)境,費(fèi)時(shí)費(fèi)力。
所以依靠日志記錄的信息定位問題,這點(diǎn)非常重要。還可以記錄流量,后期可以通過 ELK(包括 EFK 進(jìn)行流量統(tǒng)計(jì))。
③用戶行為日志:記錄用戶的操作行為,用于大數(shù)據(jù)分析,比如監(jiān)控、風(fēng)控、推薦等等。
這種日志,一般是給其他團(tuán)隊(duì)分析使用,而且可能是多個(gè)團(tuán)隊(duì),因此一般會(huì)有一定的格式要求,開發(fā)者應(yīng)該按照這個(gè)格式來記錄,便于其他團(tuán)隊(duì)的使用。
當(dāng)然,要記錄哪些行為、操作,一般也是約定好的,因此,開發(fā)者主要是執(zhí)行的角色。
④根因分析(甩鍋必備):即在關(guān)鍵地方記錄日志。方便在和各個(gè)終端定位問題時(shí),別人說是你的程序問題,你可以理直氣壯的拿出你的日志說,看,我這里運(yùn)行了,狀態(tài)也是對(duì)的。這樣,對(duì)方就會(huì)乖乖去定位他的代碼,而不是互相推脫。
什么時(shí)候記錄日志?
上文說了日志的重要性,那么什么時(shí)候需要記錄日志?
①系統(tǒng)初始化:系統(tǒng)或者服務(wù)的啟動(dòng)參數(shù)。核心模塊或者組件初始化過程中往往依賴一些關(guān)鍵配置,根據(jù)參數(shù)不同會(huì)提供不一樣的服務(wù)。務(wù)必在這里記錄 INFO 日志,打印出參數(shù)以及啟動(dòng)完成態(tài)服務(wù)表述。
②編程語言提示異常:如今各類主流的編程語言都包括異常機(jī)制,業(yè)務(wù)相關(guān)的流行框架有完整的異常模塊。
這類捕獲的異常是系統(tǒng)告知開發(fā)人員需要加以關(guān)注的,是質(zhì)量非常高的報(bào)錯(cuò)。應(yīng)當(dāng)適當(dāng)記錄日志,根據(jù)實(shí)際結(jié)合業(yè)務(wù)的情況使用 WARN 或者 ERROR 級(jí)別。
③業(yè)務(wù)流程預(yù)期不符:除開平臺(tái)以及編程語言異常之外,項(xiàng)目代碼中結(jié)果與期望不符時(shí)也是日志場景之一,簡單來說所有流程分支都可以加入考慮。
取決于開發(fā)人員判斷能否容忍情形發(fā)生。常見的合適場景包括外部參數(shù)不正確,數(shù)據(jù)處理問題導(dǎo)致返回碼不在合理范圍內(nèi)等等。
④系統(tǒng)核心角色,組件關(guān)鍵動(dòng)作:系統(tǒng)中核心角色觸發(fā)的業(yè)務(wù)動(dòng)作是需要多加關(guān)注的,是衡量系統(tǒng)正常運(yùn)行的重要指標(biāo),建議記錄 INFO 級(jí)別日志。
比如電商系統(tǒng)用戶從登錄到下單的整個(gè)流程;微服務(wù)各服務(wù)節(jié)點(diǎn)交互;核心數(shù)據(jù)表增刪改;核心組件運(yùn)行等等,如果日志頻度高或者打印量特別大,可以提煉關(guān)鍵點(diǎn) INFO 記錄,其余酌情考慮 DEBUG 級(jí)別。
⑤第三方服務(wù)遠(yuǎn)程調(diào)用:微服務(wù)架構(gòu)體系中有一個(gè)重要的點(diǎn)就是第三方永遠(yuǎn)不可信,對(duì)于第三方服務(wù)遠(yuǎn)程調(diào)用建議打印請(qǐng)求和響應(yīng)的參數(shù),方便在和各個(gè)終端定位問題,不會(huì)因?yàn)榈谌椒?wù)日志的缺失變得手足無措。
日志打印
Slf4j&Logback
Slf4j 英文全稱為 “ Simple Logging Facade for Java ”,為 Java 提供的簡單日志門面。
Facade 門面,更底層一點(diǎn)說就是接口。它允許用戶以自己的喜好,在工程中通過 Slf4j 接入不同的日志系統(tǒng)。
Logback 是 Slf4j 的原生實(shí)現(xiàn)框架,同樣也是出自 Log4j 一個(gè)人之手,但擁有比 Log4j 更多的優(yōu)點(diǎn)、特性和更做強(qiáng)的性能,Logback 相對(duì)于 Log4j 擁有更快的執(zhí)行速度。
基于我們先前在 Log4j 上的工作,Logback 重寫了內(nèi)部的實(shí)現(xiàn),在某些特定的場景上面,甚至可以比之前的速度快上 10 倍。在保證 Logback 的組件更加快速的同時(shí),同時(shí)所需的內(nèi)存更加少。
日志文件
日志文件放置于固定的目錄中,按照一定的模板進(jìn)行命名,推薦的日志文件名稱:
- 當(dāng)前正在寫入的日志文件名:<應(yīng)用名>[-<功能名>].log
- 如:example-server-book-service-access.log
- 已經(jīng)滾入歷史的日志文件名:<應(yīng)用名>[-<功能名>].yyyy-MM-dd-hh.[滾動(dòng)號(hào)].log
- 如:example-server-book-service-access.2019-12-01-10.1.log
日志變量定義
推薦使用 lombok(代碼生成器) 注解 @lombok.extern.slf4j.Slf4j 來生成日志變量實(shí)例:
- <!-- https://mvnrepository.com/artifact/org.projectlombok/lombok -->
- <dependency>
- <groupId>org.projectlombok</groupId>
- <artifactId>lombok</artifactId>
- <version>1.18.10</version>
- <scope>provided</scope>
- </dependency>
代碼示例:
- import lombok.extern.slf4j.Slf4j;
- @Slf4j
- public class LogTest {
- public static void main(String[] args) {
- log.info("this is log test");
- }
- }
日志配置
日志記錄采用分級(jí)記錄,級(jí)別與日志文件名相對(duì)應(yīng),不同級(jí)別的日志信息記錄到不同的日志文件中。
如有特殊格式日志,如 access log,單獨(dú)使用一個(gè)文件,請(qǐng)注意避免重復(fù)打印(可使用 additivity="false" 避免 )。
參數(shù)占位格式
使用參數(shù)化形式 {} 占位,[] 進(jìn)行參數(shù)隔離,這樣的好處是可讀性更高,而且只有真正準(zhǔn)備打印的時(shí)候才會(huì)處理參數(shù)。
- // 正確示例,必須使用參數(shù)化信息的方式
- log.debug("order is paying with userId:[{}] and orderId : [{}]",userId, orderId);
- // 錯(cuò)誤示例,不要進(jìn)行字符串拼接,那樣會(huì)產(chǎn)生很多 String 對(duì)象,占用空間,影響性能。及日志級(jí)別高于此級(jí)別也會(huì)進(jìn)行字符串拼接邏輯。
- log.debug("order is paying with userId: " + userId + " and orderId: " + orderId);
日志的基本格式
①日志時(shí)間
作為日志產(chǎn)生的日期和時(shí)間,這個(gè)數(shù)據(jù)非常重要,一般精確到毫秒。
yyyy-MM-dd HH:mm:ss.SSS
②日志級(jí)別
日志的輸出都是分級(jí)別的,不同的設(shè)置不同的場合打印不同的日志。主要使用如下的四個(gè)級(jí)別:
DEBUG:DEUBG 級(jí)別的主要輸出調(diào)試性質(zhì)的內(nèi)容,該級(jí)別日志主要用于在開發(fā)、測試階段輸出。
該級(jí)別的日志應(yīng)盡可能地詳盡,開發(fā)人員可以將各類詳細(xì)信息記錄到 DEBUG 里,起到調(diào)試的作用,包括參數(shù)信息,調(diào)試細(xì)節(jié)信息,返回值信息等等,便于在開發(fā)、測試階段出現(xiàn)問題或者異常時(shí),對(duì)其進(jìn)行分析。
INFO:INFO 級(jí)別的主要記錄系統(tǒng)關(guān)鍵信息,旨在保留系統(tǒng)正常工作期間關(guān)鍵運(yùn)行指標(biāo),開發(fā)人員可以將初始化系統(tǒng)配置、業(yè)務(wù)狀態(tài)變化信息,或者用戶業(yè)務(wù)流程中的核心處理記錄到 INFO 日志中,方便日常運(yùn)維工作以及錯(cuò)誤回溯時(shí)上下文場景復(fù)現(xiàn)。
建議在項(xiàng)目完成后,在測試環(huán)境將日志級(jí)別調(diào)成 INFO,然后通過 INFO 級(jí)別的信息看看是否能了解這個(gè)應(yīng)用的運(yùn)用情況,如果出現(xiàn)問題后是否這些日志能提供有用的排查問題的信息。
WARN:WARN 級(jí)別的主要輸出警告性質(zhì)的內(nèi)容,這些內(nèi)容是可以預(yù)知且是有規(guī)劃的,比如,某個(gè)方法入?yún)榭栈蛘咴搮?shù)的值不滿足運(yùn)行該方法的條件時(shí)。在 WARN 級(jí)別的時(shí)應(yīng)輸出較為詳盡的信息,以便于事后對(duì)日志進(jìn)行分析。
ERROR:ERROR 級(jí)別主要針對(duì)于一些不可預(yù)知的信息,諸如:錯(cuò)誤、異常等,比如,在 catch 塊中抓獲的網(wǎng)絡(luò)通信、數(shù)據(jù)庫連接等異常,若異常對(duì)系統(tǒng)的整個(gè)流程影響不大,可以使用 WARN 級(jí)別日志輸出。
在輸出 ERROR 級(jí)別的日志時(shí),盡量多地輸出方法入?yún)?shù)、方法執(zhí)行過程中產(chǎn)生的對(duì)象等數(shù)據(jù),在帶有錯(cuò)誤、異常對(duì)象的數(shù)據(jù)時(shí),需要將該對(duì)象一并輸出。
③DEBUG/INFO 的選擇
DEBUG 級(jí)別比 INFO 低,包含調(diào)試時(shí)更詳細(xì)的了解系統(tǒng)運(yùn)行狀態(tài)的東西,比如變量的值等等,都可以輸出到 DEBUG 日志里。
INFO 是在線日志默認(rèn)的輸出級(jí)別,反饋系統(tǒng)的當(dāng)前狀態(tài)給最終用戶看的。輸出的信息,應(yīng)該對(duì)最終用戶具有實(shí)際意義的。
從功能角度上說,INFO 輸出的信息可以看作是軟件產(chǎn)品的一部分,所以需要謹(jǐn)慎對(duì)待,不可隨便輸出。
如果這條日志會(huì)被頻繁打印或者大部分時(shí)間對(duì)于糾錯(cuò)起不到作用,就應(yīng)當(dāng)考慮下調(diào)為 DEBUG 級(jí)別:
- 由于 DEBUG 日志打印量遠(yuǎn)大于 INFO,出于前文日志性能的考慮,如果代碼為核心代碼,執(zhí)行頻率非常高,務(wù)必推敲日志設(shè)計(jì)是否合理,是否需要下調(diào)為 DEBUG 級(jí)別日志。
- 注意日志的可讀性,不妨在寫完代碼 review 這條日志是否通順,能否提供真正有意義的信息。
- 日志輸出是多線程公用的,如果有另外一個(gè)線程正在輸出日志,上面的記錄就會(huì)被打斷,最終顯示輸出和預(yù)想的就會(huì)不一致。
④WARN/ERROR 的選擇
當(dāng)方法或者功能處理過程中產(chǎn)生不符合預(yù)期結(jié)果或者有框架報(bào)錯(cuò)時(shí)可以考慮使用。
常見問題處理方法包括:
- 增加判斷處理邏輯,嘗試本地解決:增加邏輯判斷吞掉報(bào)警永遠(yuǎn)是最優(yōu)選擇拋出異常,交給上層邏輯解決
- 拋出異常,交給上層邏輯解決
- 記錄日志,報(bào)警提醒
- 使用返回碼包裝錯(cuò)誤做返回
一般來說,WARN 級(jí)別不會(huì)短信報(bào)警,ERROR 級(jí)別則會(huì)短信報(bào)警甚至電話報(bào)警,ERROR 級(jí)別的日志意味著系統(tǒng)中發(fā)生了非常嚴(yán)重的問題,必須有人馬上處理,比如數(shù)據(jù)庫不可用,系統(tǒng)的關(guān)鍵業(yè)務(wù)流程走不下去等等。
錯(cuò)誤的使用反而帶來嚴(yán)重的后果,不區(qū)分問題的重要程度,只要有問題就 ERROR 記錄下來。
其實(shí)這樣是非常不負(fù)責(zé)任的,因?yàn)閷?duì)于成熟的系統(tǒng),都會(huì)有一套完整的報(bào)錯(cuò)機(jī)制,那這個(gè)錯(cuò)誤信息什么時(shí)候需要發(fā)出來,很多都是依據(jù)單位時(shí)間內(nèi) ERROR 日志的數(shù)量來確定的。
⑤強(qiáng)調(diào) ERROR 報(bào)警
ERROR 級(jí)別的日志打印通常伴隨報(bào)警通知。ERROR 的報(bào)出應(yīng)該伴隨著業(yè)務(wù)功能受損,即上面提到的系統(tǒng)中發(fā)生了非常嚴(yán)重的問題,必須有人馬上處理。
ERROR 日志目標(biāo):給處理者直接準(zhǔn)確的信息,ERROR 信息形成自身閉環(huán)。
問題定位:
- 發(fā)生了什么問題,哪些功能受到影響
- 獲取幫助信息:直接幫助信息或幫助信息的存儲(chǔ)位置
- 通過報(bào)警知道解決方案或者找何人解決
⑥線程名稱
輸出該日志的線程名稱,一般在一個(gè)應(yīng)用中一個(gè)同步請(qǐng)求由同一線程完成,輸出線程名稱可以在各個(gè)請(qǐng)求產(chǎn)生的日志中進(jìn)行分類,便于分清當(dāng)前請(qǐng)求上下文的日志。
⑦opentracing 標(biāo)識(shí)
在分布式應(yīng)用中,用戶的一個(gè)請(qǐng)求會(huì)調(diào)用若干個(gè)服務(wù)完成,這些服務(wù)可能還是嵌套調(diào)用的,因此完成一個(gè)請(qǐng)求的日志并不在一個(gè)應(yīng)用的日志文件,而是分散在不同服務(wù)器上不同應(yīng)用節(jié)點(diǎn)的日志文件中。
該標(biāo)識(shí)是為了串聯(lián)一個(gè)請(qǐng)求在整個(gè)系統(tǒng)中的調(diào)用日志:
- 唯一字符串(trace id)
- 調(diào)用層級(jí)(span id)
通過搜索 trace id 就可以查到這個(gè) trace id 標(biāo)識(shí)的請(qǐng)求在整個(gè)系統(tǒng)中流轉(zhuǎn)(處理)過程中產(chǎn)生的所有日志。
⑧biz 標(biāo)識(shí)
在業(yè)務(wù)開發(fā)中,我們的日志都是和業(yè)務(wù)相關(guān)聯(lián)的,有時(shí)候是需要根據(jù)用戶或者業(yè)務(wù)做聚類的,因此一次請(qǐng)求如果可以通過某項(xiàng)標(biāo)識(shí)做聚類的時(shí)候,可以將聚類標(biāo)識(shí)打印到日志中:
- 用戶標(biāo)識(shí)(user id)
- 業(yè)務(wù)標(biāo)識(shí)(biz id)
⑨日志記錄器名稱
日志記錄器名稱一般使用類名,日志文件中可以輸出簡單的類名即可,看實(shí)際情況是否需要使用包名和行號(hào)等信息。主要用于看到日志后到哪個(gè)類中去找這個(gè)日志輸出,便于定位問題所在。
⑩日志內(nèi)容
禁用 System.out.println 和 System.err.println。
變參替換日志拼接,輸出日志的對(duì)象,應(yīng)在其類中實(shí)現(xiàn)快速的 toString 方法,以便于在日志輸出時(shí)僅輸出這個(gè)對(duì)象類名和 hashCode。
預(yù)防空指針:不要在日志中調(diào)用對(duì)象的方法獲取值,除非確保該對(duì)象肯定不為 null,否則很有可能會(huì)因?yàn)槿罩镜膯栴}而導(dǎo)致應(yīng)用產(chǎn)生空指針異常。
⑪異常堆棧
異常堆棧一般會(huì)出現(xiàn)在 ERROR 或者 WARN 級(jí)別的日志中,異常堆棧含有方法調(diào)用鏈的系統(tǒng),以及異常產(chǎn)生的根源。異常堆棧的日志屬于上一行日志的,在日志收集時(shí)需要將其劃至上一行中。
最佳實(shí)踐
①日志格式
2019-12-01 00:00:00.000|pid|log-level|[svc-name,trace-id,span-id,user-id,biz-id]|thread-name|package-name.class-name : log message
日志格式如下:
- 時(shí)間
- pid,pid
- log-level,日志級(jí)別
- svc-name,應(yīng)用名稱
- trace-id,調(diào)用鏈標(biāo)識(shí)
- span-id,調(diào)用層級(jí)標(biāo)識(shí)
- user-id,用戶標(biāo)識(shí)
- biz-id,業(yè)務(wù)標(biāo)識(shí)
- thread-name,線程名稱
- package-name.class-name,日志記錄器名稱
- log message,日志消息體
②日志模塊擴(kuò)展
日志模塊是基于以下技術(shù)點(diǎn)做擴(kuò)展的:
- Slf4j MDC 實(shí)現(xiàn)原理。
- Opentracing Scope 原理。
在每個(gè) tracing 鏈路中,將 Opentracing Scope 中的上下文信息放置 MDC 中,根據(jù) Spring Boot Logging 擴(kuò)展接口擴(kuò)展的取值邏輯 logging.pattern.level 的取值邏輯。
相關(guān)源碼參考:
- Spring Cloud Sleuth:
- https://github.com/spring-cloud/spring-cloud-sleuth/blob/master/spring-cloud-sleuth-core/src/main/java/org/springframework/cloud/sleuth/autoconfig/TraceEnvironmentPostProcessor.java
- https://github.com/spring-cloud/spring-cloud-sleuth/blob/master/spring-cloud-sleuth-core/src/main/java/org/springframework/cloud/sleuth/log/Slf4jCurrentTraceContext.java
修改 logback 配置文件中每個(gè) appender 的 pattern 為以下默認(rèn)值即可實(shí)現(xiàn)標(biāo)準(zhǔn)化。
- %d{${LOG_DATEFORMAT_PATTERN:-yyyy-MM-dd HH:mm:ss.SSS}}|${PID:- }|%level|${LOG_LEVEL_PATTERN:-%5p}|%t|%-40.40logger{39}: %msg%n
logback.xml 節(jié)選:
- <configuration><property name="LOG_PATH"
- value="${LOG_PATH:-${LOG_TEMP:-${java.io.tmpdir:-/tmp}}}"/>
- <springProperty scope="context" name="APP_NAME"
- source="spring.application.name" defaultValue="spring-boot-fusion"/>
- <!-- 全局統(tǒng)一 pattern -->
- <property name="LOG_PATTERN"
- value="%d{${LOG_DATEFORMAT_PATTERN:-yyyy-MM-dd HH:mm:ss.SSS}}|${PID:- }|%level|${LOG_LEVEL_PATTERN:-%5p}|%t|%-40.40logger{39}: %msg%n"/>
- <!-- 輸出模式 file,滾動(dòng)記錄文件,先將日志文件指定到文件,當(dāng)符合某個(gè)條件時(shí),將日志記錄到其他文件 -->
- <appender name="fileInfo" class="ch.qos.logback.core.rolling.RollingFileAppender">
- <!--被寫入的文件名,可以是相對(duì)目錄,也可以是絕對(duì)目錄,如果上級(jí)目錄不存在會(huì)自動(dòng)創(chuàng)建,沒有默認(rèn)值。-->
- <file>${LOG_PATH}/${APP_NAME}-info.log</file>
- <!--滾動(dòng)策略 基于時(shí)間的分包策略 -->
- <rollingPolicy class="ch.qos.logback.core.rolling.SizeAndTimeBasedRollingPolicy">
- <!-- yyyy-MM-dd 時(shí)間策略則為一天一個(gè)文件 -->
- <FileNamePattern>${LOG_PATH}/${APP_NAME}-info.%d{yyyy-MM-dd-HH}.%i.log</FileNamePattern>
- <!--日志文件保留小時(shí)數(shù)-->
- <MaxHistory>48</MaxHistory>
- <maxFileSize>1GB</maxFileSize>
- <totalSizeCap>20GB</totalSizeCap>
- </rollingPolicy>
- <!-- layout 負(fù)責(zé)把事件轉(zhuǎn)換成字符串,格式化的日志信息的輸出 -->
- <layout class="ch.qos.logback.classic.PatternLayout">
- <pattern>${LOG_PATTERN}</pattern>
- </layout>
- <!--級(jí)別過濾器,根據(jù)日志級(jí)別進(jìn)行過濾。如果日志級(jí)別等于配置級(jí)別,過濾器會(huì)根據(jù)onMath 和 onMismatch接收或拒絕日志-->
- <filter class="ch.qos.logback.classic.filter.LevelFilter">
- <!--設(shè)置過濾級(jí)別-->
- <level>INFO</level>
- <!--用于配置符合過濾條件的操作-->
- <onMatch>ACCEPT</onMatch>
- <!--用于配置不符合過濾條件的操作-->
- <onMismatch>DENY</onMismatch>
- </filter>
- </appender>
- </configuration>
代碼使用示例:
- @Override
- public Result<PagingObject<SimpleResponse>> page(@RequestParam(value = "page-num", defaultValue = "1") int pageNum,
- @RequestParam(value = "page-size", defaultValue = "10") int pageSize) {
- LogStandardUtils.putUserId("userId123");
- LogStandardUtils.putBizId("bizId321");
- producerService.sendMsg("xxx");
- simpleClient.page(pageNum, pageSize);
- return new Result<>(simpleService.page(pageNum, pageSize));
- }
日志記錄:
- 2019-12-04 16:29:08.223|43546|INFO|[example-server-book-service,ac613cff04bac8b1,4a9adc10fdf0eb5,userId123,bizId321]|XNIO-1 task-4|c.n.u.concurrent.ShutdownEnabledTimer : Shutdown hook installed for: NFLoadBalancer-PingTimer-example-server-order-service
- 2019-12-04 16:29:08.224|43546|INFO|[example-server-book-service,ac613cff04bac8b1,4a9adc10fdf0eb5,userId123,bizId321]|XNIO-1 task-4|c.netflix.loadbalancer.BaseLoadBalancer : Client: example-server-order-service instantiated a LoadBalancer: DynamicServerListLoadBalancer:{NFLoadBalancer:name=example-server-order-service,current list of Servers=[],Load balancer stats=Zone stats: {},Server stats: []}ServerList:null
- 2019-12-04 16:29:08.234|43546|INFO|[example-server-book-service,ac613cff04bac8b1,4a9adc10fdf0eb5,userId123,bizId321]|XNIO-1 task-4|c.n.l.DynamicServerListLoadBalancer : Using serverListUpdater PollingServerListUpdater
- 2019-12-04 16:29:08.247|43546|INFO|[example-server-book-service,ac613cff04bac8b1,4a9adc10fdf0eb5,userId123,bizId321]|XNIO-1 task-4|c.n.l.DynamicServerListLoadBalancer : DynamicServerListLoadBalancer for client example-server-order-service initialized: DynamicServerListLoadBalancer:{NFLoadBalancer:name=example-server-order-service,current list of Servers=[],Load balancer stats=Zone stats: {},Server stats: []}ServerList:ConsulServerList{serviceId='example-server-order-service', tag=null}
- 2019-12-04 16:29:08.329|43546|WARN|[example-server-book-service,ac613cff04bac8b1,4a9adc10fdf0eb5,userId123,bizId321]|XNIO-1 task-4|c.p.f.l.ctl.common.rule.StrategyRule : No up servers available from load balancer: DynamicServerListLoadBalancer:{NFLoadBalancer:name=example-server-order-service,current list of Servers=[],Load balancer stats=Zone stats: {},Server stats: []}ServerList:ConsulServerList{serviceId='example-server-order-service', tag=null}
- 2019-12-04 16:29:08.334|43546|WARN|[example-server-book-service,ac613cff04bac8b1,4a9adc10fdf0eb5,userId123,bizId321]|XNIO-1 task-4|c.p.f.l.ctl.common.rule.StrategyRule : No up servers available from load balancer: DynamicServerListLoadBalancer:{NFLoadBalancer:name=example-server-order-service,current list of Servers=[],Load balancer stats=Zone stats: {},Server stats: []}ServerList:ConsulServerList{serviceId='example-server-order-service', tag=null}
- 2019-12-04 16:29:08.342|43546|ERROR|[example-server-book-service,ac613cff04bac8b1,4a9adc10fdf0eb5,userId123,bizId321]|XNIO-1 task-4|c.p.f.w.c.advice.ExceptionHandlerAdvice : 當(dāng)前程序進(jìn)入到異常捕獲器,出錯(cuò)的 url 為:[ http://127.0.0.1:10011/simples ],出錯(cuò)的參數(shù)為:[ {"querystring":"{}","payload":""} ]
- java.lang.RuntimeException: com.netflix.client.ClientException: Load balancer does not have available server for client: example-server-order-service
日志服務(wù)
SLS 阿里云日志服務(wù)
阿里云日志服務(wù)(簡稱 SLS)是針對(duì)日志類數(shù)據(jù)的一站式服務(wù),在阿里巴巴集團(tuán)經(jīng)歷大量大數(shù)據(jù)場景錘煉而成。
您無需開發(fā)就能快捷完成日志數(shù)據(jù)采集、消費(fèi)、投遞以及查詢分析等功能,提升運(yùn)維、運(yùn)營效率,建立 DT 時(shí)代海量日志處理能力。
project:項(xiàng)目、管理日志基礎(chǔ)單元,服務(wù)日志建議一個(gè)環(huán)境建為一個(gè) Project,這樣日志記錄是整體一個(gè)閉環(huán),日志記錄隨整個(gè)環(huán)境內(nèi)的服務(wù)調(diào)用產(chǎn)生。
logstore:日志庫,日志庫建議按照日志類型分為不同的,如特定格式的 access 日志,以及 info / warn / error 日志,特定格式可以配置更為方面的索引以及告警設(shè)置。
注意:請(qǐng)勿按照應(yīng)用服務(wù)區(qū)分為不同的 logstore,在微服務(wù)架構(gòu)中,一次請(qǐng)求交叉了多個(gè)應(yīng)用服務(wù),日志是散落在各個(gè)應(yīng)用服務(wù)中的,按照服務(wù)區(qū)分 logstore,需要開發(fā)同學(xué)十分了解應(yīng)用運(yùn)行狀況和調(diào)用拓?fù)鋱D,這點(diǎn)往往是不具備的。
①實(shí)時(shí)采集與消費(fèi)
功能:
- 通過 ECS、容器、移動(dòng)端、開源軟件、JS 等接入實(shí)時(shí)日志數(shù)據(jù)(例如 Metric、Event、BinLog、TextLog、Click 等)。
- 提供實(shí)時(shí)消費(fèi)接口,與實(shí)時(shí)計(jì)算及服務(wù)對(duì)接。
用途:數(shù)據(jù)清洗(ETL)、流計(jì)算(Stream Compute)、監(jiān)控與報(bào)警、 機(jī)器學(xué)習(xí)與迭代計(jì)算。
②查詢分析
實(shí)時(shí)索引、查詢分析數(shù)據(jù):
- 查詢:關(guān)鍵詞、模糊、上下文、范圍。
- 統(tǒng)計(jì):SQL聚合等豐富查詢手段。
- 可視化:Dashboard+報(bào)表功能。
- 對(duì)接:Grafana、JDBC/SQL92。
用途:DevOps / 線上運(yùn)維,日志實(shí)時(shí)數(shù)據(jù)分析,安全診斷與分析,運(yùn)營與客服系統(tǒng)。
③消費(fèi)投遞
穩(wěn)定可靠的日志投遞。將日志中樞數(shù)據(jù)投遞至存儲(chǔ)類服務(wù)進(jìn)行存儲(chǔ)。支持壓縮、自定義 Partition、以及行列等各種存儲(chǔ)方式。
用途:數(shù)據(jù)倉庫+數(shù)據(jù)分析、審計(jì)、推薦系統(tǒng)與用戶畫像。
④告警
日志服務(wù)的告警功能基于儀表盤中的查詢圖表實(shí)現(xiàn)。在日志服務(wù)控制臺(tái)查詢頁面或儀表盤頁面設(shè)置告警規(guī)則,并指定告警規(guī)則的配置、檢查條件和通知方式。
設(shè)置告警后,日志服務(wù)定期對(duì)儀表盤的查詢結(jié)果進(jìn)行檢查,檢查結(jié)果滿足預(yù)設(shè)條件時(shí)發(fā)送告警通知,實(shí)現(xiàn)實(shí)時(shí)的服務(wù)狀態(tài)監(jiān)控。
⑤最佳實(shí)踐
阿里云的日志服務(wù)功能相當(dāng)強(qiáng)大,想用好日志服務(wù)可以參考:
https://help.aliyun.com/document_detail/29090.html?spm=a2c4g.11186623.6.1079.4edd3aabvs50OW
ELK 通用日志解決方案
ELK 是 Elasticsearch、Logstash、Kibana 三大開源框架首字母大寫簡稱。市面上也被成為 Elastic Stack。
其中 Elasticsearch 是一個(gè)基于 Lucene、分布式、通過 Restful 方式進(jìn)行交互的近實(shí)時(shí)搜索平臺(tái)框架。
像類似百度、谷歌這種大數(shù)據(jù)全文搜索引擎的場景都可以使用 Elasticsearch 作為底層支持框架,可見 Elasticsearch 提供的搜索能力確實(shí)強(qiáng)大,市面上很多時(shí)候我們簡稱 Elasticsearch 為 ES。
Logstash 是 ELK 的中央數(shù)據(jù)流引擎,用于從不同目標(biāo)(文件/數(shù)據(jù)存儲(chǔ)/MQ)收集的不同格式數(shù)據(jù),經(jīng)過過濾后支持輸出到不同目的地(文件/MQ/Redis/Elasticsearch/Kafka 等)。
Kibana 可以將 Elasticsearch 的數(shù)據(jù)通過友好的頁面展示出來,提供實(shí)時(shí)分析的功能。
實(shí)踐說明
普通格式日志:
- 2019-11-26 15:01:03.332|1543|INFO|[example-server-book-service,28f019d57b8336ab,630697c7f34ca4fa,105,45982043|XNIO-1 task-42]|c.p.f.w.pay.PayServiceImpl : order is paying with userId: 105 and orderId: 45982043
普通日志前綴是固定的,可以固定分詞索引,方便更快的查詢分析。
特定格式日志,以 access 日志為例:
- 2019-11-26 15:01:03.332|1543|INFO|[example-server-book-service,28f019d57b8336ab,630697c7f34ca4fa,105,45982043|XNIO-1 task-42]|c.p.f.w.logging.AccessLoggingFilter :
- > url: http://liweichao.com:10011/actuator/health
- > http-method: GET
- > request-header: [Accept:"text/plain, text/*, */*", Connection:"close", User-Agent:"Consul Health Check", Host:"liweichao.com:10011", Accept-Encoding:"gzip"]
- > request-time: 2019-11-26 15:01:03.309
- > querystring: -
- > payload: -
- > extra-param: -
- < response-time: 2019-11-26 15:01:03.332
- < take-time: 23
- < http-status: 200
- < response-header: [content-type:"application/vnd.spring-boot.actuator.v2+json;charset=UTF-8", content-size:"15"]
特定格式日志可按格式創(chuàng)建索引更方便聚焦查詢分析和告警,如根據(jù) take-time,http-status,biz-code 等值。
參考文獻(xiàn):
- Java日志記錄最佳實(shí)踐 :https://www.jianshu.com/p/546e9aace657)
- 別在 Java 代碼里亂打日志了,這才是打印日志的正確姿勢!:https://mp.weixin.qq.com/s/hJvkRlt9xQbWhYy1G7ZDsw
- 阿里云日志服務(wù):https://help.aliyun.com/product/28958.html?spm=a2c4g.11186623.3.1.7cfd735dv8i1pB
- Spring Boot Logging:https://docs.spring.io/spring-boot/docs/2.2.1.RELEASE/reference/html/spring-boot-features.html#boot-features-logging
- Spring Cloud Sleuth:https://github.com/spring-cloud/spring-cloud-sleuth
- Opentracing:https://github.com/opentracing