記一次線上服務(wù)的內(nèi)存泄露排查
1、出現(xiàn)內(nèi)存泄漏
1.1 事發(fā)現(xiàn)場(chǎng)
在風(fēng)和日麗的一天,本人正看著需求、敲著代碼,展望美好的未來(lái)。突然收到一條內(nèi)存使用率過(guò)高的告警。
1.2 證人證詞
告警的這個(gè)項(xiàng)目,老代碼是python的,最近一直在go化。隨著go化率不斷上升,發(fā)現(xiàn)內(nèi)存的RSS使用率越飆越高。最終達(dá)到容器內(nèi)存限制后,進(jìn)程會(huì)自動(dòng)重啟。RSS如下圖所示:
2、排查內(nèi)存泄露
2.1 分析問(wèn)題
看到這種不正常的RSS增長(zhǎng),第一反應(yīng)是:是不是最近上的代碼有什么問(wèn)題?是不是發(fā)生了內(nèi)存泄露??jī)?nèi)存泄露可是大事,趕緊查查。于是將時(shí)間線拉長(zhǎng),看看是從哪天開(kāi)始的。結(jié)果,現(xiàn)實(shí)是很殘酷的。從項(xiàng)目剛上線的時(shí)候就有這個(gè)問(wèn)題了。由于項(xiàng)目是2周一個(gè)版本,以前是還沒(méi)達(dá)到內(nèi)存限制,所以沒(méi)有發(fā)出告警。
那么問(wèn)題應(yīng)該就是在最初的版本里。這個(gè)時(shí)候就想了想,難道是我們使用的框架本身存在缺陷?但是很快就否定了這個(gè)想法,因?yàn)槲覀兪褂玫目蚣苁瞧渌?xiàng)目已經(jīng)上線已久的成熟框架。不應(yīng)該有這個(gè)問(wèn)題。
顯然,看代碼這種本辦法是不可能發(fā)現(xiàn)問(wèn)題的。于是想到了golang的性能分析工具pprof。由于pprof線上環(huán)境是不開(kāi)啟的,所以排查我這里只能去預(yù)發(fā)環(huán)境。
2.2 尋找問(wèn)題
2.2.1 獲取內(nèi)存使用監(jiān)控
- -source_path Search path for source files 是分析代碼時(shí),需要用到源碼路徑,這里就是你自己本地的gopath路徑
- /debug/pprof/allocs
- -inuse_space Same as -sample_index=inuse_space 是監(jiān)控使用中的內(nèi)存。因?yàn)槲覀兎治龅氖莾?nèi)存泄露,所以要查看的是實(shí)際占用的內(nèi)存
輸入以上命令,會(huì)出現(xiàn)以下界面的內(nèi)容:
2.2.2 分析內(nèi)存監(jiān)控
2.2.2.1 獲取top10的內(nèi)存占用
由于我們需要分析內(nèi)存占用,所以這個(gè)時(shí)候輸入一個(gè)top10,看看占用內(nèi)存前10的都是哪些代碼。
這個(gè)時(shí)候需要解釋一下顯示的指標(biāo)的含義
- flat:函數(shù)在內(nèi)存上的占用
- flat%:函數(shù)在內(nèi)存占用上的占用百分比
- sum%:是從上往下到當(dāng)前行所有函數(shù)累加使用內(nèi)存的比例 如第二行,sum=84.25=74.95+9.29
- cum:這個(gè)函數(shù)以及子函數(shù)運(yùn)行所占用的內(nèi)存,應(yīng)該大于等于flat
- cum%:這個(gè)函數(shù)以及子函數(shù)運(yùn)行所占用的內(nèi)存的比例,應(yīng)該大于等于flat%
2.2.2.2 查看占用函數(shù)調(diào)用棧
看完以上返回,明眼人應(yīng)該就能看出,第一行這個(gè)newStream問(wèn)題很大呀,讓我們進(jìn)去看看他哪行代碼出了問(wèn)題。需要用到一下命令
讓我們輸入list github.com/beorn7/perks/quantile.newStream一探究竟
- (pprof) list:
- Output annotated source for functions matching regexp
- 顯示具體調(diào)用的代碼塊并顯示相應(yīng)指標(biāo)
2.2.2.3 分析泄露原因
看到這里,應(yīng)該能看出這個(gè)newStream的內(nèi)存占用,主要是因?yàn)樯闪艘粋€(gè)容量為500的數(shù)組。那這個(gè)數(shù)組是什么樣的呢?
以上結(jié)構(gòu)可以看出,生成一次需要占用的內(nèi)存是50038字節(jié),那么一次就是12000個(gè)字節(jié),差不多是11.72kb。這么看來(lái),應(yīng)該是有個(gè)地方不停的調(diào)用,導(dǎo)致數(shù)據(jù)持續(xù)膨脹??吹竭@里,我們繼續(xù)往下追。
由此看出,還不止使用一次newStream()。通過(guò)觀看代碼,我這里發(fā)現(xiàn),此處的opts.AgeBuckets是等于5的,那么就意味著,循環(huán)生成了5個(gè)stream,實(shí)際上占用的內(nèi)存是500*3*8*5=60000字節(jié),也就是58.6kb。
2.2.2.4 分析調(diào)用鏈路
那么現(xiàn)在基本追溯完了大概的泄露原因。那怎么樣能尋找是具體的調(diào)用鏈的呢,總不能一層一層往上查找調(diào)用吧?這個(gè)時(shí)候pprof提供了一個(gè)命令,可以把整體調(diào)用生成一張圖片展示。命令如下:
只需要在命令中加一個(gè)-png,那么就會(huì)生成一張圖片。當(dāng)然為了方便尋找,最后可以指定圖片生成地址。我這邊抓取了和本文有關(guān)的一段截圖,如下。
根據(jù)上圖鏈路,我們大致可以看出。應(yīng)該是mysql的調(diào)用,在OnFinished處,prometheus的上報(bào)的地方出現(xiàn)了內(nèi)存泄露。這個(gè)時(shí)候我們就可以追一下OnFinished處的代碼了,因?yàn)橹蟮亩际莗rometheus的調(diào)用,這是一個(gè)成熟的三方,理論不應(yīng)該是他這個(gè)點(diǎn)出問(wèn)題。
2.2.3 尋找泄露代碼
OnFinished的代碼如下:
看到這里我想大家就應(yīng)該知道了,go代碼會(huì)為prometheus創(chuàng)建一個(gè)5*500的緩沖池,來(lái)記錄數(shù)據(jù),prometheus會(huì)周期性的調(diào)用/mertic來(lái)拉取對(duì)應(yīng)的內(nèi)容。那么這里是怎么造成內(nèi)存泄露的呢?這里就要分析上述代碼的這個(gè)label了。
2.3 發(fā)現(xiàn)問(wèn)題(偽)
通過(guò)查看函數(shù)調(diào)用,我這邊發(fā)現(xiàn)label最終進(jìn)入的是這個(gè)hashLabelValues中,如果已存在就返回對(duì)應(yīng)的metricMap中的內(nèi)容,如果不一樣,則會(huì)創(chuàng)建一個(gè)新的緩沖池。內(nèi)存泄露就出在這個(gè)創(chuàng)建中。
這個(gè)時(shí)候我就在想,難道是我們label采集的數(shù)據(jù)太多了?通過(guò)排列組合,我估算了一下內(nèi)存最大值
getOperation(db)=4(操作類型,增刪改查4種)
s.host=1
s.database=3(我們有3個(gè)db實(shí)例)
tableName=30(表名,保守估計(jì)最少30個(gè))
hasErr, sqlState=2 (報(bào)錯(cuò)與沒(méi)報(bào)錯(cuò)2個(gè)狀態(tài))
metrics.InjectTagValue(collector.MetricsTitle, db.Statement.Context, attachment)...
這里面記錄的是請(qǐng)求,保守估計(jì)最少40個(gè)接口
這樣算下來(lái):4*1*3*30*2*40*5*500*8*3=1648mb。再加上程序本身的一些內(nèi)存開(kāi)銷,感覺(jué)和我們碰到的問(wèn)題能對(duì)上了。
2.4 解決問(wèn)題(偽)
于是一拍腦袋覺(jué)得發(fā)現(xiàn)了問(wèn)題,但是又無(wú)法解決問(wèn)題(抓的指標(biāo)無(wú)法修改)。于是屁顛屁顛的升了服務(wù)器配置,將4c2g升為了4c4g。
3、解決內(nèi)存泄漏
3.1 發(fā)現(xiàn)問(wèn)題(真)
沒(méi)錯(cuò),當(dāng)你看到這里的時(shí)候,就知道,升配這件事情并沒(méi)有結(jié)束?,F(xiàn)實(shí)給了我一記響亮的耳光。
因?yàn)樯湟院罂傆X(jué)得還是哪里有問(wèn)題。于是還是每天都在不停的觀察RSS情況。結(jié)果,還真發(fā)現(xiàn)問(wèn)題了。因?yàn)閮?nèi)存還在坐火箭,這不科學(xué)啊。
當(dāng)我準(zhǔn)備繼續(xù)深入研究代碼的時(shí)候,我的一位同事提醒了我,你可以去看下/metrics具體上報(bào)了什么。說(shuō)時(shí)遲那時(shí)快。于是抓取了/metrics里的上報(bào)數(shù)據(jù),看到了以下數(shù)據(jù):
這不看不要緊,一看——原來(lái)startpoint里上報(bào)的是restful風(fēng)格的請(qǐng)求地址。那么上面的計(jì)算緩沖池的算法,就要再乘一個(gè)無(wú)限膨脹的startpoint。這給多少個(gè)G內(nèi)存也都不夠。
于是繼續(xù)查看代碼,看能不能關(guān)閉startpoint上報(bào)。這一查,果然有:
3.2 解決問(wèn)題(真)
看到這個(gè)設(shè)置START_POINT的環(huán)境變量,能關(guān)閉startpoint上報(bào)。于是立馬加到生產(chǎn)環(huán)境后重啟服務(wù)器。上線后觀察了一段時(shí)間,RSS使用量如下圖所示:
到此,此次內(nèi)存泄露問(wèn)題終于排查并修復(fù)完成。真是有驚無(wú)險(xiǎn)。
4、內(nèi)存泄露問(wèn)題總結(jié)
這邊大致歸納下go語(yǔ)言中有哪些常見(jiàn)的內(nèi)存泄露。
常見(jiàn)內(nèi)存泄露
4.1 Goroutine泄漏
goroutine泄露是開(kāi)發(fā)過(guò)程中碰到最常見(jiàn)、最頻繁的。一般經(jīng)常碰到的是以下幾種,由于網(wǎng)上相關(guān)的文章太多了,就不用代碼舉例了。
4.1.1 協(xié)程無(wú)法退出
- 鎖占用
- channel無(wú)法讀取或?qū)懭?/li>
- 協(xié)程中邏輯有死循環(huán)?
4.1.2 協(xié)程阻塞
4.1.3 內(nèi)存使用不當(dāng)
- 持續(xù)增長(zhǎng)的常駐協(xié)程,申請(qǐng)了大量?jī)?nèi)存空間,由于是常駐的協(xié)程,不會(huì)釋放內(nèi)存造成泄露
- 并發(fā)申請(qǐng)大量?jī)?nèi)存后,未達(dá)到GC時(shí)間或GC閾值,未觸發(fā)GC,導(dǎo)致內(nèi)存泄露
4.2 結(jié)構(gòu)使用不當(dāng)
結(jié)構(gòu)使用不當(dāng)也是開(kāi)發(fā)中常見(jiàn)的,只是可能并發(fā)不高,或者內(nèi)存泄露的不多,導(dǎo)致使用者容易忽視掉。
4.2.1 字符串、切片截取
上面兩段代碼,會(huì)有5個(gè)字節(jié)的泄露,因?yàn)樽址颓衅膬蓚€(gè)變量,底層是共享內(nèi)存的。只要str1或s1一直在用,str0和s0就不會(huì)回收。這樣剩下的5個(gè)字節(jié)或者5個(gè)int就會(huì)有臨時(shí)的泄露。這個(gè)場(chǎng)景,如果在高并發(fā),并且數(shù)據(jù)夠大的情況下,就算是臨時(shí)的泄露,也可能對(duì)性能有極大的影響。
4.2.2 指針類型
指針類型的這段代碼,其實(shí)和上面字符串、切片的例子很像,指針是指向內(nèi)存地址的。只要ptr1沒(méi)釋放,前面的指針數(shù)組中未被用的指針就不會(huì)釋放,從而導(dǎo)致臨時(shí)的內(nèi)存泄露。
4.2.3 數(shù)組傳參
打印結(jié)果如下:
看結(jié)果可知,三條打印的地址各不相同,說(shuō)明數(shù)組是值傳遞的,那這會(huì)有什么問(wèn)題呢?畢竟我們很多代碼都是這么寫的。
問(wèn)題在于,只要傳遞的這個(gè)數(shù)組足夠大,那么調(diào)用一次就會(huì)生成一個(gè)一樣大小的新地址,這樣會(huì)消耗大量?jī)?nèi)存。如果短時(shí)間內(nèi)無(wú)法GC,會(huì)產(chǎn)生臨時(shí)的內(nèi)存泄露。這種泄露對(duì)于高并發(fā)是致命的。
4.2.4 定時(shí)器
以上代碼,之所以會(huì)造成內(nèi)存泄露。是因?yàn)閠ime.After的底層是實(shí)現(xiàn)了一個(gè)timer,只要定時(shí)器未到時(shí)間,這個(gè)定時(shí)器就不會(huì)被gc回收,從而造成臨時(shí)的內(nèi)存泄露。如果這里的代碼沒(méi)寫好,定時(shí)器都是新創(chuàng)建的,那么就會(huì)造成永久性的泄露。
其實(shí)golang中的內(nèi)存泄露遠(yuǎn)不止上文提到的這些。有些可能甚至連查都查不到。這個(gè)時(shí)候還是要提醒大家,不僅要了解問(wèn)題,還要學(xué)會(huì)查找問(wèn)題。這樣不管遇到什么問(wèn)題,都能發(fā)現(xiàn)蛛絲馬跡,問(wèn)題也將迎刃而解。?