聽說你會內(nèi)存分析?來,pprof一下
1. 引言
大家好,我是小?,一個漂泊江湖多年的 985 非科班程序員,曾混跡于國企、互聯(lián)網(wǎng)大廠和創(chuàng)業(yè)公司的后臺開發(fā)攻城獅。
自從春節(jié)回家后,更新就擱淺了,回來之后也一直比較忙,拖更了很久。不知道大家春節(jié)過的咋樣,工作倆周還適應(yīng)否?
今天我們談一談內(nèi)存分析的問題,記得有一次,我遇到了一位做后臺開發(fā)的朋友,連續(xù)好幾天都苦惱地盯著他的電腦界面。
經(jīng)過聊天后,得知他的 Go 語言程序性能遭遇了瓶頸,內(nèi)存消耗居高不下。
這時,他的系統(tǒng)就像是一輛油耗驚人的老舊汽車,不斷地需要加油,但是汽車的續(xù)航并沒有得到提升!
圖片
為了優(yōu)化性能,他決定對內(nèi)存使用情況進(jìn)行一番深入的探索。我坐到他身旁,開始了一次關(guān)于 Go 語言內(nèi)存性能分析的奇妙之旅。
2. 性能分析入門
內(nèi)存泄露或者效率問題困擾著很多Go語言開發(fā)者。但好消息是,Go語言內(nèi)置了一套強(qiáng)大的性能分析工具pprof,讓我們能夠深入程序內(nèi)部,一探究竟。
現(xiàn)在,就讓這位后臺開發(fā)的朋友帶我們邁出探索內(nèi)存世界的第一步吧!
2.1 開啟pprof調(diào)試
要使用pprof,你首先需要在Go程序中啟用HTTP調(diào)試端口??梢酝ㄟ^引入net/http/pprof包并啟動一個HTTP服務(wù):
import _ "net/http/pprof"
go func() {
http.ListenAndServe("0.0.0.0:8080", nil)
}()
啟動后,通過訪問 http://localhost:8080/debug/pprof/,你將看到服務(wù)器當(dāng)前的運(yùn)行狀態(tài),包括 goroutine、堆棧、GC 等信息:
圖片
2.2 初探內(nèi)存分析
點(diǎn)擊頁面上的 heap 項(xiàng)或者通過命令行 go tool pprof http://localhost:8080/debug/pprof/heap 可以獲取當(dāng)前的內(nèi)存使用情況。
你將能查看到內(nèi)存分配的統(tǒng)計(jì)和內(nèi)存使用的詳情,包括哪些函數(shù)分配了多少內(nèi)存。
比如,我們點(diǎn)擊頁面上的 heap,進(jìn)入 http://localhost:8080/debug/pprof/heap?debug=1 頁面,可以看到具體的顯示。
其中顯示的內(nèi)容會比較多,但是主體分為 2 個部分。
1)當(dāng)前內(nèi)存
第一部分打印了服務(wù)當(dāng)前用到的內(nèi)存:
圖片
其含義為:
heap profile: 22(系統(tǒng)占用的對象個數(shù)): 11069648(占用內(nèi)存的字節(jié)數(shù)) [36(已分配的對象數(shù)): 11148160(已分配內(nèi)存的字節(jié)數(shù))] @ heap/1048576(2*MemProfileRate)
1: 1540096 [1: 1540096] (前面4個數(shù)跟第一行的一樣,此行以后是每次記錄的,后面的地址是記錄中的棧指針)
@ 0xdfabae 0xe0cc46 0x449206 0x449151 0x449151 0x43bbc6 0x46f941
2)匯總說明
第二部分是系統(tǒng)的整體匯總信息:
圖片
Go 語言我們可以關(guān)注以下2個字段:
- PauseNs 記錄每次 gc 暫停的時間(納秒),最多記錄 256 個最新記錄。
- NumGC 記錄 gc 發(fā)生的次數(shù)。
其它內(nèi)存數(shù)值可以通過這張表查看:
圖片
2.3 利用go tool pprof深入分析
更進(jìn)一步,go tool pprof提供了一個交互式界面,你可以運(yùn)行 top 命令來查看內(nèi)存使用最多的幾個函數(shù)。例如:
首先,通過命令打開內(nèi)存管理頁面(其中 -inuse_space 可以省略):
go tool pprof -inuse_space http://local:8080/debug/pprof/heap
進(jìn)入管理頁面后輸入:
(pprof) top10
它將列出內(nèi)存使用最多的 10 個函數(shù),這對定位性能瓶頸非常有用:
圖片
其中,資源開銷的字段說明如下:
- flat:函數(shù)自身的運(yùn)行耗時。
- flat%:函數(shù)自身在 CPU 運(yùn)行耗時總比例。
- sum%:函數(shù)自身累積使用 CPU 總比例。
- cum:函數(shù)自身及其調(diào)用函數(shù)的運(yùn)行總耗時。
- cum%:函數(shù)自身及其調(diào)用函數(shù)的運(yùn)行耗時總比例。
- Name:函數(shù)名。
在大多數(shù)的情況下,我們可以通過這五列得出一個應(yīng)用程序的運(yùn)行情況,知道當(dāng)前是什么函數(shù),正在做什么事情,占用了多少資源,誰又是占用資源的大頭,以此來得到一個初步的分析方向。
2.4 圖形化分析工具
對于想要更直觀了解的人,pprof 還支持將分析結(jié)果生成一張圖:
(pprof) web
這個命令將在瀏覽器中打開一張調(diào)用圖,清楚地顯示函數(shù)調(diào)用關(guān)系和每個函數(shù)的內(nèi)存使用:
圖片
這里可以看到總的內(nèi)存消耗量,并標(biāo)識了每一層的 inuse 內(nèi)存大小、文件名、函數(shù),到下一層函數(shù)大小,非常詳細(xì)。
PS:用 go tool pprof -http=:8081 http://local:8080/debug/pprof/heap 命令可以直接打開瀏覽器看調(diào)用棧圖(如果8081端口被占用了,則換一個)
3. 使用技巧和注意事項(xiàng)
3.1 了解pprof的工作原理
pprof 通過記錄內(nèi)存分配調(diào)用棧來工作,它每分配 512KB 內(nèi)存就會采樣一次。
這意味著它不會捕捉到每一個內(nèi)存分配事件,但是它能在不影響程序性能的情況下給出一個很好的總體內(nèi)存使用情況。
3.2 實(shí)際使用內(nèi)存與pprof數(shù)據(jù)的差異
因?yàn)?pprof 是采樣,所以可能顯示的數(shù)據(jù)比實(shí)際使用的少,也可能不包含內(nèi)核空間的內(nèi)存使用情況。
如果我們在系統(tǒng)的節(jié)點(diǎn)上用 top 查看進(jìn)程占用內(nèi)存,會發(fā)現(xiàn)比 pprof 采集的內(nèi)存更大些,這是正常現(xiàn)象。
但若是大很多,就要考慮下,是不是有大量內(nèi)存被 GC 但還沒來得及返還給操作系統(tǒng),是不是某些內(nèi)核態(tài)操作(比如 IO)消耗了大量內(nèi)存。
如何提高采樣率
通過修改runtime.MemProfileRate值可以提高采樣率,但會增加程序運(yùn)行的開銷。
比如改成 1 的話,每一次分配都會采樣,這樣就很全面但是性能也是最差的。
4. 實(shí)際案例分析
假設(shè)在生產(chǎn)中遇到內(nèi)存使用急劇上升的情況,你可以通過前面的步驟記錄內(nèi)存使用狀態(tài),并通過 go tool pprof 來分析內(nèi)存占用。
如果遇到內(nèi)存持續(xù)升高的情況,可能需要檢查是否存在內(nèi)存泄露,是否大量內(nèi)存被分配后未能及時回收等問題。
除了內(nèi)存問題,如果還想分析 CPU 的占用,我們可以采用火焰圖來分析。
4.1 性能數(shù)據(jù)采集
為了更加直觀地查看 CPU 和延時信息,我們可以通過命令采集一段時間的性能數(shù)據(jù)(獲取最近 10 秒程序運(yùn)行的 cpuprofile,-seconds 參數(shù)不填默認(rèn)為30):
go tool pprof https://server.cn/press_pprof/debug/pprof/profile -seconds 10
等 10s 后會生成一個 pprof.server.samples.cpu.001.pb.gz 文件(默認(rèn)在 C:\Users\pprof 目錄下,注意后面有用到),和之前一樣,我們可以用 top 命令查看最近一段時間的 CPU 耗時:
圖片
這時,我們可以在命令行輸入 web 命令,查看 CPU 的調(diào)用棧圖:
圖片
為了更直觀查看耗時與性能,我們可以使用命令在瀏覽器打開火焰圖:
go tool pprof -http=:8081 C:/Users/pprof/pprof.server.samples.cpu.001.pb.gz
如果出現(xiàn)錯誤提示 Could not execute dot; may need to install graphviz.,那么意味著你需要安裝 graphviz 組件。
通過 PProf 所提供的可視化界面,我們能夠更方便、更直觀的看到 Go 應(yīng)用程序的調(diào)用鏈、使用情況等。另外在 View 菜單欄中,PProf 還支持多種分析方式的切換,如下:
圖片
接下來我們將基于 CPU Profiling 所抓取的 Profile 進(jìn)行一一介紹,而其它 Profile 類型的分析模式也是互通的,只要我們了解了一種,其余的也就會了。
4.2 top
查詢性能的具體信息,逆序排序,和上面的 top 視圖數(shù)據(jù)一致,這里不再贅述:
圖片
4.3 Graph
該視圖展示的為整體的函數(shù)調(diào)用流程,框越大、線越粗、框顏色越鮮艷(紅色)就代表它占用的時間越久,開銷越大。相反若框顏色越淡,越小則代表在整體的函數(shù)調(diào)用流程中,它的開銷是相對較小的。
因此我們可以用此視圖去分析誰才是開銷大頭,它又是因?yàn)槭裁凑{(diào)用流程而被調(diào)用的。
圖片
4.4 Peek
此視圖相較于 Top 視圖,增加了所屬的上下文信息的展示,也就是函數(shù)的輸出調(diào)用者/被調(diào)用者。
圖片
4.5 Flame Graph
Flame Graph(火焰圖)它是可動態(tài)的,調(diào)用順序由上到下(A -> B -> C -> D),每一塊代表一個函數(shù)、顏色越鮮艷(紅)、區(qū)塊越大代表占用 CPU 的時間更長,同時它也支持點(diǎn)擊塊深入進(jìn)行分析。
我們選擇頁面上的 root 區(qū)塊,將會進(jìn)入到其屬下的下一層級,如下:
圖片
這樣子我們就可以根據(jù)不同函數(shù)的多維度層級進(jìn)行分析,能夠更好的觀察其流轉(zhuǎn)并發(fā)現(xiàn)問題。
5. 小結(jié)
就像我那位面對內(nèi)存泄露問題的朋友一樣,后臺開發(fā)者們時常需要對內(nèi)存使用情況進(jìn)行精細(xì)的分析和調(diào)試,才能確保我們的應(yīng)用運(yùn)行得又快又穩(wěn)。
幸運(yùn)的是,Go語言給了我們強(qiáng)大的工具,即使是面對最復(fù)雜的性能挑戰(zhàn),我們也能夠像偵探一樣搜查每一個線索,直到找到那個影響性能的罪魁禍?zhǔn)住?/p>
而作為一個開發(fā)者,每一次的內(nèi)存分析不僅僅是對程序的優(yōu)化,也是讓自己的能力得到提升。