Linux系統(tǒng)內(nèi)存問題排查的“套路”你掌握了嗎?
最近一段時(shí)間有點(diǎn)忙,有段時(shí)間沒更新文章了,今天我們一起完成關(guān)于內(nèi)存模塊的最后一塊拼圖,如何高效的找到Linux系統(tǒng)內(nèi)存的問題。在前面我們講了內(nèi)存的基本概念、內(nèi)存映射、分配和回收、Page Cache、內(nèi)存泄露相關(guān)的案例分析。感興趣的朋友們,可以回過頭翻閱查看。
內(nèi)存性能指標(biāo)
為了分析內(nèi)存的性能瓶頸,首先你要知道,怎樣衡量?jī)?nèi)存的性能,也就是性能指標(biāo)問題。這里又可以分別從整體內(nèi)存使用情況和進(jìn)程內(nèi)存使用情況去觀察內(nèi)存指標(biāo)。
系統(tǒng)內(nèi)存使用
Linux系統(tǒng)free命令輸出
- Used&Free:已用內(nèi)存和剩余內(nèi)存很容易理解,就是已經(jīng)使用和還未使用的內(nèi)存。
- Shared:共享內(nèi)存是通過 tmpfs 實(shí)現(xiàn)的,所以它的大小也就是 tmpfs 使用的內(nèi)存大小。tmpfs 其實(shí)也是一種特殊的緩存
- Available:可用內(nèi)存是新進(jìn)程可以使用的最大內(nèi)存,它包括剩余內(nèi)存和可回收緩存。
- Buff:緩沖區(qū)是對(duì)原始磁盤塊的臨時(shí)存儲(chǔ),用來緩存將要寫入磁盤的數(shù)據(jù)。這樣,內(nèi)核就可以把分散的寫集中起來,統(tǒng)一優(yōu)化磁盤寫入。
- Cache:一部分是磁盤讀取文件的頁緩存,用來緩存從磁盤讀取的數(shù)據(jù),可以加快以后再次訪問的速度。另一部分,則是 Slab 分配器中的可回收內(nèi)存。
進(jìn)程內(nèi)存使用
- VIRT、VSZ:虛擬內(nèi)存,包括了進(jìn)程代碼段、數(shù)據(jù)段、共享內(nèi)存、已經(jīng)申請(qǐng)的堆內(nèi)存和已經(jīng)換出的內(nèi)存等。這里要注意,已經(jīng)申請(qǐng)的內(nèi)存,即使還沒有分配物理內(nèi)存,也算作虛擬內(nèi)存。
- RES、RSS:常駐內(nèi)存是進(jìn)程實(shí)際使用的物理內(nèi)存,不過,它不包括Swap和共享內(nèi)存。
- SHR:共享內(nèi)存,既包括與其他進(jìn)程共同使用的真實(shí)的共享內(nèi)存,還包括了加載的動(dòng)態(tài)鏈接庫(kù)以及程序的代碼段等
- Swap:是指通過 Swap 換出到磁盤的內(nèi)存。
- 缺頁異常:
- Majflt:主缺頁異常。需要磁盤I/O 介入(比如 Swap)來分配內(nèi)存。主缺頁異常升高,那么內(nèi)存訪問也會(huì)慢很多。
- Minflt:次缺頁異常。直接從物理內(nèi)存中分配內(nèi)存。
這些內(nèi)存的性能指標(biāo)都需要我們熟記并且會(huì)用。我把它們匯總成了一個(gè)思維導(dǎo)圖供大家參考。
內(nèi)存性能工具
我們知道了內(nèi)存的性能指標(biāo)后,我們還需要學(xué)會(huì)根據(jù)性能指標(biāo)找工具(性能觀察命令),下面表格整理了內(nèi)存性能指標(biāo)和工具的關(guān)系。
分析內(nèi)存性能瓶頸的排查套路
快速定位內(nèi)存問題,可以先從整體內(nèi)存使用情況入手,在觀察進(jìn)程的內(nèi)容使用情況,找出可疑進(jìn)程后,在進(jìn)一步分析進(jìn)程的內(nèi)存地址空間分布等等;在使用性能工具使用優(yōu)先選覆蓋面大的工具,這樣可以同時(shí)觀察到多個(gè)指標(biāo)。具體的步驟可以分成以下幾步:
- 先用 free 和 top,查看系統(tǒng)整體的內(nèi)存使用情況。
- 再用 vmstat 和 pidstat,查看一段時(shí)間的趨勢(shì),從而判斷出內(nèi)存問題的類型。
- 最后進(jìn)行詳細(xì)分析:
- pidstat觀測(cè)到可疑進(jìn)程,可以繼續(xù)使用pmap觀察進(jìn)程內(nèi)存地址分配情況。
- 可以使用內(nèi)存分配分析工具memleak ,檢查是否存在內(nèi)存泄漏。
系統(tǒng)內(nèi)存優(yōu)化建議
- 禁用Swap:如果必須開啟 Swap,降低 swappiness 的值,減少內(nèi)存回收時(shí) Swap 的使用傾向。
- 減少內(nèi)存的動(dòng)態(tài)分配。比如,可以使用內(nèi)存池、大頁(HugePage)等。
- 盡量使用緩存和緩沖區(qū)來訪問數(shù)據(jù)。比如,可以使用堆棧明確聲明內(nèi)存空間,來存儲(chǔ)需要緩存的數(shù)據(jù);或者用 Redis 這類的外部緩存組件,優(yōu)化數(shù)據(jù)的訪問。
- 使用 cgroups 等方式限制進(jìn)程的內(nèi)存使用情況。這樣,可以確保系統(tǒng)內(nèi)存不會(huì)被異常進(jìn)程耗盡。通過 /proc/pid/oom_adj ,調(diào)整核心應(yīng)用的 oom_score。這樣,可以保證即使內(nèi)存緊張,核心應(yīng)用也不會(huì)被 OOM 殺死。
- 根據(jù)需要優(yōu)化Linux內(nèi)核中關(guān)于內(nèi)存相關(guān)參數(shù),一些核心參數(shù)如下。
- vm.swappiness。
- vm.overcommit_memory。
- vm.dirty_ratio、vm.dirty_background_ratio。
- vm.min_free_kbytes。
- vm.drop_caches。