自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一個耗時4小時的內存泄漏問題

開發(fā) 后端
首先確定內存泄漏問題出現(xiàn)的時間,發(fā)現(xiàn)在該時間點的上線有兩次代碼提交,其中一個就是我的。于是立刻排查這兩次代碼的改動,確定了另一個同事的代碼不可能會有內存問題后我知道肯定是自己的代碼出現(xiàn)了問題。

上周像往常一樣例行檢查線上機器性能,突然發(fā)現(xiàn)一個服務的內存使用率是這樣的:

很顯然該服務存在內存泄漏問題,趕緊排查問題。

問題排查

首先確定內存泄漏問題出現(xiàn)的時間,發(fā)現(xiàn)在該時間點的上線有兩次代碼提交,其中一個就是我的。于是立刻排查這兩次代碼的改動,確定了另一個同事的代碼不可能會有內存問題后(因為另一個同事的上線僅僅修改了配置)我知道肯定是自己的代碼出現(xiàn)了問題。

確定了問題所在后趕緊把自己的代碼回滾掉,接下來就可以放心debug了。

Debug

什么是內存泄漏?

簡單的講就是程序員申請的內存在使用完后沒有還給操作系統(tǒng),由于筆者使用的是C++語言,因此內存泄漏一般是這樣的: 

  1. obj* o = new obj();  
  2. ...  
  3. // 使用完obj后沒有delete掉 

肯定有什么地方申請了內存后沒有調用delete釋放內存。

在這里介紹一下筆者的代碼改動,我的任務其實是重構一段代碼,把這段代碼并行化。也就是舊的邏輯是在一個線程中串行執(zhí)行的,現(xiàn)在我要把這段邏輯放到兩個線程中并行執(zhí)行,這是最讓人頭疼的任務之一,并行化改造是比較容易出bug的。

接下來梳理了一遍中所有內存的申請和釋放,這其中包括:

  •  使用new/delete分配釋放的內存
  •  使用內存池分配釋放的內存

仔細梳理一遍后沒有發(fā)現(xiàn)任何問題,該釋放的內存都已經釋放掉了,這時筆者已經開始懷疑人生了 :) ,很顯然還有一段沒有注意到的地方出現(xiàn)了問題,這是必然的,雖然知道問題必然出現(xiàn)在改動的這些代碼里但是我并不能確定出現(xiàn)的位置。

沒有辦法,到這里基本上已經要放棄自己人肉debug了,想利用一些內存檢測工具來幫助自己確定問題。

常見的內存泄漏檢測工具包括valgrind、gperftools等,valgrind的好處在于無需重新編譯代碼即可進行內存檢測,但是缺點是會使得程序運行非常緩慢,官方文檔給的說法是會比正常的程序運行慢20-30倍;gperftools則需要重新編譯可執(zhí)行程序。這些工具需要下載安裝測試,其中還涉及到申請機器權限等問題,筆者覺得還是比較麻煩,況且這個問題也不是大海撈針一樣,問題肯定出在了并行化的這段代碼中。

到這里我決定再換一個思路來排查問題,既然代碼重構后開始并行執(zhí)行,那么出現(xiàn)問題大概率是因為多線程問題,遇到多線程問題首先重點排查的就是線程間的共享數(shù)據。

多線程問題的關鍵——共享數(shù)據

我們知道如果線程之間沒有共享數(shù)據那么就不會有線程安全問題,我們使用的鎖、信號量、條件變量等其實都是用來保護共享數(shù)據的,比如鎖通常是用來包括臨界區(qū)的,臨界區(qū)中的代碼操作的就是線程共享數(shù)據;信號量使用的一個經典場景就是生產者消費者問題,生產者線程以及消費者線程都會操作同一個隊列,這里的隊列就是共享數(shù)據。

沿著這個思路開始找在兩個線程中都使用到的共享數(shù)據,果不其然,在一個角落中發(fā)現(xiàn)了這樣一段代碼: 

  1. auto* pb = global->mutable_obj(); 

這是分配protobuf對象的一段代碼,protobuf是Google開發(fā)是一種類似于JSON、XML的技術,因此常用于網絡通信和數(shù)據交換等場景,比如RPC等。

如果你不了解protobuf也沒有關系,實際上上面的這段代碼的要做的事情是這樣的: 

  1. if (global->obj == NULL) {  
  2.   global->obj = new obj();  
  3.  
  4. return global->obj; 

值得注意的是這段代碼現(xiàn)在會在兩個線程中執(zhí)行,顯然問題就出現(xiàn)在了這里。

那么問題是怎么出現(xiàn)的呢?

我們假設有兩個線程,線程A和線程B,當這樣一段代碼在線程AB中同時執(zhí)行時可能會有以下場景:

  •  線程A拿到global->obj并檢測到此時的global->obj為空,因此決定為其分配內存,但不巧的是此時發(fā)生線程切換,線程A在為global->obj分配內存前被暫停運行,如下所示: 
  1. if (global->obj == NULL) {  
  2.     <------- 線程切換,線程A被暫停執(zhí)行   
  3.     global->obj = new obj();  
  4.  
  5. return global->obj; 
  •  線程A被暫停運行后線程B開始執(zhí)行,這段代碼同樣會在線程B中執(zhí)行一遍,因此線程B會首先檢查global->obj發(fā)現(xiàn)為空,因此為global->obj分配內存,分配完內存后發(fā)生線程切換,線程B被暫停運行,如下所示: 
  1. if (global->obj == NULL) {  
  2.     global->obj = new obj();  
  3.     <------- 線程切換,線程B被暫停執(zhí)行   
  4.  
  5. return global->obj; 
  • 線程B被暫停運行后調度器決定重新運行線程A,此時線程A開始從被中斷的地方繼續(xù)運行,還記得線程A是從哪里被中斷的嗎,沒錯,就是在為global->obj分配內存前被中斷的,此時線程A繼續(xù)運行,也就是說global->obj = new obj()這段代碼又被執(zhí)行了一次,雖然線程B已經為global->obj分配了內存。

Oops,典型的內存泄漏,線程B分配的內存再也無法被正常釋放掉了。

至此,我們已經找到了問題的原因,罪魁禍首就是共享數(shù)據,關鍵的一點是要意識到你的線程會隨時被中斷執(zhí)行,CPU會隨時切換到其它線程。

代碼修復也非常簡單,再新增一個變量,兩個線程不在使用共享數(shù)據,到這里問題就解決了,從發(fā)現(xiàn)問題到完成修復耗時大概4小時。

經驗教訓

代碼的并行化重構是一件非常棘手的任務,很容易出現(xiàn)線程安全問題,解決線程安全問題首先要考慮的不是要不要加鎖,而是多個線程是否真的有必要使用共享數(shù)據,沒有必要的話多個線程操作私有數(shù)據根本就不會出現(xiàn)線程安全問題。

當出現(xiàn)線程安全問題時,第一時間重點排查線程使用的共享數(shù)據。

內存泄漏檢測工具

雖然這些沒有使用檢測工具全靠人肉debug其實還是因為問題排查范圍比較小,如果我們根本就不知道問題出現(xiàn)在了那次代碼改動那么檢測工具就非常重要了,在這里簡單介紹一下valgrind的使用,詳細的介紹請參考官方文檔。

假設有這樣一段問題代碼: 

  1. #include <stdlib.h>  
  2. void f(void)    
  3.  
  4.    int* x = malloc(10 * sizeof(int));  
  5.    x[10] = 0;        // 問題1: 越界  
  6. }                    // 問題2: 內存泄漏,x沒有被釋放掉   
  7. int main()   
  8.  
  9.    f();  
  10.    return 0;  

這段代碼中有兩個問題:一個是數(shù)據的越界訪問;另一個是內存泄漏。將該程序編譯為myprog。

接下來使用valgrind來檢查該程序,使用以下命令: 

  1. valgrind --leak-check=yes myprog 

運行完成后valgrind會給出檢測報告,關于程序越界訪問會給出這樣的輸出: 

  1. ==19182== Invalid write of size 4  
  2. ==19182==    at 0x804838F: f (example.c:6)  
  3. ==19182==    by 0x80483AB: main (example.c:11)  
  4. ==19182==  Address 0x1BA45050 is 0 bytes after a block of size 40 alloc'd  
  5. ==19182==    at 0x1B8FF5CD: malloc (vg_replace_malloc.c:130) 
  6. ==19182==    by 0x8048385: f (example.c:5)  
  7. ==19182==    by 0x80483AB: main (example.c:11) 

第一行告訴你代碼中存在Invalid write,也就是無效的寫,并給出了問題出現(xiàn)的位置。

關于內存泄漏問題會給出這樣的輸出: 

  1. ==19182== 40 bytes in 1 blocks are definitely lost in loss record 1 of 1  
  2. ==19182==    at 0x1B8FF5CD: malloc (vg_replace_malloc.c:130)  
  3. ==19182==    by 0x8048385: f (example.c:5)  
  4. ==19182==    by 0x80483AB: main (example.c:11) 

這里第一行報告了內存"definitely lost",也就是說一定會存在內存泄漏,并給出了問題出現(xiàn)的位置。

實際上除了"definitely lost",valgrind還會給出"probably lost"的報告,這兩種報告的含義是這樣的:

  •  "definitely lost":你的程序一定存在內存泄漏問題,修復。
  •  "probably lost":你的程序看起來像是有內存泄漏,有可能你在使用指針完成一些特定操作,因此不一定100%存在問題。

總結

編寫正確的多線程代碼從來不是一件容易的事情,線程安全問題的根源在于共享資源,因此在使用共享資源前務必確認我們一定要用共享資源嗎? 

 

責任編輯:龐桂玉 來源: C語言與C++編程
相關推薦

2022-09-28 10:35:31

JavaScript代碼內存泄漏

2020-12-15 10:52:44

CIO企業(yè)網

2024-02-21 08:00:55

WindowsDWM進程

2022-07-08 09:43:24

攜程酒店數(shù)據接口服務平臺

2024-01-30 10:12:00

Java內存泄漏

2010-04-02 10:29:02

CentOS安裝

2012-08-03 09:51:55

程序員編程

2018-10-25 15:24:10

ThreadLocal內存泄漏Java

2017-01-05 19:34:06

漏洞nodejs代碼

2024-03-22 13:31:00

線程策略線程池

2012-07-04 14:40:37

Ajax

2019-11-20 15:02:45

Java虛擬機內存

2012-06-05 00:26:58

程序員

2023-03-17 07:44:24

IntelDDR4內存

2019-05-09 14:42:41

安吉智能倉庫

2022-05-31 06:07:45

Excel表Python

2010-09-26 15:38:33

JVM內存泄漏

2015-03-30 11:18:50

內存管理Android

2024-12-23 11:41:45

2021-12-30 09:40:33

CentOS家庭實驗室Linux
點贊
收藏

51CTO技術棧公眾號