資深程序員總結(jié):分析Linux進(jìn)程的6個方法,我全都告訴你
操作系統(tǒng)「進(jìn)程」是學(xué)計(jì)算機(jī)都要接觸的基本概念,拋開那些純理論的操作系統(tǒng)底層實(shí)現(xiàn),在Linux下做軟件開發(fā)這么多年,每次程序運(yùn)行出現(xiàn)問題,都要一步一步分析進(jìn)程各種狀態(tài),去排查問題出在哪里,這次lemon帶你在Linux環(huán)境下實(shí)操,一步步探究揭開「Linux進(jìn)程」的那些秘密。
何為進(jìn)程
首先我們說下「程序」的概念,程序是一些保存在磁盤上的指令的有序集合,是靜態(tài)的。進(jìn)程是程序執(zhí)行的過程,包括了動態(tài)創(chuàng)建、調(diào)度和消亡的整個過程,它是程序資源管理的最小單位。
線程是操作操作系統(tǒng)能夠進(jìn)行運(yùn)算調(diào)度的最小單位。大部分情況下,它被包含在進(jìn)程之中,是進(jìn)程中的實(shí)際運(yùn)作單位,一個進(jìn)程內(nèi)可以包含多個線程,是資源調(diào)度的最小單位。[引用維基百科]
多線程程序模型
探究進(jìn)程第一步,你在嗎?還好嗎?
ps
report a snapshot of the current processes. 列出當(dāng)前系統(tǒng)進(jìn)程的快照。
找到進(jìn)程PID ( Process IDentity ),pid唯一標(biāo)識一個進(jìn)程。用ps這個命令,這個命令大家應(yīng)該都知道吧,對于小白用戶,首先他不是Photoshop。
給大家簡單介紹一下,一般用法是ps -ef列出系統(tǒng)內(nèi)經(jīng)常信息,通常都會帶管道grep出自己感興趣的進(jìn)程,像這樣ps -ef|grep intresting第一列PID代表進(jìn)程號,PPID(parent process ID)代表父進(jìn)程號。
探究進(jìn)程第二步,讓我看看你都交了哪些朋友(系統(tǒng)調(diào)用 & 信號)
strace
trace system calls and signals 跟蹤進(jìn)程內(nèi)部的系統(tǒng)調(diào)用和信號
什么是「系統(tǒng)調(diào)用」?系統(tǒng)調(diào)用(system call),指運(yùn)行在「用戶態(tài)」的程序向操作系統(tǒng)「內(nèi)核態(tài)」請求需要更高權(quán)限運(yùn)行的服務(wù),系統(tǒng)調(diào)用提供用戶程序與操作系統(tǒng)之間的接口。
strace后面跟著啟動一個進(jìn)程,可以跟蹤啟動后進(jìn)程的系統(tǒng)調(diào)用和信號,這個命令可以看到進(jìn)程執(zhí)行時候都調(diào)用了哪些系統(tǒng)調(diào)用,通過指定不同的選項(xiàng)可以輸出系統(tǒng)調(diào)用發(fā)生的時間,精度可以精確到微秒,甚至還可以統(tǒng)計(jì)分析系統(tǒng)「調(diào)用的耗時」,這在排查進(jìn)程假死問題的時候很有用,能幫你發(fā)現(xiàn)進(jìn)程卡在哪個系統(tǒng)調(diào)用上。已經(jīng)在運(yùn)行的進(jìn)程也可以指定-p參數(shù)加pid像gdb attach那樣附著上去跟蹤。
strace統(tǒng)計(jì)
探究進(jìn)程第三步,讓我看看你帶的小弟們(線程)。
pstack
print a stack trace of a running process 打印出運(yùn)行中程序的堆棧信息。
執(zhí)行命令pstack pid 你能看到當(dāng)前線程運(yùn)行中的堆棧信息,其中的pid可用之前的ps命令獲得,pstack可以看到進(jìn)程內(nèi)啟動的線程號,每個進(jìn)程內(nèi)線程的「堆棧」內(nèi)容也能看到。
看到上面打印出的LWP了嗎,這里是個知識點(diǎn), LPW是指Light-weight process 輕量級線程。引申知識:
- Linux中沒有真正的線程
- Linux中沒有的線程Thread是由進(jìn)程來模擬實(shí)現(xiàn)的所以稱作:輕量級進(jìn)程
- 進(jìn)程是「資源管理」的最小單元,線程是「資源調(diào)度」的最小單元(這里不考慮協(xié)程)
探究進(jìn)程第四步,讓小弟們(線程)出來排個隊(duì)吧。
pstree
display a tree of processes pstree按樹形結(jié)構(gòu)打印運(yùn)行中進(jìn)程結(jié)構(gòu)信息
可以直觀的查看進(jìn)程和它啟動的線程的關(guān)系,并能顯示進(jìn)程標(biāo)識。
pstree
探究進(jìn)程第五步,是死(進(jìn)程崩潰)是活(進(jìn)程運(yùn)行中)我都要知道你的秘密(堆棧幀 & 上下文)。
gdb
gdb是GNU開發(fā)的gcc套件中Linux下程序調(diào)試工具,你可以查看程序的堆棧、設(shè)置斷點(diǎn)、打印程序運(yùn)行時信息,甚至還能調(diào)試多線程程序,功能十分強(qiáng)大。
在這里把gdb當(dāng)成一個命令來講有點(diǎn)大材小用,要詳細(xì)說gdb的話,完全可以撐起一篇文章的篇幅,這里長話短說,有機(jī)會再開一篇文章詳細(xì)介紹下它。
使用
要用gdb調(diào)試C/C++程序首先編譯的時候要加-g選項(xiàng),g++ -g test.cpp -o test這樣生成的程序就可以用gdb來調(diào)試?yán)病?/p>
- 可以直接用gdb啟動程序調(diào)試,命令:gdb prog
- 用gdb附著到一個已經(jīng)啟動的進(jìn)程上調(diào)試也可以。命令:gdb prog pid
- 程序崩潰之后參數(shù)corefile也可以用gdb調(diào)試,看看程序死掉之前留了什么遺言(堆棧信息)給你。命令:gdb prog corefile,這里有一點(diǎn)需要注意,有些Linux系統(tǒng)默認(rèn)程序崩潰不生成corefile,這時你需要ulimit -c unlimited這樣就能生成corefile了。
探究進(jìn)程第六步,關(guān)于你的所有,我都想知道。
更近一步
通過/proc/pid文件了解進(jìn)程的運(yùn)行時信息和統(tǒng)計(jì)信息。/proc系統(tǒng)是一個偽文件系統(tǒng),它只存在內(nèi)存當(dāng)中,而不占用外存空間,以文件系統(tǒng)的方式為內(nèi)核與進(jìn)程提供通信的接口。進(jìn)入系統(tǒng)/proc目錄:
proc目錄
/proc目錄下有很多以數(shù)字命名的目錄,每個數(shù)字代表進(jìn)程號PID它們是進(jìn)程目錄。系統(tǒng)中當(dāng)前運(yùn)行的每一個進(jìn)程在/proc下都對應(yīng)一個以進(jìn)程號為目錄名的目錄/proc/pid,它們是讀取進(jìn)程信息的接口,我們可以進(jìn)到這個文件里面,了解進(jìn)程的運(yùn)行時信息和統(tǒng)計(jì)信息。
高頻使用
/proc/pid目錄下的有一些重要文件,挑幾個使用頻率高的講一講。/proc/pid/environ 包含了進(jìn)程的可用環(huán)境變量的列表 。程序出問題了如果不確定環(huán)境變量是否設(shè)置生效,可以cat這個文件出來查看確認(rèn)一下。
/proc/pid/fd/ 這個目錄包含了進(jìn)程打開的每一個文件的鏈接。從這里可以查看進(jìn)程打開的文件描述符信息,包括標(biāo)準(zhǔn)輸入、輸出、錯誤流,進(jìn)程打開的socket連接文件描述符也能看到,lsof命令也有類似的作用。
/proc/pid/stat包含了進(jìn)程的所有狀態(tài)信息,進(jìn)程號、父進(jìn)程號、 線程組號、 該任務(wù)在用戶態(tài)運(yùn)行的時間 、 該任務(wù)在用內(nèi)核態(tài)運(yùn)行的時間、 虛擬地址空間的代碼段、 阻塞信號的位圖等等信息應(yīng)有盡有。
其他統(tǒng)計(jì)
- /proc/pid/cmdline 該文件保存了進(jìn)程的完整命令行
- /proc/pid/cwd一個符號連接, 指向進(jìn)程當(dāng)前的工作目錄
- /proc/pid/exe包含了正在進(jìn)程中運(yùn)行的程序鏈接
- /proc/pid/mem包含了進(jìn)程在內(nèi)存中的內(nèi)容
- /proc/pid/statm包含了進(jìn)程的內(nèi)存使用信息
總結(jié)一下
好了,一頓操作下來,你對進(jìn)程和它背后的秘密你已經(jīng)非常了解了,下次我們的好朋友「進(jìn)程」如果遇到了什么問題(崩潰coredump、假死、阻塞、系統(tǒng)調(diào)用超時、文件描述符異常),你應(yīng)該知道如何幫它處理了吧!我們來總結(jié)一下:
- ps查看進(jìn)程id,看看進(jìn)程還在不在以及進(jìn)程狀態(tài)
- 如果在的話strace、psstack看下進(jìn)程當(dāng)前信息,是不是卡死在哪個位置,對比各幀最后調(diào)用信息找到異常點(diǎn)
- 如果進(jìn)程不再了,如果有corefile文件,直接上gdb查看corefile信息
- 其他疑難雜癥懷疑進(jìn)程狀態(tài)信息的時候,看看/proc/pid下面的進(jìn)程狀態(tài)信息,可能會給你啟發(fā)。
- 最后,如果以上都不行,閉目祈禱吧!
寫在最后
今天的分享希望對你有幫助,祝大家寫的服務(wù)永不宕機(jī),從不coredump,讓上面教你的操作吃灰去吧。
最后,感謝各位的閱讀。文章的目的是分享對知識的理解,技術(shù)類文章我都會反復(fù)求證以求最大程度保證準(zhǔn)確性,若文中出現(xiàn)明顯紕漏也歡迎指出,我們一起在探討中學(xué)習(xí)。