Python性能分析,使用cProfile可視化并解決性能瓶頸問題
帕累托法則無處不在,它說:
“在大多數(shù)情況下,80%的結(jié)果來自于20%的原因?!?/p>
作為一名程序員,當(dāng)代碼運行速度不盡如人意時,就需要花費大量時間對代碼進(jìn)行相應(yīng)的重構(gòu)。但在許多情況下,所得到的速度提升并不值得花費的精力。
Python標(biāo)準(zhǔn)庫已經(jīng)提供了性能分析所需的工具,即cProfile。本文將向你展示如何使用cProfile,以可視化的方式快速識別代碼中哪些部分計算開銷最高,并且應(yīng)該優(yōu)先進(jìn)行優(yōu)化。
安裝
cProfile
cProfile是我們將用來測量代碼的各個部分所需時間的工具,它是Python標(biāo)準(zhǔn)庫的一部分,因此無需安裝。
QCachegrind
QCachegrind將負(fù)責(zé)可視化cProfile的輸出結(jié)果,將能夠快速觀察到性能瓶頸所在。
MacOS 用戶
請檢查你是否已經(jīng)安裝了Homebrew。如果沒有安裝,請使用以下命令進(jìn)行安裝:
ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" < /dev/null 2> /dev/null
然后你可以安裝QCachegrind
brew install qcachegrind
其他用戶
對于其他操作系統(tǒng)的用戶,推薦Pyprof2calltree工具。
Pyprof2calltree
Pyprof2calltree將使用cProfile收集的分析數(shù)據(jù)轉(zhuǎn)換為QCachegrind可以讀取的格式。
安裝方法如下:
pip install pyprof2calltree
方法
完成安裝后,進(jìn)入包含Python腳本的文件夾。
包含要優(yōu)化的腳本的文件夾
測量
我們使用cProfile來測量腳本不同部分的運行時間,并將結(jié)果保存在一個名為medium_example.profile的文件中(可以選擇使用任何名稱,只要它是.profile文件):
python -m cProfile -o medium_example.profile 1_generate_ML_data.py
正如你所看到的,medium_example.profile文件已添加到文件夾中:
該文件包含了運行腳本中所涉及的不同函數(shù)的運行時間。
可視化
現(xiàn)在,我們可以將cProfile的測量結(jié)果可視化:
pyprof2calltree -k -i medium_example.profile
QCachegrind的用戶界面包含了與所有相關(guān)函數(shù)的執(zhí)行時間有關(guān)的信息:紅色的是“Flat Profile”(左側(cè)),藍(lán)色的是“Callers”(右上方),綠色的是“Callees”(右下方)。
這個用戶界面展示的內(nèi)容較多。接下來本文會逐一解釋所有這些內(nèi)容的含義。
- “Flat Profile” 面板出現(xiàn)在左側(cè),按時間消耗的降序排列提供了完整的函數(shù)調(diào)用列表?!癐ncl.” 列顯示每個函數(shù)消耗的總時間,考慮到其被調(diào)用者花費的時間。
- “Self” 列顯示僅在函數(shù)本身內(nèi)部花費的時間,不包括其被調(diào)用者花費的時間。
- “Called” 列顯示函數(shù)被調(diào)用的次數(shù),而“Function” 列則顯示函數(shù)的名稱,包括其命名空間。
- “Callers” 面板(右上方)顯示調(diào)用所選函數(shù)的函數(shù)列表,以及在每個調(diào)用者函數(shù)中花費的時間。
- 另一方面,“Callees” 面板(右下方)顯示由所選函數(shù)調(diào)用的函數(shù)列表,以及每個被調(diào)用者函數(shù)中花費的時間。通過優(yōu)化這些被調(diào)用者函數(shù),你可以提高所選函數(shù)的性能。
現(xiàn)在你知道如何解讀用戶界面,接下來展示如何使用它來找到性能瓶頸。
利用QCachegrind用戶界面識別性能瓶頸
在“Flat Profile”面板的搜索欄中,輸入builtins.exec,然后選擇函數(shù)<Built-in method builtins.exec>。
在“Callees”面板中,選擇應(yīng)該占用所有(~100%)的執(zhí)行時間的第一個函數(shù)。它是你之前執(zhí)行的腳本的入口點。
然后,該函數(shù)會被移到“Callers”面板上,并刷新“Callees”面板顯示其中調(diào)用的函數(shù)。
在本示例中,96.52%的執(zhí)行時間來自函數(shù)generate_all_season_games_features。
如果想再深入一級,可以選擇該函數(shù)。它再次被移到“Callers”面板上,而“Callees”面板則顯示了被調(diào)用的函數(shù)。
看起來,42.73%的執(zhí)行時間來自于generate_results_hometeam_current_season,而42.57%的執(zhí)行時間來自于generate_resukts_awayteam_current_season。
由于它們對速度的影響相同,我可以選擇處理其中的任意一個函數(shù)。
或者,如果需要的話,可以更深入地調(diào)查一級。
優(yōu)化
建議從優(yōu)化耗時最長的函數(shù)開始。所需的重構(gòu)對代碼來說將是非常具體的。以下是一些典型優(yōu)化的示例:
- 將嵌套的for循環(huán)轉(zhuǎn)換為單個for循環(huán)。
- 實現(xiàn)多進(jìn)程。
- 使用向量化。
重復(fù)進(jìn)行
當(dāng)應(yīng)用了第一個優(yōu)化后,可以根據(jù)實際需要多次進(jìn)行測量-可視化-優(yōu)化周期,以達(dá)到符合要求的總運行時間。
結(jié)論
當(dāng)涉及到優(yōu)化代碼時,遵循數(shù)據(jù)驅(qū)動的方法,能確保在不進(jìn)行太多猜測和浪費時間的情況下,取得快速進(jìn)展。