在后臺的Python:眾多程序員無法攻克的難題
先看兩個超級簡單的代碼。
- for i inrange(10**7):
- x = i %5
代碼1:簡單代碼
- defmain():
- for i inrange(10**7):
- x = i %5
- main()
代碼2:定義了一個主函數來運行相同的簡單代碼。
兩個代碼都執(zhí)行一個虛擬任務。取0到1000萬之間的數字(通過for循環(huán)),并計算其模(余數)為5,到目前為止操作非常簡單。那么,測量代碼的運行時間是多少呢?
- import time
- start_time = time.time()
- for i inrange(10**7):
- x = i %5
- finish_time = time.time()
- print("Duration:{} msec".format((finish_time-start_time)*1000))
在代碼1中添加一個簡單的計時器
- import time
- defmain():
- for i inrange(10**7):
- x = i %5
- start_time = time.time()
- main()
- finish_time = time.time()
- print("Duration:{} msec".format((finish_time-start_time)*1000))
在代碼2中添加一個簡單的計時器
在兩個代碼中添加一個簡單的計時器來測量各自的運行時間。由于兩個代碼執(zhí)行相同的簡單任務,預計運行時間也相同。當然,如果運行時間真的相同,本文就沒有存在的必要了。事實上,代碼1和代碼2的運行時間分別為739毫秒和434毫秒,驚訝吧!
很多Python程序員并不知道這個難題,因為這需要深入理解Python的運行原理。本文就將解答“運行python代碼時會發(fā)生什么?”,重點介紹最流行的Python工具CPython。如果你不知道正在使用何種Python工具,那么你90%使用的是CPython。
以下是運行源代碼時的情況:
首先,源代碼通過“詞法分析”程序被分解成標記,例如, x=1將被分解成x, =,和1。然后,通過“句法分析”的過程,這些標記被組織成抽象語法樹(AST),之后“編譯器”將所有內容轉換成為一個叫做“字節(jié)碼”的抽象代碼。
在Python中,不像C、C++、Java等語言,編譯器不會獲取“源代碼”并將其轉換為“機器代碼”,理解這一點很重要。與之相反,編譯器可接受“源代碼”并且將其轉換為“字節(jié)碼”。解釋器的任務是獲取字節(jié)碼并以機器能夠理解的方式運行。
在Python運行代碼的四個步驟中,解釋器負責最繁重的工作。而其他三個步驟不會處理太多的任務。因此,任何時候想要研究Python程序的性能時,應該查看解釋步驟并尋找一些線索。
解釋器讀取字節(jié)碼并運行其指令。如果字節(jié)碼類似于菜譜,那么指令便是菜譜中的不同步驟。如果字節(jié)碼可讀取,就可能找到關于上述謎題的一些線索。使用 dis包來查看字節(jié)碼指令。dis是一個Python包,用于分析和解碼字節(jié)碼,并以人們可以理解的方式顯示出來。dis.dis() 的輸出結構如下:
本文不詳細介紹dis包的細節(jié),只關注Operation Named的一列。Operation name指示Python解釋器的行為。如果你非常好奇,那么名為ceval.c的文件可以回答。以上兩個代碼都運行了dis.dis(),為了簡化操作,本文突出顯示重要部分,即循環(huán)部分。下圖顯示了這兩個代碼的字節(jié)碼:
如圖所示,兩個代碼在給定的指令方面非常相似。但是,仔細觀察,會發(fā)現字節(jié)碼中有一些細微的(但是很重要的)差異。在代碼1中,可以看到STORE_NAME和LOAD_NAME,但是在代碼2中,可以看到STORE_FAST和LOAD_FAST。運行時間的差異似乎是由于這兩種指令類型的不同造成的??梢圆榭碿eval.c文件來了解其中的差異。
簡而言之,在代碼1中,解釋器處理變量i和x的方式與代碼2不同(注意_NAME和_FAST后綴)。代碼1中,i和x都是全局變量,而CPython將這些變量存儲在字典數據結構中,這使得加載過程比存儲在固定大小數組中的局部變量耗時更久。與字典相比,從固定大小的數組中檢索變量要快得多。
為什么Python這么做?很簡單,因為在主代碼中,不知道有多少變量會出現,但是在一個函數中變量的數量是固定的。
如果這是原因所在,來做個測試:把解釋器打亂,在代碼2(快速代碼)中將x和i變量定義為全局變量,并再次測量運行時間。這是改變后的代碼2:
- defmain():
- global i, x
- for i inrange(10**7):
- x = i %5
- main()
代碼3與代碼2相同,只是定義了變量i和x,以查看全局變量是否是導致難題代碼性能變慢的原因。
運行代碼3,用時805毫秒(代碼2用時434 毫秒)。代碼3的用時非常接近于代碼1(即739毫秒)。這正如預計的,處理全局變量比處理局部變量(固定大小的數組與字典)花費更多的時間。
如你所見,只需要了解一點關于Python解釋器的工作原理,以及從dis庫中得到幫助,這個難題即可迎刃而解。