multiprocessing庫:Python像線程一樣管理
前言
multiprocessing庫是基于threading API,它可以把工作劃分為多個進(jìn)程。有些情況下,multiprocessing可以作為臨時替換取代threading來利用多個CPU內(nèi)核,相應(yīng)地避免Python全局解釋器鎖所帶來的計算瓶頸。
下面,我們來看看multiprocessing庫創(chuàng)建進(jìn)程與threading庫有多像。
創(chuàng)建一個進(jìn)程
要創(chuàng)建一個進(jìn)程,最簡單的方式是用一個目標(biāo)函數(shù)實例化一個Process對象,然后與threading一樣調(diào)用start()函數(shù)讓它工作。示例如下:
- import multiprocessing
- def worker():
- for i in range(3):
- print(i)
- if __name__=="__main__":
- p = multiprocessing.Process(target=worker)
- p.start()
運行之后,效果如下:
需要注意的是,multiprocessing庫在Windows創(chuàng)建進(jìn)程必須在if __name__=="__main__":中,這是 Windows 上多進(jìn)程的實現(xiàn)問題。在 Windows 上,子進(jìn)程會自動 import 啟動它的這個文件,而在 import 的時候是會執(zhí)行這些語句的。如果直接創(chuàng)建就會無限遞歸創(chuàng)建子進(jìn)程報錯。所以必須把創(chuàng)建子進(jìn)程的部分用那個 if 判斷保護(hù)起來,import 的時候 __name__ 不是 __main__ ,就不會遞歸運行了。
設(shè)置進(jìn)程名
在threading線程中,我們可以通過其參數(shù)name設(shè)置線程名,同樣的我們也可以通過name參數(shù)設(shè)置其進(jìn)程的名字。示例如下:
- import multiprocessing
- import time
- def worker():
- print(multiprocessing.current_process().name, "start")
- time.sleep(2)
- print(multiprocessing.current_process().name, "end")
- if __name__ == "__main__":
- p1 = multiprocessing.Process(name='p1', target=worker)
- p2 = multiprocessing.Process(name='p2', target=worker)
- p3 = multiprocessing.Process(name='p3', target=worker)
- p1.start()
- p2.start()
- p3.start()
運行之后,效果如下:
守護(hù)進(jìn)程
和線程一樣,在所有子進(jìn)程沒有退出之前,主程序是不會退出的。有時候,我們可能需要啟動一個后臺進(jìn)程,它可以一直運行而不阻塞主程序退出。
要標(biāo)志一個守護(hù)進(jìn)程,可以將其添加第3個參數(shù)daemon,設(shè)置為True。默認(rèn)值為False,不作為守護(hù)進(jìn)程。示例如下:
- import multiprocessing
- import time
- def worker():
- print(multiprocessing.current_process().name, "start")
- time.sleep(1)
- print(multiprocessing.current_process().name, "end")
- def worker2():
- print(multiprocessing.current_process().name, "start")
- time.sleep(2)
- print(multiprocessing.current_process().name, "end")
- if __name__ == "__main__":
- p1 = multiprocessing.Process(name='p1', target=worker)
- p2 = multiprocessing.Process(name='p2', target=worker2, daemon=True)
- p3 = multiprocessing.Process(name='p3', target=worker2, daemon=True)
- p1.start()
- p2.start()
- p3.start()
運行之后,效果如下:
p2,p3為守護(hù)進(jìn)程,但p1不是所以執(zhí)行1秒之后,就退出主程序了,也就沒有打印p2p3的內(nèi)容。但是其依舊在執(zhí)行中,直到執(zhí)行完成。
join()
同樣的,如果你期望強制等待一個守護(hù)進(jìn)程的結(jié)束,可以增加join()函數(shù)。還是上面的代碼,示例如下:
- import multiprocessing
- import time
- def worker():
- print(multiprocessing.current_process().name, "start")
- time.sleep(1)
- print(multiprocessing.current_process().name, "end")
- def worker2():
- print(multiprocessing.current_process().name, "start")
- time.sleep(2)
- print(multiprocessing.current_process().name, "end")
- if __name__ == "__main__":
- p1 = multiprocessing.Process(name='p1', target=worker)
- p2 = multiprocessing.Process(name='p2', target=worker2, daemon=True)
- p3 = multiprocessing.Process(name='p3', target=worker2, daemon=True)
- p1.start()
- p2.start()
- p3.start()
- p1.join()
- p2.join()
- p3.join()
運行之后,和設(shè)置進(jìn)程名的運行結(jié)果一樣,這里不再展示。唯一與守護(hù)進(jìn)程代碼的區(qū)別就是最后三行join()函數(shù)代碼。當(dāng)然,也可以像線程一樣,給join()函數(shù)傳入一個時間,超過這個時間,主線程不再等待。
強制結(jié)束進(jìn)程
如果一個進(jìn)程已經(jīng)掛起或者不小心進(jìn)入了死鎖狀態(tài),那么這個時候,我們往往會強制的結(jié)束進(jìn)程。對一個進(jìn)程對象調(diào)用terminate()會結(jié)束子進(jìn)程。示例如下:
- import multiprocessing
- import time
- def worker():
- print(multiprocessing.current_process().name, "start")
- time.sleep(5)
- print(multiprocessing.current_process().name, "end")
- if __name__ == "__main__":
- p1 = multiprocessing.Process(name='p1', target=worker)
- p1.start()
- print("是否還在運行", p1.is_alive())
- p1.terminate()
- print("是否還在運行", p1.is_alive())
- p1.join()
- print("是否還在運行", p1.is_alive())
運行之后,輸出如下:
終止進(jìn)程后要使用join()函數(shù)等待進(jìn)程的退出。使進(jìn)程管理代碼有足夠的時間更新對象的狀態(tài),以反應(yīng)進(jìn)程已經(jīng)終止。
進(jìn)程退出狀態(tài)碼
進(jìn)程退出時,生成的狀態(tài)碼可以通過exitcode屬性訪問。下表就是其狀態(tài)碼的取值范圍以及其意義:
測試如下:
- import multiprocessing
- import time
- def worker():
- print(multiprocessing.current_process().name, "start")
- time.sleep(5)
- print(multiprocessing.current_process().name, "end")
- if __name__ == "__main__":
- p1 = multiprocessing.Process(name='p1', target=worker)
- p2 = multiprocessing.Process(name='p2', target=worker)
- p1.start()
- p2.start()
- print("是否還在運行", p1.is_alive())
- p1.terminate()
- print("是否還在運行", p1.is_alive())
- print(p1.exitcode)
- p1.join()
- print("是否還在運行", p1.is_alive())
- print(p1.exitcode)
- time.sleep(5.5)
- print(p2.exitcode)
運行之后,效果如下:
可以看到,強制退出的進(jìn)程錯誤碼為負(fù)數(shù),正常退出的進(jìn)程錯誤碼為0。
日志
調(diào)試并發(fā)問題時,如果能夠訪問multiprocessing所提供對象的內(nèi)部狀態(tài),那么這會很有用。在實際的項目中,我們可以使用一個方便的模塊級函數(shù)啟用日志記錄,它使用logging建立一個日志記錄器對象,并增加一個處理器,使日志消息被發(fā)送到標(biāo)準(zhǔn)錯誤通道。
示例如下:
- import multiprocessing
- import logging
- import sys
- def worker():
- print("運行工作進(jìn)程")
- sys.stdout.flush()
- if __name__ == "__main__":
- multiprocessing.log_to_stderr(logging.DEBUG)
- p1 = multiprocessing.Process(name='p1', target=worker)
- p1.start()
- p1.join()
運行之后,效果如下:
派生進(jìn)程
與線程一樣,我們可以自定義進(jìn)程,而不必只是傳入一個函數(shù)進(jìn)行進(jìn)程的創(chuàng)建。
創(chuàng)建的進(jìn)程的方式也是派生自進(jìn)程類即可。示例如下:
- import multiprocessing
- class WorkerProcess(multiprocessing.Process):
- def run(self):
- print(self.name)
- return
- if __name__ == "__main__":
- for i in range(5):
- p = WorkerProcess()
- p.start()
- p.join()
運行之后,效果如下:
multiprocessing庫的進(jìn)程知識與threading一樣長,因為本篇的內(nèi)容已經(jīng)夠長了,剩下的知識我們將在下一篇博文中接著講解。