Python中的垃圾回收機(jī)制
GC作為現(xiàn)代編程語(yǔ)言的自動(dòng)內(nèi)存管理機(jī)制,專注于兩件事:1. 找到內(nèi)存中無(wú)用的垃圾資源 2. 清除這些垃圾并把內(nèi)存讓出來(lái)給其他對(duì)象使用。GC徹底把程序員從資源管理的重?fù)?dān)中解放出來(lái),讓他們有更多的時(shí)間放在業(yè)務(wù)邏輯上。但這并不意味著碼農(nóng)就可以不去了解GC,畢竟多了解GC知識(shí)還是有利于我們寫(xiě)出更健壯的代碼。
引用計(jì)數(shù)
Python語(yǔ)言默認(rèn)采用的垃圾收集機(jī)制是『引用計(jì)數(shù)法 Reference Counting』,該算法最早George E. Collins在1960的時(shí)候***提出,50年后的今天,該算法依然被很多編程語(yǔ)言使用,『引用計(jì)數(shù)法』的原理是:每個(gè)對(duì)象維護(hù)一個(gè) ob_ref 字段,用來(lái)記錄該對(duì)象當(dāng)前被引用的次數(shù),每當(dāng)新的引用指向該對(duì)象時(shí),它的引用計(jì)數(shù)ob_ref加1,每當(dāng)該對(duì)象的引用失效時(shí)計(jì)數(shù)ob_ref減1,一旦對(duì)象的引用計(jì)數(shù)為0,該對(duì)象立即被回收,對(duì)象占用的內(nèi)存空間將被釋放。它的缺點(diǎn)是需要額外的空間維護(hù)引用計(jì)數(shù),這個(gè)問(wèn)題是其次的,不過(guò)最主要的問(wèn)題是它不能解決對(duì)象的“循環(huán)引用”,因此,也有很多語(yǔ)言比如Java并沒(méi)有采用該算法做來(lái)垃圾的收集機(jī)制。
什么是循環(huán)引用?A和B相互引用而再?zèng)]有外部引用A與B中的任何一個(gè),它們的引用計(jì)數(shù)雖然都為1,但顯然應(yīng)該被回收,例子:
- a = { } #對(duì)象A的引用計(jì)數(shù)為 1
- b = { } #對(duì)象B的引用計(jì)數(shù)為 1
- a['b'] = b #B的引用計(jì)數(shù)增1
- b['a'] = a #A的引用計(jì)數(shù)增1
- del a #A的引用減 1,***A對(duì)象的引用為 1
- del b #B的引用減 1, ***B對(duì)象的引用為 1
在這個(gè)例子中程序執(zhí)行完 del 語(yǔ)句后,A、B對(duì)象已經(jīng)沒(méi)有任何引用指向這兩個(gè)對(duì)象,但是這兩個(gè)對(duì)象各包含一個(gè)對(duì)方對(duì)象的引用,雖然***兩個(gè)對(duì)象都無(wú)法通過(guò)其它變量來(lái)引用這兩個(gè)對(duì)象了,這對(duì)GC來(lái)說(shuō)就是兩個(gè)非活動(dòng)對(duì)象或者說(shuō)是垃圾對(duì)象,但是他們的引用計(jì)數(shù)并沒(méi)有減少到零。因此如果是使用引用計(jì)數(shù)法來(lái)管理這兩對(duì)象的話,他們并不會(huì)被回收,它會(huì)一直駐留在內(nèi)存中,就會(huì)造成了內(nèi)存泄漏(內(nèi)存空間在使用完畢后未釋放)。為了解決對(duì)象的循環(huán)引用問(wèn)題,Python引入了標(biāo)記-清除和分代回收兩種GC機(jī)制。
標(biāo)記清除
『標(biāo)記清除(Mark—Sweep)』算法是一種基于追蹤回收(tracing GC)技術(shù)實(shí)現(xiàn)的垃圾回收算法。它分為兩個(gè)階段:***階段是標(biāo)記階段,GC會(huì)把所有的『活動(dòng)對(duì)象』打上標(biāo)記,第二階段是把那些沒(méi)有標(biāo)記的對(duì)象『非活動(dòng)對(duì)象』進(jìn)行回收。那么GC又是如何判斷哪些是活動(dòng)對(duì)象哪些是非活動(dòng)對(duì)象的呢?
對(duì)象之間通過(guò)引用(指針)連在一起,構(gòu)成一個(gè)有向圖,對(duì)象構(gòu)成這個(gè)有向圖的節(jié)點(diǎn),而引用關(guān)系構(gòu)成這個(gè)有向圖的邊。從根對(duì)象(root object)出發(fā),沿著有向邊遍歷對(duì)象,可達(dá)的(reachable)對(duì)象標(biāo)記為活動(dòng)對(duì)象,不可達(dá)的對(duì)象就是要被清除的非活動(dòng)對(duì)象。根對(duì)象就是全局變量、調(diào)用棧、寄存器。
在上圖中,我們把小黑圈視為全局變量,也就是把它作為root object,從小黑圈出發(fā),對(duì)象1可直達(dá),那么它將被標(biāo)記,對(duì)象2、3可間接到達(dá)也會(huì)被標(biāo)記,而4和5不可達(dá),那么1、2、3就是活動(dòng)對(duì)象,4和5是非活動(dòng)對(duì)象會(huì)被GC回收。
標(biāo)記清除算法作為Python的輔助垃圾收集技術(shù)主要處理的是一些容器對(duì)象,比如list、dict、tuple,instance等,因?yàn)閷?duì)于字符串、數(shù)值對(duì)象是不可能造成循環(huán)引用問(wèn)題。Python使用一個(gè)雙向鏈表將這些容器對(duì)象組織起來(lái)。不過(guò),這種簡(jiǎn)單粗暴的標(biāo)記清除算法也有明顯的缺點(diǎn):清除非活動(dòng)的對(duì)象前它必須順序掃描整個(gè)堆內(nèi)存,哪怕只剩下小部分活動(dòng)對(duì)象也要掃描所有對(duì)象。
分代回收
分代回收是一種以空間換時(shí)間的操作方式,Python將內(nèi)存根據(jù)對(duì)象的存活時(shí)間劃分為不同的集合,每個(gè)集合稱為一個(gè)代,Python將內(nèi)存分為了3“代”,分別為年輕代(第0代)、中年代(第1代)、老年代(第2代),他們對(duì)應(yīng)的是3個(gè)鏈表,它們的垃圾收集頻率與對(duì)象的存活時(shí)間的增大而減小。新創(chuàng)建的對(duì)象都會(huì)分配在年輕代,年輕代鏈表的總數(shù)達(dá)到上限時(shí),Python垃圾收集機(jī)制就會(huì)被觸發(fā),把那些可以被回收的對(duì)象回收掉,而那些不會(huì)回收的對(duì)象就會(huì)被移到中年代去,依此類(lèi)推,老年代中的對(duì)象是存活時(shí)間最久的對(duì)象,甚至是存活于整個(gè)系統(tǒng)的生命周期內(nèi)。同時(shí),分代回收是建立在標(biāo)記清除技術(shù)基礎(chǔ)之上。分代回收同樣作為Python的輔助垃圾收集技術(shù)處理那些容器對(duì)象。