聊一聊Linux內(nèi)存管理
本章首先以應(yīng)用程序開(kāi)發(fā)者的角度審視Linux的進(jìn)程內(nèi)存管理,在此基礎(chǔ)上逐步深入到內(nèi)核中討論系統(tǒng)物理內(nèi)存管理和內(nèi)核內(nèi)存的使用方法。力求從外到內(nèi)、水到渠成地引導(dǎo)網(wǎng)友分析Linux的內(nèi)存管理與使用。在本章最后,我們給出一個(gè)內(nèi)存映射的實(shí)例,幫助網(wǎng)友們理解內(nèi)核內(nèi)存管理與用戶內(nèi)存管理之間的關(guān)系,希望大家最終能駕馭Linux內(nèi)存管理。
前言
內(nèi)存管理一向是所有操作系統(tǒng)書(shū)籍不惜筆墨重點(diǎn)討論的內(nèi)容,無(wú)論市面上或是網(wǎng)上都充斥著大量涉及內(nèi)存管理的教材和資料。因此,我們這里所要寫(xiě)的Linux內(nèi)存管理采取避重就輕的策略,從理論層面就不去班門弄斧,貽笑大方了。我們最想做的和可能做到的是從開(kāi)發(fā)者的角度談?wù)剬?duì)內(nèi)存管理的理解,最終目的是把我們?cè)趦?nèi)核開(kāi)發(fā)中使用內(nèi)存的經(jīng)驗(yàn)和對(duì)Linux內(nèi)存管理的認(rèn)識(shí)與大家共享。
當(dāng)然,這其中我們也會(huì)涉及到一些諸如段頁(yè)等內(nèi)存管理的基本理論,但我們的目的不是為了強(qiáng)調(diào)理論,而是為了指導(dǎo)理解開(kāi)發(fā)中的實(shí)踐,所以僅僅點(diǎn)到為止,不做深究。
遵循“理論來(lái)源于實(shí)踐”的“教條”,我們先不必一下子就鉆入內(nèi)核里去看系統(tǒng)內(nèi)存到底是如何管理,那樣往往會(huì)讓你陷入似懂非懂的窘境(我當(dāng)年就犯了這個(gè)錯(cuò)誤!)。所以最好的方式是先從外部(用戶編程范疇)來(lái)觀察進(jìn)程如何使用內(nèi)存,等到大家對(duì)內(nèi)存的使用有了較直觀的認(rèn)識(shí)后,再深入到內(nèi)核中去學(xué)習(xí)內(nèi)存如何被管理等理論知識(shí)。最后再通過(guò)一個(gè)實(shí)例編程將所講內(nèi)容融會(huì)貫通。
進(jìn)程與內(nèi)存
進(jìn)程如何使用內(nèi)存?
毫無(wú)疑問(wèn),所有進(jìn)程(執(zhí)行的程序)都必須占用一定數(shù)量的內(nèi)存,它或是用來(lái)存放從磁盤(pán)載入的程序代碼,或是存放取自用戶輸入的數(shù)據(jù)等等。不過(guò)進(jìn)程對(duì)這些內(nèi)存的管理方式因內(nèi)存用途不一而不盡相同,有些內(nèi)存是事先靜態(tài)分配和統(tǒng)一回收的,而有些卻是按需要?jiǎng)討B(tài)分配和回收的。
對(duì)任何一個(gè)普通進(jìn)程來(lái)講,它都會(huì)涉及到5種不同的數(shù)據(jù)段。稍有編程知識(shí)的朋友都能想到這幾個(gè)數(shù)據(jù)段中包含有“程序代碼段”、“程序數(shù)據(jù)段”、“程序堆棧段”等。不錯(cuò),這幾種數(shù)據(jù)段都在其中,但除了以上幾種數(shù)據(jù)段之外,進(jìn)程還另外包含兩種數(shù)據(jù)段。下面我們來(lái)簡(jiǎn)單歸納一下進(jìn)程對(duì)應(yīng)的內(nèi)存空間中所包含的5種不同的數(shù)據(jù)區(qū)。
代碼段:代碼段是用來(lái)存放可執(zhí)行文件的操作指令,也就是說(shuō)是它是可執(zhí)行程序在內(nèi)存中的鏡像。代碼段需要防止在運(yùn)行時(shí)被非法修改,所以只準(zhǔn)許讀取操作,而不允許寫(xiě)入(修改)操作——它是不可寫(xiě)的。
數(shù)據(jù)段:數(shù)據(jù)段用來(lái)存放可執(zhí)行文件中已初始化全局變量,換句話說(shuō)就是存放程序靜態(tài)分配[1]的變量和全局變量。
BSS段[2]:BSS段包含了程序中未初始化的全局變量,在內(nèi)存中 bss段全部置零。
堆(heap):堆是用于存放進(jìn)程運(yùn)行中被動(dòng)態(tài)分配的內(nèi)存段,它的大小并不固定,可動(dòng)態(tài)擴(kuò)張或縮減。當(dāng)進(jìn)程調(diào)用malloc等函數(shù)分配內(nèi)存時(shí),新分配的內(nèi)存就被動(dòng)態(tài)添加到堆上(堆被擴(kuò)張);當(dāng)利用free等函數(shù)釋放內(nèi)存時(shí),被釋放的內(nèi)存從堆中被剔除(堆被縮減)
棧:棧是用戶存放程序臨時(shí)創(chuàng)建的局部變量,也就是說(shuō)我們函數(shù)括弧“{}”中定義的變量(但不包括static聲明的變量,static意味著在數(shù)據(jù)段中存放變量)。除此以外,在函數(shù)被調(diào)用時(shí),其參數(shù)也會(huì)被壓入發(fā)起調(diào)用的進(jìn)程棧中,并且待到調(diào)用結(jié)束后,函數(shù)的返回值也會(huì)被存放回棧中。由于棧的先進(jìn)先出特點(diǎn),所以棧特別方便用來(lái)保存/恢復(fù)調(diào)用現(xiàn)場(chǎng)。從這個(gè)意義上講,我們可以把堆??闯梢粋€(gè)寄存、交換臨時(shí)數(shù)據(jù)的內(nèi)存區(qū)。
進(jìn)程如何組織這些區(qū)域?
上述幾種內(nèi)存區(qū)域中數(shù)據(jù)段、BSS和堆通常是被連續(xù)存儲(chǔ)的——內(nèi)存位置上是連續(xù)的,而代碼段和棧往往會(huì)被獨(dú)立存放。有趣的是,堆和棧兩個(gè)區(qū)域關(guān)系很“曖昧”,他們一個(gè)向下“長(zhǎng)”(i386體系結(jié)構(gòu)中棧向下、堆向上),一個(gè)向上“長(zhǎng)”,相對(duì)而生。但你不必?fù)?dān)心他們會(huì)碰頭,因?yàn)樗麄冎g間隔很大(到底大到多少,你可以從下面的例子程序計(jì)算一下),絕少有機(jī)會(huì)能碰到一起。
實(shí)存、虛存
實(shí)存:進(jìn)程分配的、加載到主存中的內(nèi)存。包含來(lái)自共享庫(kù)的內(nèi)存,只要這些庫(kù)占用的頁(yè)框還在主存中,也包含所有正在使用的堆棧和堆內(nèi)存??梢酝ㄟ^(guò) ps -o rss 查看進(jìn)程的實(shí)存大小。
虛存:包含進(jìn)程可以訪問(wèn)的所有內(nèi)存,包含被換出、已經(jīng)分配但還未使用的內(nèi)存,以及來(lái)自共享庫(kù)的內(nèi)存??梢酝ㄟ^(guò) ps -o vsz 查看進(jìn)程的虛存大小。
舉個(gè)例子,如果進(jìn)程A具有500K二進(jìn)制文件并且鏈接到2500K共享庫(kù),則具有200K的堆棧/堆分配,其中100K實(shí)際上在內(nèi)存中(其余是交換或未使用),并且它實(shí)際上只加載了1000K的共享庫(kù)然后是400K自己的二進(jìn)制文件:
- RSS: 400K + 1000K + 100K = 1500K
- VSZ: 500K + 2500K + 200K = 3200K
實(shí)存和虛存是怎么轉(zhuǎn)換的呢?當(dāng)程序嘗試訪問(wèn)的地址未處于實(shí)存中時(shí),就發(fā)生頁(yè)面錯(cuò)誤,操作系統(tǒng)必須以某種方式處理這種錯(cuò)誤,從而使應(yīng)用程序正常運(yùn)行。這些操作可以是:
- 找到頁(yè)面駐留在磁盤(pán)上的位置,并加載到主存中。
- 重新配置MMU,更新線性地址和物理地址的映射關(guān)系。
- 等。
隨著進(jìn)程頁(yè)面錯(cuò)誤的增長(zhǎng),主存中可用頁(yè)面越來(lái)越少,為了防止內(nèi)存完全耗盡,操作系統(tǒng)必須盡快釋放主存中暫時(shí)不用的頁(yè)面,以釋放空間供以后使用,方式如下:
- 將修改后的頁(yè)面寫(xiě)入到磁盤(pán)的專用區(qū)域上(調(diào)頁(yè)空間或者交換區(qū))。
- 將未修改的頁(yè)面標(biāo)記為空閑(沒(méi)必要寫(xiě)入磁盤(pán),因?yàn)闆](méi)有被修改)。
調(diào)頁(yè)或者交換是操作系統(tǒng)的正常部分,需要注意的是過(guò)度交換,這表示當(dāng)前主存空間不足,頁(yè)面換出抖動(dòng)對(duì)系統(tǒng)極為不利,會(huì)導(dǎo)致CPU和I/O負(fù)載升高,極端情況下,會(huì)造成操作系統(tǒng)所有的資源花費(fèi)在調(diào)頁(yè)層面。