高級(jí)運(yùn)維必看的操作系統(tǒng)內(nèi)存管理解析
前言
內(nèi)存管理是操作系統(tǒng)的一項(xiàng)核心功能。
從操作系統(tǒng)啟動(dòng)到創(chuàng)建0號(hào)進(jìn)程(也就是idle進(jìn)程)的過程中,大部分執(zhí)行的代碼都涉及到內(nèi)存管理。
操作系統(tǒng)的內(nèi)存管理大致可以分為以下幾個(gè)層次:
物理內(nèi)存管理
物理內(nèi)存指的是電腦中實(shí)際存在的內(nèi)存容量,這個(gè)信息可以通過BIOS獲取。
在內(nèi)存分頁后,物理內(nèi)存的管理結(jié)構(gòu)變成了一個(gè)數(shù)組,其中每個(gè)元素表示一個(gè)物理內(nèi)存頁,每頁的大小為4096字節(jié)
如下圖:
圖片
在一個(gè)簡(jiǎn)單的內(nèi)核示例中,物理內(nèi)存頁的管理結(jié)構(gòu)可以僅包含一項(xiàng):
atomic_t refs;
這表示物理內(nèi)存頁的引用計(jì)數(shù):如果計(jì)數(shù)為0,表示該頁空閑;若計(jì)數(shù)大于0,則表示該頁正在被使用,具體數(shù)值表示共享此頁的進(jìn)程數(shù)量。
簡(jiǎn)單的內(nèi)核示例通常不支持SMP架構(gòu),因此自旋鎖(spinlock)并不需要。
然而,在對(duì)稱多處理器(SMP)系統(tǒng)中,由于全局?jǐn)?shù)據(jù)結(jié)構(gòu)可能會(huì)被多個(gè)CPU同時(shí)訪問,因此需要引入自旋鎖。
在這種情況下,物理內(nèi)存頁的管理結(jié)構(gòu)至少需要包含以下兩項(xiàng):
atomic_t spinlock;
atomic_t refs;
自旋鎖的作用類似于應(yīng)用程序中的互斥鎖(mutex),不同之處在于,當(dāng)自旋鎖獲取失敗時(shí),它會(huì)反復(fù)嘗試直到成功。
void spin_lock(atomic_t* lock)
{
while (spin_trylock(lock) == 0);
}
以上代碼展示了為自旋鎖加鎖的函數(shù)。while循環(huán)會(huì)不斷嘗試加鎖,直到成功;如果未成功,它將持續(xù)自旋嘗試,因此稱之為自旋鎖。
在SMP環(huán)境中,自旋鎖用于保護(hù)共享的數(shù)據(jù)結(jié)構(gòu):當(dāng)一個(gè)CPU持有自旋鎖時(shí),其他CPU無法訪問該共享數(shù)據(jù)。
對(duì)于單處理器系統(tǒng),沒有必要使用自旋鎖,直接關(guān)閉中斷即可。
在單處理器環(huán)境中,關(guān)閉中斷可以防止內(nèi)核的并發(fā)執(zhí)行,從而避免對(duì)共享數(shù)據(jù)的競(jìng)爭(zhēng)。
但是,在多處理器系統(tǒng)中,必須使用自旋鎖,因?yàn)殛P(guān)閉中斷只能影響當(dāng)前CPU,而無法影響其他CPU;此時(shí),自旋鎖用于保護(hù)共享數(shù)據(jù)。
物理內(nèi)存的管理數(shù)組是最關(guān)鍵的全局共享數(shù)據(jù)。
當(dāng)需要為某個(gè)進(jìn)程分配內(nèi)存時(shí),判斷哪個(gè)內(nèi)存頁空閑、哪個(gè)已被使用,都依賴于這個(gè)數(shù)組。
在加自旋鎖時(shí),一定要先關(guān)閉中斷,因?yàn)槿绻诩渔i后、關(guān)閉中斷前,剛好有中斷發(fā)生,并在中斷處理函數(shù)中再次請(qǐng)求加同一個(gè)鎖,就會(huì)導(dǎo)致遞歸死鎖。
在Linux內(nèi)核中,關(guān)閉中斷并加鎖的函數(shù)是:spin_lock_irqsave()。
分配物理內(nèi)存頁的函數(shù)是:get_free_pages(),它可以分配1頁或連續(xù)多頁的內(nèi)存。
如果分配多頁內(nèi)存,起始地址需按頁數(shù)對(duì)齊。
虛擬內(nèi)存管理
虛擬內(nèi)存的管理是通過進(jìn)程的頁表來實(shí)現(xiàn)的。
為了節(jié)約物理內(nèi)存,當(dāng)一個(gè)新進(jìn)程創(chuàng)建時(shí),它會(huì)與父進(jìn)程共享同一套物理內(nèi)存頁。
只有當(dāng)新進(jìn)程需要對(duì)某個(gè)內(nèi)存頁進(jìn)行寫操作時(shí),系統(tǒng)才會(huì)為它創(chuàng)建一個(gè)新的物理內(nèi)存頁副本,并取消該頁與父進(jìn)程的共享,這個(gè)過程稱為寫時(shí)復(fù)制(Copy-On-Write)
圖片
寫時(shí)復(fù)制的過程可以描述為:
- 申請(qǐng)一個(gè)新的內(nèi)存頁,
- 將舊內(nèi)存頁的內(nèi)容復(fù)制到新的內(nèi)存頁中,
- 將新內(nèi)存頁的地址填入子進(jìn)程的頁表中,
- 將舊內(nèi)存頁的引用計(jì)數(shù)減1。
因此,在新進(jìn)程剛創(chuàng)建時(shí),它的用戶空間并沒有專屬的物理內(nèi)存頁。只有在需要寫操作時(shí),系統(tǒng)才會(huì)通過寫時(shí)復(fù)制機(jī)制逐步分配內(nèi)存頁,從而盡可能地保持物理內(nèi)存的空閑狀態(tài)。
另一種保持物理內(nèi)存盡量空閑的機(jī)制是“按需加載”:
- 當(dāng)通過mmap映射一個(gè)文件時(shí),操作系統(tǒng)不會(huì)立即為該文件分配內(nèi)存或?qū)⑵鋬?nèi)容加載到內(nèi)存中,
- 只有在進(jìn)程實(shí)際讀取文件的某一部分時(shí),操作系統(tǒng)才會(huì)分配物理內(nèi)存頁,并將該部分內(nèi)容從磁盤讀入內(nèi)存。
這就是“寫時(shí)復(fù)制”和“按需加載”的過程:只有在真正需要時(shí),Linux系統(tǒng)才會(huì)將物理內(nèi)存分配給進(jìn)程。
用戶態(tài)的內(nèi)存函數(shù)
以上這些機(jī)制都是操作系統(tǒng)內(nèi)核的一部分,應(yīng)用程序的代碼無需關(guān)注這些細(xì)節(jié)。
應(yīng)用程序分配內(nèi)存的最底層操作通過brk()系統(tǒng)調(diào)用完成。
圖片
brk()是一個(gè)系統(tǒng)調(diào)用,用于修改應(yīng)用程序數(shù)據(jù)段的末尾位置,以便分配或釋放應(yīng)用程序的堆空間。
圖片
在C標(biāo)準(zhǔn)庫(kù)中,brk() 被封裝成了 sbrk() 和 brk() 兩個(gè)函數(shù),以便于程序員使用:
- sbrk() 用于申請(qǐng)內(nèi)存:void* sbrk(int increment);
- brk() 用于回收內(nèi)存:int brk(void* addr);
實(shí)際上,Linux系統(tǒng)中只有一個(gè) brk() 系統(tǒng)調(diào)用,它負(fù)責(zé)設(shè)置進(jìn)程數(shù)據(jù)段的末尾,并將這個(gè)值返回給應(yīng)用程序。
圖片
在Linux內(nèi)核的頭文件中,brk() 系統(tǒng)調(diào)用的處理函數(shù) sys_brk() 如圖所示。
如果想直接使用系統(tǒng)調(diào)用,可以通過 Linux 的 syscall() 函數(shù)來實(shí)現(xiàn)。該函數(shù)接受調(diào)用號(hào)和參數(shù)列表,能夠幫助區(qū)分實(shí)際的系統(tǒng)調(diào)用和C庫(kù)的封裝。syscall() 函數(shù)的聲明為:long syscall(long number, ...);,它的參數(shù)是可變的,最多支持6個(gè)參數(shù),因?yàn)榧拇嫫鞯臄?shù)量有限。
基于 sbrk() 和 brk(),常用的內(nèi)存管理函數(shù) malloc() 和 free() 被封裝出來。malloc() 分配的內(nèi)存塊可以按需釋放,不必按順序。而 brk() 和 sbrk() 分配的內(nèi)存必須按順序釋放,因?yàn)樗鼈儠?huì)調(diào)整進(jìn)程數(shù)據(jù)段的結(jié)尾。
數(shù)據(jù)段結(jié)尾(brk)之外的堆空間如果被使用,會(huì)導(dǎo)致段錯(cuò)誤。因此,Linux man 手冊(cè)建議應(yīng)用程序不要直接使用 sbrk() 和 brk() 來申請(qǐng)和釋放內(nèi)存。
brk() 的作用僅僅是通知 Linux 內(nèi)核哪個(gè)范圍的堆內(nèi)存是可用的。實(shí)際的物理內(nèi)存頁是在進(jìn)程實(shí)際讀寫內(nèi)存時(shí)由內(nèi)核根據(jù)寫時(shí)復(fù)制和按需加載機(jī)制自動(dòng)申請(qǐng)的,應(yīng)用程序并不會(huì)感知到這些細(xì)節(jié)。
此外,Linux 還會(huì)將不常用的物理內(nèi)存頁交換到磁盤上的交換分區(qū)(swap),以釋放更多內(nèi)存。因此,當(dāng)內(nèi)存不足時(shí),磁盤的讀寫頻率也會(huì)增加。