Linux內(nèi)核如何管理內(nèi)存換入換出,如何實(shí)現(xiàn)磁盤緩存?
1:linux是如何管理內(nèi)存換入換出的?
內(nèi)存swap的機(jī)制不再介紹,其實(shí)從問題來看,是想知道,內(nèi)存頁是怎么與換出到磁盤上的內(nèi)容一一對(duì)應(yīng)的。答案是通過頁表。拿32位系統(tǒng)舉例子:
處理器通過頁表來把一個(gè)虛擬地址轉(zhuǎn)化為實(shí)際的物理內(nèi)存地址。每個(gè)進(jìn)程有屬于它自己的一組頁表;無論何時(shí)發(fā)生了進(jìn)程切換,相應(yīng)的會(huì)發(fā)生用戶空間的頁表切換。mm_struct中有一個(gè)pdg域,就指向該進(jìn)程所使用的頁表集。對(duì)每一個(gè)虛擬頁在頁表中都有對(duì)應(yīng)的一個(gè)頁表項(xiàng)(PTE),通常x86下的一頁是一個(gè)4字節(jié)的如下記錄(pgd和pte的結(jié)構(gòu)類似,12-31位是page base描述,0-11位是屬性描述,不過pgd中的pagebase 指向的pte所在頁面的起始地址,而pte的page base指向的物理頁面的起始地址。假設(shè)下面是一條pte對(duì)頁的描述記錄):
注意第0位P位,P位告訴處理器該虛擬頁目前是否在物理內(nèi)存,P位為1,表示該頁在內(nèi)存中。P位為0頁表示不在內(nèi)存,頁不在內(nèi)存也分下面兩種情況:
A:從1位至31位為空:該頁不在進(jìn)程的地址空間,需在請(qǐng)求調(diào)頁
B:1位至31位至少有一位被至位:說明該頁被換出到磁盤。
針對(duì)B情況作說明:如果有一位被至位,而PTE的關(guān)于該頁的條目被以如下方式解讀:
既,1-7被解讀成一個(gè)交換區(qū)的區(qū)號(hào),而8-31位被解讀成頁槽索引(page-slot,在swap區(qū)中一個(gè)大小為4k的頁被稱為page–slot,也許是為了區(qū)別與物理頁的page -frame),這樣該頁就指向了swap區(qū)的一個(gè)4k的空間。
我們?cè)賮砜磗wap區(qū),每個(gè)活動(dòng)的swap區(qū)在內(nèi)存中有一個(gè)swap區(qū)描述符,系統(tǒng)所有的交換區(qū)組成一個(gè)鏈表,交換區(qū)結(jié)構(gòu)為swap_info_struct,該結(jié)構(gòu)中有個(gè)重要字段 :struct block_device * bdev ,存放交換區(qū)的塊設(shè)備的描述符,就是你格式分成swap的設(shè)備/分區(qū)。
***來看磁盤上的swap區(qū)是什么組織的:
每個(gè)交換區(qū)由一組pageslot組成(一般這些頁槽在磁盤上連續(xù)存放),就是說由一組4k大小的塊組成,每塊包含一個(gè)換出的頁,。交換區(qū)的***個(gè)page slot(0號(hào)頁槽)用來***存放交換區(qū)的管理信息,可用來存放換出頁的***個(gè)頁槽為1號(hào)頁槽(頁槽索引為1)。所以上面描述換出頁的頁表?xiàng)l目時(shí)說“1位至31位至少有一位被至位”,因?yàn)?號(hào)頁槽不能存換出頁。
到這里,不知道大家對(duì)swap頁的標(biāo)記有沒有一個(gè)大體的概念?
2:內(nèi)核讀入一個(gè)文件時(shí),內(nèi)核是在哪里記錄內(nèi)存頁和磁盤塊的對(duì)應(yīng)關(guān)系,以便將來把臟數(shù)據(jù)flush回磁盤?具體來說,是在哪些數(shù)據(jù)結(jié)構(gòu)里記錄這些信息的?
先來看文件在磁盤和內(nèi)存中的存放方式(ext3舉例):
磁盤:文件由inode以及inode指向的具體數(shù)據(jù)塊組成,來看看磁盤的Inode結(jié)構(gòu)的描述(source/fs/ext4/ext3.h 下面為3.14內(nèi)核的中的,source是指內(nèi)核代碼根目錄,下同。內(nèi)核版本不同,行號(hào)可能不同):
第281行有一個(gè)“__le32 i_block[EXT3_N_BLOCKS];”
最前面的le 全稱為 little-endian,表示排序方式:低階字節(jié)在高位位置與其對(duì)應(yīng)的是be :big-endian。 如代碼注釋這個(gè)數(shù)據(jù)指向了具體存放文件數(shù)據(jù)的塊(這里我們不講間接塊)。到此,估計(jì)已經(jīng)了解了文件在磁盤上的存放的管理。
下面來說說文件在內(nèi)存中的存放,文件在內(nèi)存中存放由VSF層管理,VFS層在打開文件時(shí)在內(nèi)存中依據(jù)磁盤的 ext3_inode而建立VFS的inode結(jié)構(gòu),VFS的inode與磁盤inode是一一對(duì)應(yīng)的,下面摘出該結(jié)構(gòu)的一些內(nèi)(同前面的內(nèi)核版本,文件在source/include/linux/fs.h):
是不是發(fā)現(xiàn)和磁盤上的inode結(jié)構(gòu)存在相似的地方,但又多了一些內(nèi)容? 這里與文件映射關(guān)系最為密切的是 594行的 struct address_spaces i_data ,該結(jié)構(gòu)內(nèi)容如下:
(同前面的內(nèi)核版本,文件在source/include/linux/fs.h):
需要關(guān)注的是414行的 radix_tree_root 結(jié)構(gòu),描述如下(source/include/linux/radix-tree.h):
Height描述樹的高/深度,*rnode指向了其子樹,根樹與子樹的關(guān)系:
圖中也描述了子樹的結(jié)構(gòu)的重要部分slots,slots指針數(shù)組指向了具體物理頁的頁描述符,如果基樹樹高為1,則slots可以指向[RADIX_TESS_MAP_SIZE]個(gè)頁面,如下面的結(jié)構(gòu)描述:(source/include/linux/radix-tree.h):
***再來看看物理頁描述符的結(jié)構(gòu)(source/include/linux/mm_types.h,內(nèi)容和注釋太多,貼出來行號(hào)會(huì)亂掉,我只截了部分內(nèi)容,且去掉了行號(hào)):
其中兩個(gè)字段 mapping 和index, 如果該頁被用于文件映射,則mapping用于指向文件inode的address_space結(jié)構(gòu),而index(頁索引)呢?index是與文件inode->address_space->radix_tree_root->radix_tree_node->slots[]相關(guān)的,我直接載圖好了:(且下面載圖中***說的圖15-1就是前面已貼出的 根樹與子樹的關(guān)系圖):
總結(jié)起來就是:VFS從磁盤讀取inode,并在內(nèi)存立對(duì)應(yīng)的vfs的inode,vfs層inode中address_space中radix_tree_root中radix_tree_node中slots指向了內(nèi)存中存放文件的物理頁描述符(找到頁描述符就能找到頁面)。而頁描述符中的mapping指向了 inode的address_space, 同時(shí),頁描述符中index指定了頁在slots中的具體位置 。