我們一起聊聊 Linux 的文件系統(tǒng)(File System)架構(gòu)
本文重點(diǎn)介紹一下虛擬文件系統(tǒng)。Linux整個(gè)文件系統(tǒng)的架構(gòu)如下圖所示,其中在具體文件系統(tǒng)(如Ext2、Ext3和XFS等)與應(yīng)用程序之間有一層抽象層,稱為虛擬文件系統(tǒng)(Virtual File System),簡稱VFS。
圖片
由上圖可以看出,該架構(gòu)的核心是虛擬文件系統(tǒng)VFS,VFS提供了一個(gè)文件系統(tǒng)框架,本地文件系統(tǒng)可以基于VFS實(shí)現(xiàn),其主要做了如下幾方面的工作:
1) VFS作為抽象層為應(yīng)用層提供了統(tǒng)一的接口(read、write和chmod等)。
2) 在VFS中實(shí)現(xiàn)了一些公共的功能,如inode緩存和頁緩存等。
3) 規(guī)范了具體文件系統(tǒng)應(yīng)該實(shí)現(xiàn)的接口。
基于上述設(shè)定,其他具體的文件系統(tǒng)只需要按照VFS的約定實(shí)現(xiàn)相應(yīng)的接口及內(nèi)部邏輯,并注冊在系統(tǒng)之中即可。之后, 當(dāng)用戶格式化并掛載文件系統(tǒng)后就可以基于該文件系統(tǒng)使用硬盤的資源了。
在Linux操作系統(tǒng)中,在格式化磁盤后需要通過mount命令將其掛載到系統(tǒng)目錄樹的某個(gè)目錄下面,這個(gè)目錄稱為掛載點(diǎn)(mount point)。完成掛載后,我們就可以使用基于該文件系統(tǒng)格式化的硬盤空間了。在Linux操作系統(tǒng)中,掛載點(diǎn)幾乎可以是任意目錄,但為了規(guī)范化,掛載點(diǎn)通常是mnt目錄下的子目錄。
如下圖所示是一個(gè)相對比較復(fù)雜的目錄樹。在該目錄樹中,根文件系統(tǒng)基于硬盤sda格式化,在mnt目錄下又有ext4、xfs和nfs三個(gè)子目錄,并且分別掛載了Ext4文件系統(tǒng)(基于sdb構(gòu)建)、XFS文件系統(tǒng)(基于sdc構(gòu)建)和NFS文件系統(tǒng)(通過網(wǎng)絡(luò)掛載)。
圖片
目錄樹中多個(gè)文件系統(tǒng)的關(guān)系是內(nèi)核中的一些數(shù)據(jù)結(jié)構(gòu)表示的。在進(jìn)行文件系統(tǒng)掛載的時(shí)候會(huì)建立文件系統(tǒng)間的關(guān)系,并且注冊具體文件系統(tǒng)的API。當(dāng)用戶態(tài)調(diào)用打開文件的API時(shí),會(huì)找到對應(yīng)的文件系統(tǒng)API,并關(guān)聯(lián)到文件相關(guān)的結(jié)構(gòu)體(例如file和inode等)。
上面的描述比較概要,大家可能還是有點(diǎn)云里霧里的感覺。不過大家不要著急,我們接下來會(huì)結(jié)合代碼更加詳細(xì)的介紹VFS及如何實(shí)現(xiàn)對多種文件系統(tǒng)的支持。
1.從文件系統(tǒng)API到VFS,再到具體文件系統(tǒng)
Linux的VFS并不是一開始就有的,最早發(fā)布的Linux版本并沒有VFS。而且,VFS并非是在Linux發(fā)明的,它最早于1985年由Sun公司在其SunOS2.0中開發(fā)。開發(fā)VFS的主要目的是為了適配其本地文件系統(tǒng)和NFS文件系統(tǒng)。
VFS通過一套公共的API和數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)了對具體文件系統(tǒng)的抽象。當(dāng)用戶調(diào)用操作系統(tǒng)提供的文件系統(tǒng)API時(shí)會(huì)通過軟中斷的方式調(diào)用內(nèi)核VFS實(shí)現(xiàn)的函數(shù)。如下表所示是部分文件API與內(nèi)核VFS函數(shù)的對應(yīng)關(guān)系。
用戶態(tài)API | 內(nèi)核函數(shù) | 說明 |
open | do_sys_open | 打開文件 |
close | ksys_close | 關(guān)閉文件 |
read | ksys_read/vfs_read | 讀取數(shù)據(jù) |
write | ksys_write/vfs_write | 寫入數(shù)據(jù) |
mount | do_mount | 掛載文件系統(tǒng) |
由上表可以看出每個(gè)用戶態(tài)的API都有一個(gè)內(nèi)核態(tài)的函數(shù)與之對應(yīng)。當(dāng)應(yīng)用程序調(diào)用文件系統(tǒng)的API時(shí)會(huì)觸發(fā)內(nèi)核態(tài)的對應(yīng)函數(shù)。這里列舉的只是文件系統(tǒng)API中的一個(gè)比較小的子集,目的是為了說明API與VFS的關(guān)系。如果大家想了解其他API請自行閱讀內(nèi)核源代碼,本文不再贅述。
為了讓大家能夠?qū)FS與具體文件系統(tǒng)的關(guān)系有個(gè)感性的認(rèn)識(shí),本節(jié)以Ext2的寫API為例來展示一下從API到VFS函數(shù),再到Ext2文件系統(tǒng)函數(shù)的調(diào)用關(guān)系。如下圖所示,API函數(shù)write通過軟中斷觸發(fā)內(nèi)核的ksys_write函數(shù),該函數(shù)經(jīng)過若干處理后最終會(huì)通過函數(shù)指針(file->f_op->wirte_iter)的方式調(diào)用Ext2文件系統(tǒng)的ext2_file_write_iter函數(shù)。
圖片
在上圖中內(nèi)核流程的入口是ksys_write函數(shù),通過實(shí)現(xiàn)代碼可以看出,這里主要是獲取一個(gè)fd,然后以fd中的成員file作為參數(shù)調(diào)用vfs_write。其中fd是一個(gè)結(jié)構(gòu)體,其格式如下圖所示,file成員是比較核心的數(shù)據(jù)結(jié)構(gòu)。從上圖可以看出,正是通過這個(gè)成員中的內(nèi)容才調(diào)到了Ext2文件系統(tǒng)的函數(shù)。
圖片
看上去很簡單,VFS只要調(diào)用具體文件系統(tǒng)注冊的函數(shù)指針即可。但是這里有個(gè)問題沒有解決,VFS中的函數(shù)指針是什么時(shí)候被注冊的呢?
Ext2的函數(shù)指針是在打開文件的時(shí)候被初始化的(具體細(xì)節(jié)請參考《文件系統(tǒng)技術(shù)內(nèi)幕》3.1.2.2節(jié))。大家都知道,用戶態(tài)的程序在打開一個(gè)文件的時(shí)候返回的是一個(gè)文件描述符,但在內(nèi)核中表示文件的結(jié)構(gòu)體file與之對應(yīng)。這個(gè)結(jié)構(gòu)體里面比較重要的幾個(gè)成員包括f_inode、f_ops和f_mapping等,具體如下圖所示。
圖片
在上圖中,f_inode是該文件對應(yīng)的inode節(jié)點(diǎn)。f_ops是具體文件系統(tǒng)(例如Ext2)文件操作的函數(shù)指針集合,它是在打開文件的時(shí)候被初始化的。VFS正是通過該函數(shù)指針集合來實(shí)現(xiàn)對具體文件系統(tǒng)訪問的。
上面又涉及到VFS的另外一個(gè)概念inode。在Linux中,inode是index node的縮寫,他表示了文件系統(tǒng)中的一個(gè)具體的對象(比如文件或者目錄)。在VFS中有一個(gè)名稱為inode的數(shù)據(jù)結(jié)構(gòu),他是對具體文件系統(tǒng)inode的抽象。比如在Ext2文件系統(tǒng)中具體定義為ext2_inode_info,在XFS中則是通過數(shù)據(jù)結(jié)構(gòu)xfs_inode表示的。而且具體文件系統(tǒng)的inode數(shù)據(jù)結(jié)構(gòu)與VFS的inode有個(gè)內(nèi)在的關(guān)聯(lián),大家可以自行閱讀代碼。
2.inode緩存與dentry緩存
在架構(gòu)圖中我們看到在VFS中有若干個(gè)緩存實(shí)現(xiàn),包括頁緩存、inode緩存和dentry緩存等。其中inode緩存和dentry緩存實(shí)現(xiàn)方式相同,也比較簡單。所以,本文先介紹一下這兩個(gè)緩存。
其實(shí)這兩個(gè)緩存是通過哈希表實(shí)現(xiàn)的,哈希表的概念大家都比較清楚,本文不再贅述。以inode緩存為例,如下圖是其初始化的過程,通過參數(shù)ihash_entries可以看出其大小是動(dòng)態(tài)的(其大小跟系統(tǒng)內(nèi)存相關(guān),系統(tǒng)內(nèi)存閱讀,inode緩存就越大)。
圖片
由于訪問文件時(shí)會(huì)經(jīng)常訪問inode和dentry,所以將兩者緩存起來能夠避免從硬盤讀取數(shù)據(jù)導(dǎo)致的性能損失。
3.頁緩存(Page Cache)
VFS頁緩存(Cache)的作用主要用來提升文件系統(tǒng)的性能。緩存技術(shù)是指在內(nèi)存中存儲(chǔ)文件系統(tǒng)的部分?jǐn)?shù)據(jù)和元數(shù)據(jù)而提升文件系統(tǒng)性能的技術(shù)。由于內(nèi)存的訪問延時(shí)是機(jī)械硬盤訪問延時(shí)的十萬分之一(如下圖所示,以寄存器為基準(zhǔn)單位1s),因此采用緩存技術(shù)可以大幅提升文件系統(tǒng)的性能。
圖片
緩存通過三方面的IO優(yōu)化來提升文件系統(tǒng)的性能,分別是熱點(diǎn)數(shù)據(jù)、預(yù)讀和IO合并。很多應(yīng)用都會(huì)有熱點(diǎn)數(shù)據(jù),比如作者在編輯文檔的時(shí)候,當(dāng)前這個(gè)數(shù)據(jù)塊及附近的數(shù)據(jù)塊就是熱點(diǎn)數(shù)據(jù)。或者當(dāng)出現(xiàn)一個(gè)爆款文章時(shí),這篇文章的內(nèi)容就是熱點(diǎn)數(shù)據(jù)。底層存儲(chǔ)設(shè)備對于大塊讀寫的性能往往較好,預(yù)讀就是提前從底層設(shè)備讀取大塊數(shù)據(jù)緩存起來,這樣可以通過緩存來響應(yīng)應(yīng)用的請求。IO合并則是針對寫請求,寫請求不馬上持久化到后端設(shè)備,而是緩存一下,拼成大塊IO再寫入。
由于內(nèi)存的容量要比硬盤的容量小的多,因此頁緩存自然不能緩存所有硬盤的數(shù)據(jù)。這樣緩存中只能存儲(chǔ)文件系統(tǒng)數(shù)據(jù)的一個(gè)子集。當(dāng)用戶持續(xù)寫入數(shù)據(jù)的時(shí)候就會(huì)面臨緩存滿的情況,此時(shí)就涉及如何將緩存數(shù)據(jù)刷寫磁盤,然后存儲(chǔ)新數(shù)據(jù)的問題。
這里將緩存刷寫到磁盤,并且存儲(chǔ)新數(shù)據(jù)的過程稱為緩存替換。緩存替換有很多種算法,每種算法用于解決不同的問題。接下來我們介紹幾種常見的緩存替換算法。
LRU算法,LRU的全稱是Least Recently Used,也就是最近最少使用。該算法依據(jù)的是時(shí)間局部性原理,也就是如果一個(gè)數(shù)據(jù)最近被使用過,那么接下來有很大的概率還會(huì)被使用。因此該算法會(huì)將最近沒有使用過的緩存釋放掉。
LRU算法通常使用一個(gè)鏈表來實(shí)現(xiàn),剛被使用過的緩存會(huì)被插到表頭的位置,而經(jīng)常沒有被使用過的數(shù)據(jù)則慢慢被擠到鏈表的尾部。為了更加清晰的理解LRU的原理,我們結(jié)合下圖進(jìn)行說明。
圖片
在該例中,我們以全命中為例進(jìn)行介紹。假設(shè)緩存中有6個(gè)數(shù)據(jù)塊,如圖第一行所示,方塊中的數(shù)字代表該數(shù)據(jù)塊的編號(hào)。假設(shè)第一次訪問(可以是讀或者寫)的是3號(hào)數(shù)據(jù)塊,由于其被訪問過,因此將其移動(dòng)到鏈表頭。
第二次訪問時(shí)訪問的是第4號(hào)數(shù)據(jù)塊,按照相同的原則,該數(shù)據(jù)塊也被移動(dòng)到鏈表頭。具體如上圖第2行所示。
以此類推,當(dāng)經(jīng)過4輪訪問后,被訪問過的數(shù)據(jù)都被前移了,而沒有被訪問過的數(shù)據(jù)塊(例如1和2)則被慢慢擠到了鏈表的后面。這在一定程度上預(yù)示著這兩個(gè)數(shù)據(jù)塊在后面被訪問的可能性也比較小。
如果是全命中的話也就不存在緩存被替換的情況了。實(shí)際情況是緩存會(huì)經(jīng)常不夠用,而需要將其中的數(shù)據(jù)釋放(視情況確定是否需要刷新到磁盤)來存儲(chǔ)新的數(shù)據(jù)。此時(shí),LRU算法就派上用場了,該算法將尾部的數(shù)據(jù)塊拿來存儲(chǔ)新數(shù)據(jù),然后放到鏈表頭,具體下圖如所示。如果這個(gè)數(shù)據(jù)塊里面是臟數(shù)據(jù)則需要刷寫到磁盤,否則直接釋放掉就可以。
圖片
LRU算法原理和實(shí)現(xiàn)都比較簡單,用途卻非常廣泛。但是LRU算法有個(gè)缺點(diǎn),就是當(dāng)突然有大量連續(xù)數(shù)據(jù)寫入時(shí)會(huì)替換掉所有的緩存塊,從而導(dǎo)致之前統(tǒng)計(jì)的緩存使用情況全部失效,這種現(xiàn)象稱為緩存污染。為了解決緩存污染問題,有很多改進(jìn)的LRU算法,其中比較常見的有LRU-K、2Q和LIRS等。
LFU算法,LFU的全稱是Least Frequently Used,也就是最近最不經(jīng)常使用。該算法是根據(jù)數(shù)據(jù)被訪問的頻度來決策釋放哪一個(gè)緩存塊的。訪問頻度最低的緩存塊會(huì)被最先釋放掉。
如下圖所示是LFU算法的示意圖。其中第1行是原始狀態(tài),方塊中的數(shù)字表示該緩存塊被訪問的次數(shù)。新數(shù)據(jù)的加入和緩存塊的淘汰都是從尾部進(jìn)行。假設(shè)某一塊(虛線框)數(shù)據(jù)被訪問了4次,則其訪問次數(shù)從12變成了16,因此需要移動(dòng)到新的位置,也就是圖中第2行的樣子。
圖片
本書以鏈表為例說明LFU的原理是為了便于理解,但是在工程實(shí)現(xiàn)的時(shí)候是絕對不會(huì)用鏈表來實(shí)現(xiàn)的。因?yàn)楫?dāng)數(shù)據(jù)塊的訪問次數(shù)變化時(shí)需要找新的位置,鏈表查找操作是非常耗時(shí)的。為了能夠?qū)崿F(xiàn)快速查找,一般采用搜索樹來實(shí)現(xiàn)。
LFU也有其缺點(diǎn),如果某個(gè)數(shù)據(jù)塊在很久之前的某個(gè)時(shí)間段高頻訪問,而以后不再訪問,那么該數(shù)據(jù)會(huì)一直停留在緩存中。但是由于該數(shù)據(jù)不會(huì)被訪問了,所以導(dǎo)致緩存的有效容量減少了。也就是說LFU算法沒有考慮最近的情況。
本文主要介紹了LRU和LFU等2種非?;A(chǔ)的替換算法。除了上述算法外,還有還很多替換算法,大多以LRU和LFU的理論為基礎(chǔ),比如2Q,MQ,LRFU,TinyLFU和ARC等等。限于篇幅,本書不再贅述,大家可以自行閱讀相關(guān)的論文。
數(shù)據(jù)預(yù)讀也是有一定的算法的,預(yù)讀算法通過識(shí)別IO模式方式來提前將數(shù)據(jù)從磁盤讀到緩存中。這樣,應(yīng)用讀取數(shù)據(jù)時(shí)就可以直接從緩存讀取數(shù)據(jù),從而極大的提高讀數(shù)據(jù)的性能。
預(yù)讀算法里面最為重要的是觸發(fā)條件,也就是在什么情況下出發(fā)預(yù)讀操作。通常有兩種情況會(huì)觸發(fā)預(yù)讀:一個(gè)是有多個(gè)地址連續(xù)的讀請求時(shí)會(huì)觸發(fā)預(yù)讀操作;另外一個(gè)是應(yīng)用訪問到有預(yù)讀標(biāo)記的緩存時(shí)。這里,預(yù)讀標(biāo)記的緩存是在預(yù)讀操作完成時(shí)在緩存頁做的標(biāo)記,當(dāng)應(yīng)用讀到有該標(biāo)記的緩存時(shí)會(huì)觸發(fā)下一次的預(yù)讀,從而省略對IO模式的識(shí)別。
圖片
為了更加清晰的解釋預(yù)讀的邏輯,我們通過上圖來介紹一下整個(gè)流程。當(dāng)文件系統(tǒng)識(shí)別IO模式需要預(yù)讀的時(shí)候,會(huì)多讀出一部分內(nèi)容(稱為同步預(yù)讀),如時(shí)間1(第一行)所示。同時(shí),對于同步預(yù)讀的數(shù)據(jù),文件系統(tǒng)會(huì)在其中某個(gè)塊上打上標(biāo)記。這個(gè)標(biāo)記的目的是為了在緩存結(jié)束前能夠盡早的觸發(fā)下一次的預(yù)讀。
第2個(gè)時(shí)間點(diǎn),當(dāng)應(yīng)用繼續(xù)讀取數(shù)據(jù)時(shí),由于讀到了有標(biāo)記的緩存塊,因此會(huì)同時(shí)觸發(fā)下一次的預(yù)讀。此時(shí)數(shù)據(jù)會(huì)被從磁盤一步讀取,可以從圖中看出緩存增加。
接下來時(shí)間點(diǎn)3,4,應(yīng)用可以直接從緩存讀取數(shù)據(jù)。由于沒有讀到有標(biāo)記的緩存塊,因此也不會(huì)觸發(fā)下一次的預(yù)讀。在時(shí)間點(diǎn)5,由于有預(yù)讀標(biāo)記,因此又會(huì)觸發(fā)預(yù)讀的流程。
通過上述分析可以看出,由于預(yù)讀特性將數(shù)據(jù)提前讀到了緩存當(dāng)中。應(yīng)用可以直接從緩存讀取數(shù)據(jù),而不用再訪問磁盤,因此整個(gè)訪問性能將得到大幅的提升。