自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

我們一起聊聊 Linux 的文件系統(tǒng)（File System）架構(gòu)

作者：SunnyZhang 2024-03-11 10:30:31

系統(tǒng) Linux

數(shù)據(jù)預(yù)讀也是有一定的算法的，預(yù)讀算法通過識(shí)別IO模式方式來提前將數(shù)據(jù)從磁盤讀到緩存中。這樣，應(yīng)用讀取數(shù)據(jù)時(shí)就可以直接從緩存讀取數(shù)據(jù)，從而極大的提高讀數(shù)據(jù)的性能。

本文重點(diǎn)介紹一下虛擬文件系統(tǒng)。Linux整個(gè)文件系統(tǒng)的架構(gòu)如下圖所示，其中在具體文件系統(tǒng)（如Ext2、Ext3和XFS等）與應(yīng)用程序之間有一層抽象層，稱為虛擬文件系統(tǒng)（Virtual File System），簡稱VFS。

圖片

由上圖可以看出，該架構(gòu)的核心是虛擬文件系統(tǒng)VFS，VFS提供了一個(gè)文件系統(tǒng)框架，本地文件系統(tǒng)可以基于VFS實(shí)現(xiàn)，其主要做了如下幾方面的工作：

1） VFS作為抽象層為應(yīng)用層提供了統(tǒng)一的接口（read、write和chmod等）。

2）在VFS中實(shí)現(xiàn)了一些公共的功能，如inode緩存和頁緩存等。

3）規(guī)范了具體文件系統(tǒng)應(yīng)該實(shí)現(xiàn)的接口。

基于上述設(shè)定，其他具體的文件系統(tǒng)只需要按照VFS的約定實(shí)現(xiàn)相應(yīng)的接口及內(nèi)部邏輯，并注冊在系統(tǒng)之中即可。之后，當(dāng)用戶格式化并掛載文件系統(tǒng)后就可以基于該文件系統(tǒng)使用硬盤的資源了。

在Linux操作系統(tǒng)中，在格式化磁盤后需要通過mount命令將其掛載到系統(tǒng)目錄樹的某個(gè)目錄下面，這個(gè)目錄稱為掛載點(diǎn)（mount point）。完成掛載后，我們就可以使用基于該文件系統(tǒng)格式化的硬盤空間了。在Linux操作系統(tǒng)中，掛載點(diǎn)幾乎可以是任意目錄，但為了規(guī)范化，掛載點(diǎn)通常是mnt目錄下的子目錄。

如下圖所示是一個(gè)相對比較復(fù)雜的目錄樹。在該目錄樹中，根文件系統(tǒng)基于硬盤sda格式化，在mnt目錄下又有ext4、xfs和nfs三個(gè)子目錄，并且分別掛載了Ext4文件系統(tǒng)（基于sdb構(gòu)建）、XFS文件系統(tǒng)（基于sdc構(gòu)建）和NFS文件系統(tǒng)（通過網(wǎng)絡(luò)掛載）。

圖片

目錄樹中多個(gè)文件系統(tǒng)的關(guān)系是內(nèi)核中的一些數(shù)據(jù)結(jié)構(gòu)表示的。在進(jìn)行文件系統(tǒng)掛載的時(shí)候會(huì)建立文件系統(tǒng)間的關(guān)系，并且注冊具體文件系統(tǒng)的API。當(dāng)用戶態(tài)調(diào)用打開文件的API時(shí)，會(huì)找到對應(yīng)的文件系統(tǒng)API，并關(guān)聯(lián)到文件相關(guān)的結(jié)構(gòu)體（例如file和inode等）。

上面的描述比較概要，大家可能還是有點(diǎn)云里霧里的感覺。不過大家不要著急，我們接下來會(huì)結(jié)合代碼更加詳細(xì)的介紹VFS及如何實(shí)現(xiàn)對多種文件系統(tǒng)的支持。

1.從文件系統(tǒng)API到VFS，再到具體文件系統(tǒng)

Linux的VFS并不是一開始就有的，最早發(fā)布的Linux版本并沒有VFS。而且，VFS并非是在Linux發(fā)明的，它最早于1985年由Sun公司在其SunOS2.0中開發(fā)。開發(fā)VFS的主要目的是為了適配其本地文件系統(tǒng)和NFS文件系統(tǒng)。

VFS通過一套公共的API和數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)了對具體文件系統(tǒng)的抽象。當(dāng)用戶調(diào)用操作系統(tǒng)提供的文件系統(tǒng)API時(shí)會(huì)通過軟中斷的方式調(diào)用內(nèi)核VFS實(shí)現(xiàn)的函數(shù)。如下表所示是部分文件API與內(nèi)核VFS函數(shù)的對應(yīng)關(guān)系。

用戶態(tài)API	內(nèi)核函數(shù)	說明
open	do_sys_open	打開文件
close	ksys_close	關(guān)閉文件
read	ksys_read/vfs_read	讀取數(shù)據(jù)
write	ksys_write/vfs_write	寫入數(shù)據(jù)
mount	do_mount	掛載文件系統(tǒng)

由上表可以看出每個(gè)用戶態(tài)的API都有一個(gè)內(nèi)核態(tài)的函數(shù)與之對應(yīng)。當(dāng)應(yīng)用程序調(diào)用文件系統(tǒng)的API時(shí)會(huì)觸發(fā)內(nèi)核態(tài)的對應(yīng)函數(shù)。這里列舉的只是文件系統(tǒng)API中的一個(gè)比較小的子集，目的是為了說明API與VFS的關(guān)系。如果大家想了解其他API請自行閱讀內(nèi)核源代碼，本文不再贅述。

為了讓大家能夠?qū)FS與具體文件系統(tǒng)的關(guān)系有個(gè)感性的認(rèn)識(shí)，本節(jié)以Ext2的寫API為例來展示一下從API到VFS函數(shù)，再到Ext2文件系統(tǒng)函數(shù)的調(diào)用關(guān)系。如下圖所示，API函數(shù)write通過軟中斷觸發(fā)內(nèi)核的ksys_write函數(shù)，該函數(shù)經(jīng)過若干處理后最終會(huì)通過函數(shù)指針（file->f_op->wirte_iter）的方式調(diào)用Ext2文件系統(tǒng)的ext2_file_write_iter函數(shù)。

圖片

在上圖中內(nèi)核流程的入口是ksys_write函數(shù)，通過實(shí)現(xiàn)代碼可以看出，這里主要是獲取一個(gè)fd，然后以fd中的成員file作為參數(shù)調(diào)用vfs_write。其中fd是一個(gè)結(jié)構(gòu)體，其格式如下圖所示，file成員是比較核心的數(shù)據(jù)結(jié)構(gòu)。從上圖可以看出，正是通過這個(gè)成員中的內(nèi)容才調(diào)到了Ext2文件系統(tǒng)的函數(shù)。

圖片

看上去很簡單，VFS只要調(diào)用具體文件系統(tǒng)注冊的函數(shù)指針即可。但是這里有個(gè)問題沒有解決，VFS中的函數(shù)指針是什么時(shí)候被注冊的呢？

Ext2的函數(shù)指針是在打開文件的時(shí)候被初始化的（具體細(xì)節(jié)請參考《文件系統(tǒng)技術(shù)內(nèi)幕》3.1.2.2節(jié)）。大家都知道，用戶態(tài)的程序在打開一個(gè)文件的時(shí)候返回的是一個(gè)文件描述符，但在內(nèi)核中表示文件的結(jié)構(gòu)體file與之對應(yīng)。這個(gè)結(jié)構(gòu)體里面比較重要的幾個(gè)成員包括f_inode、f_ops和f_mapping等，具體如下圖所示。

圖片

在上圖中，f_inode是該文件對應(yīng)的inode節(jié)點(diǎn)。f_ops是具體文件系統(tǒng)（例如Ext2）文件操作的函數(shù)指針集合，它是在打開文件的時(shí)候被初始化的。VFS正是通過該函數(shù)指針集合來實(shí)現(xiàn)對具體文件系統(tǒng)訪問的。

上面又涉及到VFS的另外一個(gè)概念inode。在Linux中，inode是index node的縮寫，他表示了文件系統(tǒng)中的一個(gè)具體的對象（比如文件或者目錄）。在VFS中有一個(gè)名稱為inode的數(shù)據(jù)結(jié)構(gòu)，他是對具體文件系統(tǒng)inode的抽象。比如在Ext2文件系統(tǒng)中具體定義為ext2_inode_info，在XFS中則是通過數(shù)據(jù)結(jié)構(gòu)xfs_inode表示的。而且具體文件系統(tǒng)的inode數(shù)據(jù)結(jié)構(gòu)與VFS的inode有個(gè)內(nèi)在的關(guān)聯(lián)，大家可以自行閱讀代碼。

2.inode緩存與dentry緩存

在架構(gòu)圖中我們看到在VFS中有若干個(gè)緩存實(shí)現(xiàn)，包括頁緩存、inode緩存和dentry緩存等。其中inode緩存和dentry緩存實(shí)現(xiàn)方式相同，也比較簡單。所以，本文先介紹一下這兩個(gè)緩存。

其實(shí)這兩個(gè)緩存是通過哈希表實(shí)現(xiàn)的，哈希表的概念大家都比較清楚，本文不再贅述。以inode緩存為例，如下圖是其初始化的過程，通過參數(shù)ihash_entries可以看出其大小是動(dòng)態(tài)的（其大小跟系統(tǒng)內(nèi)存相關(guān)，系統(tǒng)內(nèi)存閱讀，inode緩存就越大）。

圖片

由于訪問文件時(shí)會(huì)經(jīng)常訪問inode和dentry，所以將兩者緩存起來能夠避免從硬盤讀取數(shù)據(jù)導(dǎo)致的性能損失。

3.頁緩存（Page Cache）

VFS頁緩存（Cache）的作用主要用來提升文件系統(tǒng)的性能。緩存技術(shù)是指在內(nèi)存中存儲(chǔ)文件系統(tǒng)的部分?jǐn)?shù)據(jù)和元數(shù)據(jù)而提升文件系統(tǒng)性能的技術(shù)。由于內(nèi)存的訪問延時(shí)是機(jī)械硬盤訪問延時(shí)的十萬分之一（如下圖所示，以寄存器為基準(zhǔn)單位1s），因此采用緩存技術(shù)可以大幅提升文件系統(tǒng)的性能。

圖片

緩存通過三方面的IO優(yōu)化來提升文件系統(tǒng)的性能，分別是熱點(diǎn)數(shù)據(jù)、預(yù)讀和IO合并。很多應(yīng)用都會(huì)有熱點(diǎn)數(shù)據(jù)，比如作者在編輯文檔的時(shí)候，當(dāng)前這個(gè)數(shù)據(jù)塊及附近的數(shù)據(jù)塊就是熱點(diǎn)數(shù)據(jù)。或者當(dāng)出現(xiàn)一個(gè)爆款文章時(shí)，這篇文章的內(nèi)容就是熱點(diǎn)數(shù)據(jù)。底層存儲(chǔ)設(shè)備對于大塊讀寫的性能往往較好，預(yù)讀就是提前從底層設(shè)備讀取大塊數(shù)據(jù)緩存起來，這樣可以通過緩存來響應(yīng)應(yīng)用的請求。IO合并則是針對寫請求，寫請求不馬上持久化到后端設(shè)備，而是緩存一下，拼成大塊IO再寫入。

由于內(nèi)存的容量要比硬盤的容量小的多，因此頁緩存自然不能緩存所有硬盤的數(shù)據(jù)。這樣緩存中只能存儲(chǔ)文件系統(tǒng)數(shù)據(jù)的一個(gè)子集。當(dāng)用戶持續(xù)寫入數(shù)據(jù)的時(shí)候就會(huì)面臨緩存滿的情況，此時(shí)就涉及如何將緩存數(shù)據(jù)刷寫磁盤，然后存儲(chǔ)新數(shù)據(jù)的問題。

這里將緩存刷寫到磁盤，并且存儲(chǔ)新數(shù)據(jù)的過程稱為緩存替換。緩存替換有很多種算法，每種算法用于解決不同的問題。接下來我們介紹幾種常見的緩存替換算法。

LRU算法，LRU的全稱是Least Recently Used，也就是最近最少使用。該算法依據(jù)的是時(shí)間局部性原理，也就是如果一個(gè)數(shù)據(jù)最近被使用過，那么接下來有很大的概率還會(huì)被使用。因此該算法會(huì)將最近沒有使用過的緩存釋放掉。

LRU算法通常使用一個(gè)鏈表來實(shí)現(xiàn)，剛被使用過的緩存會(huì)被插到表頭的位置，而經(jīng)常沒有被使用過的數(shù)據(jù)則慢慢被擠到鏈表的尾部。為了更加清晰的理解LRU的原理，我們結(jié)合下圖進(jìn)行說明。

圖片

在該例中，我們以全命中為例進(jìn)行介紹。假設(shè)緩存中有6個(gè)數(shù)據(jù)塊，如圖第一行所示，方塊中的數(shù)字代表該數(shù)據(jù)塊的編號(hào)。假設(shè)第一次訪問（可以是讀或者寫）的是3號(hào)數(shù)據(jù)塊，由于其被訪問過，因此將其移動(dòng)到鏈表頭。

第二次訪問時(shí)訪問的是第4號(hào)數(shù)據(jù)塊，按照相同的原則，該數(shù)據(jù)塊也被移動(dòng)到鏈表頭。具體如上圖第2行所示。

以此類推，當(dāng)經(jīng)過4輪訪問后，被訪問過的數(shù)據(jù)都被前移了，而沒有被訪問過的數(shù)據(jù)塊（例如1和2）則被慢慢擠到了鏈表的后面。這在一定程度上預(yù)示著這兩個(gè)數(shù)據(jù)塊在后面被訪問的可能性也比較小。

如果是全命中的話也就不存在緩存被替換的情況了。實(shí)際情況是緩存會(huì)經(jīng)常不夠用，而需要將其中的數(shù)據(jù)釋放（視情況確定是否需要刷新到磁盤）來存儲(chǔ)新的數(shù)據(jù)。此時(shí)，LRU算法就派上用場了，該算法將尾部的數(shù)據(jù)塊拿來存儲(chǔ)新數(shù)據(jù)，然后放到鏈表頭，具體下圖如所示。如果這個(gè)數(shù)據(jù)塊里面是臟數(shù)據(jù)則需要刷寫到磁盤，否則直接釋放掉就可以。

圖片

LRU算法原理和實(shí)現(xiàn)都比較簡單，用途卻非常廣泛。但是LRU算法有個(gè)缺點(diǎn)，就是當(dāng)突然有大量連續(xù)數(shù)據(jù)寫入時(shí)會(huì)替換掉所有的緩存塊，從而導(dǎo)致之前統(tǒng)計(jì)的緩存使用情況全部失效，這種現(xiàn)象稱為緩存污染。為了解決緩存污染問題，有很多改進(jìn)的LRU算法，其中比較常見的有LRU-K、2Q和LIRS等。

LFU算法，LFU的全稱是Least Frequently Used，也就是最近最不經(jīng)常使用。該算法是根據(jù)數(shù)據(jù)被訪問的頻度來決策釋放哪一個(gè)緩存塊的。訪問頻度最低的緩存塊會(huì)被最先釋放掉。

如下圖所示是LFU算法的示意圖。其中第1行是原始狀態(tài)，方塊中的數(shù)字表示該緩存塊被訪問的次數(shù)。新數(shù)據(jù)的加入和緩存塊的淘汰都是從尾部進(jìn)行。假設(shè)某一塊（虛線框）數(shù)據(jù)被訪問了4次，則其訪問次數(shù)從12變成了16，因此需要移動(dòng)到新的位置，也就是圖中第2行的樣子。

圖片

本書以鏈表為例說明LFU的原理是為了便于理解，但是在工程實(shí)現(xiàn)的時(shí)候是絕對不會(huì)用鏈表來實(shí)現(xiàn)的。因?yàn)楫?dāng)數(shù)據(jù)塊的訪問次數(shù)變化時(shí)需要找新的位置，鏈表查找操作是非常耗時(shí)的。為了能夠?qū)崿F(xiàn)快速查找，一般采用搜索樹來實(shí)現(xiàn)。

LFU也有其缺點(diǎn)，如果某個(gè)數(shù)據(jù)塊在很久之前的某個(gè)時(shí)間段高頻訪問，而以后不再訪問，那么該數(shù)據(jù)會(huì)一直停留在緩存中。但是由于該數(shù)據(jù)不會(huì)被訪問了，所以導(dǎo)致緩存的有效容量減少了。也就是說LFU算法沒有考慮最近的情況。

本文主要介紹了LRU和LFU等2種非?；A(chǔ)的替換算法。除了上述算法外，還有還很多替換算法，大多以LRU和LFU的理論為基礎(chǔ)，比如2Q，MQ，LRFU，TinyLFU和ARC等等。限于篇幅，本書不再贅述，大家可以自行閱讀相關(guān)的論文。

數(shù)據(jù)預(yù)讀也是有一定的算法的，預(yù)讀算法通過識(shí)別IO模式方式來提前將數(shù)據(jù)從磁盤讀到緩存中。這樣，應(yīng)用讀取數(shù)據(jù)時(shí)就可以直接從緩存讀取數(shù)據(jù)，從而極大的提高讀數(shù)據(jù)的性能。

預(yù)讀算法里面最為重要的是觸發(fā)條件，也就是在什么情況下出發(fā)預(yù)讀操作。通常有兩種情況會(huì)觸發(fā)預(yù)讀：一個(gè)是有多個(gè)地址連續(xù)的讀請求時(shí)會(huì)觸發(fā)預(yù)讀操作；另外一個(gè)是應(yīng)用訪問到有預(yù)讀標(biāo)記的緩存時(shí)。這里，預(yù)讀標(biāo)記的緩存是在預(yù)讀操作完成時(shí)在緩存頁做的標(biāo)記，當(dāng)應(yīng)用讀到有該標(biāo)記的緩存時(shí)會(huì)觸發(fā)下一次的預(yù)讀，從而省略對IO模式的識(shí)別。

圖片

為了更加清晰的解釋預(yù)讀的邏輯，我們通過上圖來介紹一下整個(gè)流程。當(dāng)文件系統(tǒng)識(shí)別IO模式需要預(yù)讀的時(shí)候，會(huì)多讀出一部分內(nèi)容（稱為同步預(yù)讀），如時(shí)間1（第一行）所示。同時(shí)，對于同步預(yù)讀的數(shù)據(jù)，文件系統(tǒng)會(huì)在其中某個(gè)塊上打上標(biāo)記。這個(gè)標(biāo)記的目的是為了在緩存結(jié)束前能夠盡早的觸發(fā)下一次的預(yù)讀。

第2個(gè)時(shí)間點(diǎn)，當(dāng)應(yīng)用繼續(xù)讀取數(shù)據(jù)時(shí)，由于讀到了有標(biāo)記的緩存塊，因此會(huì)同時(shí)觸發(fā)下一次的預(yù)讀。此時(shí)數(shù)據(jù)會(huì)被從磁盤一步讀取，可以從圖中看出緩存增加。

接下來時(shí)間點(diǎn)3，4，應(yīng)用可以直接從緩存讀取數(shù)據(jù)。由于沒有讀到有標(biāo)記的緩存塊，因此也不會(huì)觸發(fā)下一次的預(yù)讀。在時(shí)間點(diǎn)5，由于有預(yù)讀標(biāo)記，因此又會(huì)觸發(fā)預(yù)讀的流程。

通過上述分析可以看出，由于預(yù)讀特性將數(shù)據(jù)提前讀到了緩存當(dāng)中。應(yīng)用可以直接從緩存讀取數(shù)據(jù)，而不用再訪問磁盤，因此整個(gè)訪問性能將得到大幅的提升。

責(zé)任編輯：武曉燕來源：數(shù)據(jù)存儲(chǔ)張

Linux 文件系統(tǒng)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="gaqac"></cite>