自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我們一起聊聊 Linux 的文件系統(tǒng)(File System)架構(gòu)

系統(tǒng) Linux
數(shù)據(jù)預(yù)讀也是有一定的算法的,預(yù)讀算法通過識(shí)別IO模式方式來提前將數(shù)據(jù)從磁盤讀到緩存中。這樣,應(yīng)用讀取數(shù)據(jù)時(shí)就可以直接從緩存讀取數(shù)據(jù),從而極大的提高讀數(shù)據(jù)的性能。

本文重點(diǎn)介紹一下虛擬文件系統(tǒng)。Linux整個(gè)文件系統(tǒng)的架構(gòu)如下圖所示,其中在具體文件系統(tǒng)(如Ext2、Ext3和XFS等)與應(yīng)用程序之間有一層抽象層,稱為虛擬文件系統(tǒng)(Virtual File System),簡稱VFS。

圖片圖片

由上圖可以看出,該架構(gòu)的核心是虛擬文件系統(tǒng)VFS,VFS提供了一個(gè)文件系統(tǒng)框架,本地文件系統(tǒng)可以基于VFS實(shí)現(xiàn),其主要做了如下幾方面的工作:

1) VFS作為抽象層為應(yīng)用層提供了統(tǒng)一的接口(read、write和chmod等)。

2) 在VFS中實(shí)現(xiàn)了一些公共的功能,如inode緩存和頁緩存等。

3) 規(guī)范了具體文件系統(tǒng)應(yīng)該實(shí)現(xiàn)的接口。

基于上述設(shè)定,其他具體的文件系統(tǒng)只需要按照VFS的約定實(shí)現(xiàn)相應(yīng)的接口及內(nèi)部邏輯,并注冊在系統(tǒng)之中即可。之后, 當(dāng)用戶格式化并掛載文件系統(tǒng)后就可以基于該文件系統(tǒng)使用硬盤的資源了。

在Linux操作系統(tǒng)中,在格式化磁盤后需要通過mount命令將其掛載到系統(tǒng)目錄樹的某個(gè)目錄下面,這個(gè)目錄稱為掛載點(diǎn)(mount point)。完成掛載后,我們就可以使用基于該文件系統(tǒng)格式化的硬盤空間了。在Linux操作系統(tǒng)中,掛載點(diǎn)幾乎可以是任意目錄,但為了規(guī)范化,掛載點(diǎn)通常是mnt目錄下的子目錄。    

如下圖所示是一個(gè)相對比較復(fù)雜的目錄樹。在該目錄樹中,根文件系統(tǒng)基于硬盤sda格式化,在mnt目錄下又有ext4、xfs和nfs三個(gè)子目錄,并且分別掛載了Ext4文件系統(tǒng)(基于sdb構(gòu)建)、XFS文件系統(tǒng)(基于sdc構(gòu)建)和NFS文件系統(tǒng)(通過網(wǎng)絡(luò)掛載)。

圖片圖片

目錄樹中多個(gè)文件系統(tǒng)的關(guān)系是內(nèi)核中的一些數(shù)據(jù)結(jié)構(gòu)表示的。在進(jìn)行文件系統(tǒng)掛載的時(shí)候會(huì)建立文件系統(tǒng)間的關(guān)系,并且注冊具體文件系統(tǒng)的API。當(dāng)用戶態(tài)調(diào)用打開文件的API時(shí),會(huì)找到對應(yīng)的文件系統(tǒng)API,并關(guān)聯(lián)到文件相關(guān)的結(jié)構(gòu)體(例如file和inode等)。

上面的描述比較概要,大家可能還是有點(diǎn)云里霧里的感覺。不過大家不要著急,我們接下來會(huì)結(jié)合代碼更加詳細(xì)的介紹VFS及如何實(shí)現(xiàn)對多種文件系統(tǒng)的支持。

1.從文件系統(tǒng)API到VFS,再到具體文件系統(tǒng)

Linux的VFS并不是一開始就有的,最早發(fā)布的Linux版本并沒有VFS。而且,VFS并非是在Linux發(fā)明的,它最早于1985年由Sun公司在其SunOS2.0中開發(fā)。開發(fā)VFS的主要目的是為了適配其本地文件系統(tǒng)和NFS文件系統(tǒng)。

VFS通過一套公共的API和數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)了對具體文件系統(tǒng)的抽象。當(dāng)用戶調(diào)用操作系統(tǒng)提供的文件系統(tǒng)API時(shí)會(huì)通過軟中斷的方式調(diào)用內(nèi)核VFS實(shí)現(xiàn)的函數(shù)。如下表所示是部分文件API與內(nèi)核VFS函數(shù)的對應(yīng)關(guān)系。    

用戶態(tài)API

內(nèi)核函數(shù)

說明

open

do_sys_open

打開文件

close

ksys_close

關(guān)閉文件

read

ksys_read/vfs_read

讀取數(shù)據(jù)

write

ksys_write/vfs_write

寫入數(shù)據(jù)

mount

do_mount

掛載文件系統(tǒng)

由上表可以看出每個(gè)用戶態(tài)的API都有一個(gè)內(nèi)核態(tài)的函數(shù)與之對應(yīng)。當(dāng)應(yīng)用程序調(diào)用文件系統(tǒng)的API時(shí)會(huì)觸發(fā)內(nèi)核態(tài)的對應(yīng)函數(shù)。這里列舉的只是文件系統(tǒng)API中的一個(gè)比較小的子集,目的是為了說明API與VFS的關(guān)系。如果大家想了解其他API請自行閱讀內(nèi)核源代碼,本文不再贅述。

為了讓大家能夠?qū)FS與具體文件系統(tǒng)的關(guān)系有個(gè)感性的認(rèn)識(shí),本節(jié)以Ext2的寫API為例來展示一下從API到VFS函數(shù),再到Ext2文件系統(tǒng)函數(shù)的調(diào)用關(guān)系。如下圖所示,API函數(shù)write通過軟中斷觸發(fā)內(nèi)核的ksys_write函數(shù),該函數(shù)經(jīng)過若干處理后最終會(huì)通過函數(shù)指針(file->f_op->wirte_iter)的方式調(diào)用Ext2文件系統(tǒng)的ext2_file_write_iter函數(shù)。    

圖片圖片

在上圖中內(nèi)核流程的入口是ksys_write函數(shù),通過實(shí)現(xiàn)代碼可以看出,這里主要是獲取一個(gè)fd,然后以fd中的成員file作為參數(shù)調(diào)用vfs_write。其中fd是一個(gè)結(jié)構(gòu)體,其格式如下圖所示,file成員是比較核心的數(shù)據(jù)結(jié)構(gòu)。從上圖可以看出,正是通過這個(gè)成員中的內(nèi)容才調(diào)到了Ext2文件系統(tǒng)的函數(shù)。    

圖片圖片

看上去很簡單,VFS只要調(diào)用具體文件系統(tǒng)注冊的函數(shù)指針即可。但是這里有個(gè)問題沒有解決,VFS中的函數(shù)指針是什么時(shí)候被注冊的呢?

Ext2的函數(shù)指針是在打開文件的時(shí)候被初始化的(具體細(xì)節(jié)請參考《文件系統(tǒng)技術(shù)內(nèi)幕》3.1.2.2節(jié))。大家都知道,用戶態(tài)的程序在打開一個(gè)文件的時(shí)候返回的是一個(gè)文件描述符,但在內(nèi)核中表示文件的結(jié)構(gòu)體file與之對應(yīng)。這個(gè)結(jié)構(gòu)體里面比較重要的幾個(gè)成員包括f_inode、f_ops和f_mapping等,具體如下圖所示。

圖片圖片

在上圖中,f_inode是該文件對應(yīng)的inode節(jié)點(diǎn)。f_ops是具體文件系統(tǒng)(例如Ext2)文件操作的函數(shù)指針集合,它是在打開文件的時(shí)候被初始化的。VFS正是通過該函數(shù)指針集合來實(shí)現(xiàn)對具體文件系統(tǒng)訪問的。

上面又涉及到VFS的另外一個(gè)概念inode。在Linux中,inode是index node的縮寫,他表示了文件系統(tǒng)中的一個(gè)具體的對象(比如文件或者目錄)。在VFS中有一個(gè)名稱為inode的數(shù)據(jù)結(jié)構(gòu),他是對具體文件系統(tǒng)inode的抽象。比如在Ext2文件系統(tǒng)中具體定義為ext2_inode_info,在XFS中則是通過數(shù)據(jù)結(jié)構(gòu)xfs_inode表示的。而且具體文件系統(tǒng)的inode數(shù)據(jù)結(jié)構(gòu)與VFS的inode有個(gè)內(nèi)在的關(guān)聯(lián),大家可以自行閱讀代碼。

2.inode緩存與dentry緩存

在架構(gòu)圖中我們看到在VFS中有若干個(gè)緩存實(shí)現(xiàn),包括頁緩存、inode緩存和dentry緩存等。其中inode緩存和dentry緩存實(shí)現(xiàn)方式相同,也比較簡單。所以,本文先介紹一下這兩個(gè)緩存。

其實(shí)這兩個(gè)緩存是通過哈希表實(shí)現(xiàn)的,哈希表的概念大家都比較清楚,本文不再贅述。以inode緩存為例,如下圖是其初始化的過程,通過參數(shù)ihash_entries可以看出其大小是動(dòng)態(tài)的(其大小跟系統(tǒng)內(nèi)存相關(guān),系統(tǒng)內(nèi)存閱讀,inode緩存就越大)。

圖片圖片

由于訪問文件時(shí)會(huì)經(jīng)常訪問inode和dentry,所以將兩者緩存起來能夠避免從硬盤讀取數(shù)據(jù)導(dǎo)致的性能損失。

3.頁緩存(Page Cache)

VFS頁緩存(Cache)的作用主要用來提升文件系統(tǒng)的性能。緩存技術(shù)是指在內(nèi)存中存儲(chǔ)文件系統(tǒng)的部分?jǐn)?shù)據(jù)和元數(shù)據(jù)而提升文件系統(tǒng)性能的技術(shù)。由于內(nèi)存的訪問延時(shí)是機(jī)械硬盤訪問延時(shí)的十萬分之一(如下圖所示,以寄存器為基準(zhǔn)單位1s),因此采用緩存技術(shù)可以大幅提升文件系統(tǒng)的性能。

圖片圖片

緩存通過三方面的IO優(yōu)化來提升文件系統(tǒng)的性能,分別是熱點(diǎn)數(shù)據(jù)、預(yù)讀和IO合并。很多應(yīng)用都會(huì)有熱點(diǎn)數(shù)據(jù),比如作者在編輯文檔的時(shí)候,當(dāng)前這個(gè)數(shù)據(jù)塊及附近的數(shù)據(jù)塊就是熱點(diǎn)數(shù)據(jù)。或者當(dāng)出現(xiàn)一個(gè)爆款文章時(shí),這篇文章的內(nèi)容就是熱點(diǎn)數(shù)據(jù)。底層存儲(chǔ)設(shè)備對于大塊讀寫的性能往往較好,預(yù)讀就是提前從底層設(shè)備讀取大塊數(shù)據(jù)緩存起來,這樣可以通過緩存來響應(yīng)應(yīng)用的請求。IO合并則是針對寫請求,寫請求不馬上持久化到后端設(shè)備,而是緩存一下,拼成大塊IO再寫入。

由于內(nèi)存的容量要比硬盤的容量小的多,因此頁緩存自然不能緩存所有硬盤的數(shù)據(jù)。這樣緩存中只能存儲(chǔ)文件系統(tǒng)數(shù)據(jù)的一個(gè)子集。當(dāng)用戶持續(xù)寫入數(shù)據(jù)的時(shí)候就會(huì)面臨緩存滿的情況,此時(shí)就涉及如何將緩存數(shù)據(jù)刷寫磁盤,然后存儲(chǔ)新數(shù)據(jù)的問題。

這里將緩存刷寫到磁盤,并且存儲(chǔ)新數(shù)據(jù)的過程稱為緩存替換。緩存替換有很多種算法,每種算法用于解決不同的問題。接下來我們介紹幾種常見的緩存替換算法。

LRU算法,LRU的全稱是Least Recently Used,也就是最近最少使用。該算法依據(jù)的是時(shí)間局部性原理,也就是如果一個(gè)數(shù)據(jù)最近被使用過,那么接下來有很大的概率還會(huì)被使用。因此該算法會(huì)將最近沒有使用過的緩存釋放掉。

LRU算法通常使用一個(gè)鏈表來實(shí)現(xiàn),剛被使用過的緩存會(huì)被插到表頭的位置,而經(jīng)常沒有被使用過的數(shù)據(jù)則慢慢被擠到鏈表的尾部。為了更加清晰的理解LRU的原理,我們結(jié)合下圖進(jìn)行說明。    

圖片圖片

在該例中,我們以全命中為例進(jìn)行介紹。假設(shè)緩存中有6個(gè)數(shù)據(jù)塊,如圖第一行所示,方塊中的數(shù)字代表該數(shù)據(jù)塊的編號(hào)。假設(shè)第一次訪問(可以是讀或者寫)的是3號(hào)數(shù)據(jù)塊,由于其被訪問過,因此將其移動(dòng)到鏈表頭。

第二次訪問時(shí)訪問的是第4號(hào)數(shù)據(jù)塊,按照相同的原則,該數(shù)據(jù)塊也被移動(dòng)到鏈表頭。具體如上圖第2行所示。

以此類推,當(dāng)經(jīng)過4輪訪問后,被訪問過的數(shù)據(jù)都被前移了,而沒有被訪問過的數(shù)據(jù)塊(例如1和2)則被慢慢擠到了鏈表的后面。這在一定程度上預(yù)示著這兩個(gè)數(shù)據(jù)塊在后面被訪問的可能性也比較小。

如果是全命中的話也就不存在緩存被替換的情況了。實(shí)際情況是緩存會(huì)經(jīng)常不夠用,而需要將其中的數(shù)據(jù)釋放(視情況確定是否需要刷新到磁盤)來存儲(chǔ)新的數(shù)據(jù)。此時(shí),LRU算法就派上用場了,該算法將尾部的數(shù)據(jù)塊拿來存儲(chǔ)新數(shù)據(jù),然后放到鏈表頭,具體下圖如所示。如果這個(gè)數(shù)據(jù)塊里面是臟數(shù)據(jù)則需要刷寫到磁盤,否則直接釋放掉就可以。    

圖片圖片

LRU算法原理和實(shí)現(xiàn)都比較簡單,用途卻非常廣泛。但是LRU算法有個(gè)缺點(diǎn),就是當(dāng)突然有大量連續(xù)數(shù)據(jù)寫入時(shí)會(huì)替換掉所有的緩存塊,從而導(dǎo)致之前統(tǒng)計(jì)的緩存使用情況全部失效,這種現(xiàn)象稱為緩存污染。為了解決緩存污染問題,有很多改進(jìn)的LRU算法,其中比較常見的有LRU-K、2Q和LIRS等。

LFU算法,LFU的全稱是Least Frequently Used,也就是最近最不經(jīng)常使用。該算法是根據(jù)數(shù)據(jù)被訪問的頻度來決策釋放哪一個(gè)緩存塊的。訪問頻度最低的緩存塊會(huì)被最先釋放掉。

如下圖所示是LFU算法的示意圖。其中第1行是原始狀態(tài),方塊中的數(shù)字表示該緩存塊被訪問的次數(shù)。新數(shù)據(jù)的加入和緩存塊的淘汰都是從尾部進(jìn)行。假設(shè)某一塊(虛線框)數(shù)據(jù)被訪問了4次,則其訪問次數(shù)從12變成了16,因此需要移動(dòng)到新的位置,也就是圖中第2行的樣子。

圖片圖片

本書以鏈表為例說明LFU的原理是為了便于理解,但是在工程實(shí)現(xiàn)的時(shí)候是絕對不會(huì)用鏈表來實(shí)現(xiàn)的。因?yàn)楫?dāng)數(shù)據(jù)塊的訪問次數(shù)變化時(shí)需要找新的位置,鏈表查找操作是非常耗時(shí)的。為了能夠?qū)崿F(xiàn)快速查找,一般采用搜索樹來實(shí)現(xiàn)。    

LFU也有其缺點(diǎn),如果某個(gè)數(shù)據(jù)塊在很久之前的某個(gè)時(shí)間段高頻訪問,而以后不再訪問,那么該數(shù)據(jù)會(huì)一直停留在緩存中。但是由于該數(shù)據(jù)不會(huì)被訪問了,所以導(dǎo)致緩存的有效容量減少了。也就是說LFU算法沒有考慮最近的情況。

本文主要介紹了LRU和LFU等2種非?;A(chǔ)的替換算法。除了上述算法外,還有還很多替換算法,大多以LRU和LFU的理論為基礎(chǔ),比如2Q,MQ,LRFU,TinyLFU和ARC等等。限于篇幅,本書不再贅述,大家可以自行閱讀相關(guān)的論文。

數(shù)據(jù)預(yù)讀也是有一定的算法的,預(yù)讀算法通過識(shí)別IO模式方式來提前將數(shù)據(jù)從磁盤讀到緩存中。這樣,應(yīng)用讀取數(shù)據(jù)時(shí)就可以直接從緩存讀取數(shù)據(jù),從而極大的提高讀數(shù)據(jù)的性能。

預(yù)讀算法里面最為重要的是觸發(fā)條件,也就是在什么情況下出發(fā)預(yù)讀操作。通常有兩種情況會(huì)觸發(fā)預(yù)讀:一個(gè)是有多個(gè)地址連續(xù)的讀請求時(shí)會(huì)觸發(fā)預(yù)讀操作;另外一個(gè)是應(yīng)用訪問到有預(yù)讀標(biāo)記的緩存時(shí)。這里,預(yù)讀標(biāo)記的緩存是在預(yù)讀操作完成時(shí)在緩存頁做的標(biāo)記,當(dāng)應(yīng)用讀到有該標(biāo)記的緩存時(shí)會(huì)觸發(fā)下一次的預(yù)讀,從而省略對IO模式的識(shí)別。

圖片圖片

為了更加清晰的解釋預(yù)讀的邏輯,我們通過上圖來介紹一下整個(gè)流程。當(dāng)文件系統(tǒng)識(shí)別IO模式需要預(yù)讀的時(shí)候,會(huì)多讀出一部分內(nèi)容(稱為同步預(yù)讀),如時(shí)間1(第一行)所示。同時(shí),對于同步預(yù)讀的數(shù)據(jù),文件系統(tǒng)會(huì)在其中某個(gè)塊上打上標(biāo)記。這個(gè)標(biāo)記的目的是為了在緩存結(jié)束前能夠盡早的觸發(fā)下一次的預(yù)讀。    

第2個(gè)時(shí)間點(diǎn),當(dāng)應(yīng)用繼續(xù)讀取數(shù)據(jù)時(shí),由于讀到了有標(biāo)記的緩存塊,因此會(huì)同時(shí)觸發(fā)下一次的預(yù)讀。此時(shí)數(shù)據(jù)會(huì)被從磁盤一步讀取,可以從圖中看出緩存增加。

接下來時(shí)間點(diǎn)3,4,應(yīng)用可以直接從緩存讀取數(shù)據(jù)。由于沒有讀到有標(biāo)記的緩存塊,因此也不會(huì)觸發(fā)下一次的預(yù)讀。在時(shí)間點(diǎn)5,由于有預(yù)讀標(biāo)記,因此又會(huì)觸發(fā)預(yù)讀的流程。

通過上述分析可以看出,由于預(yù)讀特性將數(shù)據(jù)提前讀到了緩存當(dāng)中。應(yīng)用可以直接從緩存讀取數(shù)據(jù),而不用再訪問磁盤,因此整個(gè)訪問性能將得到大幅的提升。

責(zé)任編輯:武曉燕 來源: 數(shù)據(jù)存儲(chǔ)張
相關(guān)推薦

2024-07-12 08:28:09

聊天系統(tǒng)架構(gòu)

2022-04-07 09:29:04

文件系統(tǒng)硬盤操作系統(tǒng)

2023-08-02 08:35:54

文件操作數(shù)據(jù)源

2022-09-22 08:06:29

計(jì)算機(jī)平板微信

2024-02-26 00:00:00

架構(gòu)老化重構(gòu)

2024-10-29 11:19:23

點(diǎn)贊系統(tǒng)同步

2023-04-26 07:30:00

promptUI非結(jié)構(gòu)化

2021-08-27 07:06:10

IOJava抽象

2024-02-20 21:34:16

循環(huán)GolangGo

2022-10-08 00:00:05

SQL機(jī)制結(jié)構(gòu)

2023-08-04 08:20:56

DockerfileDocker工具

2022-05-24 08:21:16

數(shù)據(jù)安全API

2023-08-10 08:28:46

網(wǎng)絡(luò)編程通信

2023-09-10 21:42:31

2023-06-30 08:18:51

敏捷開發(fā)模式

2023-06-09 08:06:14

操作系統(tǒng)調(diào)度器LLM

2023-06-20 07:27:07

架構(gòu)組件插件

2023-03-07 07:05:29

生產(chǎn)數(shù)據(jù)庫運(yùn)維

2021-07-31 11:40:55

Openresty開源

2024-02-20 13:00:00

架構(gòu)設(shè)計(jì)模塊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)