自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="7v8ol"><p id="7v8ol"><li id="7v8ol"></li></p></sub>

<sub id="7v8ol"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

好文分享：EXT文件系統(tǒng)機制原理詳解

作者：駿馬金龍 2019-09-18 10:22:13

系統(tǒng) Linux 前端

文章有些長，但是作者總結(jié)的非常好，能學(xué)到很多技術(shù)細(xì)節(jié)知識。請大家耐心閱讀。將磁盤進(jìn)行分區(qū)，分區(qū)是將磁盤按柱面進(jìn)行物理上的劃分。劃分好分區(qū)后還要進(jìn)行格式化，然后再掛載才能使用(不考慮其他方法)。格式化分區(qū)的過程其實就是創(chuàng)建文件系統(tǒng)。

文章有些長，但是作者總結(jié)的非常好，能學(xué)到很多技術(shù)細(xì)節(jié)知識。請大家耐心閱讀。

將磁盤進(jìn)行分區(qū)，分區(qū)是將磁盤按柱面進(jìn)行物理上的劃分。劃分好分區(qū)后還要進(jìn)行格式化，然后再掛載才能使用(不考慮其他方法)。格式化分區(qū)的過程其實就是創(chuàng)建文件系統(tǒng)。

文件系統(tǒng)的類型有很多種，如CentOS 5和CentOS 6上默認(rèn)使用的ext2/ext3/ext4，CentOS 7上默認(rèn)使用的xfs，windows上的NTFS，光盤類的文件系統(tǒng)ISO9660，MAC上的混合文件系統(tǒng)HFS，網(wǎng)絡(luò)文件系統(tǒng)NFS，Oracle研發(fā)的btrfs，還有老式的FAT/FAT32等。

本文將非常全面且詳細(xì)地介紹ext家族的文件系統(tǒng)，中間還非常詳細(xì)地介紹了inode、軟鏈接、硬鏈接、數(shù)據(jù)存儲方式以及操作文件的理論，基本上看完本文，對文件系統(tǒng)的宏觀理解將再無疑惑。ext家族的文件系統(tǒng)有ext2/ext3/ext4，ext3是有日志的ext2改進(jìn)版，ext4對相比ext3做了非常多的改進(jìn)。雖然xfs/btrfs等文件系統(tǒng)有所不同，但它們只是在實現(xiàn)方式上不太同，再加上屬于自己的特性而已。

1.文件系統(tǒng)的組成部分

1.1 block的出現(xiàn)

硬盤最底層的讀寫IO一次是一個扇區(qū)512字節(jié)，如果要讀寫大量文件，以扇區(qū)為單位肯定很慢很消耗性能，所以硬盤使用了一個稱作邏輯塊的概念。邏輯塊是邏輯的，由磁盤驅(qū)動器負(fù)責(zé)維護(hù)和操作，它并非是像扇區(qū)一樣物理劃分的。一個邏輯塊的大小可能包含一個或多個扇區(qū)，每個邏輯塊都有唯一的地址，稱為LBA。有了邏輯塊之后，磁盤控制器對數(shù)據(jù)的操作就以邏輯塊為單位，一次讀寫一個邏輯塊，磁盤控制器知道如何將邏輯塊翻譯成對應(yīng)的扇區(qū)并讀寫數(shù)據(jù)。

到了Linux操作系統(tǒng)層次，通過文件系統(tǒng)提供了一個也稱為塊的讀寫單元，文件系統(tǒng)數(shù)據(jù)塊的大小一般為1024bytes(1K)或2048bytes(2K)或4096bytes(4K)。文件系統(tǒng)數(shù)據(jù)塊也是邏輯概念，是文件系統(tǒng)層次維護(hù)的，而磁盤上的邏輯數(shù)據(jù)塊是由磁盤控制器維護(hù)的，文件系統(tǒng)的IO管理器知道如何將它的數(shù)據(jù)塊翻譯成磁盤維護(hù)的數(shù)據(jù)塊地址LBA。對于使用文件系統(tǒng)的IO操作來說，比如讀寫文件，這些IO的基本單元是文件系統(tǒng)上的數(shù)據(jù)塊，一次讀寫一個文件系統(tǒng)數(shù)據(jù)塊。比如需要讀一個或多個塊時，文件系統(tǒng)的IO管理器首先計算這些文件系統(tǒng)塊對應(yīng)在哪些磁盤數(shù)據(jù)塊，也就是計算出LBA，然后通知磁盤控制器要讀取哪些塊的數(shù)據(jù)，硬盤控制器將這些塊翻譯成扇區(qū)地址，然后從扇區(qū)中讀取數(shù)據(jù)，再通過硬盤控制器將這些扇區(qū)數(shù)據(jù)重組寫入到內(nèi)存中去。

本文既然是討論文件系統(tǒng)的，那么重點自然是在文件系統(tǒng)上而不是在磁盤上，所以后文出現(xiàn)的block均表示的是文件系統(tǒng)的數(shù)據(jù)塊而不是磁盤維護(hù)的邏輯塊。

文件系統(tǒng)block的出現(xiàn)使得在文件系統(tǒng)層面上讀寫性能大大提高，也大量減少了碎片。但是它的副作用是可能造成空間浪費。由于文件系統(tǒng)以block為讀寫單元，即使存儲的文件只有1K大小也將占用一個block，剩余的空間完全是浪費的。在某些業(yè)務(wù)需求下可能大量存儲小文件，這會浪費大量的空間。

盡管有缺點，但是其優(yōu)點足夠明顯，在當(dāng)下硬盤容量廉價且追求性能的時代，使用block是一定的。

1.2 inode的出現(xiàn)

如果存儲的1個文件占用了大量的block讀取時會如何?假如block大小為1KB，僅僅存儲一個10M的文件就需要10240個block，而且這些blocks很可能在位置上是不連續(xù)在一起的(不相鄰)，讀取該文件時難道要從前向后掃描整個文件系統(tǒng)的塊，然后找出屬于該文件的塊嗎?顯然是不應(yīng)該這么做的，因為太慢太傻瓜式了。再考慮一下，讀取一個只占用1個block的文件，難道只讀取一個block就結(jié)束了嗎?并不是，仍然是掃描整個文件系統(tǒng)的所有block，因為它不知道什么時候掃描到，掃描到了它也不知道這個文件是不是已經(jīng)完整而不需要再掃描其他的block。

另外，每個文件都有屬性(如權(quán)限、大小、時間戳等)，這些屬性類的元數(shù)據(jù)存儲在哪里呢?難道也和文件的數(shù)據(jù)部分存儲在塊中嗎?如果一個文件占用多個block那是不是每個屬于該文件的block都要存儲一份文件元數(shù)據(jù)?但是如果不在每個block中存儲元數(shù)據(jù)文件系統(tǒng)又怎么知道某一個block是不是屬于該文件呢?但是顯然，每個數(shù)據(jù)block中都存儲一份元數(shù)據(jù)太浪費空間。

文件系統(tǒng)設(shè)計者當(dāng)然知道這樣的存儲方式很不理想，所以需要優(yōu)化存儲方式。如何優(yōu)化?對于這種類似的問題的解決方法是使用索引，通過掃描索引找到對應(yīng)的數(shù)據(jù)，而且索引可以存儲部分?jǐn)?shù)據(jù)。

在文件系統(tǒng)上索引技術(shù)具體化為索引節(jié)點(index node)，在索引節(jié)點上存儲的部分?jǐn)?shù)據(jù)即為文件的屬性元數(shù)據(jù)及其他少量信息。一般來說索引占用的空間相比其索引的文件數(shù)據(jù)而言占用的空間就小得多，掃描它比掃描整個數(shù)據(jù)要快得多，否則索引就沒有存在的意義。這樣一來就解決了前面所有的問題。

在文件系統(tǒng)上的術(shù)語中，索引節(jié)點稱為inode。在inode中存儲了inode號、文件類型、權(quán)限、文件所有者、大小、時間戳等元數(shù)據(jù)信息，最重要的是還存儲了指向?qū)儆谠撐募lock的指針，這樣讀取inode就可以找到屬于該文件的block，進(jìn)而讀取這些block并獲得該文件的數(shù)據(jù)。由于后面還會介紹一種指針，為了方便稱呼和區(qū)分，暫且將這個inode記錄中指向文件data block的指針稱之為block指針。以下是ext2文件系統(tǒng)中inode包含的信息示例：

Inode: 12 Type: regular Mode: 0644 Flags: 0x0 
Generation: 1454951771 Version: 0x00000000:00000001 
User: 0 Group: 0 Size: 5 
File ACL: 0 Directory ACL: 0 
Links: 1 Blockcount: 8 
Fragment: Address: 0 Number: 0 Size: 0 
 ctime: 0x5b628db2:15e0aff4 -- Thu Aug 2 12:50:58 2018 
 atime: 0x5b628db2:15e0aff4 -- Thu Aug 2 12:50:58 2018 
 mtime: 0x5b628db2:15e0aff4 -- Thu Aug 2 12:50:58 2018 
crtime: 0x5b628db2:15e0aff4 -- Thu Aug 2 12:50:58 2018 
Size of extra inode fields: 28 
BLOCKS: 
(0):1024 
TOTAL: 1

一般inode大小為128字節(jié)或256字節(jié)，相比那些MB或GB計算的文件數(shù)據(jù)而言小得多的多，但也要知道可能一個文件大小小于inode大小，例如只占用1個字節(jié)的文件。

1.3 bmap出現(xiàn)

在向硬盤存儲數(shù)據(jù)時，文件系統(tǒng)需要知道哪些塊是空閑的，哪些塊是已經(jīng)占用了的。最笨的方法當(dāng)然是從前向后掃描，遇到空閑塊就存儲一部分，繼續(xù)掃描直到存儲完所有數(shù)據(jù)。

優(yōu)化的方法當(dāng)然也可以考慮使用索引，但是僅僅1G的文件系統(tǒng)就有1KB的block共1024*1024=1048576個，這僅僅只是1G，如果是100G、500G甚至更大呢，僅僅使用索引索引的數(shù)量和空間占用也將極大，這時就出現(xiàn)更高一級的優(yōu)化方法：使用塊位圖(bitmap簡稱bmap)。

位圖只使用0和1標(biāo)識對應(yīng)block是空閑還是被占用，0和1在位圖中的位置和block的位置一一對應(yīng)，第一位標(biāo)識第一個塊，第二個位標(biāo)識第二個塊，依次下去直到標(biāo)記完所有的block。

考慮下為什么塊位圖更優(yōu)化。在位圖中1個字節(jié)8個位，可以標(biāo)識8個block。對于一個block大小為1KB、容量為1G的文件系統(tǒng)而言，block數(shù)量有1024*1024個，所以在位圖中使用1024*1024個位共1024*1024/8=131072字節(jié)=128K，即1G的文件只需要128個block做位圖就能完成一一對應(yīng)。通過掃描這100多個block就能知道哪些block是空閑的，速度提高了非常多。

但是要注意，bmap的優(yōu)化針對的是寫優(yōu)化，因為只有寫才需要找到空閑block并分配空閑block。對于讀而言，只要通過inode找到了block的位置，cpu就能迅速計算出block在物理磁盤上的地址，cpu的計算速度是極快的，計算block地址的時間幾乎可以忽略，那么讀速度基本認(rèn)為是受硬盤本身性能的影響而與文件系統(tǒng)無關(guān)。大多數(shù)稍大一點的文件可能都會存儲在不連續(xù)的block上，而且使用了一段時間的文件系統(tǒng)可能會有不少碎片，這時硬盤的隨機讀取性能直接決定讀數(shù)據(jù)的速度，這也是機械硬盤速度相比固態(tài)硬盤慢的多的多的原因之一，而且固態(tài)硬盤的隨機讀和連續(xù)讀取速度幾乎是一致的，對它來說，文件系統(tǒng)碎片的多少并不會影響讀取速度。

雖然bmap已經(jīng)極大的優(yōu)化了掃描，但是仍有其瓶頸：如果文件系統(tǒng)是100G呢?100G的文件系統(tǒng)要使用128*100=12800個1KB大小的block，這就占用了12.5M的空間了。試想完全掃描12800個很可能不連續(xù)的block這也是需要占用一些時間的，雖然快但是扛不住每次存儲文件都要掃描帶來的巨大開銷。

所以需要再次優(yōu)化，如何優(yōu)化?簡而言之就是將文件系統(tǒng)劃分開形成塊組，至于塊組的介紹放在后文。

1.4 inode表的出現(xiàn)

回顧下inode相關(guān)信息：inode存儲了inode號、文件屬性元數(shù)據(jù)、指向文件占用的block的指針;每一個inode占用128字節(jié)或256字節(jié)。

現(xiàn)在又出現(xiàn)問題了，一個文件系統(tǒng)中可以說有無數(shù)多個文件，每一個文件都對應(yīng)一個inode，難道每一個僅128字節(jié)的inode都要單獨占用一個block進(jìn)行存儲嗎?這太浪費空間了。

所以更優(yōu)的方法是將多個inode合并存儲在block中，對于128字節(jié)的inode，一個block存儲8個inode，對于256字節(jié)的inode，一個block存儲4個inode。這就使得每個存儲inode的塊都不浪費。

在ext文件系統(tǒng)上，將這些物理上存儲inode的block組合起來，在邏輯上形成一張inode表(inode table)來記錄所有的inode。

舉個例子，每一個家庭都要向派出所登記戶口信息，通過戶口本可以知道家庭住址，而每個鎮(zhèn)或街道的派出所將本鎮(zhèn)或本街道的所有戶口整合在一起，要查找某一戶地址時，在派出所就能快速查找到。inode table就是這里的派出所。它的內(nèi)容如下圖所示。

好文分享：ext文件系統(tǒng)機制原理詳解

實際上，在文件系統(tǒng)創(chuàng)建完成后所有的inode號都已經(jīng)分配好并記錄到inode table中了，只不過被使用的inode號所在的行還有文件屬性的元數(shù)據(jù)信息和block位置信息，而未被使用的inode號只有一個inode號而已而沒有其他信息而已。

再細(xì)細(xì)一思考，就能發(fā)現(xiàn)一個大的文件系統(tǒng)仍將占用大量的塊來存儲inode，想要找到其中的一個inode記錄也需要不小的開銷，盡管它們已經(jīng)形成了一張邏輯上的表，但扛不住表太大記錄太多。那么如何快速找到inode，這同樣是需要優(yōu)化的，優(yōu)化的方法是將文件系統(tǒng)的block進(jìn)行分組劃分，每個組中都存有本組inode table范圍、bmap等。

1.5 imap的出現(xiàn)

前面說bmap是塊位圖，用于標(biāo)識文件系統(tǒng)中哪些block是空閑哪些block是占用的。

對于inode也一樣，在存儲文件(Linux中一切皆文件)時需要為其分配一個inode號。但是在格式化創(chuàng)建文件系統(tǒng)后所有的inode號都是被事先設(shè)定好存放在inode table中的，因此產(chǎn)生了問題：要為文件分配哪一個inode號呢?又如何知道某一個inode號是否已經(jīng)被分配了呢?

既然是"是否被占用"的問題，使用位圖是最佳方案，像bmap記錄block的占用情況一樣。標(biāo)識inode號是否被分配的位圖稱為inodemap簡稱為imap。這時要為一個文件分配inode號只需掃描imap即可知道哪一個inode號是空閑的。

imap存在著和bmap和inode table一樣需要解決的問題：如果文件系統(tǒng)比較大，imap本身就會很大，每次存儲文件都要進(jìn)行掃描，會導(dǎo)致效率不夠高。同樣，優(yōu)化的方式是將文件系統(tǒng)占用的block劃分成塊組，每個塊組有自己的imap范圍。

1.6 塊組的出現(xiàn)

前面一直提到的優(yōu)化方法是將文件系統(tǒng)占用的block劃分成塊組(block group)，解決bmap、inode table和imap太大的問題。

在物理層面上的劃分是將磁盤按柱面劃分為多個分區(qū)，即多個文件系統(tǒng);在邏輯層面上的劃分是將文件系統(tǒng)劃分成塊組。每個文件系統(tǒng)包含多個塊組，每個塊組包含多個元數(shù)據(jù)區(qū)和數(shù)據(jù)區(qū)：元數(shù)據(jù)區(qū)就是存儲bmap、inode table、imap等的數(shù)據(jù);數(shù)據(jù)區(qū)就是存儲文件數(shù)據(jù)的區(qū)域。注意塊組是邏輯層面的概念，所以并不會真的在磁盤上按柱面、按扇區(qū)、按磁道等概念進(jìn)行劃分。

1.7 塊組的劃分

塊組在文件系統(tǒng)創(chuàng)建完成后就已經(jīng)劃分完成了，也就是說元數(shù)據(jù)區(qū)bmap、inode table和imap等信息占用的block以及數(shù)據(jù)區(qū)占用的block都已經(jīng)劃分好了。那么文件系統(tǒng)如何知道一個塊組元數(shù)據(jù)區(qū)包含多少個block，數(shù)據(jù)區(qū)又包含多少block呢?

它只需確定一個數(shù)據(jù)——每個block的大小，再根據(jù)bmap至多只能占用一個完整的block的標(biāo)準(zhǔn)就能計算出塊組如何劃分。如果文件系統(tǒng)非常小，所有的bmap總共都不能占用完一個block，那么也只能空閑bmap的block了。

每個block的大小在創(chuàng)建文件系統(tǒng)時可以人為指定，不指定也有默認(rèn)值。

假如現(xiàn)在block的大小是1KB，一個bmap完整占用一個block能標(biāo)識1024*8= 8192個block(當(dāng)然這8192個block是數(shù)據(jù)區(qū)和元數(shù)據(jù)區(qū)共8192個，因為元數(shù)據(jù)區(qū)分配的block也需要通過bmap來標(biāo)識)。每個block是1K，每個塊組是8192K即8M，創(chuàng)建1G的文件系統(tǒng)需要劃分1024/8=128個塊組，如果是1.1G的文件系統(tǒng)呢?128+12.8=128+13=141個塊組。

每個組的block數(shù)目是劃分好了，但是每個組設(shè)定多少個inode號呢?inode table占用多少block呢?這需要由系統(tǒng)決定了，因為描述"每多少個數(shù)據(jù)區(qū)的block就為其分配一個inode號"的指標(biāo)默認(rèn)是我們不知道的，當(dāng)然創(chuàng)建文件系統(tǒng)時也可以人為指定這個指標(biāo)或者百分比例。見后文"inode深入"。

使用dumpe2fs可以將ext類的文件系統(tǒng)信息全部顯示出來，當(dāng)然bmap是每個塊組固定一個block的不用顯示，imap比bmap更小所以也只占用1個block不用顯示。

下圖是一個文件系統(tǒng)的部分信息，在這些信息的后面還有每個塊組的信息，其實這里面的很多信息都可以通過幾個比較基本的元數(shù)據(jù)推導(dǎo)出來。

好文分享：ext文件系統(tǒng)機制原理詳解

從這張表中能計算出文件系統(tǒng)的大小，該文件系統(tǒng)共4667136個blocks，每個block大小為4K，所以文件系統(tǒng)大小為4667136*4/1024/1024=17.8GB。

也能計算出分了多少個塊組，因為每一個塊組的block數(shù)量為32768，所以塊組的數(shù)量為4667136/32768=142.4即143個塊組。由于塊組從0開始編號，所以最后一個塊組編號為Group 142。如下圖所示是最后一個塊組的信息。

好文分享：ext文件系統(tǒng)機制原理詳解

2. 文件系統(tǒng)的完整結(jié)構(gòu)

將上文描述的bmap、inode table、imap、數(shù)據(jù)區(qū)的blocks和塊組的概念組合起來就形成了一個文件系統(tǒng)，當(dāng)然這還不是完整的文件系統(tǒng)。完整的文件系統(tǒng)如下圖

好文分享：ext文件系統(tǒng)機制原理詳解

首先，該圖中多了Boot Block、Super Block、GDT、Reserver GDT這幾個概念。下面會分別介紹它們。

然后，圖中指明了塊組中每個部分占用的block數(shù)量，除了superblock、bmap、imap能確定占用1個block，其他的部分都不能確定占用幾個block。

最后，圖中指明了Superblock、GDT和Reserved GDT是同時出現(xiàn)且不一定存在于每一個塊組中的，也指明了bmap、imap、inode table和data blocks是每個塊組都有的。

2.1 引導(dǎo)塊

即上圖中的Boot Block部分，也稱為boot sector。它位于分區(qū)上的第一個塊，占用1024字節(jié)，并非所有分區(qū)都有這個boot sector，只有裝了操作系統(tǒng)的主分區(qū)和裝了操作系統(tǒng)的邏輯分區(qū)才有。里面存放的也是boot loader，這段boot loader稱為VBR(主分區(qū)裝操作系統(tǒng)時)或EBR(擴展分區(qū)裝操作系統(tǒng)時)，這里的Boot loader和mbr上的boot loader是存在交錯關(guān)系的。開機啟動的時候，首先加載mbr中的bootloader，然后定位到操作系統(tǒng)所在分區(qū)的boot serctor上加載此處的boot loader。如果是多系統(tǒng)，加載mbr中的bootloader后會列出操作系統(tǒng)菜單，菜單上的各操作系統(tǒng)指向它們所在分區(qū)的boot sector上。它們之間的關(guān)系如下圖所示。

好文分享：ext文件系統(tǒng)機制原理詳解

但是，這種方式的操作系統(tǒng)菜單早已經(jīng)棄之不用了，而是使用grub來管理啟動菜單。盡管如此，在安裝操作系統(tǒng)時，仍然有一步是選擇boot loader安裝位置的步驟。

2.2 超級塊(superblock)

既然一個文件系統(tǒng)會分多個塊組，那么文件系統(tǒng)怎么知道分了多少個塊組呢?每個塊組又有多少block多少inode號等等信息呢?還有，文件系統(tǒng)本身的屬性信息如各種時間戳、block總數(shù)量和空閑數(shù)量、inode總數(shù)量和空閑數(shù)量、當(dāng)前文件系統(tǒng)是否正常、什么時候需要自檢等等，它們又存儲在哪里呢?

毫無疑問，這些信息必須要存儲在block中。存儲這些信息占用1024字節(jié)，所以也要一個block，這個block稱為超級塊(superblock)，它的block號可能為0也可能為1。如果block大小為1K，則引導(dǎo)塊正好占用一個block，這個block號為0，所以superblock的號為1;如果block大小大于1K，則引導(dǎo)塊和超級塊同置在一個block中，這個block號為0?？傊畇uperblock的起止位置是第二個1024(1024-2047)字節(jié)。

使用df命令讀取的就是每個文件系統(tǒng)的superblock，所以它的統(tǒng)計速度非常快。相反，用du命令查看一個較大目錄的已用空間就非常慢，因為不可避免地要遍歷整個目錄的所有文件。

[root@xuexi ~]# df -hT 
Filesystem Type Size Used Avail Use% Mounted on 
/dev/sda3 ext4 18G 1.7G 15G 11% / 
tmpfs tmpfs 491M 0 491M 0% /dev/shm 
/dev/sda1 ext4 190M 32M 149M 18% /boot

superblock對于文件系統(tǒng)而言是至關(guān)重要的，超級塊丟失或損壞必將導(dǎo)致文件系統(tǒng)的損壞。所以舊式的文件系統(tǒng)將超級塊備份到每一個塊組中，但是這又有所空間浪費，所以ext2文件系統(tǒng)只在塊組0、1和3、5、7冪次方的塊組中保存超級塊的信息，如Group9、Group25等。盡管保存了這么多的superblock，但是文件系統(tǒng)只使用第一個塊組即Group0中超級塊信息來獲取文件系統(tǒng)屬性，只有當(dāng)Group0上的superblock損壞或丟失才會找下一個備份超級塊復(fù)制到Group0中來恢復(fù)文件系統(tǒng)。

下圖是一個ext4文件系統(tǒng)的superblock的信息，ext家族的文件系統(tǒng)都能使用dumpe2fs -h獲取。

好文分享：ext文件系統(tǒng)機制原理詳解

2.3 塊組描述符表(GDT)

既然文件系統(tǒng)劃分了塊組，那么每個塊組的信息和屬性元數(shù)據(jù)又保存在哪里呢?

ext文件系統(tǒng)每一個塊組信息使用32字節(jié)描述，這32個字節(jié)稱為塊組描述符，所有塊組的塊組描述符組成塊組描述符表GDT(group descriptor table)。

雖然每個塊組都需要塊組描述符來記錄塊組的信息和屬性元數(shù)據(jù)，但是不是每個塊組中都存放了塊組描述符。ext文件系統(tǒng)的存儲方式是：將它們組成一個GDT，并將該GDT存放于某些塊組中，存放GDT的塊組和存放superblock和備份superblock的塊相同，也就是說它們是同時出現(xiàn)在某一個塊組中的。讀取時也總是讀取Group0中的塊組描述符表信息。

假如block大小為4KB的文件系統(tǒng)劃分了143個塊組，每個塊組描述符32字節(jié)，那么GDT就需要143*32=4576字節(jié)即兩個block來存放。這兩個GDT block中記錄了所有塊組的塊組信息，且存放GDT的塊組中的GDT都是完全相同的。

下圖是一個塊組描述符的信息(通過dumpe2fs獲取)。

好文分享：ext文件系統(tǒng)機制原理詳解

2.4 保留GDT(Reserved GDT)

保留GDT用于以后擴容文件系統(tǒng)使用，防止擴容后塊組太多，使得塊組描述符超出當(dāng)前存儲GDT的blocks。保留GDT和GDT總是同時出現(xiàn)，當(dāng)然也就和superblock同時出現(xiàn)了。

例如前面143個塊組使用了2個block來存放GDT，但是此時第二個block還空余很多空間，當(dāng)擴容到一定程度時2個block已經(jīng)無法再記錄塊組描述符了，這時就需要分配一個或多個Reserved GDT的block來存放超出的塊組描述符。

由于新增加了GDT block，所以應(yīng)該讓每一個保存GDT的塊組都同時增加這一個GDT block，所以將保留GDT和GDT存放在同一個塊組中可以直接將保留GDT變換為GDT而無需使用低效的復(fù)制手段備份到每個存放GDT的塊組。

同理，新增加了GDT需要修改每個塊組中superblock中的文件系統(tǒng)屬性，所以將superblock和Reserved GDT/GDT放在一起又能提升效率。

3.Data Block

如上圖，除了Data Blocks其他的部分都解釋過了。data block是直接存儲數(shù)據(jù)的block，但事實上并非如此簡單。

數(shù)據(jù)所占用的block由文件對應(yīng)inode記錄中的block指針找到，不同的文件類型，數(shù)據(jù)block中存儲的內(nèi)容是不一樣的。以下是Linux中不同類型文件的存儲方式。

對于常規(guī)文件，文件的數(shù)據(jù)正常存儲在數(shù)據(jù)塊中。
對于目錄，該目錄下的所有文件和一級子目錄的目錄名存儲在數(shù)據(jù)塊中。
文件名不是存儲在其自身的inode中，而是存儲在其所在目錄的data block中。
對于符號鏈接，如果目標(biāo)路徑名較短則直接保存在inode中以便更快地查找，如果目標(biāo)路徑名較長則分配一個數(shù)據(jù)塊來保存。
設(shè)備文件、FIFO和socket等特殊文件沒有數(shù)據(jù)塊，設(shè)備文件的主設(shè)備號和次設(shè)備號保存在inode中。

常規(guī)文件的存儲就不解釋了，下面分別解釋特殊文件的存儲方式。

3.1 目錄文件的data block

對于目錄文件，其inode記錄中存儲的是目錄的inode號、目錄的屬性元數(shù)據(jù)和目錄文件的block指針，這里面沒有存儲目錄自身文件名的信息。

而其data block的存儲方式則如下圖所示。

好文分享：ext文件系統(tǒng)機制原理詳解

由圖可知，在目錄文件的數(shù)據(jù)塊中存儲了其下的文件名、目錄名、目錄本身的相對名稱"."和上級目錄的相對名稱".."，還存儲了指向inode table中這些文件名對應(yīng)的inode號的指針(并非直接存儲inode號碼)、目錄項長度rec_len、文件名長度name_len和文件類型file_type。注意到除了文件本身的inode記錄了文件類型，其所在的目錄的數(shù)據(jù)塊也記錄了文件類型。由于rec_len只能是4的倍數(shù)，所以需要使用"\0"來填充name_len不夠湊滿4倍數(shù)的部分。至于rec_len具體是什么，只需知道它是一種偏移即可。

目錄的data block中并沒有直接存儲目錄中文件的inode號，它存儲的是指向inode table中對應(yīng)文件inode號的指針，暫且稱之為inode指針(至此，已經(jīng)知道了兩種指針：一種是inode table中每個inode記錄指向其對應(yīng)data block的block指針，一個此處的inode指針。題外話：實際上inode指針應(yīng)該稱之為存儲在目錄data blcok中的鏈接link，這個link和inode num一一映射，所以刪除文件的函數(shù)稱為unlink()，表示在目錄的data block中刪除這個鏈接)。一個很有說服力的例子，在目錄只有讀而沒有執(zhí)行權(quán)限的時候，使用"ls -l"是無法獲取到其內(nèi)文件inode號的，這就表明沒有直接存儲inode號。實際上，因為在創(chuàng)建文件系統(tǒng)的時候，inode號就已經(jīng)全部劃分好并在每個塊組的inode table中存放好，inode table在塊組中是有具體位置的，如果使用dumpe2fs查看文件系統(tǒng)，會發(fā)現(xiàn)每個塊組的inode table占用的block數(shù)量是完全相同的，如下圖是某分區(qū)上其中兩個塊組的信息，它們都占用249個block。

好文分享：ext文件系統(tǒng)機制原理詳解

除了inode指針，目錄的data block中還使用數(shù)字格式記錄了文件類型，數(shù)字格式和文件類型的對應(yīng)關(guān)系如下圖。

好文分享：ext文件系統(tǒng)機制原理詳解

注意到目錄的data block中前兩行存儲的是目錄本身的相對名稱"."和上級目錄的相對名稱".."，它們實際上是目錄本身的硬鏈接和上級目錄的硬鏈接。硬鏈接的本質(zhì)后面說明。

由此也就容易理解目錄權(quán)限的特殊之處了。目錄文件的讀權(quán)限(r)和寫權(quán)限(w)，都是針對目錄文件的數(shù)據(jù)塊本身。由于目錄文件內(nèi)只有文件名、文件類型和inode指針，所以如果只有讀權(quán)限，只能獲取文件名和文件類型信息，無法獲取其他信息，盡管目錄的data block中也記錄著文件的inode指針，但定位指針是需要x權(quán)限的，因為其它信息都儲存在文件自身對應(yīng)的inode中，而要讀取文件inode信息需要有目錄文件的執(zhí)行權(quán)限通過inode指針定位到文件對應(yīng)的inode記錄上。以下是沒有目錄x權(quán)限時的查詢狀態(tài)，可以看到除了文件名和文件類型，其余的全是"?"。

[lisi4@xuexi tmp]$ ll -i d 
ls: cannot access d/hehe: Permission denied 
ls: cannot access d/haha: Permission denied 
total 0 
? d????????? ? ? ? ? ? haha 
? -????????? ? ? ? ? ? hehe

注意，xfs文件系統(tǒng)和ext文件系統(tǒng)不一樣，它連文件類型都無法獲取。

3.2 符號鏈接存儲方式

符號鏈接即為軟鏈接，類似于Windows操作系統(tǒng)中的快捷方式，它的作用是指向原文件或目錄。

軟鏈接之所以也被稱為特殊文件的原因是：它一般情況下不占用data block，僅僅通過它對應(yīng)的inode記錄就能將其信息描述完成;符號鏈接的大小是其指向目標(biāo)路徑占用的字符個數(shù)，例如某個符號鏈接的指向方式為"rmt --> ../sbin/rmt"，則其文件大小為11字節(jié);只有當(dāng)符號鏈接指向的目標(biāo)的路徑名較長(60個字節(jié))時文件系統(tǒng)才會劃分一個data block給它;它的權(quán)限如何也不重要，因它只是一個指向原文件的"工具"，最終決定是否能讀寫執(zhí)行的權(quán)限由原文件決定，所以很可能ls -l查看到的符號鏈接權(quán)限為777。

注意，軟鏈接的block指針存儲的是目標(biāo)文件名。也就是說，鏈接文件的一切都依賴于其目標(biāo)文件名。這就解釋了為什么/mnt的軟鏈接/tmp/mnt在/mnt掛載文件系統(tǒng)后，通過軟鏈接就能進(jìn)入/mnt所掛載的文件系統(tǒng)。究其原因，還是因為其目標(biāo)文件名"/mnt"并沒有改變。

例如以下篩選出了/etc/下的符號鏈接，注意觀察它們的權(quán)限和它們占用的空間大小。

[root@xuexi ~]# ll /etc/ | grep '^l' 
lrwxrwxrwx. 1 root root 56 Feb 18 2016 favicon.png -> /usr/share/icons/hicolor/16x16/apps/system-logo-icon.png 
lrwxrwxrwx. 1 root root 22 Feb 18 2016 grub.conf -> ../boot/grub/grub.conf 
lrwxrwxrwx. 1 root root 11 Feb 18 2016 init.d -> rc.d/init.d 
lrwxrwxrwx. 1 root root 7 Feb 18 2016 rc -> rc.d/rc 
lrwxrwxrwx. 1 root root 10 Feb 18 2016 rc0.d -> rc.d/rc0.d 
lrwxrwxrwx. 1 root root 10 Feb 18 2016 rc1.d -> rc.d/rc1.d 
lrwxrwxrwx. 1 root root 10 Feb 18 2016 rc2.d -> rc.d/rc2.d 
lrwxrwxrwx. 1 root root 10 Feb 18 2016 rc3.d -> rc.d/rc3.d 
lrwxrwxrwx. 1 root root 10 Feb 18 2016 rc4.d -> rc.d/rc4.d 
lrwxrwxrwx. 1 root root 10 Feb 18 2016 rc5.d -> rc.d/rc5.d 
lrwxrwxrwx. 1 root root 10 Feb 18 2016 rc6.d -> rc.d/rc6.d 
lrwxrwxrwx. 1 root root 13 Feb 18 2016 rc.local -> rc.d/rc.local 
lrwxrwxrwx. 1 root root 15 Feb 18 2016 rc.sysinit -> rc.d/rc.sysinit 
lrwxrwxrwx. 1 root root 14 Feb 18 2016 redhat-release -> centos-release 
lrwxrwxrwx. 1 root root 11 Apr 10 2016 rmt -> ../sbin/rmt 
lrwxrwxrwx. 1 root root 14 Feb 18 2016 system-release -> centos-release

3.3 設(shè)備文件、FIFO、套接字文件

關(guān)于這3種文件類型的文件只需要通過inode就能完全保存它們的信息，它們不占用任何數(shù)據(jù)塊，所以它們是特殊文件。

設(shè)備文件的主設(shè)備號和次設(shè)備號也保存在inode中。以下是/dev/下的部分設(shè)備信息。注意到它們的第5列和第6列信息，它們分別是主設(shè)備號和次設(shè)備號，主設(shè)備號標(biāo)識每一種設(shè)備的類型，次設(shè)備號標(biāo)識同種設(shè)備類型的不同編號;也注意到這些信息中沒有大小的信息，因為設(shè)備文件不占用數(shù)據(jù)塊所以沒有大小的概念。

[root@xuexi ~]# ll /dev | tail 
crw-rw---- 1 vcsa tty 7, 129 Oct 7 21:26 vcsa1 
crw-rw---- 1 vcsa tty 7, 130 Oct 7 21:27 vcsa2 
crw-rw---- 1 vcsa tty 7, 131 Oct 7 21:27 vcsa3 
crw-rw---- 1 vcsa tty 7, 132 Oct 7 21:27 vcsa4 
crw-rw---- 1 vcsa tty 7, 133 Oct 7 21:27 vcsa5 
crw-rw---- 1 vcsa tty 7, 134 Oct 7 21:27 vcsa6 
crw-rw---- 1 root root 10, 63 Oct 7 21:26 vga_arbiter 
crw------- 1 root root 10, 57 Oct 7 21:26 vmci 
crw-rw-rw- 1 root root 10, 56 Oct 7 21:27 vsock 
crw-rw-rw- 1 root root 1, 5 Oct 7 21:26 zero

4.inode基礎(chǔ)知識

每個文件都有一個inode，在將inode關(guān)聯(lián)到文件后系統(tǒng)將通過inode號來識別文件，而不是文件名。并且訪問文件時將先找到inode，通過inode中記錄的block位置找到該文件。

4.1 硬鏈接

雖然每個文件都有一個inode，但是存在一種可能：多個文件的inode相同，也就即inode號、元數(shù)據(jù)、block位置都相同，這是一種什么樣的情況呢?能夠想象這些inode相同的文件使用的都是同一條inode記錄，所以代表的都是同一個文件，這些文件所在目錄的data block中的inode指針目的地都是一樣的，只不過各指針對應(yīng)的文件名互不相同而已。這種inode相同的文件在Linux中被稱為"硬鏈接"。

硬鏈接文件的inode都相同，每個文件都有一個"硬鏈接數(shù)"的屬性，使用ls -l的第二列就是被硬鏈接數(shù)，它表示的就是該文件有幾個硬鏈接。

[root@xuexi ~]# ls -l 
total 48 
drwxr-xr-x 5 root root 4096 Oct 15 18:07 700 
-rw-------. 1 root root 1082 Feb 18 2016 anaconda-ks.cfg 
-rw-r--r-- 1 root root 399 Apr 29 2016 Identity.pub 
-rw-r--r--. 1 root root 21783 Feb 18 2016 install.log 
-rw-r--r--. 1 root root 6240 Feb 18 2016 install.log.syslog

例如下圖描述的是dir1目錄中的文件name1及其硬鏈接dir2/name2，右邊分別是它們的inode和datablock。這里也看出了硬鏈接文件之間唯一不同的就是其所在目錄中的記錄不同。注意下圖中有一列Link Count就是標(biāo)記硬鏈接數(shù)的屬性。

好文分享：ext文件系統(tǒng)機制原理詳解

每創(chuàng)建一個文件的硬鏈接，實質(zhì)上是多一個指向該inode記錄的inode指針，并且硬鏈接數(shù)加1。

刪除文件的實質(zhì)是刪除該文件所在目錄data block中的對應(yīng)的inode指針，所以也是減少硬鏈接次數(shù)，由于block指針是存儲在inode中的，所以不是真的刪除數(shù)據(jù)，如果仍有其他指針指向該inode，那么該文件的block指針仍然是可用的。當(dāng)硬鏈接次數(shù)為1時再刪除文件就是真的刪除文件了，此時inode記錄中block指針也將被刪除。

不能跨分區(qū)創(chuàng)建硬鏈接，因為不同文件系統(tǒng)的inode號可能會相同，如果允許創(chuàng)建硬鏈接，復(fù)制到另一個分區(qū)時inode可能會和此分區(qū)已使用的inode號沖突。

硬鏈接只能對文件創(chuàng)建，無法對目錄創(chuàng)建硬鏈接。之所以無法對目錄創(chuàng)建硬鏈接，是因為文件系統(tǒng)已經(jīng)把每個目錄的硬鏈接創(chuàng)建好了，它們就是相對路徑中的"."和".."，分別標(biāo)識當(dāng)前目錄的硬鏈接和上級目錄的硬鏈接。每一個目錄中都會包含這兩個硬鏈接，它包含了兩個信息：(1)一個沒有子目錄的目錄文件的硬鏈接數(shù)是2，其一是目錄本身，即該目錄datablock中的"."，其二是其父目錄datablock中該目錄的記錄，這兩者都指向同一個inode號;(2)一個包含子目錄的目錄文件，其硬鏈接數(shù)是2+子目錄數(shù)，因為每個子目錄都關(guān)聯(lián)一個父目錄的硬鏈接".."。很多人在計算目錄的硬鏈接數(shù)時認(rèn)為由于包含了"."和".."，所以空目錄的硬鏈接數(shù)是2，這是錯誤的，因為".."不是本目錄的硬鏈接。另外，還有一個特殊的目錄應(yīng)該納入考慮，即"/"目錄，它自身是一個文件系統(tǒng)的入口，是自引用(下文中會解釋自引用)的，所以"/"目錄下的"."和".."的inode號相同，它自身不占用硬鏈接，因為其datablock中只記錄inode號相同的"."和".."，不再像其他目錄一樣還記錄一個名為"/"的目錄，所以"/"的硬鏈接數(shù)也是2+子目錄數(shù)，但這個2是"."和".."的結(jié)果。

[root@xuexi ~]# ln /tmp /mydata 
ln: `/tmp': hard link not allowed for directory

為什么文件系統(tǒng)自己創(chuàng)建好了目錄的硬鏈接就不允許人為創(chuàng)建呢?從"."和".."的用法上考慮，如果當(dāng)前目錄為/usr，我們可以使用"./local"來表示/usr/local，但是如果我們?nèi)藶閯?chuàng)建了/usr目錄的硬鏈接/tmp/husr，難道我們也要使用"/tmp/husr/local"來表示/usr/local嗎?這其實已經(jīng)是軟鏈接的作用了。若要將其認(rèn)為是硬鏈接的功能，這必將導(dǎo)致硬鏈接維護(hù)的混亂。

不過，通過mount工具的"--bind"選項，可以將一個目錄掛載到另一個目錄下，實現(xiàn)偽"硬鏈接"，它們的內(nèi)容和inode號是完全相同的。

硬鏈接的創(chuàng)建方法： ln file_target link_name 。

4.2 軟鏈接

軟鏈接就是字符鏈接，鏈接文件默認(rèn)指的就是字符鏈接文件(注意不是字符設(shè)備)，使用"l"表示其類型。

硬鏈接不能跨文件系統(tǒng)創(chuàng)建，否則inode號可能會沖突。于是實現(xiàn)了軟鏈接以便跨文件系統(tǒng)建立鏈接。既然是跨文件系統(tǒng)，那么軟鏈接必須得有自己的inode號。

軟鏈接在功能上等價與Windows系統(tǒng)中的快捷方式，它指向原文件，原文件損壞或消失，軟鏈接文件就損壞。可以認(rèn)為軟鏈接inode記錄中的指針內(nèi)容是目標(biāo)路徑的字符串。

創(chuàng)建方式： ln –s source_file softlink_name ，記住是source_file<--link_name的指向關(guān)系(反箭頭)，以前我老搞錯位置。

查看軟鏈接的值： readlink softlink_name

在設(shè)置軟鏈接的時候，source_file雖然不要求是絕對路徑，但建議給絕對路徑。是否還記得軟鏈接文件的大小?它是根據(jù)軟鏈接所指向路徑的字符數(shù)計算的，例如某個符號鏈接的指向方式為"rmt --> ../sbin/rmt"，它的文件大小為11字節(jié)，也就是說只要建立了軟鏈接后，軟鏈接的指向路徑是不會改變的，仍然是"../sbin/rmt"。如果此時移動軟鏈接文件本身，它的指向是不會改變的，仍然是11個字符的"../sbin/rmt"，但此時該軟鏈接父目錄下可能根本就不存在/sbin/rmt，也就是說此時該軟鏈接是一個被破壞的軟鏈接。

5.inode深入

5.1 inode大小和劃分

inode大小為128字節(jié)的倍數(shù)，最小為128字節(jié)。它有默認(rèn)值大小，它的默認(rèn)值由/etc/mke2fs.conf文件中指定。不同的文件系統(tǒng)默認(rèn)值可能不同。

[root@xuexi ~]# cat /etc/mke2fs.conf 
[defaults] 
 base_features = sparse_super,filetype,resize_inode,dir_index,ext_attr 
 enable_periodic_fsck = 1 
 blocksize = 4096 
 inode_size = 256 
 inode_ratio = 16384 
[fs_types] 
 ext3 = { 
 features = has_journal 
 } 
 ext4 = { 
 features = has_journal,extent,huge_file,flex_bg,uninit_bg,dir_nlink,extra_isize 
 inode_size = 256 
 }

同樣觀察到這個文件中還記錄了blocksize的默認(rèn)值和inode分配比率inode_ratio。inode_ratio=16384表示每16384個字節(jié)即16KB就分配一個inode號，由于默認(rèn)blocksize=4KB，所以每4個block就分配一個inode號。當(dāng)然分配的這些inode號只是預(yù)分配，并不真的代表會全部使用，畢竟每個文件才會分配一個inode號。但是分配的inode自身會占用block，而且其自身大小256字節(jié)還不算小，所以inode號的浪費代表著空間的浪費。

既然知道了inode分配比率，就能計算出每個塊組分配多少個inode號，也就能計算出inode table占用多少個block。

如果文件系統(tǒng)中大量存儲電影等大文件，inode號就浪費很多，inode占用的空間也浪費很多。但是沒辦法，文件系統(tǒng)又不知道你這個文件系統(tǒng)是用來存什么樣的數(shù)據(jù)，多大的數(shù)據(jù)，多少數(shù)據(jù)。

當(dāng)然inodesize、inode分配比例、blocksize都可以在創(chuàng)建文件系統(tǒng)的時候人為指定。

5.2 ext文件系統(tǒng)預(yù)留的inode號

Ext預(yù)留了一些inode做特殊特性使用，如下：某些可能并非總是準(zhǔn)確，具體的inode號對應(yīng)什么文件可以使用"find / -inum NUM"查看。

Ext4的特殊inode
Inode號用途
0 不存在0號inode
1 虛擬文件系統(tǒng)，如/proc和/sys
2 根目錄
3 ACL索引
4 ACL數(shù)據(jù)
5 Boot loader
6 未刪除的目錄
7 預(yù)留的塊組描述符inode
8 日志inode
11 第一個非預(yù)留的inode，通常是lost+found目錄

所以在ext4文件系統(tǒng)的dumpe2fs信息中，能觀察到fisrt inode號可能為11也可能為12。

并且注意到"/"的inode號為2，這個特性在文件訪問時會用上。

需要注意的是，每個文件系統(tǒng)都會分配自己的inode號，不同文件系統(tǒng)之間是可能會出現(xiàn)使用相同inode號文件的。例如：

[root@xuexi ~]# find / -ignore_readdir_race -inum 2 -ls 
 2 4 dr-xr-xr-x 22 root root 4096 Jun 9 09:56 / 
 2 2 dr-xr-xr-x 5 root root 1024 Feb 25 11:53 /boot 
 2 0 c--------- 1 root root Jun 7 02:13 /dev/pts/ptmx 
 2 0 -rw-r--r-- 1 root root 0 Jun 6 18:13 /proc/sys/fs/binfmt_misc/status 
 2 0 drwxr-xr-x 3 root root 0 Jun 6 18:13 /sys/fs

從結(jié)果中可見，除了根的Inode號為2，還有幾個文件的inode號也是 2，它們都屬于獨立的文件系統(tǒng)，有些是虛擬文件系統(tǒng)，如/proc和/sys。

5.3 ext2/3的inode直接、間接尋址

前文說過，inode中保存了blocks指針，但是一條inode記錄中能保存的指針數(shù)量是有限的，否則就會超出inode大小(128字節(jié)或256字節(jié))。

在ext2和ext3文件系統(tǒng)中，一個inode中最多只能有15個指針，每個指針使用i_block[n]表示。

前12個指針i_block[0]到i_block[11]是直接尋址指針，每個指針指向一個數(shù)據(jù)區(qū)的block。如下圖所示。

好文分享：ext文件系統(tǒng)機制原理詳解

第13個指針i_block[12]是一級間接尋址指針，它指向一個仍然存儲了指針的block即i_block[12] --> Pointerblock --> datablock。

第14個指針i_block[13]是二級間接尋址指針，它指向一個仍然存儲了指針的block，但是這個block中的指針還繼續(xù)指向其他存儲指針的block，即i_block[13] --> Pointerblock1 --> PointerBlock2 --> datablock。

第15個指針i_block[14]是三級間接尋址指針，它指向一個任然存儲了指針的block，這個指針block下還有兩次指針指向。即i_block[13] --> Pointerblock1 --> PointerBlock2 --> PointerBlock3 --> datablock。

其中由于每個指針大小為4字節(jié)，所以每個指針block能存放的指針數(shù)量為BlockSize/4byte。例如blocksize為4KB，那么一個Block可以存放4096/4=1024個指針。

如下圖。

好文分享：ext文件系統(tǒng)機制原理詳解

為什么要分間接和直接指針呢?如果一個inode中15個指針全是直接指針，假如每個block的大小為1KB，那么15個指針只能指向15個block即15KB的大小，由于每個文件對應(yīng)一個inode號，所以就限制了每個文件最大為15*1=15KB，這顯然是不合理的。

如果存儲大于15KB的文件而又不太大的時候，就占用一級間接指針i_block[12]，這時可以存放指針數(shù)量為1024/4+12=268，所以能存放268KB的文件。

如果存儲大于268K 的文件而又不太大的時候，就繼續(xù)占用二級指針i_block[13]，這時可以存放指針數(shù)量為[1024/4]^2+1024/4+12=65804，所以能存放65804KB=64M左右的文件。

如果存放的文件大于64M，那么就繼續(xù)使用三級間接指針i_block[14]，存放的指針數(shù)量為[1024/4]^3+[1024/4]^2+[1024/4]+12=16843020個指針，所以能存放16843020KB=16GB左右的文件。

如果blocksize=4KB呢?那么最大能存放的文件大小為([4096/4]^3+[4096/4]^2+[4096/4]+12)*4/1024/1024/1024=4T左右。

當(dāng)然這樣計算出來的不一定就是最大能存放的文件大小，它還受到另一個條件的限制。這里的計算只是表明一個大文件是如何尋址和分配的。

其實看到這里的計算數(shù)值，就知道ext2和ext3對超大文件的存取效率是低下的，它要核對太多的指針，特別是4KB大小的blocksize時。而ext4針對這一點就進(jìn)行了優(yōu)化，ext4使用extent的管理方式取代ext2和ext3的塊映射，大大提高了效率也降低了碎片。

6 單文件系統(tǒng)中文件操作的原理

在Linux上執(zhí)行刪除、復(fù)制、重命名、移動等操作時，它們是怎么進(jìn)行的呢?還有訪問文件時是如何找到它的呢?其實只要理解了前文中介紹的幾個術(shù)語以及它們的作用就很容易知道文件操作的原理了。

注：在這一小節(jié)所解釋的都是在單個文件系統(tǒng)下的行為，在多個文件系統(tǒng)中如何請看下一個小節(jié)：多文件系統(tǒng)關(guān)聯(lián)。

6.1 讀取文件

當(dāng)執(zhí)行"cat /var/log/messages"命令在系統(tǒng)內(nèi)部進(jìn)行了什么樣的步驟呢?該命令能被成功執(zhí)行涉及了cat命令的尋找、權(quán)限判斷以及messages文件的尋找和權(quán)限判斷等等復(fù)雜的過程。這里只解釋和本節(jié)內(nèi)容相關(guān)的如何尋找到被cat的/var/log/messages文件。

找到根文件系統(tǒng)的塊組描述符表所在的blocks，讀取GDT(已在內(nèi)存中)找到inode table的block號。

因為GDT總是和superblock在同一個塊組，而superblock總是在分區(qū)的第1024-2047個字節(jié)，所以很容易就知道第一個GDT所在的塊組以及GDT在這個塊組中占用了哪些block。

其實GDT早已經(jīng)在內(nèi)存中了，在系統(tǒng)開機的時候會掛載根文件系統(tǒng)，掛載的時候就已經(jīng)將所有的GDT放進(jìn)內(nèi)存中。

在inode table的block中定位到根"/"的inode，找出"/"指向的data block。

前文說過，ext文件系統(tǒng)預(yù)留了一些inode號，其中"/"的inode號為2，所以可以根據(jù)inode號直接定位根目錄文件的data block。

在"/"的datablock中記錄了var目錄名和指向var目錄文件inode的指針，并找到該inode記錄，inode記錄中存儲了指向var的block指針，所以也就找到了var目錄文件的data block。

通過var目錄的inode指針，可以尋找到var目錄的inode記錄，但是指針定位的過程中，還需要知道該inode記錄所在的塊組以及所在的inode table，所以需要讀取GDT，同樣，GDT已經(jīng)緩存到了內(nèi)存中。

在var的data block中記錄了log目錄名和其inode指針，通過該指針定位到該inode所在的塊組及所在的inode table，并根據(jù)該inode記錄找到log的data block。
在log目錄文件的data block中記錄了messages文件名和對應(yīng)的inode指針，通過該指針定位到該inode所在的塊組及所在的inode table，并根據(jù)該inode記錄找到messages的data block。
最后讀取messages對應(yīng)的datablock。

將上述步驟中GDT部分的步驟簡化后比較容易理解。如下:找到GDT-->找到"/"的inode-->找到/的數(shù)據(jù)塊讀取var的inode-->找到var的數(shù)據(jù)塊讀取log的inode-->找到log的數(shù)據(jù)塊讀取messages的inode-->找到messages的數(shù)據(jù)塊并讀取它們。

6.2 刪除、重命名和移動文件

注意這里是不跨越文件系統(tǒng)的操作行為。

刪除文件分為普通文件和目錄文件，知道了這兩種類型的文件的刪除原理，就知道了其他類型特殊文件的刪除方法。

對于刪除普通文件：

(1)找到文件的inode和data block(根據(jù)前一個小節(jié)中的方法尋找);

(2)將inode table中該inode記錄中的data block指針刪除;

(3)在imap中將該文件的inode號標(biāo)記為未使用;

(4)在其所在目錄的data block中將該文件名所在的記錄行刪除，刪除了記錄就丟失了指向inode的指針;

(5)將bmap中data block對應(yīng)的block號標(biāo)記為未使用。

對于刪除目錄文件：找到目錄和目錄下所有文件、子目錄、子文件的inode和data block;在imap中將這些inode號標(biāo)記為未使用;將bmap中將這些文件占用的 block號標(biāo)記為未使用;在該目錄的父目錄的data block中將該目錄名所在的記錄行刪除。需要注意的是，刪除父目錄data block中的記錄是最后一步，如果該步驟提前，將報目錄非空的錯誤，因為在該目錄中還有文件占用。

關(guān)于上面的(2)-(5)：當(dāng)(2)中刪除data block指針后，將無法再找到這個文件的數(shù)據(jù);當(dāng)(3)標(biāo)記inode號未使用，表示該inode號可以被后續(xù)的文件重用;當(dāng)(4)刪除目錄data block中關(guān)于該文件的記錄，真正的刪除文件，外界再也定位也無法看到這個文件了;當(dāng)(5)標(biāo)記data block為未使用后，表示開始釋放空間，這些data block可以被其他文件重用。

注意，在第(5)步之前，由于data block還未被標(biāo)記為未使用，在superblock中仍然認(rèn)為這些data block是正在使用中的。這表示盡管文件已經(jīng)被刪除了，但空間卻還沒有釋放，df也會將其統(tǒng)計到已用空間中(df是讀取superblock中的數(shù)據(jù)塊數(shù)量，并計算轉(zhuǎn)換為空間大小)。

什么時候會發(fā)生這種情況呢?當(dāng)一個進(jìn)程正在引用文件時將該文件刪除，就會出現(xiàn)文件已刪除但空間未釋放的情況。這時步驟已經(jīng)進(jìn)行到(4)，外界無法再找到該文件，但由于進(jìn)程在加載該文件時已經(jīng)獲取到了該文件所有的data block指針，該進(jìn)程可以獲取到該文件的所有數(shù)據(jù)，但卻暫時不會釋放該文件空間。直到該進(jìn)程結(jié)束，文件系統(tǒng)才將未執(zhí)行的步驟(5)繼續(xù)完成。這也是為什么有時候du的統(tǒng)計結(jié)果比df小的原因，關(guān)于du和df統(tǒng)計結(jié)果的差別，詳細(xì)內(nèi)容見：詳細(xì)分析du和df的統(tǒng)計結(jié)果為什么不一樣。

重命名文件分為同目錄內(nèi)重命名和非同目錄內(nèi)重命名。非同目錄內(nèi)重命名實際上是移動文件的過程，見下文。

同目錄內(nèi)重命名文件的動作僅僅只是修改所在目錄data block中該文件記錄的文件名部分，不是刪除再重建的過程。

如果重命名時有文件名沖突(該目錄內(nèi)已經(jīng)存在該文件名)，則提示是否覆蓋。覆蓋的過程是覆蓋目錄data block中沖突文件的記錄。例如/tmp/下有a.txt和a.log，若將a.txt重命名為a.log，則提示覆蓋，若選擇覆蓋，則/tmp的data block中關(guān)于a.log的記錄被覆蓋，此時它的指針是指向a.txt的inode。

移動文件

同文件系統(tǒng)下移動文件實際上是修改目標(biāo)文件所在目錄的data block，向其中添加一行指向inode table中待移動文件的inode指針，如果目標(biāo)路徑下有同名文件，則會提示是否覆蓋，實際上是覆蓋目錄data block中沖突文件的記錄，由于同名文件的inode記錄指針被覆蓋，所以無法再找到該文件的data block，也就是說該文件被標(biāo)記為刪除(如果多個硬鏈接數(shù)，則另當(dāng)別論)。

所以在同文件系統(tǒng)內(nèi)移動文件相當(dāng)快，僅僅在所在目錄data block中添加或覆蓋了一條記錄而已。也因此，移動文件時，文件的inode號是不會改變的。

對于不同文件系統(tǒng)內(nèi)的移動，相當(dāng)于先復(fù)制再刪除的動作。見后文。

好文分享：ext文件系統(tǒng)機制原理詳解

關(guān)于文件移動，在Linux環(huán)境下有一個非常經(jīng)典網(wǎng)上卻又沒任何解釋的問題：/tmp/a/a能覆蓋為/tmp/a嗎?答案是不能，但windows能。為什么不能?見mv的一個經(jīng)典問題(mv的本質(zhì))。

6.3 存儲和復(fù)制文件

對于文件存儲
(1).讀取GDT，找到各個(或部分)塊組imap中未使用的inode號，并為待存儲文件分配inode號;
(2).在inode table中完善該inode號所在行的記錄;
(3).在目錄的data block中添加一條該文件的相關(guān)記錄;
(4).將數(shù)據(jù)填充到data block中。
注意，填充到data block中的時候會調(diào)用block分配器：一次分配4KB大小的block數(shù)量，當(dāng)填充完4KB的data block后會繼續(xù)調(diào)用block分配器分配4KB的block，然后循環(huán)直到填充完所有數(shù)據(jù)。也就是說，如果存儲一個100M的文件需要調(diào)用block分配器100*1024/4=25600次。
另一方面，在block分配器分配block時，block分配器并不知道真正有多少block要分配，只是每次需要分配時就分配，在每存儲一個data block前，就去bmap中標(biāo)記一次該block已使用，它無法實現(xiàn)一次標(biāo)記多個bmap位。這一點在ext4中進(jìn)行了優(yōu)化。
(5)填充完之后，去inode table中更新該文件inode記錄中指向data block的尋址指針。
對于復(fù)制，完全就是另一種方式的存儲文件。步驟和存儲文件的步驟一樣。

7 多文件系統(tǒng)關(guān)聯(lián)

在單個文件系統(tǒng)中的文件操作和多文件系統(tǒng)中的操作有所不同。本文將對此做出非常詳細(xì)的說明。

7.1 根文件系統(tǒng)的特殊性

這里要明確的是，任何一個文件系統(tǒng)要在Linux上能正常使用，必須掛載在某個已經(jīng)掛載好的文件系統(tǒng)中的某個目錄下，例如/dev/cdrom掛載在/mnt上，/mnt目錄本身是在"/"文件系統(tǒng)下的。而且任意文件系統(tǒng)的一級掛載點必須是在根文件系統(tǒng)的某個目錄下，因為只有"/"是自引用的。這里要說明掛載點的級別和自引用的概念。

假如/dev/sdb1掛載在/mydata上，/dev/cdrom掛載在/mydata/cdrom上，那么/mydata就是一級掛載點，此時/mydata已經(jīng)是文件系統(tǒng)/dev/sdb1的入口了，而/dev/cdrom所掛載的目錄/mydata/cdrom是文件系統(tǒng)/dev/sdb1中的某個目錄，那么/mydata/cdrom就是二級掛載點。一級掛載點必須在根文件系統(tǒng)下，所以可簡述為：文件系統(tǒng)2掛載在文件系統(tǒng)1中的某個目錄下，而文件系統(tǒng)1又掛載在根文件系統(tǒng)中的某個目錄下。

再解釋自引用。首先要說的是，自引用的只能是文件系統(tǒng)，而文件系統(tǒng)表現(xiàn)形式是一個目錄，所以自引用是指該目錄的data block中，"."和".."的記錄中的inode指針都指向inode table中同一個inode記錄，所以它們inode號是相同的，即互為硬鏈接。而根文件系統(tǒng)是唯一可以自引用的文件系統(tǒng)。

[root@xuexi /]# ll -ai / 
total 102 
 2 dr-xr-xr-x. 22 root root 4096 Jun 6 18:13 . 
 2 dr-xr-xr-x. 22 root root 4096 Jun 6 18:13 ..

由此也能解釋cd /.和cd /..的結(jié)果都還是在根下，這是自引用最直接的表現(xiàn)形式。

[root@xuexi tmp]# cd /. 
[root@xuexi /]# 
[root@xuexi tmp]# cd /.. 
[root@xuexi /]#

注意，根目錄下的"."和".."都是"/"目錄的硬鏈接，且其datablock中不記錄名為"/"的條目，因此除去根目錄下子目錄數(shù)后的硬鏈接數(shù)為2。

[root@server2 tmp]# a=$(ls -ld / | awk '{print $2}') 
[root@server2 tmp]# b=$(ls -l / | grep "^d" |wc -l) 
[root@server2 tmp]# echo $((a - b)) 
2

7.2 掛載文件系統(tǒng)的細(xì)節(jié)

掛載文件系統(tǒng)到某個目錄下，例如"mount /dev/cdrom /mnt"，掛載成功后/mnt目錄中的文件全都暫時不可見了，且掛載后權(quán)限和所有者(如果指定允許普通用戶掛載)等的都改變了，知道為什么嗎?

下面就以通過"mount /dev/cdrom /mnt"為例，詳細(xì)說明掛載過程中涉及的細(xì)節(jié)。

在將文件系統(tǒng)/dev/cdrom(此處暫且認(rèn)為它是文件系統(tǒng))掛載到掛載點/mnt之前，掛載點/mnt是根文件系統(tǒng)中的一個目錄，"/"的data block中記錄了/mnt的一些信息，其中包括inode指針inode_n，而在inode table中，/mnt對應(yīng)的inode記錄中又存儲了block指針block_n，此時這兩個指針還是普通的指針。

好文分享：ext文件系統(tǒng)機制原理詳解

當(dāng)文件系統(tǒng)/dev/cdrom掛載到/mnt上后，/mnt此時就已經(jīng)成為另一個文件系統(tǒng)的入口了，因此它需要連接兩邊文件系統(tǒng)的inode和data block。但是如何連接呢?如下圖。

好文分享：ext文件系統(tǒng)機制原理詳解

在根文件系統(tǒng)的inode table中，為/mnt重新分配一個inode記錄m，該記錄的block指針block_m指向文件系統(tǒng)/dev/cdrom中的data block。既然為/mnt分配了新的inode記錄m，那么在"/"目錄的data block中，也需要修改其inode指針為inode_m以指向m記錄。同時，原來inode table中的inode記錄n就被標(biāo)記為暫時不可用。

block_m指向的是文件系統(tǒng)/dev/cdrom的data block，所以嚴(yán)格說起來，除了/mnt的元數(shù)據(jù)信息即inode記錄m還在根文件系統(tǒng)上，/mnt的data block已經(jīng)是在/dev/cdrom中的了。這就是掛載新文件系統(tǒng)后實現(xiàn)的跨文件系統(tǒng)，它將掛載點的元數(shù)據(jù)信息和數(shù)據(jù)信息分別存儲在不同的文件系統(tǒng)上。

掛載完成后，將在/proc/self/{mounts,mountstats,mountinfo}這三個文件中寫入掛載記錄和相關(guān)的掛載信息，并會將/proc/self/mounts中的信息同步到/etc/mtab文件中，當(dāng)然，如果掛載時加了-n參數(shù)，將不會同步到/etc/mtab。

而卸載文件系統(tǒng)，其實質(zhì)是移除臨時新建的inode記錄(當(dāng)然，在移除前會檢查是否正在使用)及其指針，并將指針指回原來的inode記錄，這樣inode記錄中的block指針也就同時生效而找回對應(yīng)的data block了。由于卸載只是移除inode記錄，所以使用掛載點和文件系統(tǒng)都可以實現(xiàn)卸載，因為它們是聯(lián)系在一起的。

下面是分析或結(jié)論。

(1).掛載點掛載時的inode記錄是新分配的。

# 掛載前掛載點/mnt的inode號

[root@server2 tmp]# ll -id /mnt 
100663447 drwxr-xr-x. 2 root root 6 Aug 12 2015 /mnt 
[root@server2 tmp]# mount /dev/cdrom /mnt 
# 掛載后掛載點的inode號 
[root@server2 tmp]# ll -id /mnt  
1856 dr-xr-xr-x 8 root root 2048 Dec 10 2015 mnt

由此可以驗證，inode號確實是重新分配的。

(2).掛載后，掛載點的內(nèi)容將暫時不可見、不可用，卸載后文件又再次可見、可用。

# 在掛載前，向掛載點中創(chuàng)建幾個文件 
[root@server2 tmp]# touch /mnt/a.txt 
[root@server2 tmp]# mkdir /mnt/abcdir 
# 掛載 
[root@server2 tmp]# mount /dev/cdrom /mnt 
# 掛載后，掛載點中將找不到剛創(chuàng)建的文件 
[root@server2 tmp]# ll /mnt 
total 636 
-r--r--r-- 1 root root 14 Dec 10 2015 CentOS_BuildTag 
dr-xr-xr-x 3 root root 2048 Dec 10 2015 EFI 
-r--r--r-- 1 root root 215 Dec 10 2015 EULA 
-r--r--r-- 1 root root 18009 Dec 10 2015 GPL 
dr-xr-xr-x 3 root root 2048 Dec 10 2015 images 
dr-xr-xr-x 2 root root 2048 Dec 10 2015 isolinux 
dr-xr-xr-x 2 root root 2048 Dec 10 2015 LiveOS 
dr-xr-xr-x 2 root root 612352 Dec 10 2015 Packages 
dr-xr-xr-x 2 root root 4096 Dec 10 2015 repodata 
-r--r--r-- 1 root root 1690 Dec 10 2015 RPM-GPG-KEY-CentOS-7 
-r--r--r-- 1 root root 1690 Dec 10 2015 RPM-GPG-KEY-CentOS-Testing-7 
-r--r--r-- 1 root root 2883 Dec 10 2015 TRANS.TBL 
# 卸載后，掛載點/mnt中的文件將再次可見 
[root@server2 tmp]# umount /mnt 
[root@server2 tmp]# ll /mnt 
total 0 
drwxr-xr-x 2 root root 6 Jun 9 08:18 abcdir 
-rw-r--r-- 1 root root 0 Jun 9 08:18 a.txt

之所以會這樣，是因為掛載文件系統(tǒng)后，掛載點原來的inode記錄暫時被標(biāo)記為不可用，關(guān)鍵是沒有指向該inode記錄的inode指針了。在卸載文件系統(tǒng)后，又重新啟用掛載點原來的inode記錄，"/"目錄下的mnt的inode指針又重新指向該inode記錄。

(3).掛載后，掛載點的元數(shù)據(jù)和data block是分別存放在不同文件系統(tǒng)上的。

(4).掛載點即使在掛載后，也還是屬于源文件系統(tǒng)的文件。

7.3 多文件系統(tǒng)操作關(guān)聯(lián)

假如下圖中的圓代表一塊硬盤，其中劃分了3個區(qū)即3個文件系統(tǒng)。其中根是根文件系統(tǒng)，/mnt是另一個文件系統(tǒng)A的入口，A文件系統(tǒng)掛載在/mnt上，/mnt/cdrom也是一個文件系統(tǒng)B的入口，B文件系統(tǒng)掛載在/mnt/cdrom上。每個文件系統(tǒng)都維護(hù)了一些inode table，這里假設(shè)圖中的inode table是每個文件系統(tǒng)所有塊組中的inode table的集合表。

好文分享：ext文件系統(tǒng)機制原理詳解

如何讀取/var/log/messages呢?這是和"/"在同一個文件系統(tǒng)的文件讀取，在前面單文件系統(tǒng)中已經(jīng)詳細(xì)說明了。

但如何讀取A文件系統(tǒng)中的/mnt/a.log呢?首先，從根文件系統(tǒng)找到/mnt的inode記錄，這是單文件系統(tǒng)內(nèi)的查找;然后根據(jù)此inode記錄的block指針，定位到/mnt的data block中，這些block是A文件系統(tǒng)的data block;然后從/mnt的data block中讀取a.log記錄，并根據(jù)a.log的inode指針定位到A文件系統(tǒng)的inode table中對應(yīng)a.log的inode記錄;最后從此inode記錄的block指針找到a.log的data block。至此，就能讀取到/mnt/a.log文件的內(nèi)容。

下圖能更完整的描述上述過程。

好文分享：ext文件系統(tǒng)機制原理詳解

那么又如何讀取/mnt/cdrom中的/mnt/cdrom/a.rpm呢?這里cdrom代表的文件系統(tǒng)B掛載點位于/mnt下，所以又多了一個步驟。先找到"/"，再找到根中的mnt，進(jìn)入到mnt文件系統(tǒng)中，找到cdrom的data block，再進(jìn)入到cdrom找到a.rpm。也就是說，mnt目錄文件存放位置是根，cdrom目錄文件存放位置是mnt，最后a.rpm存放的位置才是cdrom。

繼續(xù)完善上圖。如下。

好文分享：ext文件系統(tǒng)機制原理詳解

8.ext3文件系統(tǒng)的日志功能

相比ext2文件系統(tǒng)，ext3多了一個日志功能。

在ext2文件系統(tǒng)中，只有兩個區(qū)：數(shù)據(jù)區(qū)和元數(shù)據(jù)區(qū)。如果正在向data block中填充數(shù)據(jù)時突然斷電，那么下一次啟動時就會檢查文件系統(tǒng)中數(shù)據(jù)和狀態(tài)的一致性，這段檢查和修復(fù)可能會消耗大量時間，甚至檢查后無法修復(fù)。之所以會這樣是因為文件系統(tǒng)在突然斷電后，它不知道上次正在存儲的文件的block從哪里開始、哪里結(jié)束，所以它會掃描整個文件系統(tǒng)進(jìn)行排除(也許是這樣檢查的吧)。

而在創(chuàng)建ext3文件系統(tǒng)時會劃分三個區(qū)：數(shù)據(jù)區(qū)、日志區(qū)和元數(shù)據(jù)區(qū)。每次存儲數(shù)據(jù)時，先在日志區(qū)中進(jìn)行ext2中元數(shù)據(jù)區(qū)的活動，直到文件存儲完成后標(biāo)記上commit才將日志區(qū)中的數(shù)據(jù)轉(zhuǎn)存到元數(shù)據(jù)區(qū)。當(dāng)存儲文件時突然斷電，下一次檢查修復(fù)文件系統(tǒng)時，只需要檢查日志區(qū)的記錄，將bmap對應(yīng)的data block標(biāo)記為未使用，并把inode號標(biāo)記未使用，這樣就不需要掃描整個文件系統(tǒng)而耗費大量時間。

雖說ext3相比ext2多了一個日志區(qū)轉(zhuǎn)寫元數(shù)據(jù)區(qū)的動作而導(dǎo)致ext3相比ext2性能要差一點，特別是寫眾多小文件時。但是由于ext3其他方面的優(yōu)化使得ext3和ext2性能幾乎沒有差距。

9.ext4文件系統(tǒng)

回顧前面關(guān)于ext2和ext3文件系統(tǒng)的存儲格式，它使用block為存儲單元，每個block使用bmap中的位來標(biāo)記是否空閑，盡管使用劃分塊組的方法優(yōu)化提高了效率，但是一個塊組內(nèi)部仍然使用bmap來標(biāo)記該塊組內(nèi)的block。對于一個巨大的文件，掃描整個bmap都將是一件浩大的工程。另外在inode尋址方面，ext2/3使用直接和間接的尋址方式，對于三級間接指針，可能要遍歷的指針數(shù)量是非常非常巨大的。

ext4文件系統(tǒng)的最大特點是在ext3的基礎(chǔ)上使用區(qū)(extent，或稱為段)的概念來管理。一個extent盡可能的包含物理上連續(xù)的一堆block。inode尋址方面也一樣使用區(qū)段樹的方式進(jìn)行了改進(jìn)。

默認(rèn)情況下，EXT4不再使用EXT3的block mapping分配方式，而改為Extent方式分配。

以下是ext4文件系統(tǒng)中一個文件的inode屬性示例，注意最后兩行的EXTENTS。

Inode: 12 Type: regular Mode: 0644 Flags: 0x80000 
Generation: 476513974 Version: 0x00000000:00000001 
User: 0 Group: 0 Size: 11 
File ACL: 0 Directory ACL: 0 
Links: 1 Blockcount: 8 
Fragment: Address: 0 Number: 0 Size: 0 
 ctime: 0x5b628ca0:491d6224 -- Thu Aug 2 12:46:24 2018 
 atime: 0x5b628ca0:491d6224 -- Thu Aug 2 12:46:24 2018 
 mtime: 0x5b628ca0:491d6224 -- Thu Aug 2 12:46:24 2018 
crtime: 0x5b628ca0:491d6224 -- Thu Aug 2 12:46:24 2018 
Size of extra inode fields: 28 
EXTENTS: 
(0):33409

(1). 關(guān)于EXT4的結(jié)構(gòu)特征

EXT4在總體結(jié)構(gòu)上與EXT3相似，大的分配方向都是基于相同大小的塊組，每個塊組內(nèi)分配固定數(shù)量的inode、可能的superblock(或備份)及GDT。

EXT4的inode 結(jié)構(gòu)做了重大改變，為增加新的信息，大小由EXT3的128字節(jié)增加到默認(rèn)的256字節(jié)，同時inode尋址索引不再使用EXT3的"12個直接尋址塊+1個一級間接尋址塊+1個二級間接尋址塊+1個三級間接尋址塊"的索引模式，而改為4個Extent片斷流，每個片斷流設(shè)定片斷的起始block號及連續(xù)的block數(shù)量(有可能直接指向數(shù)據(jù)區(qū)，也有可能指向索引塊區(qū))。

片段流即下圖中索引節(jié)點(inde node block)部分的綠色區(qū)域，每個15字節(jié)，共60字節(jié)。

好文分享：ext文件系統(tǒng)機制原理詳解

(2). EXT4刪除數(shù)據(jù)的結(jié)構(gòu)更改。

EXT4刪除數(shù)據(jù)后，會依次釋放文件系統(tǒng)bitmap空間位、更新目錄結(jié)構(gòu)、釋放inode空間位。

(3). ext4使用多block分配方式。

在存儲數(shù)據(jù)時，ext3中的block分配器一次只能分配4KB大小的Block數(shù)量，而且每存儲一個block前就標(biāo)記一次bmap。假如存儲1G的文件，blocksize是4KB，那么每存儲完一個Block就將調(diào)用一次block分配器，即調(diào)用的次數(shù)為1024*1024/4KB=262144次，標(biāo)記bmap的次數(shù)也為1024*1024/4=262144次。

而在ext4中根據(jù)區(qū)段來分配，可以實現(xiàn)調(diào)用一次block分配器就分配一堆連續(xù)的block，并在存儲這一堆block前一次性標(biāo)記對應(yīng)的bmap。這對于大文件來說極大的提升了存儲效率。

10.ext類的文件系統(tǒng)的缺點

最大的缺點是它在創(chuàng)建文件系統(tǒng)的時候就劃分好一切需要劃分的東西，以后用到的時候可以直接進(jìn)行分配，也就是說它不支持動態(tài)劃分和動態(tài)分配。對于較小的分區(qū)來說速度還好，但是對于一個超大的磁盤，速度是極慢極慢的。例如將一個幾十T的磁盤陣列格式化為ext4文件系統(tǒng)，可能你會因此而失去一切耐心。

除了格式化速度超慢以外，ext4文件系統(tǒng)還是非?？扇〉?。當(dāng)然，不同公司開發(fā)的文件系統(tǒng)都各有特色，最主要的還是根據(jù)需求選擇合適的文件系統(tǒng)類型。

11.虛擬文件系統(tǒng)VFS

每一個分區(qū)格式化后都可以建立一個文件系統(tǒng)，Linux上可以識別很多種文件系統(tǒng)，那么它是如何識別的呢?另外，在我們操作分區(qū)中的文件時，并沒有指定過它是哪個文件系統(tǒng)的，各種不同的文件系統(tǒng)如何被我們用戶以無差別的方式操作呢?這就是虛擬文件系統(tǒng)的作用。

虛擬文件系統(tǒng)為用戶操作各種文件系統(tǒng)提供了通用接口，使得用戶執(zhí)行程序時不需要考慮文件是在哪種類型的文件系統(tǒng)上，應(yīng)該使用什么樣的系統(tǒng)調(diào)用來操作該文件。有了虛擬文件系統(tǒng)，只要將所有需要執(zhí)行的程序調(diào)用VFS的系統(tǒng)調(diào)用就可以了，剩下的動作由VFS來幫忙完成。

責(zé)任編輯：華軒來源：博客園

操作系統(tǒng)Linux CentOSMac

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="tg660"></cite>

<blockquote id="tg660"><p id="tg660"></p></blockquote>^{<blockquote id="tg660"></blockquote>}