詳細(xì)分析du和df的統(tǒng)計(jì)結(jié)果為什么不一樣
我們常常使用du和df來(lái)獲取目錄或文件系統(tǒng)已占用空間的情況。但它們的統(tǒng)計(jì)結(jié)果是不一致的,大多數(shù)時(shí)候,它們的結(jié)果相差不會(huì)很大,但有時(shí)候它們的統(tǒng)計(jì)結(jié)果會(huì)相差非常大。
df的統(tǒng)計(jì)結(jié)果
- [root@xuexi ~]# df -hT
- Filesystem Type Size Used Avail Use% Mounted on
- /dev/sda2 ext4 18G 1.7G 15G 11% /
- tmpfs tmpfs 491M 0 491M 0% /dev/shm
- /dev/sda1 ext4 239M 68M 159M 30% /boot
- //192.168.0.124/win cifs 381G 243G 138G 64% /mnt
du對(duì)根目錄的統(tǒng)計(jì)結(jié)果
- [root@xuexi ~]# du -sh / 2>/dev/null
- 244G /
df中"/"的使用空間是1.7G,但是du的結(jié)果卻是244G。這里du的統(tǒng)計(jì)結(jié)果大于df。再看看對(duì)/boot分區(qū)的統(tǒng)計(jì)結(jié)果。
- [root@xuexi ~]# df -hT /boot;echo;du -sh /boot
- Filesystem Type Size Used Avail Use% Mounted on
- /dev/sda1 ext4 239M 68M 159M 30% /boot
- 66M /boot
du的結(jié)果是66M,df的結(jié)果是68M,相差不大,但df的結(jié)果大于du。
文件存儲(chǔ)和刪除的底層過(guò)程
這里簡(jiǎn)單說(shuō)明下文件系統(tǒng)相關(guān)的底層機(jī)制,首先說(shuō)明下文件是怎么存儲(chǔ)到文件系統(tǒng)中的。假如要存儲(chǔ)a.txt到/tmp目錄下。
當(dāng)a.txt文件要存儲(chǔ)到/tmp下時(shí):
- (1).首先從inode table中找一個(gè)空閑的inode號(hào)分配給a.txt,例如2222。再將inode map(imap)中2222這個(gè)inode號(hào)標(biāo)記為已使用。
- (2).在/tmp的data block中添加一條a.txt文件的記錄。該記錄中包括一個(gè)指向inode號(hào)的指針,例如"0x2222"。
- (3).然后從block map(bmap)中找出空閑的data block,并開(kāi)始將a.txt中的數(shù)據(jù)寫(xiě)入到data block中。每寫(xiě)一段空間(ext4每次分配一段空間)就從bmap中找一次空閑的data block,直到存完所有數(shù)據(jù)。
- (4).設(shè)置inode table中關(guān)于2222這條記錄的data block指針,通過(guò)該指針可以找到a.txt使用了哪些data block。
當(dāng)要?jiǎng)h除a.txt文件時(shí):
- (1).在inode table中刪除指向a.txt的data block指針。這里只要一刪除,外界就找不到a.txt的數(shù)據(jù)了。但是這個(gè)文件還存在,只是它是被"損壞"的文件,因?yàn)闆](méi)有任何指針指向數(shù)據(jù)塊。
- (2).在imap中將2222的inode號(hào)標(biāo)記為未使用。于是這個(gè)inode號(hào)就被釋放,可以被后續(xù)的文件重用。
- (3).刪除父目錄/tmp的data block中關(guān)于a.txt的記錄。這里只要一刪除,外界就看不到也找不到這個(gè)文件了。
- (4).在bmap中將a.txt占用的block標(biāo)記為未使用。這里被標(biāo)記為未使用后,這些data block就可以被后續(xù)文件覆蓋重用。
考慮一種情況,當(dāng)一個(gè)文件被刪除時(shí),但此時(shí)還有進(jìn)程在使用這個(gè)文件,這時(shí)是怎樣的情況呢?外界是看不到也找不到這個(gè)文件的,所以刪除的過(guò)程已經(jīng)進(jìn)行到了第(3)步。
但進(jìn)程還在使用這個(gè)文件的數(shù)據(jù),也能找到這個(gè)文件的數(shù)據(jù),是因?yàn)檫M(jìn)程在加載這個(gè)文件的時(shí)候就已經(jīng)獲取到了該文件占用哪些data block,雖然刪除了文件,但bmap中這些data block還沒(méi)有標(biāo)記為未使用。
du統(tǒng)計(jì)的原理
du是通過(guò)stat命令來(lái)統(tǒng)計(jì)每個(gè)文件(包括子目錄)的空間占用總和。因?yàn)闀?huì)對(duì)每個(gè)涉及到的文件使用stat命令,所以速度較慢。
1.如果統(tǒng)計(jì)目錄下掛載了其他文件系統(tǒng),那么也會(huì)對(duì)這個(gè)文件系統(tǒng)進(jìn)行統(tǒng)計(jì)。例如"du -sh /"的時(shí)候,會(huì)統(tǒng)計(jì)所有分區(qū)的文件,包括掛載上來(lái)的。正如本文開(kāi)頭統(tǒng)計(jì)的"/"一樣,du的結(jié)果是244G,明顯比df統(tǒng)計(jì)的結(jié)果大,就是因?yàn)閷⒛硞€(gè)分區(qū)掛載到了/mnt目錄下。
- ## df的統(tǒng)計(jì)結(jié)果
- [root@xuexi ~]# df -hT
- Filesystem Type Size Used Avail Use% Mounted on
- /dev/sda2 ext4 18G 1.7G 15G 11% /
- tmpfs tmpfs 491M 0 491M 0% /dev/shm
- /dev/sda1 ext4 239M 68M 159M 30% /boot
- //192.168.0.124/win cifs 381G 243G 138G 64% /mnt
- ## du對(duì)根目錄的統(tǒng)計(jì)結(jié)果
- [root@xuexi ~]# du -sh / 2>/dev/null
- 244G /
2.如果文件被刪除,即使被其他進(jìn)程引用了,du命令也無(wú)法對(duì)其統(tǒng)計(jì)。因?yàn)閟tat命令找不到這個(gè)文件。
3.可以跨分區(qū)統(tǒng)計(jì)某些你想統(tǒng)計(jì)的文件大小總和。因?yàn)樗鼈兌寄鼙籹tat找到并統(tǒng)計(jì)。例如:統(tǒng)計(jì)Linux下所有img文件的大小。
- ## df的統(tǒng)計(jì)結(jié)果
- [root@xuexi ~]# find / -type f -name "*.img" -print0 | xargs -0 du -csh
- 19M /boot/initramfs-2.6.32-504.el6.x86_64.img
- 13M /mnt/linux工具/cirros-0.3.4-x86_64-disk.img
- 31M total
這里統(tǒng)計(jì)的兩個(gè)img文件就是在不同分區(qū)內(nèi)的。
df統(tǒng)計(jì)的原理
df是讀取每個(gè)分區(qū)的superblock來(lái)獲取空閑數(shù)據(jù)塊、已使用數(shù)據(jù)塊,從而計(jì)算出空閑空間和已使用空間,因此df統(tǒng)計(jì)的速度極快(superblock才占用1024字節(jié))。
1.當(dāng)某個(gè)文件系統(tǒng)下掛載了其他分區(qū),df不會(huì)把這個(gè)分區(qū)也統(tǒng)計(jì)進(jìn)去。這很容易理解,因?yàn)閐f讀取的是各自分區(qū)的superblock,即使分區(qū)1掛載在分區(qū)0的目錄下,df統(tǒng)計(jì)分區(qū)0的時(shí)候,也只能讀取分區(qū)0的superblock。
例如,下面的/mnt、/boot都沒(méi)有統(tǒng)計(jì)在"/"中。
- [root@xuexi ~]# df -hT
- Filesystem Type Size Used Avail Use% Mounted on
- /dev/sda2 ext4 18G 1.7G 15G 11% /
- tmpfs tmpfs 491M 0 491M 0% /dev/shm
- /dev/sda1 ext4 239M 68M 159M 30% /boot
- //192.168.0.124/win cifs 381G 243G 138G 64% /mnt
2.由于df每次統(tǒng)計(jì)都是讀取superblock,所以df對(duì)文件系統(tǒng)中的某個(gè)文件進(jìn)行統(tǒng)計(jì)時(shí),會(huì)自動(dòng)轉(zhuǎn)為統(tǒng)計(jì)這個(gè)文件系統(tǒng)的信息。
- [root@xuexi ~]# df -hT /etc/fstab
- Filesystem Type Size Used Avail Use% Mounted on
- /dev/sda2 ext4 18G 1.7G 15G 11% /
3.df會(huì)統(tǒng)計(jì)已刪除但卻仍有進(jìn)程引用的文件。
正常情況下,刪除文件會(huì)立刻釋放相關(guān)指針,并將imap和bmap中相關(guān)的位圖標(biāo)記為未使用。bmap只要一改變,文件系統(tǒng)立刻就能知道每個(gè)塊組中哪些數(shù)據(jù)塊是空閑的,哪些數(shù)據(jù)塊是被使用的,這些信息都會(huì)更新到分區(qū)的superblock中。于是df能立刻統(tǒng)計(jì)到實(shí)時(shí)的空間信息。
但是當(dāng)一個(gè)文件被刪除時(shí),如果還有進(jìn)程在引用這個(gè)文件,根據(jù)前文的分析,bmap中不會(huì)將這個(gè)文件的data block標(biāo)記為未使用,也就不會(huì)將數(shù)據(jù)塊的使用情況更新到superblock中。由于df是根據(jù)superblock中空閑和使用數(shù)據(jù)塊的數(shù)量來(lái)計(jì)算空閑空間和已使用空間的,所以df統(tǒng)計(jì)的時(shí)候會(huì)將這個(gè)已被"刪除"的文件統(tǒng)計(jì)到已使用空間中。
例如,創(chuàng)建一個(gè)較大一點(diǎn)的文件放在"/"目錄下,并du和df統(tǒng)計(jì)根目錄的已使用空間。
- [root@xuexi ~]# dd if=/dev/zero of=/my.iso bs=1M count=1000
- [root@xuexi ~]# df -hT /
- Filesystem Type Size Used Avail Use% Mounted on
- /dev/sda2 ext4 18G 2.7G 14G 17% /
- [root@xuexi ~]# du -sh --exclude="/mnt" / 2>/dev/null
- 2.7G /
它們?cè)贕B級(jí)的單位上是相等的?,F(xiàn)在使用一個(gè)進(jìn)程來(lái)引用這個(gè)文件,然后刪除這個(gè)文件,再du和df統(tǒng)計(jì)。
- [root@xuexi ~]# tail -f /my.iso &
- [root@xuexi ~]# rm -rf /my.iso
- [root@xuexi ~]# ls /my.iso
- ls: cannot access /my.iso: No such file or directory
- [root@xuexi ~]# du -sh --exclude="/mnt" / 2>/dev/null
- 1.8G /
- [root@xuexi ~]# df -hT /
- Filesystem Type Size Used Avail Use% Mounted on
- /dev/sda2 ext4 18G 2.7G 14G 17% /
可以發(fā)現(xiàn),外界已經(jīng)獲取不到my.iso文件了,所以du無(wú)法統(tǒng)計(jì)這個(gè)文件。而df卻將該文件大小統(tǒng)計(jì)進(jìn)去了,因?yàn)閙y.iso占用的data block還未被標(biāo)記為未使用。再關(guān)掉tail進(jìn)程,然后df再統(tǒng)計(jì)空間,結(jié)果將和du一樣顯示為正常的大小。
- [root@xuexi ~]# jobs
- [1]+ Running tail -f /my.iso &
- [root@xuexi ~]# kill %1
- [root@xuexi ~]# df -hT /
- Filesystem Type Size Used Avail Use% Mounted on
- /dev/sda2 ext4 18G 1.7G 15G 11% /
如果不知道文件系統(tǒng)中哪些已被刪除,但卻還被進(jìn)程引用的文件,可以使用lsof來(lái)獲取。通過(guò)它還能獲取到文件的大小,看看到底是哪個(gè)文件在"占著茅坑以及占了多少茅坑"。例如,關(guān)掉tail進(jìn)程前,使用lsof查看??梢钥吹絫ail進(jìn)程占用了/my.iso,且這個(gè)文件的大小為1048576000字節(jié)。
- [root@xuexi ~]# lsof | grep deleted
- php-fpm 12597 root txt REG 8,2 4058416 931143 /usr/sbin/php-fpm (deleted)
- php-fpm 12657 nobody txt REG 8,2 4058416 931143 /usr/sbin/php-fpm (deleted)
- php-fpm 12707 nobody txt REG 8,2 4058416 931143 /usr/sbin/php-fpm (deleted)
- php-fpm 12708 nobody txt REG 8,2 4058416 931143 /usr/sbin/php-fpm (deleted)
- tail 14437 root 3r REG 8,2 1048576000 7171 /my.iso (deleted)
經(jīng)過(guò)上面的分析,想必對(duì)du和df的結(jié)果不會(huì)再有任何疑惑了吧。