如何監(jiān)測 Linux 的磁盤 I/O 性能
在我之前的文章:《探討 Linux 的磁盤 I/O》中,我談到了 Linux 磁盤 I/O 的工作原理,我們了解到 Linux 存儲系統(tǒng) I/O 棧由文件系統(tǒng)層(file system layer)、通用塊層( general block layer)和設(shè)備層(device layer)構(gòu)成。
其中,通用塊層是 Linux 磁盤 I/O 的核心。向上,它為訪問文件系統(tǒng)和應(yīng)用程序的塊設(shè)備提供了標(biāo)準(zhǔn)接口;向下,它將各種異構(gòu)磁盤設(shè)備抽象為一個(gè)統(tǒng)一的塊設(shè)備,并響應(yīng)文件系統(tǒng)和應(yīng)用程序發(fā)送的 I/O。
在本文中,我們來看看磁盤的性能指標(biāo)以及如何查看這些指標(biāo)。
Linux 磁盤性能指標(biāo)
在衡量磁盤性能時(shí),我們經(jīng)常提到五個(gè)常見指標(biāo):利用率、飽和度、IOPS、吞吐量和響應(yīng)時(shí)間。這五個(gè)指標(biāo)是衡量磁盤性能的基本指標(biāo)。
- 利用率(Utilization):磁盤處理 I/O 的時(shí)間百分比。過度使用(如超過 80%)通常意味著磁盤 I/O 存在性能瓶頸。
- 飽和度(Saturation):指磁盤處理 I/O 的繁忙程度。過度飽和意味著磁盤存在嚴(yán)重的性能瓶頸。當(dāng)飽和度為 100% 時(shí),磁盤無法接受新的 I/O 請求。
- IOPS(Input/Output Per Second):指每秒 I/O 請求的數(shù)量。
- 吞吐量(Throughput):每秒 I/O 請求的大小。
- 響應(yīng)時(shí)間(Response time):指發(fā)送 I/O 請求和接收響應(yīng)之間的間隔時(shí)間。
這里需要注意的是,關(guān)于利用率,我們只考慮有無 I/O,而不考慮 I/O 的大小。也就是說,當(dāng)利用率為 100% 時(shí),磁盤仍有可能接受新的 I/O 請求。
一般來說,在為應(yīng)用選擇服務(wù)器時(shí),首先要對磁盤的 I/O 性能進(jìn)行基準(zhǔn)測試,這樣才能準(zhǔn)確評估磁盤性能,以判斷是否能夠滿足應(yīng)用的需求。
當(dāng)然,這需要你在隨機(jī)讀、順序讀、隨機(jī)寫、順序?qū)?/strong>等各種應(yīng)用場景下測試不同 I/O 大?。ㄍǔJ?512B ~ 1MB 之間)的性能。
磁盤 I/O 觀察
首先要觀察的是每個(gè)磁盤的使用情況。iostat 是最常用的磁盤 I/O 性能觀察工具。它提供了各種常用性能指標(biāo),例如每個(gè)磁盤的利用率、IOPS 和吞吐量。當(dāng)然,這些指標(biāo)實(shí)際上來自 ??/proc/diskstats?
?。
以下是 ??iostat?
? 的輸出示例:
# -d -x means display all disk I/O performance
$ iostat -d -x 1
Device r/s w/s rkB/s wkB/s rrqm/s wrqm/s %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz svctm %util
loop0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
loop1 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
sdb 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
在上述指標(biāo)中,您需要注意的是:
%util
是我們前面提到的磁盤 I/O 使用情況r/s
和w/s
是 IOPSrkB/s
和wkB/s
是吞吐量r_await
和w_await
是響應(yīng)時(shí)間
您可能已經(jīng)注意到 ??iostat?
? 不能直接獲取磁盤的飽和度。事實(shí)上,通常沒有什么簡單的方法可以測量飽和度。但是,您可以將觀察到的平均請求隊(duì)列長度或完成讀寫請求的等待時(shí)間與基準(zhǔn)測試(例如通過 fio)的結(jié)果進(jìn)行比較,以綜合評估磁盤飽和度。
進(jìn)程 I/O 觀察
除了每個(gè)磁盤的 I/O 情況,每個(gè)進(jìn)程的 I/O 情況也是大家關(guān)注的重點(diǎn)。
上面提到的 ??iostat?
? 只提供了觀察磁盤的整體 I/O 性能數(shù)據(jù)。缺點(diǎn)是無法知道哪些進(jìn)程正在讀寫磁盤。要觀察進(jìn)程的 I/O,還可以使用 ??pidstat?
? 和 ??iotop?
? 工具。
例如,要使用 ??pidstat?
?
$ pidstat -d 1
13:39:51 UID PID kB_rd/s kB_wr/s kB_ccwr/s iodelay Command
13:39:52 102 916 0.00 4.00 0.00 0 rsyslogd
從 ??pidstat?
? 的輸出可以看出,它可以實(shí)時(shí)查看每個(gè)進(jìn)程的 I/O 情況,這包括以下內(nèi)容:
- 用戶 ID (
UID
) 和進(jìn)程 ID (PID
)。 - 每秒讀取的數(shù)據(jù)大小 (
kB_rd/s
),以 KB 為單位。 - 每秒發(fā)出的寫請求數(shù)據(jù)的大小(
kB_wr/s
),單位為KB。 - 每秒取消寫入請求的數(shù)據(jù)大小 (
kB_ccwr/s
),以 KB 為單位。 - 塊 I/O 延遲 (
iodelay
),包括等待同步塊(synchronized block)I/O 和換入塊(swap-in block)I/O 完成的時(shí)間,以時(shí)鐘周期為單位。
除了使用 ??pidstat?
? 實(shí)時(shí)查看進(jìn)程磁盤 I/O 外,還有一個(gè)磁盤性能分析的常用方法是根據(jù) I/O 大小對進(jìn)程進(jìn)行排序。為此,我推薦 ??iotop?
? 工具。它是一個(gè)類似于 ??top?
? 的工具,您可以按 I/O 大小對進(jìn)程進(jìn)行排序,并找到具有更大 I/O 的進(jìn)程。
$ iotop
Total DISK READ : 0.00 B/s | Total DISK WRITE : 7.85 K/s
Actual DISK READ: 0.00 B/s | Actual DISK WRITE: 0.00 B/s
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
15055 be/3 root 0.00 B/s 7.85 K/s 0.00 % 0.00 % systemd-journald
從該輸出可以看到,前兩行分別代表進(jìn)程的磁盤讀寫總大小和磁盤的實(shí)際讀寫總大小。由于緩存、緩沖區(qū)、I/O 合并等因素,它們可能不相等。
剩下的部分從各個(gè)角度代表了進(jìn)程的 I/O 情況,包括 線程 ID、I/O 優(yōu)先級、每秒磁盤讀取大小、每秒磁盤寫入大小、換入百分比和等待 I/O 時(shí)鐘百分比。
結(jié)論
在本文中,我介紹了 Linux 磁盤 I/O 的性能指標(biāo)和查看性能工具。我們通常使用 IOPS、吞吐量、利用率、飽和度和響應(yīng)時(shí)間等幾個(gè)指標(biāo)來評估磁盤的 I/O 性能。
可以使用 ??iostat?
? 獲取磁盤的 I/O 情況,也可以使用 ??pidstat?
?、??iotop?
? 等觀察進(jìn)程的 I/O 情況。但在分析這些性能指標(biāo)時(shí),要注意結(jié)合讀寫比率、I/O 類型、I/O 大小等綜合分析。