排查構(gòu)建鏡像時 IO 慢問題
?1. 遇到的問題
項目介紹:
- 文件大小 5.6 GB
- 文件數(shù)量 529352
Dockerfile
構(gòu)建命令及輸入如下:
其中比較花時間的是:
- 10s,load build context
- 26s,執(zhí)行 COPY 操作
- 67s,導(dǎo)出鏡像,鏡像大小 5.79GB
以下也是按照這個思路進(jìn)行逐一排查,測試驗證,尋找構(gòu)建時的 IO 瓶頸。
2. 自制 go client 直接提交給 Dockerd 構(gòu)建效果不佳
工程 https://github.com/shaowenchen/demo/tree/master/buidl-cli 實現(xiàn)的功能就是將本地的 Dockerfile 及上下文提交給 Dockerd 進(jìn)行構(gòu)建,從而測試 Docker CLI 是否有提交文件上的瓶頸。
2.1 編譯生成二進(jìn)制文件
2.2 自制二進(jìn)制提交構(gòu)建任務(wù)
使用 Go 寫的 cli 工具,將構(gòu)建上下文提交給 Dockerd 進(jìn)行構(gòu)建,時長急劇增加;與此同時,構(gòu)建機的負(fù)載飆升。
也可能還有其他優(yōu)化點,需要慢慢調(diào)試。而 Docker CLI 其實也有相關(guān)的參數(shù)可以用于減少 IO 占用時間。
3. 構(gòu)建參數(shù) compress、stream 參數(shù)優(yōu)化效果不佳
compress 會將上下文壓縮為 gzip 格式進(jìn)行傳輸,而 stream 會以流的形式傳輸上下文。
3.1 使用 compress 優(yōu)化
3.2 使用 stream 優(yōu)化
這兩個參數(shù)對縮短構(gòu)建時間,并沒有什么效果。但需要注意的是測試項目的文件大而且數(shù)量多,如果測試用例發(fā)生變化,可能產(chǎn)生不同的效果。接著,我們一起看看文件數(shù)量、文件大小對 Dockerd 構(gòu)建鏡像的影響。
4. 文件數(shù)量對 COPY 影響遠(yuǎn)不及文件大小
4.1 準(zhǔn)備測試文件
在 data 目錄下放置了一個 119MB 的文件,通過復(fù)制該文件不斷增加 build context 的大小。
4.2 測試 Dockerfile
4.3 構(gòu)建命令
4.4 測試文件大小對 COPY 影響明顯
文件大小 | 構(gòu)建時長 | 文件個數(shù) |
119M | 0.3s | 1個 |
237M | 0.4s | 2個 |
355M | 0.5s | 3個 |
473M | 0.6s | 4個 |
1.3G | 3.7s | 11個 |
2.6G | 9.0s | 22個 |
文件大小對 COPY 影響明顯,接近線性增長。
4.5 測試文件數(shù)量對 COPY 影響甚微
文件大小 | 構(gòu)建時長 | 文件個數(shù) |
2.9G | 13.8s | 264724個 |
5.6G | 37.1s | 529341個 |
文件數(shù)量對 COPY 影響不大。這是由于在 Docker CLI 將 build context 發(fā)送給 Dockerd 時,會對 context 進(jìn)行 tar 打包,并不是一個一個文件傳輸。
4.6 構(gòu)建并發(fā)數(shù)的瓶頸在磁盤IO
5.6G 529341個
并發(fā)量 | 構(gòu)建時長 |
1 | 37.1s |
2 | 46s |
3 | 81s |
通過 iotop 可以實時觀測到磁盤寫速度,最快能達(dá)到 200MB/s,與文件系統(tǒng) 4K 隨機寫速度最接近。
由于公用一個 Dockerd,并發(fā)時 Dockerd 吞吐會有瓶頸,系統(tǒng)磁盤 IO 也會成為瓶頸。
5. 不清理 Buildkit 緩存對新的構(gòu)建影響甚微
如果提示找不到 docker build?,則需要開啟EXPERIMENTAL? 或者沒有 buildx,需要下載 docker-buildx? 到 /usr/libexec/docker/cli-plugins/ 目錄。
- 查看 build 緩存
- 清理全部 build 緩存
僅當(dāng)開啟 BuildKit 時,才會產(chǎn)生 Build cache。生產(chǎn)環(huán)境的緩存大小達(dá)到 1.408TB,但比較清理前后,對于新項目的構(gòu)建并沒有發(fā)現(xiàn)明顯構(gòu)建速度變化;對于老項目,如果沒有變動,命中緩存后速度很快??赡艿脑蚴蔷彺骐m大但條目不多,查詢是否有緩存的時間開銷很小。
但定期定理緩存,有利于預(yù)防磁盤被占滿的風(fēng)險。
- 定時清理遠(yuǎn)期的構(gòu)建緩存
清理掉 72h 之前的緩存
6. 構(gòu)建不會限制 CPU 但 IO 速度很慢
6.1 測試 CPU 限制
Dockerfile 文件
構(gòu)建機有 40C,構(gòu)建時機器 CPU 負(fù)載能達(dá)到 95%,說明構(gòu)建時,Dockerd 默認(rèn)不會對 CPU 消耗進(jìn)行限制。在生產(chǎn)環(huán)境下,出現(xiàn)過 npm run build 占用 十幾個 GB 內(nèi)存的場景,因此我判斷 Dockerd 默認(rèn)也不會對內(nèi)存消耗進(jìn)行限制。
6.2 在 Dockerfile 中測試 IO
Dockerfile 文件
6.3 在容器中測試 IO
6.4 在容器的存儲卷中測試 IO
6.5 在主機上試 IO
Dockerd 在構(gòu)建 Dockerfile 時,遇到 Run 命令會啟動一個容器運行,然后提交鏡像。從測試結(jié)果,可以看到 Dockerfile 中的 IO 速度遠(yuǎn)達(dá)不到主機的,與容器中的 IO 速度一致;主機存儲卷的 IO 速度與主機的 IO 速度一致。
7. 直接使用 buildkitd 構(gòu)建效果不佳
雖然可以通過 DOCKER_BUILDKIT=1 開啟 Buildkit 構(gòu)建,但如果直接使用 buildkitd 效果不錯,用于替換 Dockerd 構(gòu)建也是一個不錯的選擇。
7.1 安裝 buildkit
7.2 部署 buildkitd
查看到 buildkitd 正常運行即可。
7.3 測試 buildctl 提交構(gòu)建
使用 buildctl 提交給 buildkitd 進(jìn)行構(gòu)建,需要的時間更多,達(dá)到 4min,較之前增加一倍。
8. 當(dāng)前存儲驅(qū)動下讀寫鏡像有瓶頸
8.1 查看 Dockerd 處理邏輯
在代碼 https://github.com/moby/moby/blob/8d193d81af9cbbe800475d4bb8c529d67a6d8f14/builder/dockerfile/dispatchers.go 可以找到處理 Dockerfile 的邏輯。
1,Add 和 Copy 都是調(diào)用 performCopy 函數(shù) 2,performCopy 中調(diào)用 NewRWLayer() 新建層,調(diào)用 exportImage 寫入數(shù)據(jù)
因此,懷疑的是 Dockerd 寫鏡像層速度慢。
8.2 測試鏡像層寫入速度
準(zhǔn)備一個鏡像,大小 16GB,一共 18 層。
- 導(dǎo)入鏡像
- 保存鏡像
docker load? 和 docker save 速度差不多,對鏡像層的處理速度大約為 100 MB/s。這個速度比磁盤 4K 隨機寫速度少了近 30%。在我看來,如果是個人使用勉強接受;如果用于對外提供構(gòu)建服務(wù)的平臺產(chǎn)品,這塊磁盤顯然是不合適的。
8.3 存儲驅(qū)動怎么選
下面是從 https://docs.docker.com/storage/storagedriver/select-storage-driver/ 整理得出的一個比較表格:
存儲驅(qū)動 | 文件系統(tǒng)要求 | 高頻寫入性能 | 穩(wěn)定性 | 其他 |
overlay2 | xfs、ext4 | 差 | 好 | 當(dāng)前首選 |
fuse-overlayfs | 無限制 | - | - | 適用 rootless 場景 |
btrfs | btrfs | 好 | - | - |
zfs | zfs | 好 | - | - |
vfs | 無限制 | - | - | 不建議生產(chǎn) |
aufs | xfs、ext4 | - | 好 | Docker 18.06 及之前版本首選,不維護(hù) |
devicemapper | direct-lvm | 好 | 好 | 不維護(hù) |
overlay | xfs、ext4 | 差,但好于 overlay2 | - | 不維護(hù) |
排除不維護(hù)和非生產(chǎn)適用的,可選項其實沒幾個。正好有一臺機器,前段時間初始化時,將磁盤格式化成 Btrfs 文件格式,可以用于測試。zfs 存儲驅(qū)動推薦用于高密度 PaaS 系統(tǒng)。
8.4 測試 Btrfs 存儲驅(qū)動
- 在主機上
- 容器下的測試命令
運行容器
執(zhí)行測試
- 測試 overlay2 存儲驅(qū)動
- 測試 btrfs 存儲驅(qū)動
可以明顯看到 btrfs 存儲驅(qū)動在速度上優(yōu)于 overlay2。
9. 總結(jié)
本篇主要是記錄在生產(chǎn)環(huán)境下碰到的 Dockerfile 構(gòu)建 IO 慢問題排查過程。
通過設(shè)計各種測試案例排查問題,對各個要素進(jìn)行一一驗證,需要極大耐心,也特別容易走錯方向,得出錯誤結(jié)論。
本篇主要觀點如下:
- compress、stream 參數(shù)對構(gòu)建速度不一定有效
- 減少構(gòu)建上下文大小,有利于緩解構(gòu)建 IO 壓力
- Buildkit 的緩存可以不用頻繁清理
- 構(gòu)建 Dockerfile 執(zhí)行命令時,CPU、Mem 不會受到限制,但 IO 速度慢
- 使用 buildkitd 構(gòu)建速度不如 Dockerd 開啟 DOCKER_BUILDKIT
- 使用 Btrfs 存儲有利于獲得更好的 IO 速度
但最簡單的還是使用 4K 隨機讀寫快的磁盤,在拿到新的環(huán)境用于生產(chǎn)之前,務(wù)必先進(jìn)行測試,僅當(dāng)滿足需求時,再執(zhí)行后續(xù)計劃。
10. 參考
- https://docs.docker.com/engine/reference/commandline/build/
- https://docs.docker.com/build/install-buildx/
- https://flyer103.com/2022/08/20220806-buildkitd-usage/
- https://pepa.holla.cz/2019/11/18/how-build-own-docker-image-in-golang/