深入理解K8s資源限制,你明白了嗎?
深入理解K8s資源限制
資源限制是 Kubernetes 中可配置的重要選項(xiàng)之一,它包含兩方面內(nèi)容:
工作負(fù)載的資源需求:用于定義工作負(fù)載運(yùn)行時(shí)所需的最低資源。調(diào)度器根據(jù)這一信息選擇合適的節(jié)點(diǎn)來(lái)部署工作負(fù)載。
資源的最大限制:用于規(guī)定工作負(fù)載可以消耗的資源上限。Kubelet 節(jié)點(diǎn)守護(hù)進(jìn)程依賴這一配置來(lái)管理 Pod 的運(yùn)行和健康狀態(tài)。
換句話說(shuō),資源需求確保工作負(fù)載能夠正常運(yùn)行,而資源限制則避免單個(gè)工作負(fù)載過(guò)度消耗節(jié)點(diǎn)資源。
資源限制
資源限制通過(guò)每個(gè)容器的 containerSpec 中的 resources 字段進(jìn)行設(shè)置,該字段是 v1 版本的 ResourceRequirements 類型的 API 對(duì)象。通過(guò)設(shè)置 limits 和 requests,可以分別定義資源的上限和需求。
當(dāng)前支持的資源類型主要有 CPU 和 內(nèi)存。通常情況下,deployment、statefulset 和 daemonset 的定義中都會(huì)包含 podSpec,而 podSpec 內(nèi)部會(huì)定義一個(gè)或多個(gè) containerSpec。
以下是一個(gè)完整的 v1 資源對(duì)象的 YAML 配置示例:
resources:
requests:
cpu: 50m
memory: 50Mi
limits:
cpu: 100m
memory: 100Mi
可以這樣理解:該容器通常需要 5% 的 CPU 時(shí)間 和 50MiB 的內(nèi)存(由 requests 定義),但在高峰時(shí)允許其最多使用 10% 的 CPU 時(shí)間 和 100MiB 的內(nèi)存(由 limits 定義)。
稍后我會(huì)更詳細(xì)地解釋 requests 和 limits 的區(qū)別,但一般來(lái)說(shuō):
- requests 在調(diào)度階段更為關(guān)鍵,因?yàn)檎{(diào)度器會(huì)根據(jù) requests 判斷節(jié)點(diǎn)是否有足夠的資源來(lái)運(yùn)行容器。
- limits 在運(yùn)行階段更重要,Kubelet 會(huì)使用它來(lái)限制容器的資源消耗,確保單個(gè)容器不會(huì)過(guò)度占用節(jié)點(diǎn)資源。
雖然資源限制是為每個(gè)容器配置的,但 Pod 的整體資源限制可以視為其所有容器資源限制的總和。從系統(tǒng)的角度來(lái)看,這種關(guān)系非常直觀。
內(nèi)存限制
CPU資源限制比內(nèi)存資源限制更復(fù)雜,但它們都是通過(guò)cgroup控制的,所以我們可以用類似的方法來(lái)處理。接下來(lái),我們重點(diǎn)看它們的不同之處。
首先,我們?cè)谥暗?YAML 文件中加入 CPU 的資源限制:
resources:
requests:
memory: 50Mi
cpu: 50m
limits:
memory: 100Mi
cpu: 100m
這里的 m 表示千分之一核。例如,50m 代表 0.05 核,100m 代表 0.1 核,而 2000m 就是 2 核。這樣配置后,容器需要至少 5% 的 CPU 資源才能運(yùn)行,同時(shí)最多能使用 10% 的 CPU 資源。
接著,我們創(chuàng)建一個(gè)只配置了 CPU requests 的 Pod:
kubectl run limit-test --image=busybox --requests "cpu=50m" --command -- /bin/sh -c "while true; do sleep 2; done"
用以下命令可以驗(yàn)證 Pod 的資源配置:
kubectl get pods limit-test-5b4c495556-p2xkr -o=jsnotallow='{.spec.containers[0].resources}'
輸出:
map[requests:map[cpu:50m]]
同時(shí),用 Docker 查看容器對(duì)應(yīng)的 CPU 配置:
docker ps | grep busy | cut -d' ' -f1
f2321226620e
docker inspect f2321226620e --format '{{.HostConfig.CpuShares}}'
51
這里顯示 51 而不是 50,是因?yàn)?Kubernetes 把 CPU 核心劃分為 1000 個(gè)份額(shares),而 Linux 內(nèi)核用 1024 個(gè)時(shí)間片表示 CPU 的分配比例。CPU 的 shares 是一個(gè)相對(duì)值,用來(lái)劃分 CPU 使用權(quán):
- 如果有兩個(gè) cgroup(A 和 B),A 的 shares 是 1024,B 是 512,那么 A 獲得 66% 的 CPU 資源,B 獲得 33%。
- 如果 CPU 空閑,B 可以使用更多資源。
- 如果新增一個(gè) cgroup C,A 和 B 的占比會(huì)減少。
接下來(lái),再看看設(shè)置了 CPU limits 的 Pod 會(huì)發(fā)生什么:
kubectl run limit-test --image=busybox --requests "cpu=50m" --limits "cpu=100m" --command -- /bin/sh -c "while true; do sleep 2; done"
再次用 kubectl 查看資源限制:
kubectl get pods limit-test-5b4fb64549-qpd4n -o=jsnotallow='{.spec.containers[0].resources}'
輸出:
map[limits:map[cpu:100m] requests:map[cpu:50m]]
而對(duì)應(yīng)的 Docker 配置:
docker inspect f2321226620e --format '{{.HostConfig.CpuShares}} {{.HostConfig.CpuQuota}} {{.HostConfig.CpuPeriod}}'
51 10000 100000
CpuShares 是對(duì)應(yīng) requests 的 CPU 份額。
CpuQuota
和
CpuPeriod
是用來(lái)實(shí)現(xiàn)
limits
的:
- CpuPeriod 表示一個(gè)時(shí)間周期(默認(rèn)為 100 毫秒,即 100,000 微秒)。
- CpuQuota 表示每周期允許使用的 CPU 時(shí)間(100m 對(duì)應(yīng) 10,000 微秒)。
這些值最終映射到 cgroup:
cat /sys/fs/cgroup/cpu,cpuacct/.../cpu.cfs_period_us
100000
cat /sys/fs/cgroup/cpu,cpuacct/.../cpu.cfs_quota_us
10000
例子:
限制 1 核(每 250ms 內(nèi)用 250ms CPU 時(shí)間):
echo 250000 > cpu.cfs_quota_us
echo 250000 > cpu.cfs_period_us
限制 2 核(每 500ms 內(nèi)用 1000ms CPU 時(shí)間):
echo 1000000 > cpu.cfs_quota_us
echo 500000 > cpu.cfs_period_us
限制 1 核的 20%(每 50ms 用 10ms CPU 時(shí)間):
echo 10000 > cpu.cfs_quota_us
echo 50000 > cpu.cfs_period_us
簡(jiǎn)單總結(jié):
- requests 保證容器最少能用的 CPU 資源。
- limits 確保容器最多使用的 CPU 時(shí)間不會(huì)超過(guò)限制。
默認(rèn)限制
要為命名空間中的 Pod 設(shè)置默認(rèn)的資源限制,可以使用 Kubernetes 提供的 LimitRange 資源。通過(guò)配置 LimitRange,可以為每個(gè)命名空間設(shè)置默認(rèn)的 requests 和 limits,從而確保 Pod 的資源分配有合理的默認(rèn)值和邊界限制。以下是如何實(shí)現(xiàn)的說(shuō)明和示例:
創(chuàng)建一個(gè) LimitRange 示例:
以下 YAML 文件定義了一個(gè) LimitRange 資源:
apiVersion: v1
kind: LimitRange
metadata:
name: default-limit
spec:
limits:
- default:
memory: 100Mi
cpu: 100m
defaultRequest:
memory: 50Mi
cpu: 50m
- max:
memory: 512Mi
cpu: 500m
- min:
memory: 50Mi
cpu: 50m
type: Container
字段解析
default:
- 設(shè)置默認(rèn)的 limits 值。
- 如果 Pod 未明確指定 limits,則系統(tǒng)自動(dòng)分配 100Mi 內(nèi)存和 100m CPU。
defaultRequest:
- 設(shè)置默認(rèn)的 requests 值。
- 如果 Pod 未明確指定 requests,則系統(tǒng)自動(dòng)分配 50Mi 內(nèi)存和 50m CPU。
max 和 min:
- max: 定義 limits 的最大值。如果 Pod 資源分配超過(guò)這個(gè)值,Pod 將被拒絕創(chuàng)建。
- min: 定義 requests 的最小值。如果 Pod 資源分配低于這個(gè)值,Pod 也將被拒絕創(chuàng)建。
type:
- 指定適用范圍為 Container。
工作機(jī)制
Kubernetes 的LimitRanger準(zhǔn)入控制器負(fù)責(zé)應(yīng)用這些限制:
- 在創(chuàng)建 Pod 之前,如果 Pod 的 limits 或 requests 未設(shè)置,則自動(dòng)添加 LimitRange 中的默認(rèn)值。
- 如果 Pod 的資源配置超出 max 或低于 min,則拒絕創(chuàng)建。
示例 Pod 及 LimitRanger 插件設(shè)置的注釋
apiVersion: v1
kind: Pod
metadata:
annotations:
kubernetes.io/limit-ranger: 'LimitRanger plugin set: cpu request for container limit-test'
name: limit-test
namespace: default
spec:
containers:
- name: limit-test
image: busybox
args:
- /bin/sh
- -c
- while true; do sleep 2; done
resources:
requests:
cpu: 100m
annotations: 顯示 LimitRanger 插件已經(jīng)為 Pod 自動(dòng)添加了默認(rèn)的資源 requests。
總結(jié)
1、使用 LimitRange,可以為命名空間設(shè)置默認(rèn)的 requests 和 limits,避免 Pod 沒有資源限制帶來(lái)的風(fēng)險(xiǎn)。
2、max 和 min 設(shè)置了資源的上下限,確保 Pod 的資源分配符合命名空間的約束。
3、LimitRanger 插件會(huì)在 Pod 創(chuàng)建時(shí)檢查并自動(dòng)設(shè)置默認(rèn)值,使資源限制更加自動(dòng)化和規(guī)范化