Cgroups詳解:實(shí)現(xiàn)IaaS虛擬化資源管控的底層基礎(chǔ)
cgroup介紹
cgroup是control group的簡稱,它為Linux內(nèi)核提供了一種任務(wù)聚集和劃分的機(jī)制,通過一組參數(shù)集合將一些任務(wù)組織成一個(gè)或多個(gè)子系統(tǒng)。
Cgroups是control groups的縮寫,最初由Google工程師提出,后來編進(jìn)linux內(nèi)核。
Cgroups是實(shí)現(xiàn)IaaS虛擬化(kvm、lxc等),PaaS容器沙箱(Docker等)的資源管理控制部分的底層基礎(chǔ)
子系統(tǒng)是根據(jù)cgroup對(duì)任務(wù)的劃分功能將任務(wù)按照一種指定的屬性劃分成的一個(gè)組,主要用來實(shí)現(xiàn)資源的控制。在cgroup中,劃分成的任務(wù)組以層次結(jié)構(gòu)的形式組織,多個(gè)子系統(tǒng)形成一個(gè)數(shù)據(jù)結(jié)構(gòu)中類似多根樹的結(jié)構(gòu)。cgroup包含了多個(gè)孤立的子系統(tǒng),每一個(gè)子系統(tǒng)代表單一的資源,目前,redhat默認(rèn)支持10個(gè)子系統(tǒng),但默認(rèn)只掛載了8個(gè)子系統(tǒng),ubuntu 12.04 默認(rèn)支持8個(gè)子系統(tǒng),但默認(rèn)只掛載了5個(gè)子系統(tǒng)。
cgroup子系統(tǒng)介紹
當(dāng)然也用戶可以自定義子系統(tǒng)并進(jìn)行掛載。
下面對(duì)每一個(gè)子系統(tǒng)進(jìn)行簡單的介紹:
- blkio 設(shè)置限制每個(gè)塊設(shè)備的輸入輸出控制。例如:磁盤,光盤以及usb等等。
- cpu 使用調(diào)度程序?yàn)閏group任務(wù)提供cpu的訪問。
- cpuacct 產(chǎn)生cgroup任務(wù)的cpu資源報(bào)告。
- cpuset 如果是多核心的cpu,這個(gè)子系統(tǒng)會(huì)為cgroup任務(wù)分配單獨(dú)的cpu和內(nèi)存。
- devices 允許或拒絕cgroup任務(wù)對(duì)設(shè)備的訪問。
- freezer 暫停和恢復(fù)cgroup任務(wù)。
- memory 設(shè)置每個(gè)cgroup的內(nèi)存限制以及產(chǎn)生內(nèi)存資源報(bào)告。
- net_cls 標(biāo)記每個(gè)網(wǎng)絡(luò)包以供cgroup方便使用。
- ns 名稱空間子系統(tǒng)。
- perf_event 增加了對(duì)每group的監(jiān)測(cè)跟蹤的能力,即可以監(jiān)測(cè)屬于某個(gè)特定的group的所有線程以及 運(yùn)行在特定CPU上的線程,此功能對(duì)于監(jiān)測(cè)整個(gè)group非常有用,具體參見 http://lwn.net/Articles/421574/
libcgroup工具安裝
以Centos 6.4為例
yum install libcgroup
service cgconfig start #開啟cgroups服務(wù)
chkconfig cgconfig on #開機(jī)啟動(dòng)
- [root@localhost /]# ls /cgroup/
- blkio cpu cpuacct cpuset devices freezer memory net_cls
cgroup啟動(dòng)時(shí),會(huì)讀取配置文件/etc/cgconfig.conf的內(nèi)容,根據(jù)其內(nèi)容創(chuàng)建和掛載指定的cgroup子系統(tǒng)。
cgroup配置文件分析
/etc/cgconfig.conf是cgroup配置工具libcgroup用來進(jìn)行cgroup組的定義,參數(shù)設(shè)定以及掛載點(diǎn)定義的配置文件,
主要由mount和group兩個(gè)section構(gòu)成。
(1)mount section的語法格式如下:
- mount {
- <controller> = <path>;
- ...
- }
- #########################################
- # controller:內(nèi)核子系統(tǒng)的名稱
- # path:該子系統(tǒng)的掛載點(diǎn)
- #########################################
- 舉個(gè)例子:
- mount {
- cpuset = /cgroup/red;
- }
- 上面定義相當(dāng)于如下shell指令:
- mkdir /cgroup/red
- mount -t cgroup -o cpuset red /cgroup/red
(2)group section的語法格式如下:
- group <name> {
- [<permissions>]
- <controller> {
- <param name> = <param value>;
- …
- }
- …
- }
- ################################################################################
- ## name: 指定cgroup的名稱
- ## permissions:可選項(xiàng),指定cgroup對(duì)應(yīng)的掛載點(diǎn)文件系統(tǒng)的權(quán)限,root用戶擁有所有權(quán)限。
- ## controller:子系統(tǒng)的名稱
- ## param name 和 param value:子系統(tǒng)的屬性及其屬性值
- #################################################################################
- 舉個(gè)例子:
- mount { ## 定義需要?jiǎng)?chuàng)建的cgroup子系統(tǒng)及其掛載點(diǎn),這里創(chuàng)建cpu與cpuacct(統(tǒng)計(jì))兩個(gè)cgroup子系統(tǒng)
- cpu = /mnt/cgroups/cpu;
- cpuacct = /mnt/cgroups/cpu;
- }
- group daemons/www { ## 定義daemons/www(web服務(wù)器進(jìn)程)組
- perm { ## 定義這個(gè)組的權(quán)限
- task {
- uid = root;
- gid = webmaster;
- }
- admin {
- uid = root;
- gid = root;
- }
- }
- cpu { ## 定義cpu子系統(tǒng)的屬性及其值,即屬于詞組的任務(wù)的權(quán)重為1000
- cpu.shares = 1000;
- }
- }
- group daemons/ftp { ## 定義daemons/ftp(ftp進(jìn)程)組
- perm {
- task {
- uid = root;
- gid = ftpmaster;
- }
- admin {
- uid = root;
- gid = root;
- }
- }
- cpu { ## 定義詞組的任務(wù)的權(quán)重為500
- cpu.shares = 500;
- }
- }
- 上面配置文件定義相當(dāng)于執(zhí)行了如下shell命令:
- mkdir /mnt/cgroups/cpu
- mount -t cgroup -o cpu,cpuacct cpu /mnt/cgroups/cpu
- mkdir /mnt/cgroups/cpu/daemons
- mkdir /mnt/cgroups/cpu/daemons/www
- chown root:root /mnt/cgroups/cpu/daemons/www/*
- chown root:webmaster /mnt/cgroups/cpu/daemons/www/tasks
- echo 1000 > /mnt/cgroups/cpu/daemons/www/cpu.shares
- mkdir /mnt/cgroups/cpu/daemons/ftp
- chown root:root /mnt/cgroups/cpu/daemons/ftp/*
- chown root:ftpmaster /mnt/cgroups/cpu/daemons/ftp/tasks
- echo 500 > /mnt/cgroups/cpu/daemons/ftp/cpu.shares
#p#
對(duì)于虛擬機(jī)VM,應(yīng)用沙盒,cgroups技術(shù)選型比較
cgroups資源控制
cgroups管理進(jìn)程cpu資源
跑一個(gè)耗cpu的腳本
x=0
while [ True ];do
x=$x+1
done;
top可以看到這個(gè)腳本基本占了100%的cpu資源
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
30142 root 20 0 104m 2520 1024 R 99.7 0.1 14:38.97 sh
下面用cgroups控制這個(gè)進(jìn)程的cpu資源
mkdir -p /cgroup/cpu/foo/ #新建一個(gè)控制組foo
echo 50000 > /cgroup/cpu/foo/cpu.cfs_quota_us #將cpu.cfs_quota_us設(shè)為50000,相對(duì)于cpu.cfs_period_us的100000是50%
echo 30142 > /cgroup/cpu/foo/tasks
然后top的實(shí)時(shí)統(tǒng)計(jì)數(shù)據(jù)如下,cpu占用率將近50%,看來cgroups關(guān)于cpu的控制起了效果
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 30142 root 20 0 105m 2884 1024 R 49.4 0.2 23:32.53 sh
cpu控制組foo下面還有其他的控制,還可以做更多其他的關(guān)于cpu的控制
[root@localhost ~]# ls /cgroup/cpu/foo/
cgroup.event_control cgroup.procs cpu.cfs_period_us cpu.cfs_quota_us cpu.rt_period_us cpu.rt_runtime_us cpu.shares cpu.stat notify_on_release tasks
cgroups管理進(jìn)程內(nèi)存資源
跑一個(gè)耗內(nèi)存的腳本,內(nèi)存不斷增長
x="a"
while [ True ];do
x=$x$x
done;
top看內(nèi)存占用穩(wěn)步上升
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 30215 root 20 0 871m 501m 1036 R 99.8 26.7 0:38.69 sh
30215 root 20 0 1639m 721m 1036 R 98.7 38.4 1:03.99 sh
30215 root 20 0 1639m 929m 1036 R 98.6 49.5 1:13.73 sh
下面用cgroups控制這個(gè)進(jìn)程的內(nèi)存資源
mkdir -p /cgroup/memory/foo
echo 1048576 > /cgroup/memory/foo/memory.limit_in_bytes #分配1MB的內(nèi)存給這個(gè)控制組
echo 30215 > /cgroup/memory/foo/tasks
發(fā)現(xiàn)之前的腳本被kill掉
[root@localhost ~]# sh /home/memory.sh
已殺死
因?yàn)檫@是強(qiáng)硬的限制內(nèi)存,當(dāng)進(jìn)程試圖占用的內(nèi)存超過了cgroups的限制,會(huì)觸發(fā)out of memory,導(dǎo)致進(jìn)程被kill掉。
實(shí)際情況中對(duì)進(jìn)程的內(nèi)存使用會(huì)有一個(gè)預(yù)估,然后會(huì)給這個(gè)進(jìn)程的限制超配50%比如,除非發(fā)生內(nèi)存泄露等異常情況,才會(huì)因?yàn)閏groups的限制被kill掉。
也可以通過配置關(guān)掉cgroups oom kill進(jìn)程,通過memory.oom_control來實(shí)現(xiàn)(oom_kill_disable 1),但是盡管進(jìn)程不會(huì)被直接殺死,但進(jìn)程也進(jìn)入了休眠狀態(tài),無法繼續(xù)執(zhí)行,仍讓無法服務(wù)。
關(guān)于內(nèi)存的控制,還有以下配置文件,關(guān)于虛擬內(nèi)存的控制,以及權(quán)值比重式的內(nèi)存控制等
[root@localhost /]# ls /cgroup/memory/foo/
cgroup.event_control memory.force_empty memory.memsw.failcnt
memory.memsw.usage_in_bytes memory.soft_limit_in_bytes memory.usage_in_bytes tasks
cgroup.procs memory.limit_in_bytes memory.memsw.limit_in_bytes
memory.move_charge_at_immigrate memory.stat memory.use_hierarchy
memory.failcnt memory.max_usage_in_bytes memory.memsw.max_usage_in_bytes
memory.oom_control memory.swappiness notify_on_release
#p#
cgroups管理進(jìn)程io資源
跑一個(gè)耗io的腳本
dd if=/dev/sda of=/dev/null &
通過iotop看io占用情況,磁盤速度到了284M/s
30252 be/4 root 284.71 M/s 0.00 B/s 0.00 % 0.00 % dd if=/dev/sda of=/dev/null
下面用cgroups控制這個(gè)進(jìn)程的io資源
mkdir -p /cgroup/blkio/foo
echo '8:0 1048576' > /cgroup/blkio/foo/blkio.throttle.read_bps_device
#8:0對(duì)應(yīng)主設(shè)備號(hào)和副設(shè)備號(hào),可以通過ls -l /dev/sda查看
echo 30252 > /cgroup/blkio/foo/tasks
再通過iotop看,確實(shí)將讀速度降到了1M/s
30252 be/4 root 993.36 K/s 0.00 B/s 0.00 % 0.00 % dd if=/dev/sda of=/dev/null
對(duì)于io還有很多其他可以控制層面和方式,如下
[root@localhost ~]# ls /cgroup/blkio/foo/
blkio.io_merged blkio.io_serviced blkio.reset_stats
blkio.throttle.io_serviced blkio.throttle.write_bps_device blkio.weight cgroup.procs
blkio.io_queued blkio.io_service_time blkio.sectors
blkio.throttle.read_bps_device blkio.throttle.write_iops_device blkio.weight_device notify_on_release
blkio.io_service_bytes blkio.io_wait_time blkio.throttle.io_service_bytes
blkio.throttle.read_iops_device blkio.time cgroup.event_control tasks
原文鏈接:《cgroup介紹、安裝和控制cpu,內(nèi)存,io示例》