Linux中的“大內(nèi)存頁”(hugepage)是個(gè)什么?
學(xué)習(xí) Linux 中的大內(nèi)存頁。理解什么是“大內(nèi)存頁”,如何進(jìn)行配置,如何查看當(dāng)前狀態(tài)以及如何禁用它。
本文中我們會(huì)詳細(xì)介紹大內(nèi)存頁,讓你能夠回答:Linux 中的“大內(nèi)存頁”是什么?在 RHEL6、RHEL7、Ubuntu 等 Linux 中,如何啟用/禁用“大內(nèi)存頁”?如何查看“大內(nèi)存頁”的當(dāng)前值?
首先讓我們從“大內(nèi)存頁”的基礎(chǔ)知識(shí)開始講起。
Linux 中的“大內(nèi)存頁”是個(gè)什么玩意?
“大內(nèi)存頁”有助于 Linux 系統(tǒng)進(jìn)行虛擬內(nèi)存管理。顧名思義,除了標(biāo)準(zhǔn)的 4KB 大小的頁面外,它們還能幫助管理內(nèi)存中的巨大的頁面。使用“大內(nèi)存頁”,你***可以定義 1GB 的頁面大小。
在系統(tǒng)啟動(dòng)期間,你能用“大內(nèi)存頁”為應(yīng)用程序預(yù)留一部分內(nèi)存。這部分內(nèi)存,即被“大內(nèi)存頁”占用的這些存儲(chǔ)器永遠(yuǎn)不會(huì)被交換出內(nèi)存。它會(huì)一直保留其中,除非你修改了配置。這會(huì)極大地提高像 Oracle 數(shù)據(jù)庫這樣的需要海量?jī)?nèi)存的應(yīng)用程序的性能。
為什么使用“大內(nèi)存頁”?
在虛擬內(nèi)存管理中,內(nèi)核維護(hù)一個(gè)將虛擬內(nèi)存地址映射到物理地址的表,對(duì)于每個(gè)頁面操作,內(nèi)核都需要加載相關(guān)的映射。如果你的內(nèi)存頁很小,那么你需要加載的頁就會(huì)很多,導(dǎo)致內(nèi)核會(huì)加載更多的映射表。而這會(huì)降低性能。
使用“大內(nèi)存頁”,意味著所需要的頁變少了。從而大大減少由內(nèi)核加載的映射表的數(shù)量。這提高了內(nèi)核級(jí)別的性能最終有利于應(yīng)用程序的性能。
簡(jiǎn)而言之,通過啟用“大內(nèi)存頁”,系統(tǒng)具只需要處理較少的頁面映射表,從而減少訪問/維護(hù)它們的開銷!
如何配置“大內(nèi)存頁”?
運(yùn)行下面命令來查看當(dāng)前“大內(nèi)存頁”的詳細(xì)內(nèi)容。
root@kerneltalks # grep Huge /proc/meminfo
AnonHugePages: 0 kB
HugePages_Total: 0
HugePages_Free: 0
HugePages_Rsvd: 0
HugePages_Surp: 0
Hugepagesize: 2048 kB
從上面輸出可以看到,每個(gè)頁的大小為 2MB(Hugepagesize
),并且系統(tǒng)中目前有 0
個(gè)“大內(nèi)存頁”(HugePages_Total
)。這里“大內(nèi)存頁”的大小可以從 2MB
增加到 1GB
。
運(yùn)行下面的腳本可以知道系統(tǒng)當(dāng)前需要多少個(gè)巨大頁。該腳本取之于 Oracle。
#!/bin/bash
#
# hugepages_settings.sh
#
# Linux bash script to compute values for the
# recommended HugePages/HugeTLB configuration
#
# Note: This script does calculation for all shared memory
# segments available when the script is run, no matter it
# is an Oracle RDBMS shared memory segment or not.
# Check for the kernel version
KERN=`uname -r | awk -F. '{ printf("%d.%d\n",$1,$2); }'`
# Find out the HugePage size
HPG_SZ=`grep Hugepagesize /proc/meminfo | awk {'print $2'}`
# Start from 1 pages to be on the safe side and guarantee 1 free HugePage
NUM_PG=1
# Cumulative number of pages required to handle the running shared memory segments
for SEG_BYTES in `ipcs -m | awk {'print $5'} | grep "[0-9][0-9]*"`
do
MIN_PG=`echo "$SEG_BYTES/($HPG_SZ*1024)" | bc -q`
if [ $MIN_PG -gt 0 ]; then
NUM_PG=`echo "$NUM_PG+$MIN_PG+1" | bc -q`
fi
done
# Finish with results
case $KERN in
'2.4') HUGETLB_POOL=`echo "$NUM_PG*$HPG_SZ/1024" | bc -q`;
echo "Recommended setting: vm.hugetlb_pool = $HUGETLB_POOL" ;;
'2.6' | '3.8' | '3.10' | '4.1' ) echo "Recommended setting: vm.nr_hugepages = $NUM_PG" ;;
*) echo "Unrecognized kernel version $KERN. Exiting." ;;
esac
# End
將它以 hugepages_settings.sh
為名保存到 /tmp
中,然后運(yùn)行之:
root@kerneltalks # sh /tmp/hugepages_settings.sh
Recommended setting: vm.nr_hugepages = 124
你的輸出類似如上結(jié)果,只是數(shù)字會(huì)有一些出入。
這意味著,你系統(tǒng)需要 124 個(gè)每個(gè) 2MB 的“大內(nèi)存頁”!若你設(shè)置頁面大小為 4MB,則結(jié)果就變成了 62。你明白了吧?
配置內(nèi)核中的“大內(nèi)存頁”
本文***一部分內(nèi)容是配置上面提到的 內(nèi)核參數(shù) ,然后重新加載。將下面內(nèi)容添加到 /etc/sysctl.conf
中,然后輸入 sysctl -p
命令重新加載配置。
vm.nr_hugepages=126
注意我們這里多加了兩個(gè)額外的頁,因?yàn)槲覀兿M趯?shí)際需要的頁面數(shù)量之外多一些額外的空閑頁。
現(xiàn)在,內(nèi)核已經(jīng)配置好了,但是要讓應(yīng)用能夠使用這些“大內(nèi)存頁”還需要提高內(nèi)存的使用閥值。新的內(nèi)存閥值應(yīng)該為 126 個(gè)頁 x 每個(gè)頁 2 MB = 252 MB,也就是 258048 KB。
你需要編輯 /etc/security/limits.conf
中的如下配置:
soft memlock 258048
hard memlock 258048
某些情況下,這些設(shè)置是在指定應(yīng)用的文件中配置的,比如 Oracle DB 就是在 /etc/security/limits.d/99-grid-oracle-limits.conf
中配置的。
這就完成了!你可能還需要重啟應(yīng)用來讓應(yīng)用來使用這些新的巨大頁。
如何禁用“大內(nèi)存頁”?
“大內(nèi)存頁”默認(rèn)是開啟的。使用下面命令來查看“大內(nèi)存頁”的當(dāng)前狀態(tài)。
root@kerneltalks# cat /sys/kernel/mm/transparent_hugepage/enabled
[always] madvise never
輸出中的 [always]
標(biāo)志說明系統(tǒng)啟用了“大內(nèi)存頁”。
若使用的是基于 RedHat 的系統(tǒng),則應(yīng)該要查看的文件路徑為 /sys/kernel/mm/redhat_transparent_hugepage/enabled
。
若想禁用“大內(nèi)存頁”,則在 /etc/grub.conf
中的 kernel
行后面加上 transparent_hugepage=never
,然后重啟系統(tǒng)。