自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么 HugePages 可以提升數(shù)據(jù)庫性能

運維 數(shù)據(jù)庫運維
為什么這么設計(Why’s THE Design)是一系列關于計算機領域中程序設計決策的文章,我們在這個系列的每一篇文章中都會提出一個具體的問題并從不同的角度討論這種設計的優(yōu)缺點、對具體實現(xiàn)造成的影響。

[[351314]]

為什么這么設計(Why’s THE Design)是一系列關于計算機領域中程序設計決策的文章,我們在這個系列的每一篇文章中都會提出一個具體的問題并從不同的角度討論這種設計的優(yōu)缺點、對具體實現(xiàn)造成的影響。

內(nèi)存是計算機的重要資源,雖然今天大多數(shù)的服務對內(nèi)存的需求都沒有那么高,但是數(shù)據(jù)庫以及 Hadoop 全家桶這些服務卻是消耗內(nèi)存的大戶,它們在生產(chǎn)環(huán)境動輒占用 GB 和 TB 量級的內(nèi)存來提升計算的速度,Linux 操作系統(tǒng)為了更好、更快地管理這些內(nèi)存并降低開銷引入了很多策略,我們今天要介紹的是 HugePages,也就是大頁[^1]。

絕大多數(shù)的 CPU 架構(gòu)都支持更大的頁面,只是不同操作系統(tǒng)會使用不同的術(shù)語,例如:Linux 上的 HugePages、BSD 上的 SuperPages 以及 Windows 上的 LargePages,這些不同的術(shù)語都代表著類似的大頁面功能。

圖 1 - CPU 架構(gòu)和更大的頁面

我們都知道 Linux 會以頁為單位管理內(nèi)存,而默認的頁面大小為 4KB,雖然部分處理器會使用 8KB、16KB 后者 64KB 作為默認的頁面大小,不過 4KB 仍然是操作系統(tǒng)的默認頁面配置的主流[^2],雖然 64KB 的頁面是 4KB 的 16 倍,但是與最小 2MB 的 HugePages 相比,64KB 的頁面實在是不夠大,更不用說默認的 4KB 了:

圖 2 - 默認和大頁面大小

2MB 一般都是 HugePages 的默認大小,在 arm64 和 x86_64 的架構(gòu)上甚至支持 1GB 的大頁面,是 Linux 默認頁面大小的 262,144 倍,我們可以使用如下所示的命令查看當前機器上 HugePages 的相關信息:

  1. $ cat /proc/meminfo | grep Huge 
  2. AnonHugePages:     71680 kB 
  3. ShmemHugePages:        0 kB 
  4. FileHugePages:         0 kB 
  5. HugePages_Total:       0 
  6. HugePages_Free:        0 
  7. HugePages_Rsvd:        0 
  8. HugePages_Surp:        0 
  9. Hugepagesize:       2048 kB 
  10. Hugetlb:               0 kB 

通過上面的輸出結(jié)果,我們可以看到當前機器上的大頁面默認大小為 2MB 并且大頁面的數(shù)量也為 0,即沒有進程在申請或者使用大頁。各位讀者可以在 Linux 嘗試執(zhí)行上述命令,如果機器上沒有做過額外的配置,那么使用上述命令得到的輸出與這里也不會有太大的差別。

/proc/sys/vm/nr_hugepages 中存儲的數(shù)據(jù)就是大頁面的數(shù)量,雖然在默認情況下它的值都是 0,不過我們可以通過更改該文件的內(nèi)容申請或者釋放操作系統(tǒng)中的大頁:

  1. $ echo 1 > /proc/sys/vm/nr_hugepages 
  2. $ cat /proc/meminfo | grep HugePages_ 
  3. HugePages_Total:       1 
  4. HugePages_Free:        1 
  5. ... 

在 Linux 中,與其他內(nèi)存的申請和釋放方式相同,我們可以在向 mmap 系統(tǒng)調(diào)用中傳入 MAP_HUGETLB 標記申請操作系統(tǒng)的大頁并使用 munmap 釋放內(nèi)存[^3],使用如下所示的代碼片段可以在操作系統(tǒng)中申請 2MB 的大頁:

  1. size_t s = (2UL * 1024 * 1024); 
  2.  
  3. char *m = mmap( 
  4.     NULL, s, PROT_READ | PROT_WRITE, 
  5.     MAP_PRIVATE | MAP_ANONYMOUS | MAP_HUGETLB /* flags */, 
  6.     -1, 0 
  7. ); 
  8.  
  9. munmap(m, s); 

雖然 HugePages 的申請方式與默認的內(nèi)存相差不多,但是它實際上是操作系統(tǒng)單獨管理的特殊資源,Linux 會在 /proc/meminfo 中單獨展示 HugePages 的相關數(shù)據(jù),而容器編排系統(tǒng) Kubernetes 也會認為大頁是不同于內(nèi)存的獨立資源,如下所示的 Pod 也需要單獨申請大頁資源[^4]:

  1. apiVersion: v1 
  2. kind: Pod 
  3. metadata: 
  4.   name: huge-pages-example 
  5. spec: 
  6.   containers: 
  7.   - name: example 
  8.     ... 
  9.     volumeMounts: 
  10.     - mountPath: /hugepages-2Mi 
  11.       name: hugepage-2mi 
  12.     - mountPath: /hugepages-1Gi 
  13.       name: hugepage-1gi 
  14.     resources: 
  15.       limits: 
  16.         hugepages-2Mi: 100Mi 
  17.         hugepages-1Gi: 2Gi 
  18.         memory: 100Mi 
  19.       requests: 
  20.         memory: 100Mi 
  21.   volumes: 
  22.   - name: hugepage-2mi 
  23.     emptyDir: 
  24.       medium: HugePages-2Mi 
  25.   - name: hugepage-1gi 
  26.     emptyDir: 
  27.       medium: HugePages-1Gi 

作為 Linux 從 2.6.32 引入的新特性,HugePages 能夠提升數(shù)據(jù)庫、Hadoop 全家桶等占用大量內(nèi)存的服務的性能,該特性對于常見的 Web 服務以及后端服務沒有太多的幫助,反而可能會影響服務的性能,我們在這篇文章中會介紹 HugePages 為什么能夠提升數(shù)據(jù)庫等服務的性能:

  • HugePages 可以降低內(nèi)存頁面的管理開銷;
  • HugePages 可以鎖定內(nèi)存,禁止操作系統(tǒng)的內(nèi)存交換和釋放;

管理開銷

雖然 HugePages 的開啟大都需要開發(fā)或者運維工程師的額外配置,但是在應用程序中啟用 HugePages 卻可以在以下幾個方面降低內(nèi)存頁面的管理開銷:

  • 更大的內(nèi)存頁能夠減少內(nèi)存中的頁表層級,這不僅可以降低頁表的內(nèi)存占用,也能降低從虛擬內(nèi)存到物理內(nèi)存轉(zhuǎn)換的性能損耗;
  • 更大的內(nèi)存頁意味著更高的緩存命中率,CPU 有更高的幾率可以直接在 TLB(Translation lookaside buffer)中獲取對應的物理地址;
  • 更大的內(nèi)存頁可以減少獲取大內(nèi)存的次數(shù),使用 HugePages 每次可以獲取 2MB 的內(nèi)存,是 4KB 的默認頁效率的 512 倍;

因為進程的地址空間都是虛擬的,所以 CPU 和操作系統(tǒng)需要記錄頁面和進程之間的對應關系,操作系統(tǒng)中的頁面越多,我們也就需要花費更多的時間在如下所示的五層頁表結(jié)構(gòu)中查找虛擬內(nèi)存對應的物理內(nèi)存,我們會根據(jù)虛擬地址依次訪問頁表中的目錄(Directory)最終查找到對應的物理內(nèi)存:

圖 3 - 默認頁的五層頁表

如上圖所示,如果我們使用 Linux 中默認的 4KB 內(nèi)存頁,那么 CPU 在訪問對應的內(nèi)存時需要分別讀取 PGD、PUD、PMD 和 PTE 才能獲取物理內(nèi)存,但是 2MB 的大內(nèi)存可以減少目錄訪問的次數(shù):

圖 4 - 頁表與大頁

因為 2MB 的內(nèi)存頁占用了 21 位的地址,所以我們也不再需要五層頁表中的 PTE 結(jié)構(gòu),這不僅能夠減少翻譯虛擬地址時訪問頁表的次數(shù),還能夠降低頁表的內(nèi)存占用。

CPU 總可以通過上述復雜的目錄結(jié)構(gòu)找到虛擬頁對應的物理頁,但是每次翻譯虛擬地址時都使用上述結(jié)構(gòu)是非常昂貴的操作,操作系統(tǒng)使用 TLB 作為緩存來解決這個問題,TLB 是內(nèi)存管理組件(Memory Management Unit)的一個部分,其中緩存的頁表項可以幫助我們快速翻譯虛擬地址:

圖 5 - TLB

更大的內(nèi)存頁面意味著更高的緩存命中率,因為 TLB 緩存的容量是一定的,它只能緩存指定數(shù)量的頁面,在這種情況下,緩存 2MB 的大頁能夠為系統(tǒng)提高緩存的命中率,從而提高系統(tǒng)的整體性能。

除了較少頁表項和提高緩存命中率之外,使用更大的頁面還可以提高內(nèi)存的訪問效率,對于相同的 1GB 內(nèi)存,使用 4KB 的內(nèi)存頁需要系統(tǒng)處理 262,144 次,但是使用 2MB 的大頁卻只需要 512 次,這可以將系統(tǒng)獲取內(nèi)存所需要的處理次數(shù)降低幾個數(shù)量級。

鎖定內(nèi)存

使用 HugePages 可以鎖定內(nèi)存,禁止操作系統(tǒng)的內(nèi)存交換和釋放。Linux 系統(tǒng)提供了交換分區(qū)(Swap)機制,該機制會在內(nèi)存不足時將一部分內(nèi)存頁從內(nèi)存拷貝到磁盤上,釋放內(nèi)存頁占用的內(nèi)存空間,而當對應的內(nèi)存進程訪問時又會被交換到內(nèi)存中,這種機制能夠為進程構(gòu)造一種內(nèi)存充足的假象,但是也會造成各種問題。

圖 6 - 交換分區(qū)

我們在 為什么 NUMA 會影響程序的延遲 一文中就介紹過 Swap 在開啟 NUMA 時可能會影響數(shù)據(jù)庫的性能[^5],系統(tǒng)中偶然發(fā)生的 Swap 并不是不可以接受的,但是頻繁地讀寫磁盤會顯著地降低操作系統(tǒng)的運行速度。

HugePages 與其他內(nèi)存頁不同,它是由系統(tǒng)工程師預先在操作系統(tǒng)上使用命令分配的,當進程通過 mmap 或者其他系統(tǒng)調(diào)用申請大頁時,它們得到的都是預先分配的資源。Linux 中的 HugePages 都被鎖定在內(nèi)存中,所以哪怕是在系統(tǒng)內(nèi)存不足時,它們也不會被 Swap 到磁盤上,這也就能從根源上杜絕了重要內(nèi)存被頻繁換入和換出的可能[^6]。

REHL 6 引入了透明大頁(Transparent Huge Pages、THP),它是一個可以自動創(chuàng)建、管理和使用大頁的抽象層,能夠為系統(tǒng)管理員和開發(fā)者隱藏了大頁使用時的復雜性,但是不推薦在數(shù)據(jù)庫以及類似負載中開啟。[^7]

總結(jié)

隨著單機內(nèi)存越來越大、服務消耗的內(nèi)存越來越多,Linux 和其他操作系統(tǒng)都引入了類似 HugePages 的功能,該功能可以從以下兩個方面提升數(shù)據(jù)庫等占用大量內(nèi)存的服務的性能:

  • HugePages 可以降低內(nèi)存頁面的管理開銷,它可以減少進程中的頁表項、提高 TLB 緩存的命中率和內(nèi)存的訪問效率;
  • HugePages 可以鎖定內(nèi)存,禁止操作系統(tǒng)的內(nèi)存交換和釋放,不會被交換到磁盤上為其它請求讓出內(nèi)存;

雖然 HugePages 的管理相對比較復雜,需要系統(tǒng)管理員額外做出特定的配置,但是對于特定類型的工作負載,它確定能夠起到降低管理開銷和鎖定內(nèi)存的作用,從而提高系統(tǒng)的性能。到最后,我們還是來看一些比較開放的相關問題,有興趣的讀者可以仔細思考一下下面的問題:

透明大頁(Transparent Huge Pages、THP)可能會造成哪些問題?

手動管理系統(tǒng)中的 HugePages 有哪些優(yōu)點?

如果對文章中的內(nèi)容有疑問或者想要了解更多軟件工程上一些設計決策背后的原因,可以在博客下面留言,作者會及時回復本文相關的疑問并選擇其中合適的主題作為后續(xù)的內(nèi)容。

原文鏈接:https://draveness.me/whys-the-design-linux-hugepages/

本文轉(zhuǎn)載自微信公眾號「真沒什么邏輯」,可以通過以下二維碼關注。轉(zhuǎn)載本文請聯(lián)系真沒什么邏輯公眾號。

 

責任編輯:武曉燕 來源: 真沒什么邏輯
相關推薦

2023-12-13 21:56:14

云數(shù)據(jù)庫性能云架構(gòu)師

2013-03-29 09:28:41

2011-03-28 15:44:45

惠普數(shù)據(jù)庫Oracle數(shù)據(jù)庫

2010-05-10 15:50:39

Oracle數(shù)據(jù)庫性能

2010-08-17 09:22:34

2020-03-27 16:05:49

數(shù)據(jù)庫數(shù)據(jù)MySQL

2020-02-19 15:01:30

數(shù)據(jù)庫SQL技術(shù)

2024-03-14 10:10:03

MySQL優(yōu)化事務

2012-11-21 17:35:21

Oracle技術(shù)嘉年華

2009-05-14 13:36:11

Oracle表空間優(yōu)化

2009-10-14 20:37:41

sun閃存固態(tài)硬盤

2020-08-10 09:07:00

數(shù)據(jù)庫IT技術(shù)

2024-01-08 08:15:57

數(shù)據(jù)庫優(yōu)化內(nèi)存

2021-10-22 05:52:27

數(shù)據(jù)庫調(diào)整大小容量

2025-04-03 11:04:40

2020-02-25 17:04:05

數(shù)據(jù)庫云原生分布式

2011-03-15 14:54:08

NoSQL

2021-02-18 09:23:47

數(shù)據(jù)庫分區(qū)數(shù)據(jù)庫倉庫

2010-04-02 15:20:44

惠普成功案例

2009-03-06 08:46:14

索引Oracle
點贊
收藏

51CTO技術(shù)棧公眾號