面試官：能說一說MySQL緩存池嗎？

作者：狂聊君 2021-01-06 17:28:00

數(shù)據(jù)庫 MySQL

今天來聊一聊 Mysql 緩存池原理。希望能幫助到你。

[[374177]]

大家好，我是狂聊君。

今天來聊一聊 Mysql 緩存池原理。

提綱附上，話不多說，直接干貨。

前言

面試官：同學(xué)，你能說說Mysql 緩存池嗎?

狂聊君：啊，這么難嗎，容我組織一下語言。(內(nèi)心OS：這TM還不簡單?我能給你扯半小時(shí)!)

面試官：可以，給你一分鐘時(shí)間想一想吧。

....一分鐘后....

狂聊君：我準(zhǔn)備好了，你可聽好，我要開始表演了。

為什么要有緩存池?

Mysql 的 innodb 存儲(chǔ)引擎是基于磁盤存儲(chǔ)的，并且是按照頁的方式進(jìn)行管理的。

在數(shù)據(jù)庫系統(tǒng)中，CPU 速度與磁盤速度之間的差距是非常大的，為了最大可能的彌補(bǔ)之間的差距，提出了緩存池的概念。

所以緩存池，簡單來說就是一塊「內(nèi)存區(qū)域」，通過內(nèi)存的速度來彌補(bǔ)磁盤速度較慢，導(dǎo)致對數(shù)據(jù)庫造成性能的影響。

緩存池的基本原理

「讀操作」:

在數(shù)據(jù)庫中進(jìn)行讀取頁的操作，首先把從磁盤讀到的頁存放在緩存池中，下一次讀取相同的頁時(shí)，首先判斷該頁是不是在緩存池中。

若在，稱該頁在緩存池中被命中，則直接讀取該頁，否則，還是去讀取磁盤上的頁。

「寫操作」:

對于數(shù)據(jù)庫中頁的修改操作，首先修改在緩存池中的頁，然后在以一定的頻率刷新到磁盤，并不是每次頁發(fā)生改變就刷新回磁盤，而是通過 checkpoint 的機(jī)制把頁刷新回磁盤。

可以看到，無論是讀操作還是寫操縱，都是對緩存池進(jìn)行操作，而不是直接對磁盤進(jìn)行操縱。

緩存池結(jié)構(gòu)

Buffer Pool 是一片連續(xù)的內(nèi)存空間，innodb 存儲(chǔ)引擎是通過頁的方式對這塊內(nèi)存進(jìn)行管理的。

緩存池的結(jié)構(gòu)如下圖：

可以看到緩存池中包括數(shù)據(jù)頁、索引頁、插入緩存、自適應(yīng)哈希索引、鎖信息、數(shù)據(jù)字段。

其中數(shù)據(jù)頁和索引頁會(huì)用掉多數(shù)內(nèi)存。

「但是，innodb 是如何管理緩存池中的這么多頁呢?」

為了更好的管理這些緩存的頁，innodb 為每一個(gè)緩存頁都創(chuàng)建了一些所謂的控制信息，這些控制信息包括該頁所屬的：

表空間編號(hào)(sapce id)
頁號(hào)(page numeber)
頁在 buffer Pool 的地址
一些鎖信息以及 LSN 信息日志序列號(hào)
其他控制信息

每個(gè)緩存頁對應(yīng)的控制信息占用的內(nèi)存大小是相同的，我們把每個(gè)頁對應(yīng)的控制信息占用的一塊內(nèi)存稱為一個(gè)「控制塊」。

「控制塊」和緩存頁是一一對應(yīng)的，它們都被存放到 Buffer Pool 中，其中控制塊被存放到 Buffer Pool 的前邊，緩存頁被存放到 Buffer Pool 的后邊。

Buffer Pool 對應(yīng)的內(nèi)存空間示意圖：

緩存池參數(shù)設(shè)置

innodb_buffer_pool_size：緩存池的大小最多應(yīng)設(shè)置為物理內(nèi)存的 80%
innodb_buffer_pool_instance：設(shè)置有多少個(gè)緩存池，通常建議把緩存池個(gè)數(shù)設(shè)置為 CPU 的個(gè)數(shù)，多個(gè)緩存池可以減少數(shù)據(jù)庫內(nèi)部的資源競爭，增加數(shù)據(jù)庫并發(fā)訪問的能力
innodb_old_blocks_pct：老生代占整個(gè) LRU 的鏈長比例，默認(rèn)是 3：7
innodb_old_blocks_time：老生代停留時(shí)間窗口，單位是毫秒，默認(rèn)是 1000，即同時(shí)滿足“被訪問”與“在老生代停留時(shí)間超過 1 秒”兩個(gè)條件，才會(huì)被插入到新生代頭部

緩存池管理

「管理緩存池依賴的鏈表結(jié)構(gòu)」：

Free 鏈表

當(dāng)啟動(dòng) Mysql 服務(wù)器的時(shí)候，需要完成對 Buffer Pool 的初始化過程，即分配 Buffer Pool 的內(nèi)存空間，把它劃分為若干對控制塊和緩存頁，但是此時(shí)并沒有真正的磁盤頁被緩存到 Buffer Pool 中，之后隨著程序的運(yùn)行，會(huì)不斷的有磁盤上的頁被緩存到 Buffer Pool 中。

在使用過程中，為了記錄哪些緩存頁是可用的，我們把所有空閑的頁包裝成一個(gè)節(jié)點(diǎn)組成一個(gè)鏈表，這個(gè)鏈表可以稱作為 Free 鏈表(空閑鏈表)。因?yàn)閯倓偼瓿沙跏蓟?Buffer Pool 中所有的緩存頁都是空閑的，所以每一個(gè)緩存頁都會(huì)被加入到 Free 鏈表中。

為了方便管理 Free 鏈表，特意為這個(gè)鏈表定義了一些「控制信息」，里面包含鏈表的頭節(jié)點(diǎn)地址，尾節(jié)點(diǎn)地址，以及當(dāng)前鏈表中節(jié)點(diǎn)的數(shù)量等信息。

另外會(huì)在每個(gè) Free 鏈表的節(jié)點(diǎn)中都記錄了某個(gè)「緩存頁控制塊」的地址，而每個(gè)「緩存頁控制塊」都記錄著對應(yīng)的「緩存頁地址」，所以相當(dāng)于每個(gè) Free 鏈表節(jié)點(diǎn)都對應(yīng)一個(gè)空閑的緩存頁。

給大家畫了個(gè)結(jié)構(gòu)圖：

這圖怎么樣，這下能看的懂了吧!

2、Lru 鏈表

Lru 鏈表用來管理已經(jīng)讀取的頁，當(dāng)數(shù)據(jù)庫剛啟動(dòng)時(shí)，Lru 鏈表是空的，此時(shí)頁也都放在 Free 列表中，當(dāng)需要讀取數(shù)據(jù)時(shí)，會(huì)從 Free 鏈表中申請一個(gè)頁，把從放入到磁盤讀取的數(shù)據(jù)放入到申請的頁中，這個(gè)頁的集合叫做 Lru 鏈表。

3、Flush 鏈表

Flush 鏈表用來管理被修改的頁，Buffer Pool 中被修改的頁也被稱之為「臟頁」，臟頁既存在于 Lru 鏈表中，也存在于 Flush 鏈表中，F(xiàn)lush 鏈表中存的是一個(gè)指向 Lru 鏈表中具體數(shù)據(jù)的指針。

因此只有 Lru 鏈表中的頁第一次被修改時(shí)，對應(yīng)的指針才會(huì)存入到 Flush 中，若之后再修改這個(gè)頁，則是直接更新 Lru 鏈表中的頁對應(yīng)的數(shù)據(jù)。

這三者之間是這么個(gè)關(guān)系：

讀操作

Buffer Pool 一個(gè)最主要的功能是「加速讀」。加速讀是當(dāng)需要訪問一個(gè)數(shù)據(jù)頁面的時(shí)候，如果這個(gè)頁面已經(jīng)在緩存池中，那么就不再需要訪問磁盤，直接從緩沖池中就能獲取這個(gè)頁面的內(nèi)容。當(dāng)我們需要訪問某個(gè)頁中的數(shù)據(jù)時(shí)，就會(huì)把該頁加載到 Buffer Pool 中，如果該頁已經(jīng)在 Buffer Pool 中的話直接使用就可以了。

問題：那么如何快速查找在 Buffer Pool 中的頁呢?

為了避免查詢數(shù)據(jù)頁時(shí)掃描 Lru，其實(shí)是根據(jù)表空間號(hào) + 頁號(hào)來定位一個(gè)頁的，也就相當(dāng)于表空間號(hào) + 頁號(hào)是一個(gè) key，緩存頁就是對應(yīng)的 value。用表空間號(hào) + 頁號(hào)作為 key，緩存頁作為 value 創(chuàng)建一個(gè)哈希表，在需要訪問某個(gè)頁的數(shù)據(jù)時(shí)，先從哈希表中根據(jù)表空間號(hào) + 頁號(hào)看看有沒有對應(yīng)的緩存頁。

如果有，直接使用該緩存頁就好。

如果沒有，那就從 Free 鏈表中選一個(gè)空閑的緩存頁，然后把磁盤中對應(yīng)的頁加載到該緩存頁的位置。每當(dāng)需要從磁盤中加載一個(gè)頁到 Buffer Pool 中時(shí)，就從 Free 鏈表中取一個(gè)空閑的緩存頁，并且把該緩存頁對應(yīng)的控制塊的信息填上，然后把該緩存頁對應(yīng)的 Free 鏈表節(jié)點(diǎn)從鏈表中移除，表示該緩存頁已經(jīng)被使用了，并且把該頁寫入 Lru 鏈表。

在初始化的時(shí)候，Buffer pool 中所有的頁都是空閑頁，需要讀數(shù)據(jù)時(shí)，就會(huì)從 Free 鏈表中申請頁，但是物理內(nèi)存不可能無限增大，數(shù)據(jù)庫的數(shù)據(jù)卻是在不停增大的，所以 Free 鏈表的頁是會(huì)用完的。

因此需要考慮把已經(jīng)緩存的頁從 Buffer pool 中刪除一部分，進(jìn)而需要考慮如何刪除及刪除哪些已經(jīng)緩存的頁。假設(shè)一共訪問了 n 次頁，那么被訪問的頁在緩存中的次數(shù)除以 n 就是緩存命中率，緩存命中率越高，和磁盤的 IO 交互也就越少。

為了提高緩存命中率，InnoDB 在傳統(tǒng) Lru 算法的基礎(chǔ)上做了優(yōu)化，解決了兩個(gè)問題：1、預(yù)讀失效 2、緩存池污染

寫操作

Buffer pool 另一個(gè)主要的功能是「加速寫」，即當(dāng)需要修改一個(gè)頁面的時(shí)候，先將這個(gè)頁面在緩沖池中進(jìn)行修改，記下相關(guān)的重做日志，這個(gè)頁面的修改就算已經(jīng)完成了。

被修改的頁面真正刷新到磁盤，這個(gè)是后臺(tái)刷新線程來完成的。前面頁面更新是在緩存池中先進(jìn)行的，那它就和磁盤上的頁不一致了，這樣的緩存頁被稱為臟頁(dirty page)。

問題：這些被修改的頁面什么時(shí)候刷新到磁盤?以什么樣的順序刷新到磁盤?

最簡單的做法就是每發(fā)生一次修改就立即同步到磁盤上對應(yīng)的頁上，但是頻繁的往磁盤中寫數(shù)據(jù)會(huì)嚴(yán)重的影響程序的性能。所以每次修改緩存頁后，不能立即把修改同步到磁盤上，而是在未來的某個(gè)時(shí)間點(diǎn)進(jìn)行同步，由后臺(tái)刷新線程依次刷新到磁盤，實(shí)現(xiàn)修改落地到磁盤。

但是如果不立即同步到磁盤的話，那之后再同步的時(shí)候如何判斷 Buffer Pool 中哪些頁是臟頁，哪些頁從來沒被修改過呢?

InnoDB 并沒有一次性把所有的緩存頁都同步到磁盤上，InnoDB 創(chuàng)建一個(gè)存儲(chǔ)臟頁的鏈表，凡是在 Lru 鏈表中被修改過的頁都需要加入這個(gè)鏈表中，因?yàn)檫@個(gè)鏈表中的頁都是需要被刷新到磁盤上的，所以這個(gè)鏈表也叫 Flush 鏈表，鏈表的構(gòu)造和 Free 鏈表一致。

這里的臟頁修改指的此頁被加載進(jìn) Buffer Pool 后第一次被修改，只有第一次被修改時(shí)才需要加入 Flush 鏈表，對于已經(jīng)存在在 Flush 鏈表中的頁，如果這個(gè)頁被再次修改就不會(huì)再放到 Flush 鏈表。

需要注意，臟頁數(shù)據(jù)實(shí)際還在 Lru 鏈表中，而 Flush 鏈表中的臟頁記錄只是通過指針指向 Lru 鏈表中的臟頁。并且在 Flush 鏈表中的臟頁是根據(jù) oldest_lsn(這個(gè)值表示這個(gè)頁第一次被更改時(shí)的 lsn 號(hào)，對應(yīng)值 oldest_modification，每個(gè)頁頭部記錄)進(jìn)行排序刷新到磁盤的，值越小表示要最先被刷新，避免數(shù)據(jù)不一致。