自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

MySQL：InnoDB的頁合并與頁分裂到底是什么

作者：果凍布丁兔 2023-12-27 07:48:53

數(shù)據(jù)庫 MySQL

不管是頁分裂還是頁合并，InnoDB都會在索引樹上加寫鎖（x-latch）。在操作頻繁的系統(tǒng)中這會是在隱患，可能會導(dǎo)致索引的鎖競爭（index latch contention）。如果表中沒有合并和分裂操作（也就是寫操作），稱之為“樂觀（optimistic）”更新，只需要使用讀鎖（S）。帶有合并或者分裂的操作稱之為“悲觀（pessimistic）”更新，使用寫鎖（X）。?

本文為摘錄文章，如有錯(cuò)誤，請指正。文章是以MySQL5.7版本進(jìn)行說明，和現(xiàn)有版本可能會有一定差距，但是數(shù)據(jù)頁的設(shè)計(jì)基本沒有發(fā)生過變化，因此，可以作為學(xué)習(xí)參考。原文為2017年發(fā)表的一篇文章：《InnoDB Page Merging and Page Splitting - Percona Database Performance Blog》。

1 文件表（File-Table）結(jié)構(gòu)

在MySQL5.7創(chuàng)建windmills庫（schema）和wmills表，在文件目錄（/var/lib/mysql）有如下內(nèi)容：

data/
  windmills/
      wmills.ibd
      wmills.frm

原因是從MySQL5.6開始innodb_file_per_table參數(shù)默認(rèn)設(shè)置為1，即：每個(gè)表都會單獨(dú)作為一個(gè)文件存儲（如果有分區(qū)，可能有多個(gè)文件）。如果配置為0，則所有的表都是寫入公共表空間。

vmills.ibd文件由多個(gè)段（segments）組成，每個(gè)段和一個(gè)索引有關(guān)；
段由多個(gè)區(qū)構(gòu)成，區(qū)僅存于段內(nèi)，每個(gè)區(qū)的默認(rèn)固定大小為1MB（頁體積默認(rèn)情況下）；
區(qū)是由很多數(shù)據(jù)頁構(gòu)成，默認(rèn)大小為16KB，即一個(gè)分區(qū)最多由64個(gè)數(shù)據(jù)頁構(gòu)成。
數(shù)據(jù)頁可以容納2-N行數(shù)據(jù)行，行的數(shù)量取決于數(shù)據(jù)行的大?。籌nnoDB要求頁至少要有兩行，因此行的大小最多為8000bytes。
文件的結(jié)構(gòu)不會隨著數(shù)據(jù)行的刪除而變化，但是段會跟著區(qū)的變化而變化；

圖片

2 根、分支和葉子(Roots,Branches and Leaves)

每個(gè)頁（邏輯上指的是主鍵索引的葉子節(jié)點(diǎn)）包含2-N行數(shù)據(jù)行，根據(jù)主鍵排列，樹有著特殊的頁區(qū)管理不同的分支，即內(nèi)部節(jié)點(diǎn)（INodes）。示例如下：

圖片

ROOT NODE #3: 4 records, 68 bytes
 NODE POINTER RECORD ≥ (id=2) → #197
 INTERNAL NODE #197: 464 records, 7888 bytes
 NODE POINTER RECORD ≥ (id=2) → #5
 LEAF NODE #5: 57 records, 7524 bytes
 RECORD: (id=2) → (uuid="884e471c-0e82-11e7-8bf6-08002734ed50", millid=139, kwatts_s=1956, date="2017-05-01", locatinotallow="For beauty's pattern to succeeding men.Yet do thy", active=1, time="2017-03-21 22:05:45", strrecordtype="Wit")

表結(jié)構(gòu)為：

CREATE TABLE `wmills` (
  `id` bigint(11) NOT NULL AUTO_INCREMENT,
  `uuid` char(36) COLLATE utf8_bin NOT NULL,
  `millid` smallint(6) NOT NULL,
  `kwatts_s` int(11) NOT NULL,
  `date` date NOT NULL,
  `location` varchar(50) COLLATE utf8_bin DEFAULT NULL,
  `active` tinyint(2) NOT NULL DEFAULT '1',
  `time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
  `strrecordtype` char(3) COLLATE utf8_bin NOT NULL,
  PRIMARY KEY (`id`),
  KEY `IDX_millid` (`millid`)
) ENGINE=InnoDB;

B+樹的根節(jié)點(diǎn)就是查詢的根節(jié)點(diǎn)，如圖的#3就是根節(jié)點(diǎn)。根節(jié)點(diǎn)（頁）包含了索引ID、INodes數(shù)量等信息。INodes頁包含了關(guān)于頁本身的信息、值的范圍等。最后還有葉子節(jié)點(diǎn)，存儲著具體的數(shù)據(jù)行的全部數(shù)據(jù)。在示例中，葉子節(jié)點(diǎn)#5有57行記錄，共7524bytes。這行信息是具體的記錄，可以看到數(shù)據(jù)行內(nèi)容。

因此，使用InnoDB管理表和行，InnoDB會將數(shù)據(jù)以分支、頁和記錄形式進(jìn)行組織。InnoDB可操的最小粒度是頁，頁加載進(jìn)內(nèi)存后才會通過掃描頁獲取行數(shù)據(jù)（即示例中的record）。

3 頁的內(nèi)部原理(page internals)

數(shù)據(jù)頁的數(shù)據(jù)會按照主鍵的順序來排序，這也是我們在設(shè)計(jì)表主鍵時(shí)設(shè)置為AUTO_INCREMENT的原因，這樣在頻繁插入時(shí)，寫入的數(shù)據(jù)盡可能的寫入相同的頁，寫滿后刷盤也可以是順序?qū)憽?/p>

圖片

但是如果頁的數(shù)據(jù)比較小，就會導(dǎo)致磁盤和內(nèi)存空間的浪費(fèi)，因此，如果頁的數(shù)據(jù)大小/頁大小小于一定比例，就會做頁合并，這個(gè)值我們稱之為MERGE_THRESHOLD，默認(rèn)值為50%。

圖片

當(dāng)本頁數(shù)據(jù)寫滿后，就會從內(nèi)存中申請新頁（next）進(jìn)行寫入。

圖片

每個(gè)葉子節(jié)點(diǎn)都有著一個(gè)指向包含下一條（順序）記錄的頁的指針，這也是InnoDB可以實(shí)現(xiàn)自頂向下的遍歷和葉子節(jié)點(diǎn)順序范圍掃描的能力基礎(chǔ)。

4 頁合并（page merging）

當(dāng)執(zhí)行數(shù)據(jù)行刪除時(shí)，并沒有物理刪除，而是將改行數(shù)據(jù)標(biāo)記（flaged）為刪除，允許被其他記錄聲明使用。

圖片

當(dāng)頁中刪除的記錄達(dá)到MERGE_THRESHOLD（默認(rèn)頁體積的50%），InnoDB確認(rèn)最靠近的前后頁是否頁達(dá)到MERGE_THRESHOLD，如果也已經(jīng)在限定值之下，可以將兩個(gè)頁進(jìn)行合并優(yōu)化空間使用。如上圖，當(dāng)page#5數(shù)據(jù)小于50%時(shí)，由于page#6數(shù)據(jù)量也是小于50%，因此會進(jìn)行頁合并，合并后，page#6就會變?yōu)榭枕?，可以接納新數(shù)據(jù)。

圖片

圖片

在delete/update語句操作中都可能會誘發(fā)頁合并的發(fā)生，關(guān)聯(lián)到當(dāng)前頁的相鄰頁。如果頁合并成功，在INFOMATION_SCHEMA.INNODB_METRICS中的index_page_merge_successful將會增加。

5 頁分裂（Page Splits)

假設(shè)有如下場景，page#10已經(jīng)被填滿時(shí)，繼續(xù)插入數(shù)據(jù)，#10沒有足夠空間去容納新的記錄，根據(jù)“下一頁”邏輯，記錄應(yīng)該由page#11負(fù)責(zé)，但是頁#11也已經(jīng)滿了。

圖片

圖片

這時(shí)候的簡化邏輯為：

創(chuàng)建新頁#12；
判斷當(dāng)前頁（page#10）可以從哪里進(jìn)行分裂（記錄行里面）；
移動記錄行；
重新定義頁與頁之間的關(guān)系；

圖片

新的頁#12被創(chuàng)建。

圖片

此時(shí)的頁與頁之間的關(guān)系為：

Page #10 will have Prev=9 and Next=12
Page #12 Prev=10 and Next=11
Page #11 Prev=12 and Next=13（page#13是后續(xù)順序插入新增的頁）；

這樣，B+樹水平方向的邏輯一致性仍然滿足，但是在物理存儲上頁可能是亂序的，大概率會落到不同的區(qū)。

不太清楚這里是否會有疑問，page#10和page#11雖然都已經(jīng)寫滿，但是可能已經(jīng)存在page#12，并且還有大量剩余空間，為什么不做數(shù)據(jù)遷移呢？這樣不就可以不插入新頁而導(dǎo)致大量的空間浪費(fèi)了嗎？

雖然從理論上是可行的，但是在實(shí)操中，這時(shí)候InnoDB就需要先遍歷確認(rèn)next page是否有空余位置，甚至是繼續(xù)遍歷直至找到有空余位置的頁，然后進(jìn)行數(shù)據(jù)遷移，這個(gè)操作可能帶來大量遍歷的時(shí)間復(fù)雜度以及數(shù)據(jù)復(fù)制的IO操作，因此，方案不可行。

因此，我們可以總結(jié)：頁分裂可能發(fā)生在執(zhí)行插入或者更新時(shí)，但是可能也會造成頁的錯(cuò)位（dislocation），即落入不同的區(qū)。

InnoDB用INFORMATION_SCHEMA.INNODB_METRICS表來跟蹤頁的分裂數(shù)?？梢圆榭雌渲械膇ndex_page_splits和index_page_reorg_attempts/successful統(tǒng)計(jì)。

當(dāng)page#12和page#10的數(shù)據(jù)都低于MERGE_THRESHOLD時(shí)，這時(shí)候可以通過頁合并將數(shù)據(jù)合并回來。

另一種方式是使用OPTIMIZE重新整理表，可以將大量分布在不同區(qū)的頁理順，因此，也是一個(gè)很重量級和耗時(shí)的過程。

同時(shí)，不管是頁分裂還是頁合并，InnoDB都會在索引樹上加寫鎖（x-latch）。在操作頻繁的系統(tǒng)中這會是在隱患，可能會導(dǎo)致索引的鎖競爭（index latch contention）。如果表中沒有合并和分裂操作（也就是寫操作），稱之為“樂觀（optimistic）”更新，只需要使用讀鎖（S）。帶有合并或者分裂的操作稱之為“悲觀（pessimistic）”更新，使用寫鎖（X）。

責(zé)任編輯：武曉燕來源：陸隊(duì)長

MySQL InnoDB 頁分裂

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="inol5"></style>