自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

拜托，別再問我什么是B+樹了

作者：碼海 2020-03-30 17:20:54

開發(fā) 前端

每當(dāng)我們執(zhí)行某個(gè) SQL 發(fā)現(xiàn)很慢時(shí)，都會(huì)下意識(shí)地反應(yīng)是否加了索引，那么大家是否有想過加了索引為啥會(huì)使數(shù)據(jù)查找更快呢，索引的底層一般又是用什么結(jié)構(gòu)存儲(chǔ)的呢，相信大家看了標(biāo)題已經(jīng)有答案了，沒錯(cuò)!B+樹!那么它相對(duì)于一般的鏈表，哈希等有何不同，為何多數(shù)存儲(chǔ)引擎都選擇使用它呢，今天我就來揭開 B+ 樹的面紗，相信看了此文，B+ 樹不再神秘

前言

每當(dāng)我們執(zhí)行某個(gè) SQL 發(fā)現(xiàn)很慢時(shí)，都會(huì)下意識(shí)地反應(yīng)是否加了索引，那么大家是否有想過加了索引為啥會(huì)使數(shù)據(jù)查找更快呢，索引的底層一般又是用什么結(jié)構(gòu)存儲(chǔ)的呢，相信大家看了標(biāo)題已經(jīng)有答案了，沒錯(cuò)!B+樹!那么它相對(duì)于一般的鏈表，哈希等有何不同，為何多數(shù)存儲(chǔ)引擎都選擇使用它呢，今天我就來揭開 B+ 樹的面紗，相信看了此文，B+ 樹不再神秘，對(duì)你理解以下高頻面試題會(huì)大有幫助!

為啥索引常用 B+ 樹作為底層的數(shù)據(jù)結(jié)構(gòu)
除了 B+ 樹索引，你還知道什么索引
為啥推薦自增 id 作為主鍵，自建主鍵不行嗎
什么是頁分裂，頁合并
怎么根據(jù)索引查找行記錄

本文將會(huì)從以下幾個(gè)方面來講解 B+ 樹

定義問題
幾種常見的數(shù)據(jù)結(jié)構(gòu)對(duì)比
頁分裂與頁合并

定義問題

要知道索引底層為啥使用 B+ 樹，得看它解決了什么問題，我們可以想想，日常我們用到的比較多的 SQL 有哪些呢。

假設(shè)我們有一張以下的用戶表：

CREATE  TABLE  `user` ( 
  `id` int(11) unsigned  NOT  NULL AUTO_INCREMENT, 
  `name` varchar(20) DEFAULT  NULL COMMENT '姓名', 
  `idcard` varchar(20) DEFAULT  NULL COMMENT '身份證號(hào)碼', 
  `age` tinyint(10) DEFAULT  NULL  COMMENT '年齡', 
  PRIMARY KEY (`id`) 
) ENGINE=InnoDB  DEFAULT  CHARSET=utf8 COMMENT='用戶信息';

一般我們會(huì)有如下需求：

1、根據(jù)用戶 id 查用戶信息

select * from  user  where  id = 123;

2、根據(jù)區(qū)間值來查找用戶信息

select * from  user  where  id > 123  and  id < 234;

3、按 id 逆序排列，分頁取出用戶信息

select * from  user  where  id <  1234  order  by  id  desc  limit  10;

從以上的幾個(gè)常用 SQL 我們可以看到索引所用的數(shù)據(jù)結(jié)構(gòu)必須滿足以下三個(gè)條件

根據(jù)某個(gè)值精確快速查找
根據(jù)區(qū)間值的上下限來快速查找此區(qū)間的數(shù)據(jù)
索引值需要排好序，并支持快速順序查找和逆序查找

接下來我們以主鍵索引(id 索引)為例來看看如何用相應(yīng)的數(shù)據(jù)結(jié)構(gòu)來構(gòu)造它

幾種常見的數(shù)據(jù)結(jié)構(gòu)對(duì)比

接下來我們想想有哪些數(shù)據(jù)結(jié)構(gòu)滿足以上的條件

1、散列表

散列表(也稱哈希表)是根據(jù)關(guān)鍵碼值(Key value)而直接進(jìn)行訪問的數(shù)據(jù)結(jié)構(gòu)，它讓碼值經(jīng)過哈希函數(shù)的轉(zhuǎn)換映射到散列表對(duì)應(yīng)的位置上，查找效率非常高。哈希索引就是基于散列表實(shí)現(xiàn)的，假設(shè)我們對(duì)名字建立了哈希索引，則查找過程如下圖所示：

對(duì)于每一行數(shù)據(jù)，存儲(chǔ)引擎都會(huì)對(duì)所有的索引列(上圖中的 name 列)計(jì)算一個(gè)哈希碼(上圖散列表的位置)，散列表里的每個(gè)元素指向數(shù)據(jù)行的指針，由于索引自身只存儲(chǔ)對(duì)應(yīng)的哈希值，所以索引的結(jié)構(gòu)十分緊湊，這讓哈希索引查找速度非常快!但是哈希索引也有它的劣勢(shì)，如下：

針對(duì)哈希索引，只有精確匹配索引所有列的查詢才有效，比如我在列(A,B)上建立了哈希索引，如果只查詢數(shù)據(jù)列 A，則無法使用該索引。
哈希索引并不是按照索引值順序存存儲(chǔ)的，所以也就無法用于排序，也就是說無法根據(jù)區(qū)間快速查找
哈希索引只包含哈希值和行指針，不存儲(chǔ)字段值，所以不能使用索引中的值來避免讀取行，不過，由于哈希索引多數(shù)是在內(nèi)存中完成的，大部分情況下這一點(diǎn)不是問題
哈希索引只支持等值比較查詢，包括 =,IN()，不支持任何范圍的查找，如 age > 17

綜上所述，哈希索引只適用于特定場(chǎng)合，如果用得對(duì)，確實(shí)能再帶來很大的性能提升，如在 InnoDB 引擎中，有一種特殊的功能叫「自適應(yīng)哈希索引」，如果 InnoDB 注意到某些索引列值被頻繁使用時(shí)，它會(huì)在內(nèi)存基于 B+ 樹索引之上再創(chuàng)建一個(gè)哈希索引，這樣就能讓 B+樹也具有哈希索引的優(yōu)點(diǎn)，比如快速的哈希查找。

2、鏈表

雙向鏈表支持順序查找和逆序查找，如圖下

但顯然不支持我們說的按某個(gè)值或區(qū)間的快速查找，另外我們知道表中的數(shù)據(jù)是要不斷增加的，索引也是要及時(shí)插入更新的，鏈表顯然也不支持?jǐn)?shù)據(jù)的快速插入，所以能否在鏈表的基礎(chǔ)上改造一下，讓它支持快速查找，更新，刪除。有一種結(jié)構(gòu)剛好能滿足我們的需求，這里引入跳表的概念。

什么是跳表?簡(jiǎn)單地說，跳表是在鏈表之上加上多層索引構(gòu)成的。如下圖所示

假設(shè)我們現(xiàn)在要查找區(qū)間 7- 13 的記錄，再也不用從頭開始查找了，只要在上圖中的二級(jí)索引開始找即可，遍歷三次即可找到鏈表的區(qū)間位置，時(shí)間復(fù)雜度是 O(logn)，非常快，這樣看來，跳表是能滿足我們的需求的，實(shí)際上它的結(jié)構(gòu)已經(jīng)和 B+ 樹非常接近了，只不過 B+ 樹是從平衡二叉查找樹演化而來的而已，接下來我們一步步來看下如何將平衡二叉查找樹改造成 B+ 樹。

先來看看什么是平衡二叉查找樹，平衡二叉查找樹具有如下性質(zhì)：

若左子樹不空，則左子樹上所有節(jié)點(diǎn)的值均小于它的根節(jié)點(diǎn)的值;
若右子樹不空，則右子樹上所有節(jié)點(diǎn)的值均大于或等于它的根節(jié)點(diǎn)的值;
每個(gè)非葉子節(jié)點(diǎn)的左右子樹的高度之差的絕對(duì)值(平衡因子)最多為1。

下圖就是一顆平衡二叉查找樹

從其特性就可以看到平衡二叉查找樹查找節(jié)點(diǎn)的時(shí)間復(fù)雜度是 O(log2n)

現(xiàn)在我們將其改造成 B+ 樹

可以看到主要區(qū)別就是所有的節(jié)點(diǎn)值都在最后葉節(jié)點(diǎn)上用雙向鏈表連接在了一起，仔細(xì)和跳表對(duì)比一下，是不是很像，現(xiàn)在如果我們要找15 ~ 27 這個(gè)區(qū)間的數(shù)只要先找到 15 這個(gè)節(jié)點(diǎn)(時(shí)間復(fù)雜度 logn = 3 次)再?gòu)那巴蟊闅v直到 27 這個(gè)節(jié)點(diǎn)即可，即可找到這區(qū)間的節(jié)點(diǎn)，這樣它完美地支持了我們提的三個(gè)需求：快速查找值，區(qū)間，順序逆序查找。

假設(shè)有 1 億個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)要查詢多少次呢，顯然最多為 log21億 = 27 次，如果這 1 億個(gè)節(jié)點(diǎn)都在內(nèi)存里，那 27 次顯然不是問題，可以說是非?？炝?，但一個(gè)新的問題出現(xiàn)了，這 1 億個(gè)節(jié)點(diǎn)在內(nèi)存大小是多少呢，我們簡(jiǎn)單算一下，假設(shè)每個(gè)節(jié)點(diǎn) 16 byte，則 1 億個(gè)節(jié)點(diǎn)大概要占用 1.5G 內(nèi)存!對(duì)于內(nèi)存這么寶貴的資源來說是非?？膳碌目臻g消耗，這還只是一個(gè)索引，一般我們都會(huì)在表中定義多個(gè)索引，或者庫(kù)中定義多張表，這樣的話內(nèi)存很快就爆滿了!所以在內(nèi)存中完全裝載一個(gè) B+ 樹索引顯然是有問題的，如何解決呢。

內(nèi)存放不下，我們可以把它放到磁盤嘛，磁盤空間比內(nèi)存大多了，但新的問題又來了，我們知道內(nèi)存與磁盤的讀取速度相差太大了，通常內(nèi)存是納秒級(jí)的，而磁盤是毫秒級(jí)的，讀取同樣大小的數(shù)據(jù)，兩者可能相差上萬倍，于是上一步我們計(jì)算的 27 次查詢?nèi)绻旁诖疟P中來看就非常要命了(查找一個(gè)節(jié)點(diǎn)可以認(rèn)為是一次磁盤 IO，也就是說有 27 次磁盤 IO!)，27 次查詢是否可以優(yōu)化?

可以很明顯地觀察到查詢次數(shù)和樹高有關(guān)，那樹高和什么有關(guān)，很明顯和每個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)個(gè)數(shù)有關(guān)，即 N 叉樹中的 N，假設(shè)現(xiàn)在有 16 個(gè)數(shù)，我們分別用二叉樹和五叉樹來構(gòu)建，看下樹高分別是多少

可以看到如果用二叉樹，要遍歷 5 個(gè)節(jié)點(diǎn)，如果用五叉樹，只要遍歷 3 次，一下少了兩次磁盤 IO，回過頭來看上文的一億個(gè)節(jié)點(diǎn)，如果我們用 100 叉樹來構(gòu)建，需要幾次 IO 呢

可以看到，最多遍歷五次(實(shí)際上根節(jié)點(diǎn)一般存在內(nèi)存里的，所以可以認(rèn)為是 4 次)!磁盤 IO 一下從 27 減少到了 5!性能可以說是大大提升了,有人說 5 次還是太多，是不是可以把 100 叉樹改成 1000 或 10000 叉樹呢，這樣 IO 次數(shù)不就就能進(jìn)一步減少了。

這里我們就需要了解頁(page)的概念，在計(jì)算機(jī)里，無論是內(nèi)存還是磁盤，操作系統(tǒng)都是按頁的大小進(jìn)行讀取的(頁大小通常為 4 kb)，磁盤每次讀取都會(huì)預(yù)讀，會(huì)提前將連續(xù)的數(shù)據(jù)讀入內(nèi)存中，這樣就避免了多次 IO，這就是計(jì)算機(jī)中有名的局部性原理，即我用到一塊數(shù)據(jù)，很大可能這塊數(shù)據(jù)附近的數(shù)據(jù)也會(huì)被用到，干脆一起加載，省得多次 IO 拖慢速度，這個(gè)連續(xù)數(shù)據(jù)有多大呢，必須是操作系統(tǒng)頁大小的整數(shù)倍，這個(gè)連續(xù)數(shù)據(jù)就是 MySQL 的頁，默認(rèn)值為 16 KB，也就是說對(duì)于 B+ 樹的節(jié)點(diǎn)，最好設(shè)置成頁的大小(16 KB)，這樣一個(gè) B+ 樹上的節(jié)點(diǎn)就只會(huì)有一次 IO 讀。

那有人就會(huì)問了，這個(gè)頁大小是不是越大越好呢，設(shè)置大一點(diǎn)，節(jié)點(diǎn)可容納的數(shù)據(jù)就越多，樹高越小，IO 不就越小了嗎，這里要注意，頁大小并不是越大越好，InnoDB 是通過內(nèi)存中的緩存池(pool buffer)來管理從磁盤中讀取的頁數(shù)據(jù)的。頁太大的話，很快就把這個(gè)緩存池?fù)螡M了，可能會(huì)造成頁在內(nèi)存與磁盤間頻繁換入換出，影響性能。

通過以上分析，相信我們不難猜測(cè)出 N 叉樹中的 N 該怎么設(shè)置了，只要選的時(shí)候盡量保證每個(gè)節(jié)點(diǎn)的大小等于一個(gè)頁(16kb)的大小即可。

頁分裂與頁合并

現(xiàn)在我們來看看開頭的問題，為啥推薦自增 id 作為主鍵，自建主鍵不行嗎，有人可能會(huì)說用戶的身份證是唯一的，可以用它來做主鍵，假設(shè)以身份證作主鍵，會(huì)有什么問題呢。

B+ 樹為了維護(hù)索引的有序性，每插入或更新一條記錄的時(shí)候，會(huì)對(duì)索引進(jìn)行更新。假設(shè)原來基于身份證作索引的 B+ 樹如下(假設(shè)為二叉樹，圖中只列出了身份證的前四位)

現(xiàn)在有一個(gè)開頭是 3604 的身份證對(duì)應(yīng)的記錄插入 db ，此時(shí)要更新索引，按排序來更新的話，顯然這個(gè) 3604 的身份證號(hào)應(yīng)該插到左邊節(jié)點(diǎn) 3504 后面(如下圖示，假設(shè)為二叉樹)

如果把 3604 這個(gè)身份證號(hào)插入到 3504 后面的話，這個(gè)節(jié)點(diǎn)的元素個(gè)數(shù)就有 3 個(gè)了，顯然不符合二叉樹的條件，此時(shí)就會(huì)造成頁分裂，就需要調(diào)整這個(gè)節(jié)點(diǎn)以讓它符合二叉樹的條件

如圖示：調(diào)整過后符合二叉樹條件

這種由于頁分裂造成的調(diào)整必然導(dǎo)致性能的下降，尤其是以身份證作為主鍵的話，由于身份證的隨機(jī)性，必然造成大量的隨機(jī)結(jié)點(diǎn)中的插入，進(jìn)而造成大量的頁分裂，進(jìn)而造成性能的急劇下降，那如果是以自增 id 作為主鍵呢，由于新插入的表中生成的 id 比索引中所有的值都大，所以它要么合到已存在的節(jié)點(diǎn)(元素個(gè)數(shù)未滿)中，要么放入新建的節(jié)點(diǎn)中(如下圖示)所以如果是以自增 id 作為主鍵，就不存在頁分裂的問題了，推薦!

有頁分裂就必然有頁合并，什么時(shí)候會(huì)發(fā)生頁合并呢，當(dāng)刪除表記錄的時(shí)候，索引也要?jiǎng)h除，此時(shí)就有可能發(fā)生頁合并，如圖示

當(dāng)我們刪除 id 為 7，9 對(duì)應(yīng)行的時(shí)候，上圖中的索引就要更新，把 7，9 刪掉，此時(shí) 8，10 就應(yīng)該合到一個(gè)節(jié)點(diǎn)，不然 8，10 分散在兩個(gè)節(jié)點(diǎn)上，可能造成兩次 IO 讀，勢(shì)必會(huì)影響查找效率! 那什么時(shí)候會(huì)發(fā)生頁合并呢，我們可以定個(gè)閾值，比如對(duì)于 N 叉樹來說，當(dāng)節(jié)點(diǎn)的個(gè)數(shù)小于 N/2 的時(shí)候就應(yīng)該和附近的節(jié)點(diǎn)合并，不過需要注意的是合并后節(jié)點(diǎn)里的元素大小可能會(huì)超過 N，造成頁分裂，需要再對(duì)父節(jié)點(diǎn)等進(jìn)行調(diào)整以讓它滿足 N 叉樹的條件。

怎么根據(jù)索引查找行記錄

相信大家看完以上的 B+ 樹索引的介紹應(yīng)該還有個(gè)疑惑，怎么根據(jù)對(duì)應(yīng)的索引值查找行記錄呢，其實(shí)相應(yīng)的行記錄就放在最后的葉子節(jié)點(diǎn)中，找到了索引值，也就找到了行記錄。如圖示

可以看到，非葉子節(jié)點(diǎn)只存了索引值，只在最后一行才存放了行記錄，這樣極大地減小了索引了大小，而且只要找到索引值就找到了行記錄，也提升了效率，

這種在葉節(jié)點(diǎn)存放一整行記錄的索引被稱為聚簇索引，其他的就稱為非聚簇索引。

關(guān)于 B+ 樹的總結(jié)

綜上所述，B+樹有以下特點(diǎn)：

每個(gè)節(jié)點(diǎn)中子節(jié)點(diǎn)的個(gè)數(shù)不能超過 N，也不能小于 N/2(不然會(huì)造成頁分裂或頁合并)
根節(jié)點(diǎn)的子節(jié)點(diǎn)個(gè)數(shù)可以不超過 m/2，這是一個(gè)例外
m 叉樹只存儲(chǔ)索引，并不真正存儲(chǔ)數(shù)據(jù)，只有最后一行的葉子節(jié)點(diǎn)存儲(chǔ)行數(shù)據(jù)。
通過鏈表將葉子節(jié)點(diǎn)串聯(lián)在一起，這樣可以方便按區(qū)間查找

總結(jié)

本文由日常中常用的 SQL 由淺入深地總結(jié)了 B+ 樹的特點(diǎn)，相信大家應(yīng)該對(duì) B+ 樹索引有了比較清晰地認(rèn)識(shí)，所以說為啥我們要掌握底層原來，學(xué)完了 B+ 樹，再看開頭提的幾個(gè)問題，其實(shí)也不過如此，深挖底層，有時(shí)候確實(shí)能讓你以不變應(yīng)萬變。

責(zé)任編輯：武曉燕來源：碼海

B+樹 SQL 索引

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)