自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="g3ajj"></style>

<sub id="g3ajj"></sub>

<tr id="g3ajj"><td id="g3ajj"></td></tr>

<style id="g3ajj"><rp id="g3ajj"></rp></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

聚集索引和非聚集索引，很簡單的面試題，但是很多人都不知道

作者：Java碼農(nóng)之路 2023-06-05 08:07:34

數(shù)據(jù)庫其他數(shù)據(jù)庫

非聚簇索引是將索引和數(shù)據(jù)分開存儲，那么在訪問數(shù)據(jù)的時候就需要2次查找，但是和InnoDB的非聚簇部分還是有所區(qū)別。InnoDB是需要查找2次樹，先查找輔助索引樹，再查找聚簇索引樹（這個過程也叫回表）。而MyISAM的主鍵索引葉子結(jié)點的存儲的部分還是有所區(qū)別。

什么是索引？

在關(guān)系數(shù)據(jù)庫中，索引是一種單獨的、物理的對數(shù)據(jù)庫表中一列或多列的值進行排序的一種存儲結(jié)構(gòu)，它是某個表中一列或若干列值的集合和相應(yīng)的指向表中物理標(biāo)識這些值的數(shù)據(jù)頁的邏輯指針清單。索引的作用相當(dāng)于圖書的目錄，可以根據(jù)目錄中的頁碼快速找到所需的內(nèi)容。

能實現(xiàn)快速定位數(shù)據(jù)的一種存儲結(jié)構(gòu)，其設(shè)計思想是以空間換時間。

索引的分類

按「數(shù)據(jù)結(jié)構(gòu)」分類：B+tree索引、Hash索引、Full-text索引。
按「物理存儲」分類：聚簇索引（主鍵索引）、二級索引（輔助索引）。
按「字段特性」分類：主鍵索引、唯一索引、普通索引、前綴索引。
按「字段個數(shù)」分類：單列索引、聯(lián)合索引。

MySQL如何實現(xiàn)的索引機制

這個話題比較大，在MySQL中有不同的存儲引擎比如像InnoDB MyISAM Memory 等等,每一種存儲引擎在其內(nèi)部實現(xiàn)索引機制的原理也有所不同。在MySQL5.5之后默認(rèn)的就是InnoDB，并且是目前使用最廣泛的MySQL數(shù)據(jù)引擎，那我們就以InnoDB為例展開講講。

?如果說我們在表中有100條數(shù)據(jù)，而我們要找出我們需要的數(shù)據(jù)，有哪些辦法？

? 我們是不是可以按照一種順序的方式一條一條往下去搜索，直到匹配到我們需要的數(shù)據(jù)，這是一種方案在時間復(fù)雜度上是O(N)，雖說效率差但也能用。
? 二分查找法也是一種常用的比較高效的查詢算法，它的搜索效率為O(log(N)),雖說查找效率是比順序查找高了不少，但是它有兩個前提條件，必須用順序存儲結(jié)構(gòu)比如數(shù)組，第二個是必須按照關(guān)鍵字進行有序排序（從小到大）。
? 哈希查找，哈希查找的特性是能夠做到直接定址，其效率無限接近于O(1)，取決于沖突的數(shù)量。但是散列表數(shù)據(jù)是無序存儲的，排序要自己做，第二個是散列表還要擴容耗時長，遇到散列沖突性能不穩(wěn)定。
? B樹/B+樹查找的復(fù)雜度是O(log2(N)), 那么這也是InnoDB采用的數(shù)據(jù)結(jié)構(gòu)，在查找效率上的非常高的，算法具體的原理在后面介紹。

為什么InnoDB要使用B+樹作為索引結(jié)構(gòu)？

InnoDB的索引和MyISAM的索引有什么區(qū)別？

首先InnoDB和MyISAM都是使用的B+樹實現(xiàn)的，但是InnoDB使用的是聚簇索引而MyISAM使用的是非聚簇索引，聚簇索引根據(jù)主鍵創(chuàng)建一顆B+樹，葉子節(jié)點則存放的是數(shù)據(jù)行記錄，也可以把葉子結(jié)點稱為數(shù)據(jù)頁。通俗點來說就是把數(shù)據(jù)和索引存在同一個塊，找到了索引也就找到了數(shù)據(jù)。

因為葉子結(jié)點將索引和數(shù)據(jù)放在一起，就決定了聚簇索引的唯一性，一張表里面只能有一個聚簇索引。
InnoDB引擎默認(rèn)將主鍵設(shè)置為聚簇索引，但如果沒有設(shè)置主鍵，那么InnoDB將會選擇非空的唯一索引作為代替，如果沒有這樣的索引，InnoDB將會定一個隱式主鍵作為聚簇索引。
因為聚簇索引特殊的物理結(jié)構(gòu)所決定，葉子結(jié)點將索引和數(shù)據(jù)存放在一起，在獲取數(shù)據(jù)的速度上是比非聚簇索引快的。
聚簇索引數(shù)據(jù)的存儲是有序的，在進行排序查找和范圍查找的速度也是非常快的。
?? 也正因為有序性，在數(shù)據(jù)插入時按照主鍵的順序插入是最快的，否則就會出現(xiàn)頁分裂等問題，嚴(yán)重影響性能。對于InnoDB我們一般采用自增作為主鍵ID。
第二個問題主鍵最好不要進行更新，修改主鍵的代價非常大，為了保持有序性會導(dǎo)致更新的行移動，一般來說我們通常設(shè)置為主鍵不可更新。

?在這部分只介紹InnoDB和MyISAM主鍵索引的不同？輔助索引后面在說

而非聚簇索引是將索引和數(shù)據(jù)分開存儲，那么在訪問數(shù)據(jù)的時候就需要2次查找，但是和InnoDB的非聚簇部分還是有所區(qū)別。InnoDB是需要查找2次樹，先查找輔助索引樹，再查找聚簇索引樹（這個過程也叫回表）。而MyISAM的主鍵索引葉子結(jié)點的存儲的部分還是有所區(qū)別。InnoDB中存儲的是索引和聚簇索引ID，但是MyISAM中存儲的是索引和數(shù)據(jù)行的地址，只要定位就可以獲取到。

其實看到這個部分會有一個疑惑，那就是InnoDB的聚簇索引比MyISAM的主鍵快，那為什么會認(rèn)為MyISAM查詢效率比InnoDB快呢？

第一點，對于兩者存儲引擎的的性能分析不能只看主鍵索引，我們也要看看輔助索引，前頭我們介紹過InnoDB輔助索引會存在一個回表的過程。而MyISAM的輔助索引和主鍵索引的原理是一樣的，并沒有什么區(qū)別。
(重點) InnoDB對MVCC的支持，事物是比較影響性能的，就算你沒用但是也省不了檢查和維護，而MyISAM這塊卻沒有這方面的影響，具體MVCC詳解將在后面章節(jié)描述。

如果一個表沒有主鍵索引那還會創(chuàng)建B+樹嗎？

答案是會的?。?！

InnoDB是MySQL中的一種存儲引擎，它會為每個表創(chuàng)建一個主鍵索引。如果表沒有明確的主鍵索引，InnoDB會使用一個隱藏的、自動生成的主鍵來創(chuàng)建索引。這個隱藏的主鍵索引使用的就是B+樹結(jié)構(gòu)。因此，在InnoDB中，即使表沒有明確的主鍵索引，也會創(chuàng)建一個B+樹索引。

索引的優(yōu)缺點是什么？

數(shù)據(jù)是存儲在磁盤上的，操作系統(tǒng)讀取磁盤的最小單位是塊，如果沒有索引，會加載所有的數(shù)據(jù)到內(nèi)存，依次進行檢索，加載的總數(shù)據(jù)會很多，磁盤IO多。

如果有了索引，會以學(xué)號為key創(chuàng)建索引，MySQL采用B+樹結(jié)構(gòu)存儲，一方面加載的數(shù)據(jù)只有學(xué)號和主鍵ID，另一方便采用了多叉平衡樹，定位到指定學(xué)號會很快，根據(jù)關(guān)聯(lián)的ID可以快速定位到對應(yīng)行的數(shù)據(jù)，所以檢索的速度會很快，因為加載的總數(shù)據(jù)很少，磁盤IO少。

可見，索引可以大大減少檢索數(shù)據(jù)的范圍、減少磁盤IO，使查詢速度很快，因為磁盤IO是很慢的，是由它的硬件結(jié)構(gòu)決定的。

? 優(yōu)點

索引能夠提高數(shù)據(jù)檢索的效率，降低數(shù)據(jù)庫的IO成本。
通過創(chuàng)建唯一性索引，可以保證數(shù)據(jù)庫表中每一行數(shù)據(jù)的唯一性，創(chuàng)建唯一索引
在使用分組和排序子句進行數(shù)據(jù)檢索時，同樣可以顯著減少查詢中分組和排序的時間
加速兩個表之間的連接，一般是在外鍵上創(chuàng)建索引

? 缺點

需要占用物理空間,建立的索引越多需要的空間越大
創(chuàng)建索引和維護索引要耗費時間，這種時間隨著數(shù)據(jù)量的增加而增加
會降低表的增刪改的效率，因為每次增刪改索引需要進行動態(tài)維護，導(dǎo)致時間變長

使用索引一定能提升效率嗎？（什么時候適合創(chuàng)建索引，什么時候不適合創(chuàng)建索引？）

答案是不一定，任何事物我們都應(yīng)該辯證的看，知道其運行邏輯從而利用其優(yōu)點，盡量避開它的缺點。在上面我們已經(jīng)和大家介紹了過了索引帶來的優(yōu)缺點，那接下來就和大家分享幾個建索引的提示。

對于查詢中使用的少的字段盡量不要創(chuàng)建索引，創(chuàng)建索引是有成本的，空間占用、創(chuàng)建和維護成本、增刪改效率降低。
對于數(shù)據(jù)密度小的列也不建議創(chuàng)建索引，因為InnoDB中索引的B+樹所決定的，你能帶來的效率提升非常有限。（但是也有例外，舉個例子枚舉值（1，2，3），頭兩個占比百分之1%，第三個占比99%，并且頭兩個搜索占比比第三個高很多，那么是可以建議加索引的）。InnoDB的輔助索引是存在回表的，如果數(shù)據(jù)密度過小，那么性能可能還不如全表掃。像上面這種場景具有特殊性，也說明一個道理，在大多數(shù)場景下建議可能適用，但是也有不適用的時候，我們不要把這種建議當(dāng)作鐵律。

如何查看一個表的索引？

?? 上代碼 ??

show index from table_name (表名)

有哪些情況會導(dǎo)致索引失效？

這個問題要分版本回答?。?！版本不同可能會導(dǎo)致索引失效的場景也不同，直接給答案的都是耍流氓?。。?/p>

這里回答基于最新MySQL8版本，MySQL8失效的以前版本也失效，MySQL8不失效的，以前可能會失效。

使用like并且是左邊帶%, 右邊可以帶會走索引（但是并不絕對，詳細解釋看下面like專題分析）
隱式類型轉(zhuǎn)換，索引字段與條件或關(guān)聯(lián)字段的類型不一致。（比如你的字段是int，你用字符串方式去查詢會導(dǎo)致索引失效）。
在where條件里面對索引列使用運算或者使用函數(shù)。
使用OR且存在非索引列
在where條件中兩列做比較會導(dǎo)致索引失效
使用IN可能不會走索引（MySQL環(huán)境變量eq_range_index_dive_limit的值對IN語法有很大影響，該參數(shù)表示使用索引情況下IN中參數(shù)的最大數(shù)量。MySQL 5.7.3以及之前的版本中，eq_range_index_dive_limit的默認(rèn)值為10，之后的版本默認(rèn)值為200。我們拿MySQL8.0.19舉例，eq_range_index_dive_limit=200表示當(dāng)IN (...)中的值 >200個時，該查詢一定不會走索引。<=200則可能用到索引。）
使用非主鍵范圍條件查詢時，部分情況索引失效。
使用order by可能會導(dǎo)致索引失效
is null is not null ≠ 可能會導(dǎo)致索引失效

如果表中有字段為NULL 索引是否會失效？

首先講答案不一定。即使我們使用is null 或者is not null 它其實都是會走索引的。那為什么會有這樣的言論呢？這里首先就得來講講NULL值是怎么在記錄中存儲的，又是怎么在B+樹中存儲的呢。

那么在InnoDB中分為聚簇索引和非聚簇索引兩種，聚簇索引本身是不允許記錄為空的，所以可以不不用考慮，那么就剩下非聚簇索引也就是我們的輔助索引。

那既然IS NULL、IS NOT NULL、!=這些條件都可能使用到索引，那到底什么時候索引，什么時候采用全表掃描呢？

首先我們得知道兩個東西，第一個在InnoDB引擎是如何存儲NULL值的，第二個問題是索引是如何存儲NULL值的，這樣我們才能從根上理解NULL在什么場景走索引，在什么場景不走索引。

1?? 在InnoDB引擎是如何存儲NULL值的？

InnoDB引擎通過使用一個特殊的值來表示null，這個值通常被稱為"null bitmap"。null bitmap是一個二進制位序列，用來標(biāo)記表中每一個列是否為null。當(dāng)null bitmap中對應(yīng)的位為1時，表示對應(yīng)的列為null；當(dāng)null bitmap中對應(yīng)的位為0時，表示對應(yīng)的列不為null。在實際存儲時，InnoDB引擎會將null bitmap作為行記錄的一部分，存儲在行記錄的開頭，這樣可以在讀取行記錄時快速判斷每個列是否為null。

從頭開始說理解起來會比較容易，理解了獨占表空間文件就更容易理解行格式了，接著往下看：

當(dāng)我們創(chuàng)建表的時候默認(rèn)會創(chuàng)建一個*.idb 文件，這個文件又稱為獨占表空間文件，它是由段、區(qū)、頁、行組成。InnoDB存儲引擎獨占表空間大致如下圖；

Segment(表空間) 是由各個段（segment）組成的，段是由多個區(qū)（extent）組成的。段一般分為數(shù)據(jù)段、索引段和回滾段等。

數(shù)據(jù)段存放 B + 樹的葉子節(jié)點的區(qū)的集合
索引段存放 B + 樹的非葉子節(jié)點的區(qū)的集合
回滾段存放的是回滾數(shù)據(jù)的區(qū)的集合， MVCC就是利用了回滾段實現(xiàn)了多版本查詢數(shù)據(jù)

Extent(區(qū)) 在表中數(shù)據(jù)量大的時候，為某個索引分配空間的時候就不再按照頁為單位分配了，而是按照區(qū)（extent）為單位分配。每個區(qū)的大小為 1MB，對于 16KB 的頁來說，連續(xù)的 64 個頁會被劃為一個區(qū)，這樣就使得鏈表中相鄰的頁的物理位置也相鄰，就能使用順序 I/O 了。

（我們知道 InnoDB 存儲引擎是用 B+ 樹來組織數(shù)據(jù)的。B+ 樹中每一層都是通過雙向鏈表連接起來的，如果是以頁為單位來分配存儲空間，那么鏈表中相鄰的兩個頁之間的物理位置并不是連續(xù)的，可能離得非常遠，那么磁盤查詢時就會有大量的隨機I/O，隨機 I/O 是非常慢的。解決這個問題也很簡單，就是讓鏈表中相鄰的頁的物理位置也相鄰，這樣就可以使用順序 I/O 了，那么在范圍查詢（掃描葉子節(jié)點）的時候性能就會很高。）

Page(頁) 記錄是按照行來存儲的，但是數(shù)據(jù)庫的讀取并不以「行」為單位，否則一次讀?。ㄒ簿褪且淮?I/O 操作）只能處理一行數(shù)據(jù)，效率會非常低。

因此，InnoDB 的數(shù)據(jù)是按「頁」為單位來讀寫的，也就是說，當(dāng)需要讀一條記錄的時候，并不是將這個行記錄從磁盤讀出來，而是以頁為單位，將其整體讀入內(nèi)存。

默認(rèn)每個頁的大小為 16KB，也就是最多能保證 16KB 的連續(xù)存儲空間。

頁是 InnoDB 存儲引擎磁盤管理的最小單元，意味著數(shù)據(jù)庫每次讀寫都是以 16KB 為單位的，一次最少從磁盤中讀取 16K 的內(nèi)容到內(nèi)存中，一次最少把內(nèi)存中的 16K 內(nèi)容刷新到磁盤中。

頁的類型有很多，常見的有數(shù)據(jù)頁、undo 日志頁、溢出頁等等。數(shù)據(jù)表中的行記錄是用「數(shù)據(jù)頁」來管理的，數(shù)據(jù)頁的結(jié)構(gòu)這里我就不講細說了，總之知道表中的記錄存儲在「數(shù)據(jù)頁」里面就行。

Row(行) 數(shù)據(jù)庫表中的記錄都是按行（row）進行存放的，每行記錄根據(jù)不同的行格式，有不同的存儲結(jié)構(gòu)。

重點來了！??！

InnoDB 提供了 4 種行格式，分別是 Redundant、Compact、Dynamic和 Compressed 行格式。

Redundant 是很古老的行格式了， MySQL 5.0 版本之前用的行格式，現(xiàn)在基本沒人用了，那就不展開詳講了。
MySQL 5.0 之后引入了 Compact 行記錄存儲方式，由于 Redundant 不是一種緊湊的行格式，而采用更為緊湊的Compact ，設(shè)計的初衷就是為了讓一個數(shù)據(jù)頁中可以存放更多的行記錄，從 MySQL 5.1 版本之后，行格式默認(rèn)設(shè)置成 Compact。
Dynamic 和 Compressed 兩個都是緊湊的行格式，它們的行格式都和 Compact 差不多，因為都是基于 Compact 改進一點東西。從 MySQL5.7 版本之后，默認(rèn)使用 Dynamic 行格式。

那么我們來看看Compact里面長什么樣，先混個臉熟。

這里簡單介紹一下，Compact行格式其他內(nèi)容后面單獨出一個章節(jié)介紹。

NULL值列表（本問題介紹重點）

表中的某些列可能會存儲 NULL 值，如果把這些 NULL 值都放到記錄的真實數(shù)據(jù)中會比較浪費空間，所以 Compact 行格式把這些值為 NULL 的列存儲到 NULL值列表中。如果存在允許 NULL 值的列，則每個列對應(yīng)一個二進制位（bit），二進制位按照列的順序逆序排列。
二進制位的值為1時，代表該列的值為NULL。二進制位的值為0時，代表該列的值不為NULL。另外，NULL 值列表必須用整數(shù)個字節(jié)的位表示（1字節(jié)8位），如果使用的二進制位個數(shù)不足整數(shù)個字節(jié)，則在字節(jié)的高位補 0。
當(dāng)然NULL 值列表也不是必須的。當(dāng)數(shù)據(jù)表的字段都定義成 NOT NULL 的時候，這時候表里的行格式就不會有 NULL 值列表了。所以在設(shè)計數(shù)據(jù)庫表的時候，通常都是建議將字段設(shè)置為 NOT NULL，這樣可以節(jié)省 1 字節(jié)的空間（NULL 值列表占用 1 字節(jié)空間）。
「NULL 值列表」的空間不是固定 1 字節(jié)的。當(dāng)一條記錄有 9 個字段值都是 NULL，那么就會創(chuàng)建 2 字節(jié)空間的「NULL 值列表」，以此類推。

2?? 索引是如何存儲NULL值的？

我們知道InnoDB引擎中按照物理存儲的不同分為聚簇索引和非聚簇索引，聚簇索引也就是主鍵索引，那么是不允許為空的。那就不再我們本問題的討論范圍，我們重點來看看非聚簇索引，非聚簇索引是允許值為空的。

在InnoDB中非聚簇索引是通過B+樹的方式進行存儲的

從圖中可以看出，對于s1表的二級索引idx_key1來說，值為NULL的二級索引記錄都被放在了B+樹的最左邊，這是因為設(shè)計InnoDB的大叔有這樣的規(guī)定：

We define the SQL null to be the smallest possible value of a field.

也就是說他們把SQL中的NULL值認(rèn)為是列中最小的值。在通過二級索引idx_key1對應(yīng)的B+樹快速定位到葉子節(jié)點中符合條件的最左邊的那條記錄后，也就是本例中id值為521的那條記錄之后，就可以順著每條記錄都有的next_record屬性沿著由記錄組成的單向鏈表去獲取記錄了，直到某條記錄的key1列不為NULL。

3?? 我們了解了上面的兩個問題之后，我們就可以來看看，使不使用索引的依據(jù)是什么了

實際上來說我們用is null is not null ≠ 這些條件都是能走索引的，那什么時候走索引什么時候走全表掃描呢？

總結(jié)起來就是兩個字：成本！?。?/p>

如何去度量成本計算使用某個索引執(zhí)行查詢的成本就非常復(fù)雜了，展開講這個話題就停不下來了，后面考慮單獨列一個篇幅去講。

這里總結(jié)性講講：第一個，讀取二級索引記錄的成本，第二，將二級索引記錄執(zhí)行回表操作，也就是到聚簇索引中找到完整的用戶記錄操作所付出的成本。

要掃描的二級索引記錄條數(shù)越多，那么需要執(zhí)行的回表操作的次數(shù)也就越多，達到了某個比例時，使用二級索引執(zhí)行查詢的成本也就超過了全表掃描的成本（舉一個極端的例子，比方說要掃描的全部的二級索引記錄，那就要對每條記錄執(zhí)行一遍回表操作，自然不如直接掃描聚簇索引來的快）

所以MySQL優(yōu)化器在真正執(zhí)行查詢之前，對于每個可能使用到的索引來說，都會預(yù)先計算一下需要掃描的二級索引記錄的數(shù)量，比方說對于下邊這個查詢：

SELECT * FROM s1 WHERE key1 IS NULL;

優(yōu)化器會分析出此查詢只需要查找key1值為NULL的記錄，然后訪問一下二級索引idx_key1，看一下值為NULL的記錄有多少（如果符合條件的二級索引記錄數(shù)量較少，那么統(tǒng)計結(jié)果是精確的，如果太多的話，會采用一定的手段計算一個模糊的值，當(dāng)然算法也比較麻煩，我們就不展開說了），這種在查詢真正執(zhí)行前優(yōu)化器就率先訪問索引來計算需要掃描的索引記錄數(shù)量的方式稱之為index dive。當(dāng)然，對于某些查詢，比方說WHERE子句中有IN條件，并且IN條件中包含許多參數(shù)的話，比方說這樣：

SELECT * FROM s1 WHERE key1 IN ('a', 'b', 'c', ... , 'zzzzzzz');

這樣的話需要統(tǒng)計的key1值所在的區(qū)間就太多了，這樣就不能采用index dive的方式去真正的訪問二級索引idx_key1，而是需要采用之前在背地里產(chǎn)生的一些統(tǒng)計數(shù)據(jù)去估算匹配的二級索引記錄有多少條（很顯然根據(jù)統(tǒng)計數(shù)據(jù)去估算記錄條數(shù)比index dive的方式精確性差了很多）。

反正不論采用index dive還是依據(jù)統(tǒng)計數(shù)據(jù)估算，最終要得到一個需要掃描的二級索引記錄條數(shù)，如果這個條數(shù)占整個記錄條數(shù)的比例特別大，那么就趨向于使用全表掃描執(zhí)行查詢，否則趨向于使用這個索引執(zhí)行查詢。

理解了這個也就好理解為什么在WHERE子句中出現(xiàn)IS NULL、IS NOT NULL、!=這些條件仍然可以使用索引，本質(zhì)上都是優(yōu)化器去計算一下對應(yīng)的二級索引數(shù)量占所有記錄數(shù)量的比值而已。

大家可以看到，MySQL中決定使不使用某個索引執(zhí)行查詢的依據(jù)很簡單：就是成本夠不夠小。而不是是否在WHERE子句中用了IS NULL、IS NOT NULL、!=這些條件。大家以后也多多辟謠吧，沒那么復(fù)雜，只是一個成本而已。

為什么LIKE以%開頭索引會失效？

首先看看B+樹是如何查找數(shù)據(jù)的：

查找數(shù)據(jù)時，MySQL會從根節(jié)點開始，按照從左到右的順序比較查詢條件和節(jié)點中的鍵值。如果查詢條件小于節(jié)點中的鍵值，則跳到該節(jié)點的左子節(jié)點繼續(xù)查找；如果查詢條件大于節(jié)點中的鍵值，則跳到該節(jié)點的右子節(jié)點繼續(xù)查找；如果查詢條件等于節(jié)點中的鍵值，則繼續(xù)查找該節(jié)點的下一個節(jié)點。

比如說我有下面這條SQL：

select * from `user` where nickname like '%冥';

如果數(shù)據(jù)庫中存在南冥北冥西冥東冥，那么在B+樹中搜索的效率和全表掃描還有什么區(qū)別呢？

我走聚簇索引全表掃描還不用回表。

最后在擴展講一個點，其實不一定會導(dǎo)致索引失效。舉個例子：

create table `user`(
  id int primary key auto_increment,
  name varchar(20),
  index idx_name(name),
);

// 那么這種情況是會走索引的。
select id,name from `user` where name like '%冥';

為什么說上面的例子會走索引呢？

首先我們需要查詢的id name 這兩個字段是不是都在我們的輔助索引中，葉子節(jié)點是不是存的索引值和主鍵值，所以我們只要查輔助索引就可以直接拿到我們的需要的結(jié)果了，那么這個叫做索引覆蓋。我們觀察執(zhí)行計劃會發(fā)現(xiàn)它的查詢級別是index ，其實也是全表遍歷了輔助索引。

第二個問題來了，那為什么就要走輔助索引而不是走全表掃描呢？

因為輔助索引中記錄的東西比主鍵索引少了很多，只有索引值和主鍵值，但是主鍵索引中就包含了，其他值、事物ID、MVCC的回流指針等等。再加上索引覆蓋不用回表，優(yōu)化器就認(rèn)為直接遍歷輔助索引的效率高于主鍵索引。

什么是索引覆蓋？

索引覆蓋（Index Covering）是指通過在索引中包含所有查詢語句中所需的列，可以避免對表中的數(shù)據(jù)進行額外的訪問，從而提高查詢效率。(避免了回表操作)

例如，對于一個查詢語句：

SELECT col1, col2, col3 FROM table WHERE col1 = x AND col2 = y

如果在table表中建立了一個索引，包含col1、col2和col3三列，那么MySQL可以通過索引定位到符合條件的數(shù)據(jù)，并在索引中提取col1、col2和col3列的值，無需對表中的數(shù)據(jù)進行額外的訪問。這種方式就叫做索引覆蓋。

索引覆蓋能夠顯著提高查詢效率，因此在建立索引時應(yīng)盡量考慮包含查詢語句中所需的所有列。

什么是聚簇索引？

聚簇索引是一種特殊的索引，它將數(shù)據(jù)存儲在索引樹的葉子節(jié)點上。這種索引方式的優(yōu)點是，在查詢數(shù)據(jù)時可以減少一次查詢，因為查詢索引樹的同時就能獲取到數(shù)據(jù)。聚簇索引的缺點是，因為數(shù)據(jù)存儲在索引樹中，所以對數(shù)據(jù)進行修改或刪除操作時需要更新索引樹，這會增加系統(tǒng)的開銷。

聚簇索引與非聚集索引的特點是什么？

在InnoDB中聚簇索引和非聚簇索引實際上是物理空間存儲方式的一個不同。

聚簇索引

聚簇索引將數(shù)據(jù)存儲在索引樹的葉子節(jié)點上。
聚簇索引可以減少一次查詢，因為查詢索引樹的同時就能獲取到數(shù)據(jù)。
聚簇索引的缺點是，對數(shù)據(jù)進行修改或刪除操作時需要更新索引樹，會增加系統(tǒng)的開銷。
聚簇索引通常用于數(shù)據(jù)庫系統(tǒng)中，主要用于提高查詢效率。

非聚簇索引（又稱二級索引 / 輔助索引）

非聚簇索引不將數(shù)據(jù)存儲在索引樹的葉子節(jié)點上，而是存儲在數(shù)據(jù)頁中。
非聚簇索引在查詢數(shù)據(jù)時需要兩次查詢，一次查詢索引樹，獲取數(shù)據(jù)頁的地址，再通過數(shù)據(jù)頁的地址查詢數(shù)據(jù)（通常情況下來說是的，但如果索引覆蓋的話實際上是不用回表的）。
非聚簇索引的優(yōu)點是，對數(shù)據(jù)進行修改或刪除操作時不需要更新索引樹，減少了系統(tǒng)的開銷。
非聚簇索引通常用于數(shù)據(jù)庫系統(tǒng)中，主要用于提高數(shù)據(jù)更新和刪除操作的效率。

聚簇索引與非聚簇索引b+樹實現(xiàn)有什么區(qū)別？

結(jié)合“聚簇索引與非聚集索引的特點是什么？”加上下圖就明白了

一個表中可以有多個（非）聚簇索引嗎？

可以，這題容易混淆聚簇和非聚簇，聚簇只能有一個，但是非聚簇可以有很多，因為聚簇是和數(shù)據(jù)存放在一起的，但是非聚簇是單獨的。（同時這題可以結(jié)合上面兩個問題回答）

非聚簇索引為什么不存數(shù)據(jù)地址值而存儲主鍵？

我們知道在MyISAM引擎中是沒有聚簇索引，都是存的輔助索引。但是和InnoDB不同的是存儲的，它是存儲索引值和數(shù)據(jù)地址，而我們InnoDB中存儲的是主鍵ID。

我們要記住知道一個點，數(shù)據(jù)是會不斷變動的，那么它的一個地址也是會跟著不斷變動，如果直接存儲地址，下次找到的數(shù)據(jù)可能就不是原來的數(shù)據(jù)了。如果要解決這個問題的話，成本是非常高的。每次數(shù)據(jù)變動都需要進行調(diào)整。

一個b+樹中大概能存放多少條索引記錄？

什么是Hash索引？

哈希索引（hash index）基于哈希表實現(xiàn)。哈希索引通過Hash算法將數(shù)據(jù)庫的索引列數(shù)據(jù)轉(zhuǎn)換成定長的哈希碼作為key，將這條數(shù)據(jù)的行的地址作為value一并存入Hash表的對應(yīng)位置。

在MySQL中，只有Memeory引擎顯式的支持哈希索引，這也是Memory引擎表的默認(rèn)索引結(jié)構(gòu)，Memeory同時也支持B-Tree索引。并且，Memory引擎支持非唯一哈希索引，如果多個列的哈希值相同（或者發(fā)生了Hash碰撞），索引會在對應(yīng)Hash鍵下以鏈表形式存儲多個記錄地址。

哈希索引還有如下特點：

哈希索引不支持部分索引列的匹配查找，因為哈希索引始終是使用索引列的全部內(nèi)容來計算哈希值的。例如，在數(shù)據(jù)列（A，B）上建立哈希索引，如果查詢只有數(shù)據(jù)列A，則無法使用該索引。
哈希索引具有哈希表的特性，因此只有精確匹配所有列的查詢對于哈希索引才有效，比如=、<>、IN(，因為數(shù)據(jù)的存儲是無序的)，且無法使用任何范圍查詢。
因為數(shù)據(jù)的存儲是無序的，哈希索引還無法用于排序。
對于精確查詢，則哈希索引效率很高，時間復(fù)雜度為O(1)，除非有很多哈希沖突（不同的索引列有相同的哈希值），如果發(fā)生哈希沖突，則存儲引擎必須遍歷鏈表中的所有數(shù)據(jù)指針，逐行比較，直到找到所有符合條件的行。哈希沖突越多，代價就越大！

InnoDB到底支不支持哈希索引？

對于InnoDB的哈希索引，確切的應(yīng)該這么說：

InnoDB用戶無法手動創(chuàng)建哈希索引，這一層上說，InnoDB確實不支持哈希索引;
InnoDB會自調(diào)優(yōu)(self-tuning)，如果判定建立自適應(yīng)哈希索引(Adaptive Hash Index, AHI)，能夠提升查詢效率，InnoDB自己會建立相關(guān)哈希索引，這一層上說，InnoDB又是支持哈希索引的;

那什么是自適應(yīng)哈希索引(Adaptive Hash Index, AHI)呢?

1、自適應(yīng)即我們不需要自己處理，當(dāng)InnoDB引擎根據(jù)查詢統(tǒng)計發(fā)現(xiàn)某一查詢滿足hash索引的數(shù)據(jù)結(jié)構(gòu)特點，就會給其建立一個hash索引；

2、hash索引底層的數(shù)據(jù)結(jié)構(gòu)是散列表（Hash表），其數(shù)據(jù)特點就是比較適合在內(nèi)存中使用，自適應(yīng)Hash索引存在于InnoDB架構(gòu)中的緩存中（不存在于磁盤架構(gòu)中）.

什么是索引下推？

索引下推（INDEX CONDITION PUSHDOWN，簡稱 ICP）是在 MySQL 5.6 針對掃描二級索引的一項優(yōu)化改進。總的來說是通過把索引過濾條件下推到存儲引擎，來減少 MySQL 存儲引擎訪問基表的次數(shù)以及 MySQL 服務(wù)層訪問存儲引擎的次數(shù)。ICP 適用于 MYISAM 和 INNODB，本篇的內(nèi)容只基于 INNODB。

在講這個技術(shù)之前你得對mysql架構(gòu)有一個簡單的認(rèn)識，見下圖

MySQL 服務(wù)層：也就是 SERVER 層，用來解析 SQL 的語法、語義、生成查詢計劃、接管從 MySQL 存儲引擎層上推的數(shù)據(jù)進行二次過濾等等。
MySQL 存儲引擎層：按照 MySQL 服務(wù)層下發(fā)的請求，通過索引或者全表掃描等方式把數(shù)據(jù)上傳到 MySQL 服務(wù)層。
MySQL 索引掃描：根據(jù)指定索引過濾條件，遍歷索引找到索引鍵對應(yīng)的主鍵值后回表過濾剩余過濾條件。
MySQL 索引過濾：通過索引掃描并且基于索引進行二次條件過濾后再回表。
使用索引下推實現(xiàn)

索引下推的使用條件

ICP目標(biāo)是減少全行記錄讀取，從而減少IO 操作，只能用于非聚簇索引。聚簇索引本身包含的表數(shù)據(jù)，也就不存在下推一說。
只能用于range、 ref、 eq_ref、ref_or_null訪問方法；
where 條件中是用 and 而非 or 的時候。
ICP適用于分區(qū)表。
ICP不支持基于虛擬列上建立的索引，比如說函數(shù)索引
ICP不支持引用子查詢作為條件。
ICP不支持存儲函數(shù)作為條件，因為存儲引擎無法調(diào)用存儲函數(shù)。

索引下推相關(guān)語句

# 查看索引下推是否開啟
select @@optimizer_switch
# 開啟索引下推
set optimizer_switch="index_condition_pushdown=on";
# 關(guān)閉索引下推
set optimizer_switch="index_condition_pushdown=off";

什么是唯一索引？

講起來非常簡單，其實和 "普通索引"類似，不同的就是：索引列的值必須唯一，但允許有空值。可以是單列唯一索引，也可以是聯(lián)合唯一索引。

最大的所用就是確保寫入數(shù)據(jù)庫的數(shù)據(jù)是唯一值。

什么時候應(yīng)該使用唯一索引呢？

我們前面講了唯一索引最大的好處就是能保證唯一性。看似沒什么太大的價值，可能就會有同學(xué)說，我業(yè)務(wù)層做一個重復(fù)檢查不就好了。問題就在這個地方，“業(yè)務(wù)是無法確保唯一性的”，除非你說你的代碼沒有BUG。很多時候業(yè)務(wù)場景需要保證唯一性，如果不在數(shù)據(jù)庫加限制的話，總有一天會出現(xiàn)臟數(shù)據(jù)。

那又有同學(xué)就說了，既然你不想重復(fù)你可以使用主鍵索引。這個回答也很有意思。

我們確實可以通過主鍵索引來保證唯一，但是，如果你的數(shù)據(jù)不能保證有序插入。比如說身份證字段，你如果用身份證字段作為主鍵的話，會導(dǎo)致查詢效率降低。
唯一索引還有一個好處就是可以為空，真實的業(yè)務(wù)場景肯定是可以保證身份證為空的，如果沒有綁定身份證就不讓注冊好像也有點說不過去。

聚簇索引的原理就不在這里細講了，會有一個單獨的章節(jié)來介紹。

唯一索引是否會影響性能呢？

我們通過和普通索引來做一個對比，有查詢和插入兩個場景。

首先第一個數(shù)據(jù)查詢，一般情況下來說索引是通過B+樹從根節(jié)點開始層序遍歷到葉子結(jié)點，數(shù)據(jù)頁內(nèi)部通過二分搜索。

普通索引查到滿足條件的第一條記錄，繼續(xù)查找下一條記錄，直到找到不滿足條件的記錄
唯一索引查到第一個滿足條件的記錄，就停止搜索。

InnoDB 它是以數(shù)據(jù)頁為單位進行讀寫的，我們讀一條記錄，并不是從磁盤加載一條記錄，而是以頁為單位整體讀到內(nèi)存里面來的。

普通索引比唯一索引就多了一次查找和判斷下一條記錄的操作，也就是一次指針尋找數(shù)據(jù)和一次計算。當(dāng)然還有一種特殊情況，讀取到的這條數(shù)據(jù)正好是數(shù)據(jù)頁的最后一條，但是這種概率也是非常低，幾乎可以忽略不計。

整體看下來看上去性能差距并不大對吧。

來看第二個更新的性能，我們按照上面圖上的例子在2和6之間插入一個3。

在內(nèi)存中

普通索引找到2和6之間的位置 →插入值→ 結(jié)束
唯一索引找到2和6之間的位置 →**當(dāng)判斷有沒有沖突**→ 插入值→ 結(jié)束

不在內(nèi)存中

普通索引將更新記錄在change buffer → 結(jié)束
唯一索引將數(shù)據(jù)頁讀入內(nèi)存→當(dāng)判斷到?jīng)]有沖突→插入值→結(jié)束

數(shù)據(jù)讀取到內(nèi)存涉及了隨機IO訪問，這是在數(shù)據(jù)庫里面成本最高的操作之一，而change buffer 就可以減少這種隨機磁盤訪問，所以性能提示比較明顯。所以在這一塊來說，如果兩者在業(yè)務(wù)場景下都能滿足時可以優(yōu)先考慮使用普通索引。

什么是聯(lián)合索引，組合索引，復(fù)合索引？

我們在索引回顧的時候和大家對索引做了一個分類對吧，按照字段個數(shù)來分的話，就分為了單列索引和組合索引對吧。那么他們之間的特點是什么呢？我們來看

單列索引一個索引只包含了一個列，一個表里面可以有多個單列索引，但是這不叫組合索引。
組合索引（聯(lián)合索引 & 復(fù)合索引）一個索引包含多個列。

看上去感覺這組合索引并沒有太大作用是吧，我一個列已經(jīng)有一個索引了，我還要這組合索引干嘛？

真相往往不那么簡單，首先我們得承認(rèn)我們的業(yè)務(wù)千變?nèi)f化，我們的查詢語句條件肯定是非常多的。

高效率如果說只有單列索引，那就會涉及多次二級索引樹查找，再加上回表，性能相對于聯(lián)合索引來說是比較低的。
減少開銷我們要記得創(chuàng)建索引是存在空間開銷的，對于大數(shù)據(jù)量的表，使用聯(lián)合索引會降低空間開銷。
索引覆蓋如果組合索引索引值已經(jīng)滿足了我們的查詢條件，那么就不會進行回表，直接返回。

但是我們按照我們的查詢條件去創(chuàng)建一個聯(lián)合索引的話，就避免了上面的問題。那么聯(lián)合索引是怎么工作的呢？

這里涉及到了一個重點，叫做最左前綴，簡單理解就是只會從最左邊開始組合，組合索引的第一個字段必須出現(xiàn)在查詢組句中，還不能跳躍，只有這樣才能讓索引生效，比如說我查詢條件里面有組合索引里面的第二個字段，那么也是不會走組合索引的。舉個例子

// 假設(shè)給username，age創(chuàng)建了組合索引

// 這兩種情況是會走索引的
select username,age from user where username = '張三' and age = 18;
select * from user where username = '張三';

// 這種是不會走索引的
select * from user where age = 18;
select * from user where city = '北京' and age = 18;

復(fù)合索引創(chuàng)建時字段順序不一樣使用效果一樣嗎？

// 特殊情況，這種也是會走索引的，雖然我的age在前面，username在后面。
// 剛剛不是手最左前綴匹配嗎，為什么放到第二位也可以呢？
// 雖說順序不一致，但是在SQL執(zhí)行過程中，根據(jù)查詢條件命中索引，
// 無論我username在不在前面，都會按照username去進行索引查找。
select * from user where age = 18 and username = '張三';

使用Order By時能否通過索引排序？

我們知道在很多場景下會導(dǎo)致索引失效，比如說沒有遵循B+樹的最左匹配原則，但是也有一些情況是遵循了最左匹配原則但是還是沒有走索引，這里我們使用order by進行排序的時候就有不走索引的情況，那么帶大家來分析一下

drop table if exists `user`;
drop table if exists `user_example`;
create table `user`(
    `id` int primary key comment '主鍵ID',
    `card_id` int comment '身份證',
    `nickname` varchar(10) comment '昵稱',
    `age` int not null comment '年齡',
    key  `card_id` (`card_id`)
) engine=InnoDB default charset=utf8mb4;

// 這里我們明明對card_id建好了單列索引，那為什么不走索引呢？
select * from `user` order by card_id

如果索引覆蓋是可以走索引的
如果帶上索引條件是可以走索引的

通過索引排序內(nèi)部流程是什么呢？

explain select nickname,card_id,age from user order by card_id;

我們在了解mysql底層是怎么排序的之前，我們先來了解一下一個概念 sort buffer .

首先mysql會為每一個線程都分配一個固定大小的sort buffer 用于排序。它是一個具有邏輯概念的內(nèi)存區(qū)域，我們可以通過sort_buffer_size參數(shù)來控制，默認(rèn)值是256kb 。

// 輸入查看最，小可以設(shè)置為 32K，最大可以設(shè)置為 4G。
show variables like 'sort_buffer_size';

由于sort buffer 大小是一個固定的，但是我們待排序的數(shù)據(jù)量它不是，所以根據(jù)它們之間的一個差值呢，就分為了內(nèi)部排序和外部排序

當(dāng)待排序的數(shù)據(jù)量小于等于sort buffer 時，那我們的sort buffer就能夠容納，MySQL就可以直接在內(nèi)存里面排序就行了，內(nèi)部排序使用的排序算法是快排
當(dāng)待排序的數(shù)據(jù)量大于sort buffer 時，那我們的sort buffer 就不夠用了對吧。這個時候MySQL就得要借助外部文件來進行排序了。將待排序數(shù)據(jù)拆成多個小文件，對各個小文件進行排序，最后再匯總成一個有序的文件，外部排序使用的算法時歸并排序

我們來聊聊row_id排序

和大家說一個這個參數(shù)max_length_for_sort_data ，在我們MySQL中專門控制用戶排序的行數(shù)據(jù)長度參數(shù)。默認(rèn)是4096，也就是說如果超過了這個長度MySQL就會自動升級成row_id算法。

// 默認(rèn)max_length_for_sort_data的大小為4096字節(jié)
show variables like 'max_length_for_sort_data';

row_id排序的思想就是把不需要的數(shù)據(jù)不放到sort_buffer中，讓sort_buffer中只存放需要排序的字段。

舉個例子：

explain select nickname,card_id,age from user order by card_id;

我們前面說到了sort buffer，在sort buffer里面進行排序的數(shù)據(jù)是我們select的全部字段，所以當(dāng)我們查詢的字段越多，那么sort buffer能容納的數(shù)據(jù)量也就越小。而通過row_id排序就只會存放row_id 字段和排序相關(guān)的字段。其余的字段等排序完成之后通過主鍵ID進行回表拿。

group by 分組和 order by 在索引使用上有什么不同嗎？

沒什么太大的差異group by實際是先進行排序，再進行分組。所以遵循order by的索引機制。

責(zé)任編輯：武曉燕來源：今日頭條

聚集索引存儲數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="8jzov"></cite>