MySQL高級進(jìn)階:關(guān)于InnoDB存儲結(jié)構(gòu),一文深入分析講解
在InnoDB存儲引擎的索引里,存在一些數(shù)據(jù)存儲結(jié)構(gòu)的概念,這一節(jié)先了解一下InnodDB的邏輯存儲結(jié)構(gòu),為索引的學(xué)習(xí)打好基礎(chǔ)。
從InnoDB存儲引擎的存儲結(jié)構(gòu)看,所有數(shù)據(jù)都被邏輯地放在一個空間中,稱之為表空間(tablespace)、區(qū)(extent)、頁(page)組成,頁在一些文檔中也被稱之為塊(block)。
1、InnoDB邏輯存儲結(jié)構(gòu)
InnoDB存儲引擎的邏輯存儲結(jié)構(gòu)大致如圖:
這張圖更清晰地展示了這些空間的包含關(guān)系:
1.1、表空間(Tablespace)
表空間可以看做InnoDB邏輯結(jié)構(gòu)的最高層,所有的數(shù)據(jù)都放在表空間中。
在默認(rèn)情況下,InnoDB存儲引擎都有一個共享表空間ibdata1,即所有數(shù)據(jù)都存放在這個表空間內(nèi)。如果用戶啟用了參數(shù)innodb_file_per_table,則每張表內(nèi)的數(shù)據(jù)可以單獨(dú)放到一個表空間內(nèi)。
如果啟用了innodb_file_per_table參數(shù),也需要注意,每張表的表空間存放的只是數(shù)據(jù)、索引和插入緩沖Bitmap頁,其它類的數(shù)據(jù),如回滾(undo)信息,插入緩沖索引頁、系統(tǒng)事務(wù)信息,二次寫緩沖等還是存放在原來的共享表空間內(nèi)。
1.2、段(Segment)
表空間是由各個段組成的,常見的段有數(shù)據(jù)段、索引段、回滾段等。
InnoDB存儲引擎表是索引組織(index organized)的,因此數(shù)據(jù)即索引,索引即數(shù)據(jù)。那么數(shù)據(jù)段即為B+樹的葉子節(jié)點(diǎn)(Leaf node segment),索引段即為B+樹的非索引節(jié)點(diǎn)(Non-leaf node segment),這些內(nèi)容在后面的索引學(xué)習(xí)里會詳細(xì)介紹。
1.3、區(qū)(extend)
區(qū)是由連續(xù)頁組成的空間,在任何情況下每個區(qū)的大小都為1MB。為了保證區(qū)中頁的連續(xù)性,InonoDB存儲引擎一次從磁盤申請4-5個區(qū)。在默認(rèn)情況下,InnoDB存儲引擎的頁的大小為16KB,即一個區(qū)中應(yīng)有64個連續(xù)的頁。
InnoDB1.0.x版本開始引入壓縮頁,每個頁的大小可以通過參數(shù)KEY_BLOCK_SIZE設(shè)置為2K、4K、8K,因此每個區(qū)對應(yīng)的頁尾512、256、128.
InnoDB1.2.x版本新增了參數(shù)innodb_page_size,通過該參數(shù)可以將默認(rèn)頁的大小設(shè)置為4K、8K,但是頁中的數(shù)據(jù)不是壓縮的。
但是有時候?yàn)榱斯?jié)約磁盤容量的開銷,創(chuàng)建表默認(rèn)大小是96KB,區(qū)中是64個連續(xù)的頁。(對于一些小表)
1.4、頁(page)
頁是InnoDB存儲引擎磁盤管理的最小單位,每個頁默認(rèn)16KB;InnoDB存儲引擎從1.2.x版本開始,可以通過參數(shù)innodb_page_size將頁的大小設(shè)置為4K、8K、16K。
若設(shè)置完成,則所有表中頁的大小都為innodb_page_size,不可以再次對其進(jìn)行修改,除非通過mysqldump導(dǎo)入和導(dǎo)出操作來產(chǎn)生新的庫。
innoDB存儲引擎中,常見的頁類型有:
- 數(shù)據(jù)頁(B-tree Node)
- undo頁(undo Log Page)
- 系統(tǒng)頁 (System Page)
- 事務(wù)數(shù)據(jù)頁 (Transaction System Page)
- 插入緩沖位圖頁(Insert Buffer Bitmap)
- 插入緩沖空閑列表頁(Insert Buffer Free List)
- 未壓縮的二進(jìn)制大對象頁(Uncompressed BLOB Page)
- 壓縮的二進(jìn)制大對象頁 (compressed BLOB Page)
1.5、行(row)
InnoDB存儲引擎是面向行的(row-oriented),也就是說數(shù)據(jù)是按行進(jìn)行存放的,每個頁存放的行記錄也是有硬性定義的,最多允許存放16KB/2-200,即7992行記錄。
2、InnoDB 行記錄格式
InnoDB 存儲引擎和大多數(shù)數(shù)據(jù)庫一樣(如 Oracle 和 Microsoft SQL Server 數(shù)據(jù)庫),記錄是以行的形式存儲的。這意味著頁中保存著表中一行行的數(shù)據(jù)。在 InnoDB 1.0x 版本之前,InnoDB 存儲引擎提供了 Compact 和 Redundant 兩種格式來存放行記錄數(shù)據(jù),這也是目前使用最多的一種格式。
2.1、Compact 行記錄格式
Compact 行記錄是在 MySQL 5.0 中引人的,其設(shè)計目標(biāo)是髙效地存儲數(shù)據(jù)。簡單來說,一個頁中存放的行數(shù)據(jù)越多,其性能就越髙。
下圖顯示了 Compact 行記錄的存儲方式:
Compact 行記錄格式的首部是一個非 NULL 變長字段長度列表,并且其是按照列的順序逆序放置的,其長度為:
- 若列的長度小于 255 字節(jié),用 1 字節(jié)表示;
- 若大于 255 個字節(jié),用2 字節(jié)表示。
變長字段的長度最大不可以超過 2 字節(jié),這是因在 MySQL 數(shù)據(jù)庫中 VARCHAR 類型的最大長度限制為 65535。變長字段之后的第二個部分是 NULL 標(biāo)志位,該位指示了該行數(shù)據(jù)中是否有 NULL 值,有則用 1 表示。
接下來的部分是記錄頭信息(record header),固定占用5 字節(jié)(40 位)。每位含義見表:
最后的部分就是實(shí)際存儲每個列的數(shù)據(jù)。
需要特別注意的是,NULL 不占該部分任何空間,即 NULL 除了占有 NULL 標(biāo)志位,實(shí)際存儲不占有任何空間。另外有一點(diǎn)需要注意的是,每行數(shù)據(jù)除了用戶定義的列外,還有兩個隱藏列,事務(wù) 1D 列和回滾指針列,分別為 6 字節(jié)和 7 字節(jié)的大小。若 InnoDB 表沒有定義主鍵,每行還會增加一個 6 字節(jié)的 rowid 列。
Redundant 是 MySQL 5 . 0 版本之前 InnoDB 的 行 記 錄 存 儲 方 式,這里就不展開。
2.2、行溢出數(shù)據(jù)
InnoDB 存儲引擎可以將一條記錄中的某些數(shù)據(jù)存儲在真正的數(shù)據(jù)頁之外。因?yàn)橐话銛?shù)據(jù)頁默認(rèn)大小為16KB,假如一個數(shù)據(jù)頁存儲不了插入的數(shù)據(jù),這時肯定就會發(fā)生行溢出。
一般認(rèn)為 BLOB、LOB 這類的大對象列類型的存儲會把數(shù)據(jù)存放在數(shù)據(jù)頁之外。但是,BLOB 也可以不將數(shù)據(jù)放在溢出頁面,而且即便是 VARCHAR 列數(shù)據(jù)類型,依然有可能被存放為行溢出數(shù)據(jù)。
3、InnoDB 數(shù)據(jù)頁結(jié)構(gòu)
頁是 InnoDB 存儲引擎管理數(shù)據(jù)庫最小磁盤單位。頁類型為 B-tree Node 的頁存放的即是表中行的實(shí)際數(shù)據(jù)了。
InnoDB 數(shù)據(jù)頁由以下 7 個部分組成:
File Header (文件頭)
- Page Header (頁頭)
- Infimun 和 Supremum Records
- User Records (用戶記錄,即行記錄)
- Free Space (空閑空間)
- Page Directory (頁目錄)
- File Trailer (文件結(jié)尾信息)
其中 File Header、Page Header、File Trailer的大小是固定的, 分別為 38、56、8 字節(jié),這些空間用來標(biāo)記該頁的一些信息,如 Checksum, 數(shù)據(jù)頁所在 B+ 樹索引的層數(shù)等。User Records、Free Space、Page Directory 這些部分為實(shí)際的行記錄存儲空間,因此大小是動態(tài)的。