說說一致性讀實現(xiàn)原理?
本文轉載自微信公眾號「三太子敖丙」,可以通過以下二維碼關注。轉載本文請聯(lián)系三太子敖丙公眾號。
這個問題是我當初在面天貓的時候,2面的面試官問我的,我之前已經寫過mvcc的文章了,但是在看到我筆記的里的這個問題的時候我準備單獨理一遍,所以就有了這個文章。
現(xiàn)在,主流關系型數(shù)據庫產品基本都實現(xiàn)了MVCC的特性,快照在MVCC中起著重要的作用,代表某一時刻數(shù)據的版本,它是實現(xiàn)一致性讀的基礎。在更新操作沒提交前,數(shù)據的前鏡像存儲在Undo中,利用Undo可以實現(xiàn)一致性讀,事務回滾以及異?;謴偷炔僮?,下面就聊聊MySQL事務,MVCC,快照及一致讀的原理與實現(xiàn)。
MySQL中的事務
事務在RDBMS系統(tǒng)中概念基本都是一樣的,是由一組DML語句構的工作單元,要么全部成功,要么全部失敗。
開發(fā)過程中,比較關心長事務,即包含DML語句多的工作單元,事務太長會導致一些錯誤,例如可能由于事務數(shù)據包大小超過參數(shù)max_allowed_packet設置會導致程序報錯,也可能有事務中某個SQL對應接口報錯,導致整個服務調用失敗,在程序設計時,應該考慮避免長事務帶來的業(yè)務影響。
事務的ACID
image-20201114221841801
原子性是事務隔離的基礎,隔離性和持久性是手段,最終目的是為了保持數(shù)據的一致性。
事務的并發(fā)問題
- 臟讀:事務A讀取了事務B未提交的數(shù)據。
- 不可重復度:事務A多次讀取同一份數(shù)據,事務B在此過程中對數(shù)據修改并提交,導致事務A多次讀取同一份數(shù)據的結果不一致。
- 幻讀:事務A修改數(shù)據的同時,事務B插入了一條數(shù)據,當事務A提交后發(fā)現(xiàn)還有數(shù)據沒被修改,產生了幻覺。
不可重復讀側重于update操作,幻讀側重于insert或delete。解決不可重復讀的問題只需鎖住滿足條件的行,解決幻讀需要鎖表。
事務隔離級別
事務隔離是數(shù)據庫處理的基礎之一,隔離級別在多個事務同時進行更改和執(zhí)行查詢時,對性能與結果的可靠性、一致性和可再現(xiàn)性之間的平衡進行調整,InnoDB利用不同的鎖策略支持不同隔離級別。MySQL中有四種隔離級別,分別是讀未提交(READ UNCOMMITTED),讀已提交(READ COMMITTED),可重復讀(REPEATABLE READ)以及串行化(SERIALIZABLE)。
隔離級別 | 臟讀 | 不可重復讀 | 幻讀 |
---|---|---|---|
READ UNCOMMITTED | Yes | Yes | Yes |
READ COMMITTED | No | Yes | Yes |
REPEATABLE READ | No | No | Yes |
SERIALIZABLE | No | No | No |
InnoDB并發(fā)控制
MVCC特性
InnonDB是一個支持行鎖的存儲引擎,為了提供更好支持的并發(fā),使用了非鎖定讀,不需要等待訪問數(shù)據上的鎖釋放,而是讀取行的一個快照,該方法是通過InnonDB MVCC特性實現(xiàn)的。
MVCC是Multi-Version Concurrency Control的簡稱,即多版本并發(fā)控制,作用是讓事務在并行發(fā)生時,在一定隔離級別前提下,可以保證在某個事務中能實現(xiàn)一致性讀,也就是該事務啟動時根據某個條件讀取到的數(shù)據,直到事務結束時,再次執(zhí)行相同條件,還是讀到同一份數(shù)據,不會發(fā)生變化。
MVCC的好處
讀不加鎖,讀寫不沖突。在讀多寫少的OLTP應用中,讀寫不沖突是非常重要的,可以增加系統(tǒng)的并發(fā)性能。
在MVCC中,有兩種讀操作:快照度和當前讀。
MVCC快照
MVCC內部使用的一致性讀快照稱為Read View,在不同的隔離級別下,事務啟動時或者SQL語句開始時,看到的數(shù)據快照版本可能也不同,在RR、RC隔離級別下會用到 Read view。
InnoDB 里面每個事務有一個唯一的事務ID,稱為Transaction ID,它是在事務開始的時候向InnoDB的事務系統(tǒng)申請的,是按申請順序嚴格遞增的。而每行數(shù)據都有多個版本。每次事務更新數(shù)據的時候,都會生成一個新的數(shù)據版本Read View,并且把Transaction ID賦值給這個數(shù)據版本的事務 ID,標記為 row_trx_id。同時舊的數(shù)據版本要保留,并且在新的數(shù)據版本中,能夠有信息可以直接拿到它,數(shù)據表中的一行記錄,其實可能有多個數(shù)據版本 ,每個版本有自己的 row_trx_id。
InnoDB行格式
目前InnoDB默認的行格式Dynamic,是Compat格式的增強版,記錄頭結構信息占用5個字節(jié),事務ID和回滾指針分別占用6和7個字節(jié),行格式如下:
記錄頭結構
項目 | 大小(bit) | 描述 |
---|---|---|
() | 1 | Unknown |
() | 1 | Unknown |
deleted_flag | 1 | 數(shù)據行刪除標記 |
min_rec_flag | 1 | =1如果該記錄被預先被定義為最小的記錄 |
n_owned | 4 | 擁有的記錄數(shù) |
heap_no | 13 | 索引堆中該條記錄的排序位置 |
record_type | 3 | 記錄類型;000:普通,001:B+樹葉子節(jié)點,010:偽列Infinum,011:Supernum,1xx:保留 |
next_record | 16 | page中下一條記錄的相對位置 |
Transaction ID | 48 | 記錄中的事務ID,固定6個字節(jié) |
Rollback Pointer | 56 | 回滾指針,固定7個字節(jié) |
數(shù)據行存儲
- #創(chuàng)建表
- mysql> create table store_users (id int not null auto_increment primary key comment '主鍵id',name varchar(20) not null default '' comment '姓名');
- # 查看表狀態(tài)信息
- mysql> show table status like 'store_users'\G
- Row_format: Dynamic #默認行格式為Dynamic
- Rows: 0 #行數(shù)
- Avg_row_length: 0 #平均行長度
- Data_length: 16384 #初始化段大小16K
- #開啟事務,插入數(shù)據
- mysql> begin;
- mysql> insert into store_users values(null, 'aaaaa'),(null, 'bbbbb');
- #查看InnoDB分配的事務ID
- mysql> select trx_id from information_schema.innodb_trx\G
- trx_id: 8407246 #事務ID
分析表的行頭信息以及隱藏的事務ID和回滾指針。
- # 用Linux下的工具hexdump進行分析
- $ hexdump -C -v /usr/local/var/mysql/test/store_users.ibd > store_users.txt
- $ vi store_users.txt
- 00010060 02 00 1b 69 6e 66 69 6d 75 6d 00 03 00 0b 00 00 |...infimum......|
- 00010070 73 75 70 72 65 6d 75 6d 05 00 00 10 00 1c 80 00 |supremum........|
- 00010080 00 01 00 00 00 80 48 ce 83 00 00 01 d8 01 10 61 |......H........a| #Record Header信息
- 00010090 61 61 61 61 05 00 00 18 ff d6 80 00 00 02 00 00 |aaaa............|
- 000100a0 00 80 48 ce 83 00 00 01 d8 01 1d 62 62 62 62 62 |..H........bbbbb|
- 000100b0 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 |................|
- 10表示變長字段長度,只有一個varchar(20)沒有超過256字節(jié),且沒有NULL值。
- 00代表NULL標志位,第一行沒有為NULL數(shù)據。
- 字符a的十六進制是61,即61 61 61 61 61代表的是字段值aaaaa
- 00 00 00 80 48 ce 6個字節(jié)就是Transaction ID,轉換成十進制8407246,正是上面information_schema.innodb_trx.trx_id列的值,trx_id: 8407246 。
- 83 00 00 01 d8 01 10 7個字節(jié)是Rollback Pointer。
- 1c 80 00 00 01 是5個字節(jié),代表Record Header信息。
隔離級別與快照
REPEATABLE READ
默認的隔離級別,一致讀快照(Read View)是在第一次SELECT發(fā)起時建立,之后不會再發(fā)生變化。如果在同一個事務中發(fā)出多個非 鎖定SELECT語句,那么這些SELECT語句在事務提交前返回的結果是一致的。
在RR下快照Read View不是事務發(fā)起時創(chuàng)建,而是在第一個SELECT發(fā)起后創(chuàng)建。
READ COMMITTED
在READ COMMITTED讀已提交下,一致讀快照(Read View)是在每次SELECT后都會生成最新的Read View,即每次SELECT都能讀取到已COMMIT的數(shù)據,就會存在不可重復讀、幻讀 現(xiàn)象。
Undo回滾段
當開啟事務執(zhí)行更新語句(insert/update/deeldte),會經過Server層的處理生成執(zhí)行計劃,然后調用存儲引擎層接口去讀寫數(shù)據,用戶沒有觸發(fā)COMMIT或ROLLBACK之前,這些Uncommitted Data的數(shù)據稱為前鏡像(Post Image),數(shù)據存儲在Undo Log,以便用戶回滾或者MySQL Server Crash的恢復,同時Undo Log是循環(huán)覆蓋使用。
- #開啟事務,更新賬戶余額,不提交事務。
- mysql> start transaction;
- mysql> update account set balance = 100000 where account_no = 10001;
- Rows matched: 1 Changed: 1 Warnings: 0
上面在RR隔離級別下,開啟一個事務,做update更新操作,不提交事務,通過show engine innodb status\G查看undo情況。
- Trx id counter 8407258
- Purge done for trx's n:o < 8407257 undo n:o < 0 state: running but idle
- History list length 33
- ......
- ---TRANSACTION 8407257, ACTIVE 154 sec
- 2 lock struct(s), heap size 1136, 4 row lock(s), undo log entries 1
Trx id counter 8407258當前的事務ID,undo log entries 1使用了的undo entries,ACTIVE 154 sec事務持續(xù)時間,事務commit后,會調用Purge Thread把undo中的老數(shù)據清理掉。
回滾記錄
insert:反向操作是delete,undo里記錄的是delete相關信息,存儲主鍵id即可。
udpate:反向操作是update,undo里記錄的是update前的相關數(shù)據。
delete:反向操作是insert,undo里記錄的是insert values(…..)相關的記錄。
從這里可以知道,更新操作占用Undo空間的大小排序如下:
delete > update > insert
所以不建議物理delete刪除數(shù)據,會產生大量的Undo Log,Undo快被寫滿就會發(fā)生切換,在次期間會有大量的IO操作,導致業(yè)務的DML都會變得很慢。
一致性讀
MySQL官方文檔對一致讀的描述:
讀操作基于某個時間點得到一份那時的數(shù)據快照,而不管同時其他事務對數(shù)據的修改。查詢過程中,若其他事務修改了數(shù)據,那么就需要從 undo log中獲取舊版本的數(shù)據。這么做可以有效避免因為需要加鎖(來阻止其他事務同時對這些數(shù)據的修改)而導致事務并行度下降的問題。
在可重復讀(REPEATABLE READ,簡稱RR)隔離級別下,數(shù)據快照版本是在第一個讀請求發(fā)起時創(chuàng)建的。在讀已提交(READ COMMITTED,簡稱RC)隔離級別下,則是在每次讀請求時都會重新創(chuàng)建一份快照。
一致性讀是InnoDB在RR和RC下處理SELECT請求的默認模式。由于一致性讀不會在它請求的表上加鎖,其他事務可以同時修改數(shù)據不受影響。
一行數(shù)據有多個版本,每個數(shù)據版本有自己的trx_id,每個事務或者查詢通過trx_id生成自己的一致性視圖。普通select語句是一致性讀,一致性讀會根據row trx_id和一致性視圖確定數(shù)據版本的可見性,圖中UR1,UR2就是undo,存儲在Undo Log中,每次查詢時根據當前data page和 Undo page構造出一致性數(shù)據頁(Consistent Read Page),通過讀取CR Page將數(shù)據返回給用戶。
總結
介紹了MySQL事務,快照,MVCC以及Undo,雖然這些東西比較抽象,但是搞清楚這些東西是一件很有意義的事,能夠幫助我們更好的理解和使用MySQL,也可以把這種設計思想用在自己業(yè)務系統(tǒng)中。其中Undo在MySQL中的作用很重要,它是MVCC能夠快速創(chuàng)建快照基礎,支撐系統(tǒng)的高并發(fā)。
好啦,以上就是本期的全部內容了,我是敖丙,你知道的越多,你不知道的越多,我們下期見。