并發(fā)-分布式鎖質(zhì)量保障總結(jié)
原創(chuàng)一、背景
并發(fā)問題是電商系統(tǒng)最常見的問題之一,例如庫存超賣、抽獎多發(fā)、券多發(fā)放、積分多發(fā)少發(fā)等場景;之所以會出現(xiàn)上述問題,是因?yàn)榇嬖诙鄼C(jī)器多請求同時對同一個共享資源進(jìn)行修改,如果不加以限制,將導(dǎo)致數(shù)據(jù)錯亂和數(shù)據(jù)不一致性;解決并發(fā)問題的方式有很多,例如:隊列、異步、響應(yīng)式、鎖都可以;由于當(dāng)前互聯(lián)網(wǎng)都是分布式系統(tǒng),因此本文只針對使用較為廣泛的分布式鎖的方式來進(jìn)行敘述如何進(jìn)行質(zhì)量保障。
二、分布式鎖介紹
1. 什么是分布式鎖
先了解一下什么是鎖,在單機(jī)系統(tǒng)中,多個線程同時改變一個變量時,需要對變量或者代碼塊做同步從而保證串行修改變量,該同步實(shí)質(zhì)上就是通過鎖來實(shí)現(xiàn)。為了實(shí)現(xiàn)多個線程在同一個時刻針對同一塊代碼串行執(zhí)行,就需要在某個地方做個標(biāo)記,該標(biāo)記必須每個線程都能看到,當(dāng)標(biāo)記不存在時可以設(shè)置該標(biāo)記,其余后續(xù)線程發(fā)現(xiàn)已經(jīng)有標(biāo)記了則等待擁有標(biāo)記的線程結(jié)束同步代碼塊取消標(biāo)記后再去嘗試設(shè)置標(biāo)記,此標(biāo)記可以理解為鎖。分布式鎖就是在多機(jī)系統(tǒng)下的該標(biāo)記。
2. 實(shí)現(xiàn)分布式鎖的主流方式
目前分布式鎖的實(shí)現(xiàn)方式有3種主流方法,即:
(1) 基于數(shù)據(jù)庫實(shí)現(xiàn)分布式鎖,此處的數(shù)據(jù)庫指的是MySQL關(guān)系型數(shù)據(jù)庫
- 基于MySQL鎖表
- 數(shù)據(jù)庫版本號樂觀鎖
(2) 基于緩存實(shí)現(xiàn)分布式鎖,此處的緩存指的是Redis
(3) 基于zookeeper/etcd實(shí)現(xiàn)分布式鎖
具體的關(guān)于鎖的實(shí)現(xiàn)方式,已經(jīng)有太多的文章進(jìn)行介紹,本文就不再贅述。
三、質(zhì)量保障
并發(fā)問題一旦涉及到錢,通常都會導(dǎo)致不同程度的資損,而且在我們的功能測試中是很難發(fā)現(xiàn),因此對于并發(fā)的質(zhì)量保障顯得尤為的重要,可以抽象為3層來保障:事前、事中、事后三大步驟;事前保障通過Review 方式提前規(guī)避技術(shù)上的風(fēng)險,事中保障驗(yàn)證在技術(shù)實(shí)現(xiàn)過程中是否存在漏洞,事后保障校驗(yàn)數(shù)據(jù)是否符合預(yù)期,對于有并發(fā)風(fēng)險的項(xiàng)目上述三個步驟的保障缺一不可。
1. 事前質(zhì)量保障
事前保障的階段發(fā)生在技術(shù)評審階段,在此階段,我們需要評估出當(dāng)前業(yè)務(wù)場景下是否存在并發(fā)風(fēng)險;如果存在,確定我們的技術(shù)選型。
評估并發(fā)風(fēng)險
評估并發(fā)風(fēng)險的關(guān)鍵點(diǎn)在于是否存在多個進(jìn)程同時訪問共享資源,簡單來說是否存在多個進(jìn)程在同一時間對同一個數(shù)據(jù)進(jìn)行更新的操作;例如:電商中的庫存,多人同時購買同一個商品,也就是會存在同一時間對同一個商品的庫存進(jìn)行更新,此處就存在并發(fā)風(fēng)險。
技術(shù)選型
要做到正確的技術(shù)選型,我們就需要對上述種方式實(shí)現(xiàn)的鎖的優(yōu)缺點(diǎn)以及應(yīng)用場景需要進(jìn)行了解。
MySQL數(shù)據(jù)庫表的樂觀鎖適用于讀多寫少的場景且共享資源為數(shù)據(jù)庫的單行數(shù)據(jù);MySQL表鎖實(shí)現(xiàn)的鎖一般都不推薦使用;ZooKeeper分布式鎖雖然適用于大部分分布式場景,但是由于其實(shí)現(xiàn)復(fù)雜度相對較高以及需要額外引入中間件,在大部分業(yè)務(wù)場景中的應(yīng)用比較少,而基于Redis的緩存分布式鎖應(yīng)用較為廣泛;但是具體業(yè)務(wù)實(shí)現(xiàn)采用哪種類型的分布式鎖,還是需要基于當(dāng)前的業(yè)務(wù)特性來進(jìn)行決定;
在技術(shù)評審階段,一方面我們要評估出是否存在并發(fā)風(fēng)險,另外一方面,我們需要識別開發(fā)同學(xué)在技術(shù)的實(shí)現(xiàn)上可能存在的漏洞,針對分布式鎖的實(shí)現(xiàn)漏洞可參考下文的CodeReview的關(guān)注點(diǎn)。
2. 事中保障
CodeReview
(1) Redis緩存分布式鎖
Redis通??梢允褂胹etnx(key,value)函數(shù)來實(shí)現(xiàn)分布式鎖。key和value就是基于緩存的分布式鎖的兩個屬性,其中key表示鎖id。setnx函數(shù)返回1表示獲得鎖,返回0表示其他服務(wù)器已經(jīng)獲得了鎖;
Redis緩存分布式鎖CodeReview注意點(diǎn):
1)Redis Key
- 全面梳理業(yè)務(wù)場景,對于同一共同資源,key要保持一致;
- key是識別共享資源的唯一鍵,key的設(shè)計既需要能夠鎖住當(dāng)前共享資源又不能影響到其他資源;
例如:商品庫存,我們的key應(yīng)該是具體到某個商品,而不是所有商品,鎖住A商品,不會影響B(tài)商品。
2)鎖釋放
- 鎖一定需明確釋放,try/finally 結(jié)構(gòu)加鎖解鎖,finally內(nèi)釋放鎖;
- 鎖只能被加鎖的對象釋放,此處是經(jīng)常出問題的點(diǎn),如下圖所示,A加鎖被B釋放鎖,導(dǎo)致鎖失效,鎖被C搶占到;
針對上述問題,釋放鎖時需要先讀取當(dāng)前key的value,再和傳入的value進(jìn)行比較;上述是兩個步驟一定要保證原子性,如果原生Redis可采用lua腳本保證原子性;如果tair,可采取TairString的cad方法;value必須是一個唯一值,唯一標(biāo)記是當(dāng)前對象加的鎖。
3)鎖超時
a. 一定要設(shè)置key的超時時間;例如:客戶端A 搶到鎖后,系統(tǒng)突然異常,A就無法釋放鎖,變成死鎖;設(shè)置超時時間就是為了防止此種情況發(fā)生,在時間到期后,自動刪除key,間接釋放鎖;
b. 超時時間的設(shè)置一般來講大于服務(wù)的最大執(zhí)行時間即可,但是服務(wù)最大的執(zhí)行時間會受很多因素影響,是不可控的;例如:A服務(wù)一般執(zhí)行時間是30ms,設(shè)置的鎖超時時間為100ms,受網(wǎng)絡(luò)影響服務(wù)執(zhí)行時間變成了200ms,在100ms的時候鎖就會被釋放了;在大部分場景下,開發(fā)不會處理此種情況,此種極端情況是否需要處理,需要進(jìn)行協(xié)商;處理方式如下兩種:
- 可以再開啟一個線程,為當(dāng)前超時時間續(xù)時,但增加了系統(tǒng)的復(fù)雜度;
- 將過期時間設(shè)置非常長,一定能保證邏輯在鎖釋放之前能夠執(zhí)行完成;此方案簡單但是有缺陷,當(dāng)遇到系統(tǒng)突發(fā)異常時,鎖無法被釋放,只能等待redis key超時,而超時時間又設(shè)置的較長,因此在當(dāng)前時間內(nèi)誰都無法獲取到鎖,阻斷業(yè)務(wù)執(zhí)行,很有可能造成故障;
4)鎖粒度
如果針對某個共享資源的寫是基于另外一個共享資源的值計算而來,那么鎖的范圍必須包含讀共享資源;范圍不包含讀共享資源會導(dǎo)致臟讀,最終導(dǎo)致數(shù)據(jù)的錯誤,如下圖所示,Client B最終計算的B的結(jié)果就是錯誤的。
5)獲取鎖失敗
由于其他線程已經(jīng)獲取到了鎖,當(dāng)前線程獲取鎖失敗后有3種處理方式:異常拋出讓用戶重試;通過自旋再次進(jìn)行搶鎖;發(fā)布訂閱,訂閱鎖釋放消息;在并發(fā)度低的場景下異常拋出以及自旋搶鎖都可以,在高并發(fā)場景下異常拋出和自旋搶鎖都不可取。
(2) MySQL數(shù)據(jù)庫鎖CR點(diǎn)
1)數(shù)據(jù)庫版本號樂觀鎖
在數(shù)據(jù)庫的表中需要包含一個數(shù)字類型的字段version,讀取數(shù)據(jù)時把version字段讀出來,更新數(shù)據(jù)時判斷當(dāng)前version是否等于讀取出來的version,并對當(dāng)前version+1;如果等于就更新成功,不等于表示數(shù)據(jù)已過期更新失敗。例如以積分體系為例,存在多種場景增加積分,通過樂觀鎖來保證數(shù)據(jù)的正確性。
樂觀鎖CR注意點(diǎn):
- where 條件一定要命中索引(最好是主鍵或者唯一索引),否則會鎖表;
- update table set 中必須要包含version = version + 1;
- update 返回結(jié)果為0時,一定要根據(jù)業(yè)務(wù)場景進(jìn)行相應(yīng)的處理,自主重試或者拋異常;
2)基于MySQL鎖表
其實(shí)現(xiàn)原理是:創(chuàng)建一張鎖表,對臨界資源做唯一性約束,通過增加一條記錄對某一資源上鎖,釋放鎖時刪除記錄;一般不推薦此種用法。
并發(fā)測試
并發(fā)測試總體上可以分為三大類:
(1) 復(fù)雜的并發(fā)場景,一次請求共享資源存在多個,且前后存在各種依賴關(guān)系,此種場景適合于鏈路級別壓測,壓測模型需要精心設(shè)計。
(2) 單一并發(fā)場景,一個共享資源,可以處理多次,例如:扣除某個商品的庫存,可以反復(fù)調(diào)用。
- 可以通過接口壓測的方式進(jìn)行測試,通過查看最終數(shù)據(jù)是否會存在與預(yù)期不一致情況即可;
- 壓測工具:jmeter 即可進(jìn)行壓測(集團(tuán)可直接采用pas-server進(jìn)行壓測,方便快捷);
(3) 單一并發(fā)場景,一個共享資源,且只能處理1次,例如:用戶只有一次抽獎機(jī)會,連續(xù)點(diǎn)2次會不會抽2次;
- 可以利用JVM的并發(fā)函數(shù)CountDownLatch,CyclicBarrier等,CountDownLatch片段代碼:
public void invokeAllTask(ConcurrencyRequest request, Runnable task) {
final CountDownLatch startCountDownLatch = new CountDownLatch(1);
final CountDownLatch endCountDownLatch = new CountDownLatch(request.getConcurrency());
for (int i = 0; i < request.getConcurrency(); i++) {
Thread t = new Thread(() -> {
try {
startCountDownLatch.await();
try {
task.run();
} finally {
endCountDownLatch.countDown();
}
} catch (Exception ex) {
log.error("異常", ex);
}
});
t.start();
}
startCountDownLatch.countDown();
try {
endCountDownLatch.await();
} catch (InterruptedException ex) {
log.error("線程異常中斷", ex);
}
}
- 利用jmeter的定時器 Synchronizing Timer也可以實(shí)現(xiàn)此功能。
3. 事后保障
數(shù)據(jù)對賬
數(shù)據(jù)對賬(數(shù)據(jù)一致性校驗(yàn))是我們在系統(tǒng)上線后對并發(fā)問題的最后一道防線,通過對賬來識別我們的數(shù)據(jù)的不一致性問題;壓測有成本,且受技巧熟練度和壓測設(shè)計的影響,不一定能暴露問題;如果被測場景評估并發(fā)問題的發(fā)生概率極低,即使發(fā)生了影響也比較小,此時review+對賬方式也不失為一種好的選擇;
如何進(jìn)行對賬,不同的業(yè)務(wù)場景有不同的對賬方法,例如:
- 互動積分體系每個用戶的扣除以及增加積分都會落流水表;每個用戶目前有多少積分都會放在積分表;只需要把流水表的積分加總和積分表的積分進(jìn)行對賬;
- 互動任務(wù)體系,一筆訂單只能推進(jìn)一個任務(wù),對賬只需要檢查任務(wù)記錄中一筆訂單是否存在多條記錄;
select count(*) as task_count,
scene_code,
order_id
from task_record
where unique_id is not null
group by scene_code,
order_id
having count(*)> 1
四、總結(jié)
作為質(zhì)量保障同學(xué)一定要時刻繃著一根弦,當(dāng)前場景下是否會存在并發(fā)問題;并發(fā)問題的識別簡單而言就是是否存在同時更新同一個數(shù)據(jù),如果是就一定要注意開發(fā)同學(xué)是否處理了并發(fā),并發(fā)的實(shí)現(xiàn)主要是上面闡述的幾種,然后按照場景進(jìn)行分析即可;關(guān)于并發(fā)場景的質(zhì)量保障,大體原則可以概括為如下:
- 梳理并發(fā)場景
- 帶著注意點(diǎn)CR 代碼
- 并發(fā)測試(非銀彈,不是所有場景都具備可測性)
- 監(jiān)控對賬進(jìn)行兜底識別并發(fā)問題