分布式系統(tǒng)「高性能」大招之——緩存背后的“毀滅種子”
緩存雪崩
我們多次提到了「cache miss」這個詞,利用「cache miss」來更好的保障DB和緩存之間的數(shù)據(jù)一致性。
然而,任何事物都是有兩面性的,「cache miss」在提供便利的同時,也帶來了一個潛在風險。
這個風險就是「緩存雪崩」。

在圖中的第二步,大量的請求并發(fā)進入,這里的一次「cache miss」就有可能導致產(chǎn)生「緩存雪崩」。
不過,雖然「cache miss」會產(chǎn)生「緩存雪崩」,但「緩存雪崩」并不僅僅產(chǎn)生于「cache miss」。
雪崩一詞源于「雪崩效應」,是指像「多米勒骨牌」這樣的級聯(lián)反應。前面沒頂住,導致影響后面,如此蔓延。(關于對應雪崩的方式參考之前的文章,文末放鏈接)
所以「緩存雪崩」的根本問題是:緩存由于某些原因未起到預期的緩沖效果,導致請求全部流轉到數(shù)據(jù)庫,造成數(shù)據(jù)庫壓力過重。
因此,流量激增、高并發(fā)下的緩存過期、甚至緩存系統(tǒng)宕機都有可能產(chǎn)生「緩存雪崩」問題。
怎么解決這個問題呢?宕機可以通過做高可用來解決(可以參考之前的文章,文末放鏈接)。而在“流量激增”、“高并發(fā)下的緩存過期”這兩種場景下,也有兩種方式可以來解決。
加鎖排隊
通過加鎖或者排隊機制來限制讀數(shù)據(jù)庫寫緩存的線程數(shù)量。比如,下面的偽代碼就是對某個key只允許一個線程進入的效果。
- key = "aaa";
-
- var cacheValue = cache.read(key);
- if (cacheValue != null) {
- return cacheValue;
- }
- else {
- lock(key) {
- cacheValue = cache.read(key);
- if (cacheValue != null) {
- return cacheValue;
- }
- else {
- cacheValue = db.read(key);
- cache.set(key,cacheValue);
- }
- }
- return cacheValue;
- }
這個比較好理解,就不廢話了。
緩存時間增加隨機值
這個主要針對的是「緩存定時過期」機制下的取巧方案。它的目的是避免多個緩存key在同一時間失效,導致壓力更加集中。
比如,你有10個key,他們的過期時間都是30分鐘的話,那么30分鐘后這10個key的所有請求會同時流到db去。
而這里說的這種方式就是將這10個key的過期時間打亂,比如設置成25、26、27、...、34分的過期時間,這樣壓力就被分散了,每分鐘只有一個key過期。
最簡單粗暴的方式就是在設置「過期時間」的時候加一個隨機數(shù)字。
cache.set(key,cacheValue,30+random())
總體來看,相比后者,前者的適用面更廣,所以Z哥建議你用「加鎖排隊」作為默認的通用方案不失為一個不錯的選擇。
「緩存穿透」、「緩存雪崩」傻傻分不清楚?
如果你聽說過「緩存穿透」的話,可能會問:「緩存雪崩」和「緩存穿透」一樣嗎?
從產(chǎn)生的效果上看是一樣的,但是過程不同。
來舉個例子。例子純屬虛構,別太在意合理性。
在一個方圓一萬里的地區(qū)內,只有一個修手機的老師傅。他收了一個徒弟,希望徒弟能幫他分擔掉一部分的工作壓力。這里的老師傅可以看作是DB,徒弟看作是緩存。
老師傅對徒弟說,如果遇到你不會做的事你來請教我。
然后,一個客戶過來說要修一下他的衛(wèi)星電話,徒弟去請教老師傅,老師傅說他也不會,先拒絕了吧。
但是由于沒告訴他后續(xù)遇到修衛(wèi)星電話的人該怎么做,所以后續(xù)這個客戶一直來問,徒弟每次都又去請教老師傅。最終,在修衛(wèi)星電話這件事上,徒弟并沒有幫老師傅緩解任何的壓力,快被煩死了。
上面這個故事就好比「緩存穿透」。
而「緩存雪崩」則是,由于徒弟年輕力壯,精力充沛,1小時能修20個手機,老師傅只能修10個(但是手藝好,更考究)。
然后,有一天徒弟請假了,但恰巧這天來了2000個修手機的,老師傅修不過來就被累垮了。
所以,「緩存穿透」和「緩存雪崩」最終產(chǎn)生的效果是一樣的,就是因為大量請求流到DB后,把DB拖垮(正如前面故事中的老師傅)。
兩者最大的不同在于,「緩存雪崩」問題只要數(shù)據(jù)從db中找到并放入緩存就能恢復正常(徒弟休假歸來),而「緩存穿透」指的是所需的數(shù)據(jù)在DB中一直不存在的情況(老師傅也不會修)。并且,由于DB中數(shù)據(jù)不存在,所以自然每次從緩存中也找不到(徒弟也不會修)。
清楚了兩者的區(qū)別之后,我們下面就來聊聊「緩存穿透」的常見應對方式。
緩存穿透
「緩存穿透」有時也叫做「緩存擊穿」,產(chǎn)生的邏輯過程是這樣,一直在虛線范圍內流轉。

在這種場景下,緩存的作用完全失效,每次請求都“穿透”到了DB中。
可能你會想,為什么會存在大量的這種db中數(shù)據(jù)不存在的情況呢?其實,任何依賴外部參數(shù)進行查詢的地方都可能有這個問題的存在。比如,一個文本輸入框,本來是讓你輸入用戶名的,但是手誤輸入了密碼,自然就找不到數(shù)據(jù)咯。更主要的問題是,會有惡意分子利用這種機制來對你的系統(tǒng)進行攻擊,擊穿緩存搞垮你的數(shù)據(jù)庫,導致整個系統(tǒng)全面癱瘓。
同樣也有兩種方式來解決這個問題。
布隆過濾器(bloomfilter)
布隆過濾器就是由一個很長的二進制向量和一系列隨機映射函數(shù)組成,將確定不存在的數(shù)據(jù)構建到過濾器中,用它來過濾請求。這里就放個圖,具體就不展開了,后續(xù)我們再聊(有興趣的可以先到搜索引擎搜《Space time trade-offs in hash coding with allowable errors》找到bloom的原始論文)。
實現(xiàn)代碼其實并不很復雜,參考論文或者網(wǎng)上其他作者的一些實現(xiàn)就可以寫出來。
不過,布隆過濾器有一個最大的缺點,也是其為了高效利用內存而付出的代價,就是無法確保100%的準確率。
所以,如果你的場景要求是100%準確的,就只能用下面這種方式了。
緩存空對象
其實就是哪怕從db中取出的數(shù)據(jù)是“空(null)”,也把它丟失到緩存中。

這樣一來,雖然緩存中存在著一個value為空的數(shù)據(jù),但是至少他能表示“數(shù)據(jù)庫里也沒有不用找了”。
其實這個思路和布隆過濾器有些類似,但是它對內存的消耗會大很多,畢竟布隆過濾器是利用的bit位來存儲。不過這種方式的優(yōu)勢是前面提到的,不會出現(xiàn)誤差,而布隆過濾器的錯誤率會隨著「位數(shù)」的增加而減少,會不斷趨近于0,但不會為0。
總結
好了,我們一起總結一下。
這次呢,Z哥主要和你聊了隱藏在緩存中的兩顆具有“毀滅性”的種子,「緩存雪崩」和「緩存穿透」,以及應對這兩顆種子的常用方式。
而且,順便幫你區(qū)分清楚了「緩存雪崩」和「緩存穿透」的差異。
希望對你有所啟發(fā)。
