數(shù)據(jù)庫的并發(fā)操作與一致性
作為分布式強(qiáng)一致數(shù)據(jù)庫的開發(fā)者, 被多次問到:
如果我在新加坡和歐洲同時(shí)修改一條記錄, 如在新加坡 set a=1, 在歐洲 set a=2, 結(jié)果 a 是多少?
我的回答是:
可能是 a=1, 也可能是 a=2.
然后提問者會非常困惑和不滿:
你不是說數(shù)據(jù)庫是強(qiáng)一致的嗎? 為什么結(jié)果不確定呢?
我非常理解他的困惑, 但是, 他所提到的"并發(fā)操作"和"一致性"并沒有必然的聯(lián)系.
并發(fā)
Martin Kleppmann 提到并發(fā)(Concurrency)的定義:
For defining concurrency, exact time doesn’t matter: we simply call two operations concurrent if they are both unaware of each other, regardless of the physical time at which they occurred.
要定義并發(fā), 時(shí)間并不是一個(gè)影響因素: 如果兩個(gè)操作不知道對方(的開始和結(jié)束以及結(jié)果), 無論物理時(shí)間上他們何時(shí)發(fā)生, 我們都稱這兩個(gè)操作是并發(fā)的.
有這樣的例子:
于 00:00:00 時(shí)間, 向服務(wù)器發(fā)起請求 A, 服務(wù)器一直沒有返回結(jié)果. 然后, 于 00:00:03 時(shí)間(顯然在上一個(gè)請求發(fā)起"之后"), 再向服務(wù)器發(fā)起請求 B.
那么, 是不是我們就能說 B 是在 A 之后呢? 結(jié)論是不能, 這兩個(gè)操作是并發(fā)操作! 雖然我們明確知道 B 是在 A 發(fā)起之后才發(fā)起, 但在 B 發(fā)起之時(shí), (B)并不知道 A 的結(jié)果, 根據(jù) Martin Kleppman 的定義, 兩個(gè)操作是并發(fā)的.
從時(shí)間區(qū)間上面來理解并發(fā), 可能會更好. 一個(gè)操作由開始時(shí)間點(diǎn)和結(jié)束時(shí)間點(diǎn), 組成一個(gè)時(shí)間區(qū)間, 如果兩個(gè)操作的時(shí)間區(qū)間有重疊, 則這兩個(gè)操作無法區(qū)分先后.
另一種定義并發(fā)的方法是:
- Martin Kleppmann: An operation A happens before another operation B if B knows about A, or depends on A, or builds upon A in some way.
如果不屬于此種情況, 即為并發(fā).
一致性
一致性和3個(gè)因素密切相關(guān):
- 先后順序
- 時(shí)間
- 空間
我所理解, 一致性便是唯一預(yù)期. 也就是給定輸入條件, 能推導(dǎo)出唯一的結(jié)果. 對于某個(gè)操作場景, 無論我們重復(fù)驗(yàn)證多少次, 觀察多少次(時(shí)間), 在哪里觀察(空間), 結(jié)果都恒定.
如果讀操作(觀察)是在寫操作之后, 那么觀察結(jié)果就是我們所預(yù)期的那一個(gè)確定的結(jié)果.
如果讀操作和寫操作是并發(fā)的, 那么, 可能觀察到舊值, 也可能觀察到新值. 但是, 一旦觀察到新值, 之后便不可能再觀察到舊值(也即 Linearizable 的意思).