自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

淺談分布式一致性：Raft 與 SOFAJRaft

作者：阿里技術(shù) 2021-06-03 15:27:31

開發(fā) 開發(fā)工具分布式

對于一個無限增長的序列a[1, 2, 3…]，如果對于任意整數(shù)i， a[i]的值滿足分布式一致性，這個系統(tǒng)就滿足一致性狀態(tài)機的要求。

[[403519]]

一分布式共識算法 (Consensus Algorithm)

1 如何理解分布式共識?

多個參與者針對某一件事達成完全一致：一件事，一個結(jié)論。

已達成一致的結(jié)論，不可推翻。

2 有哪些分布式共識算法?

Paxos：被認為是分布式共識算法的根本，其他都是其變種，但是 paxos 論文中只給出了單個提案的過程，并沒有給出復制狀態(tài)機中需要的 multi-paxos 的相關(guān)細節(jié)的描述，實現(xiàn) paxos 具有很高的工程復雜度(如多點可寫，允許日志空洞等)。
Zab：被應(yīng)用在 zookeeper 中，業(yè)界使用廣泛，但沒用抽象成通用 library。
Raft：以容易理解著稱，業(yè)界也涌現(xiàn)出很多 raft 實現(xiàn)，比如 etcd、braft、tikv 等。

二 Raft 介紹

1 特點：Strong Leader

系統(tǒng)中必須存在且同一時刻只能有一個 leader，只有 leader 可以接受 clients 發(fā)過來的請求。
Leader 負責主動與所有 followers 通信，負責將“提案”發(fā)送給所有followers，同時收集多數(shù)派的 followers 應(yīng)答。
Leader 還需向所有 followers 主動發(fā)送心跳維持領(lǐng)導地位(保持存在感)。

另外，身為 leader 必須保持一直 heartbeat 的狀態(tài)。

2 復制狀態(tài)機

對于一個無限增長的序列a[1, 2, 3…]，如果對于任意整數(shù)i， a[i]的值滿足分布式一致性，這個系統(tǒng)就滿足一致性狀態(tài)機的要求。

基本上所有的真實系統(tǒng)都會有源源不斷的操作，這時候單獨對某個特定的值達成一致顯然是不夠的。為了讓真實系統(tǒng)保證所有的副本的一致性，通常會把操作轉(zhuǎn)化為 write-ahead-log(WAL)。然后讓系統(tǒng)中所有副本對 WAL 保持一致，這樣每個副本按照順序執(zhí)行 WAL 里的操作，就能保證最終的狀態(tài)是一致的。

Client 向 leader 發(fā)送寫請求。
Leader 把“操作”轉(zhuǎn)化為 WAL 寫本地 log 的同時也將 log 復制到所有 followers。
Leader 收到多數(shù)派應(yīng)答，將 log 對應(yīng)的“操作”應(yīng)用到狀態(tài)機。
回復 client 處理結(jié)果。

3 Raft 中的基本概念

Raft-node 的 3 種角色/狀態(tài)

Follower：完全被動，不能發(fā)送任何請求, 只接受并響應(yīng)來自 leader 和 candidate 的 message, node啟動后的初始狀態(tài)必須是 follower。
Leader：處理所有來自客戶端的請求，以及復制 log 到所有 followers。
Candidate：用來競選一個新 leader (candidate 由 follower 觸發(fā)超時而來)。

Message 的 3 種類型

RequestVote RPC：Candidate 發(fā)出。
AppendEntries (Heartbeat) RPC：Leader 發(fā)出。
InstallSnapshot RPC：Leader 發(fā)出。

任期邏輯時鐘

時間被劃分為一個個任期(term)，term id 按時間軸單調(diào)遞增。
每一個任期的開始都是 leader 選舉，選舉成功之后，leader在任期內(nèi)管理整個集群, 也就是“選舉 + 常規(guī)操作”。
每個任期最多一個 leader，可以沒有 leader (spilt-vote 導致)。

4 Raft 功能分解

Leader 選舉

超時驅(qū)動：Heartbeat / Election timeout

隨機的超時時間：降低選舉碰撞導致選票被瓜分的概率

選舉流程：Follower --> Candidate (選舉超時觸發(fā))

贏得選舉：Candidate --> Leader
另一個節(jié)點贏得選舉：Candidate --> Follower
一段時間內(nèi)沒有任何節(jié)點器贏得選舉：Candidate --> Candidate

選舉動作：

Current term++
發(fā)送 RequestVote RPC

New Leader 選取原則 (最大提交原則)：

Candidates include log info in RequestVote RPCs(index & term of last log entry)
During elections, choose candidate with log most likely to contain all committed entries
Voting server V denies vote if its log is “more complete”：(lastTermV > lastTermC) ||((lastTermV == lastTermC) && (lastIndexV > lastIndexC))
Leader will have “most complete” log among electing majority

安全性：一個 term，最多選出一個 leader，可以沒 leader，下一個 term 再選。

影響 raft 選舉成功率的幾個時間參數(shù)：

RTT(Round Trip Time)：網(wǎng)絡(luò)延時
Heartbeat timeout：心跳間隔，通常應(yīng)該比 election timeout 小一個數(shù)量級，目的是讓 leader 能夠持續(xù)發(fā)送心跳來阻止 followers 觸發(fā)選舉
Election timeout：Leader 與 followers 間通信超時觸發(fā)選舉的時間
MTBF(Meantime Between Failure)：Servers 連續(xù)常規(guī)故障時間間隔 RTT << Heartbeat timeout < Election timeout(ET) << MTBF

隨機選主觸發(fā)時間：Random(ET, 2ET)

日志復制

Raft 日志格式：

(TermId, LogIndex, LogValue)
其中 (TermId, LogIndex) 能確定唯一一條日志

Log replication關(guān)鍵點：

連續(xù)性：日志不允許出現(xiàn)空洞
有效性：
- 不同節(jié)點，擁有相同 term 和 logIndex 的日志 value 一定相同
- Leader 上的日志一定是有效的
- Follower 上的日志是否有效，通過 leader 日志對比判斷 (How?)

Followers 日志有效性檢查：

AppendEntries RPC 中還會攜帶前一條日志的唯一標識 (prevTermId, prevLogIndex)
遞歸推導

Followers 日志恢復：

Leader 將 nextIndex 遞減并重發(fā) AppendEntries，直到與 leader 日志一致

Commit Index 推進

CommitIndex (TermId, LogIndex) ：

所謂 commitIndex，就是已達成多數(shù)派，可以應(yīng)用到狀態(tài)機的最新的日志位置
日志被復制到 followers 后，先持久化，并不能馬上被應(yīng)用到狀態(tài)機
只有 leader 知道日志是否達成多數(shù)派，是否可以應(yīng)用到狀態(tài)機
Followers 記錄 leader 發(fā)來的當前 commitIndex，所有小于等于 commitIndex 的日志均可以應(yīng)用到狀態(tài)機

CommitIndex推進：

Leader 在下一個 AppendEntries RPC (也包括 Heartbeat)中攜帶當前的 commitIndex
Followers 檢查日志有效性通過則接受 AppendEntries 并同時更新本地 commitIndex, 最后把所有小于等于 commitIndex 的日志應(yīng)用到狀態(tài)機

AppendEntries RPC

完整信息：(currentTerm, logEntries[], prevTerm, prevLogIndex, commitTerm, commitLogIndex)
currentTerm, logEntries[]：日志信息，為了效率，日志通常為多條
prevTerm, prevLogIndex：日志有效性檢查
commitTerm, commitLogIndex：最新的提交日志位點(commitIndex)

階段小結(jié)：現(xiàn)在我們能用 raft 做什么?

連續(xù)確定多個提案，確保集群中各個系統(tǒng)節(jié)點狀態(tài)完全一致
自動選主，保證在只有少數(shù)派宕機的情況下持續(xù)可用
日志強同步，宕機后零數(shù)據(jù)丟失

三 SOFAJRaft

一個純 Java 的 raft 算法實現(xiàn)庫，使用 Java 重寫了所有功能，并有一些改進和優(yōu)化。

1 SOFAJRaft 整體功能

功能支持

Leader election：選主。

Log replication and recovery：日志復制和日志恢復，log recovery就是要保證已經(jīng)被 commit 的數(shù)據(jù)一定不會丟失，log recovery 包含兩個方面

Current term 日志恢復，主要針對一些 follower 節(jié)點重啟加入集群或者是新增 follower 節(jié)點
Prev term 日志恢復，主要針對 leader 切換前后的日志一致性

Snapshot and log compaction：定時生成 snapshot，實現(xiàn) log compaction加速啟動和恢復，以及InstallSnapshot 給 followers 拷貝數(shù)據(jù)。

Membership change：集群線上配置變更，增加節(jié)點、刪除節(jié)點、替換節(jié)點等。

Transfer leader：主動變更 leader，用于重啟維護，leader 負載平衡等。

Symmetric network partition tolerance：對稱網(wǎng)絡(luò)分區(qū)容忍性。

Pre-Vote：如上圖 S1 為當前 leader，網(wǎng)絡(luò)分區(qū)造成 S2 不斷增加本地 term，為了避免網(wǎng)絡(luò)恢復后S2發(fā)起選舉導致正在良心工作的 leader step-down, 從而導致整個集群重新發(fā)起選舉，在 request-vote 之前會先進行 pre-vote(currentTerm + 1，lastLogIndex, lastLogTerm)，多數(shù)派成功后才會轉(zhuǎn)換狀態(tài)為 candidate 發(fā)起真正的 request-vote，所以分區(qū)后的節(jié)點，pre-vote不會成功，也就不會導致集群一段時間內(nèi)無法正常提供服務(wù)。

Asymmetric network partition tolerance：非對稱網(wǎng)絡(luò)分區(qū)容忍性。

如上圖 S1 為當前 leader，S2 不斷超時觸發(fā)選主，S3 提升 term 打斷當前 lease，從而拒絕 leader 的更新，這個時候可以增加一個 trick 的檢查，每個 follower 維護一個時間戳記錄收到 leader 上數(shù)據(jù)更新的時間(也包括心跳)，只有超過 election timeout 之后才允許接受 request-vote 請求。

Fault tolerance：容錯性，少數(shù)派故障，不影響系統(tǒng)整體可用性。

機器掉電
強殺應(yīng)用
慢節(jié)點(GC, OOM等)
網(wǎng)絡(luò)故障
其他各種奇葩原因?qū)е?raft 節(jié)點無法正常工作

Workaround when quorate peers are dead：多數(shù)派故障時整個 grop 已不具備可用性, 安全的做法是等待多數(shù)節(jié)點恢復，只有這樣才能保證數(shù)據(jù)安全，但是如果業(yè)務(wù)更追求可用性，放棄數(shù)據(jù)一致性的話可以通過手動 reset_peers 指令迅速重建整個集群，恢復集群可用。

Metrics：SOFAJRaft 內(nèi)置了基于 metrics 類庫的性能指標統(tǒng)計，具有豐富的性能統(tǒng)計指標。

Jepsen：除了單元測試之外，SOFAJRaft 還使用 jepsen 這個分布式驗證和故障注入測試框架模擬了很多種情況，都已驗證通過。

隨機分區(qū)，一大一小兩個網(wǎng)絡(luò)分區(qū)

隨機增加和移除節(jié)點
隨機停止和啟動節(jié)點
隨機 kill -9 和啟動節(jié)點
隨機劃分為兩組，互通一個中間節(jié)點，模擬分區(qū)情況
隨機劃分為不同的 majority 分組

性能優(yōu)化

Batch：SOFAJRaft 中整個鏈路都是 batch 的，依靠 disruptor 中的 MPSC 模型批量消費，包括但不限于

批量提交 task
批量網(wǎng)絡(luò)發(fā)送
本地 IO batch 寫入，要保證日志不丟，一般每一條 log entry 都要進行 fsync, 比較耗時，SOFAJRaft 中做了合并寫入的優(yōu)化
批量應(yīng)用到狀態(tài)機

Replication pipeline：流水線復制，leader 跟 followers 節(jié)點的 log 同步是串行 batch 的方式，每個 batch 發(fā)送之后需要等待 batch 同步完成之后才能繼續(xù)發(fā)送下一批(ping-pong), 這樣會導致較長的延遲?？梢酝ㄟ^ leader 跟 followers 節(jié)點之間的 pipeline 復制來改進，有效降低更新的延遲, 提高吞吐。

Append log in parallel：Leader 持久化 log entries 和向 followers 發(fā)送 log entries 是并行的。

Fully concurrent replication：Leader 向所有 follwers 發(fā)送 log 也是完全并發(fā)的。

Asynchronous：Jraft 中整個鏈路幾乎沒有任何阻塞，完全異步的，是一個 callback 編程模型。

ReadIndex：優(yōu)化 raft read 走 raft log 的性能問題，每次 read，僅記錄 commitIndex，然后發(fā)送所有 peers heartbeat 來確認 leader 身份，如果 leader 身份確認成功，等到 applied index >= commitIndex，就可以返回 client read 了，基于 ReadIndex 可以很方便的提供線性一致讀，不過 commitIndex 是需要從 leader 那里獲取的，多了一輪RPC。

Lease Read：通過租約(lease)保證 leader 的身份，從而省去了 readIndex 每次 heartbeat 確認 leader 身份，性能更好, 但是通過時鐘維護 lease 本身并不是絕對的安全(jraft 中默認配置是 readIndex，因為 readIndex 性能已足夠好)。

2 SOFAJRaft 設(shè)計

SOFAJRaft - Raft Node

Node：Raft 分組中的一個節(jié)點，連接封裝底層的所有服務(wù)，用戶看到的主要服務(wù)接口，特別是 apply(task) 用于向 raft group 組成的復制狀態(tài)機集群提交新任務(wù)應(yīng)用到業(yè)務(wù)狀態(tài)機。

存儲：

Log 存儲，記錄 raft 用戶提交任務(wù)的日志，將從 leader 復制到其他節(jié)點上。LogStorage 是存儲實現(xiàn), LogManager 負責對底層存儲的調(diào)用，對調(diào)用做緩存、批量提交、必要的檢查和優(yōu)化。
Metadata 存儲，元信息存儲，記錄 raft 實現(xiàn)的內(nèi)部狀態(tài)，比如當前 term、投票給哪個節(jié)點等信息。
Snapshot 存儲，用于存放用戶的狀態(tài)機 snapshot 及元信息，可選. SnapshotStorage 用于 snapshot 存儲實現(xiàn)，SnapshotExecutor 用于 snapshot 實際存儲、遠程安裝、復制的管理。

狀態(tài)機：

StateMachine：用戶核心邏輯的實現(xiàn)，核心是 onApply(Iterator) 方法，應(yīng)用通過 Node#apply(task) 提交的日志到業(yè)務(wù)狀態(tài)機。
FSMCaller：封裝對業(yè)務(wù) StateMachine 的狀態(tài)轉(zhuǎn)換的調(diào)用以及日志的寫入等，一個有限狀態(tài)機的實現(xiàn), 做必要的檢查、請求合并提交和并發(fā)處理等。

復制：

Replicator：用于 leader 向 followers 復制日志，也就是 raft 中的 AppendEntries 調(diào)用，包括心跳存活檢查等。
ReplicatorGroup：用于單個 raft group 管理所有的 replicator，必要的權(quán)限檢查和派發(fā)。

RPC 模塊用于節(jié)點之間的網(wǎng)絡(luò)通訊：

RPC Server：內(nèi)置于 Node 內(nèi)的 RPC 服務(wù)器，接收其他節(jié)點或者客戶端發(fā)過來的請求, 轉(zhuǎn)交給對應(yīng)服務(wù)處理。
RPC Client：用于向其他節(jié)點發(fā)起請求，例如投票、復制日志、心跳等。

KV Store：SOFAJRaft 只是一個 lib，KV Store 是 SOFAJRaft 的一個典型的應(yīng)用場景，把它放進圖中以便更好的理解 SOFAJRaft。

SOFAJRaft - Raft Group

SOFAJRaft - Multi Raft Group

3 SOFAJRaft 實現(xiàn)細節(jié)

高效的線性一致讀

什么是線性一致讀?

所謂線性一致讀，一個簡單的例子就是在 t1 的時刻我們寫入了一個值, 那么在 t1 之后，我們一定能讀到這個值，不可能讀到 t1 之前的舊值 (想想 Java 中的 volatile 關(guān)鍵字，說白了線性一致讀就是在分布式系統(tǒng)中實現(xiàn) volatile 語義)。

上圖Client A、B、C、D均符合線性一致讀，其中 D 看起來是 stale read，其實并不是， D 請求橫跨了3個階段，而讀可能發(fā)生在任意時刻，所以讀到 1 或 2 都行。

重要：接下來的討論均基于一個大前提，就是業(yè)務(wù)狀態(tài)機的實現(xiàn)必須是滿足線性一致性的, 簡單說就是也要具有 Java volatile 的語義。

1)直接點，是否可以直接從當前 leader 節(jié)點讀?

怎么確定當前的 leader 真的是 leader(網(wǎng)絡(luò)分區(qū))?

2)最簡單的實現(xiàn)方式：讀請求走一遍 raft 協(xié)議

有什么問題?

不僅有日志寫盤開銷，還有日志復制的 RPC 開銷，在讀比重較大的系統(tǒng)中是無法接受的
還多了一堆的 raft “讀日志”

3)ReadIndex Read

這是 raft 論文中提到過的一種優(yōu)化方案，具體來說：

將當前自己 log 的 commit index 記錄到一個 local 變量 ReadIndex 里面。
向其他節(jié)點發(fā)起一次 heartbeat，如果大多數(shù)節(jié)點返回了對應(yīng)的 heartbeat response，那么 leader 就能夠確定現(xiàn)在自己仍然是 leader (證明了自己是自己)。
Leader 等待自己的狀態(tài)機執(zhí)行，直到 apply index 超過了 ReadIndex，這樣就能夠安全的提供 Linearizable Read 了, 也不必管讀的時刻是否 leader 已飄走 (思考：為什么需要等到 apply index 超過了 ReadIndex 才可以執(zhí)行讀請求?)。
Leader 執(zhí)行 read 請求，將結(jié)果返回給 Client。

通過ReadIndex，也可以很容易在 followers 節(jié)點上提供線性一致讀：

Follower 節(jié)點向 leader 請求最新的 ReadIndex。
Leader執(zhí)行上面 i ~ iii 的過程(確定自己真的是 leader)，并返回 ReadIndex 給 follower。
Follower 等待自己的 apply index 超過了 ReadIndex (有什么問題?慢節(jié)點?)。
Follower 執(zhí)行 read 請求，將結(jié)果返回給 client。

ReadIndex小結(jié)：

相比較于走 raft log 的方式，ReadIndex 讀省去了磁盤的開銷，能大幅度提升吞吐，結(jié)合 SOFAJRaft 的 batch + pipeline ack + 全異步機制，三副本的情況下 leader 讀的吞吐接近于 RPC 的上限。
延遲取決于多數(shù)派中最慢的一個 heartbeat response，理論上對于降低延時的效果不會非常顯著。

4)Lease Read

Lease read 與 ReadIndex 類似，但更進一步，不僅省去了 log，還省去了網(wǎng)絡(luò)交互。它可以大幅提升讀的吞吐也能顯著降低延時。

基本的思路是 leader 取一個比 election timeout 小的租期(最好小一個數(shù)量級)，在租約期內(nèi)不會發(fā)生選舉，這就確保了 leader 不會變，所以可以跳過 ReadIndex 的第二步，也就降低了延時?？梢钥吹? Lease read 的正確性和時間是掛鉤的，因此時間的實現(xiàn)至關(guān)重要，如果漂移嚴重，這套機制就會有問題。

實現(xiàn)方式：

定時 heartbeat 獲得多數(shù)派響應(yīng), 確認 leader 的有效性 (在 SOFAJRaft 中默認的 heartbeat 間隔是 election timeout 的十分之一)。
在租約有效時間內(nèi)，可以認為當前 leader 是 raft group 內(nèi)的唯一有效 leader，可忽略 ReadIndex 中的 heartbeat 確認步驟(2)。
Leader 等待自己的狀態(tài)機執(zhí)行，直到 apply index 超過了 ReadIndex，這樣就能夠安全的提供 Linearizable Read 了。

5)更進一步：Wait Free

到此為止 lease 省去了 ReadIndex 的第 2 步(heartbeat)，實際上還能再進一步，省去第 3 步。

我們想想前面的實現(xiàn)方案的本質(zhì)是什么? 當前節(jié)點的狀態(tài)機達到“讀”這一刻的時間點相同或者更新的狀態(tài)。

那么更嚴格一點的約束就是：當前時刻，當前節(jié)點的狀態(tài)機就是最新的。

問題來了，leader 節(jié)點的狀態(tài)機能保證一定是最新的嗎?

首先 leader 節(jié)點的 log 一定是最新的，即使新選舉產(chǎn)生的 leader，它也一定包含全部的 commit log，但它的狀態(tài)機卻可能落后于舊的 leader。
但是在 leader 應(yīng)用了自己當前 term 的第一條 log 之后，它的狀態(tài)機就一定是最新的。
所以可以得出結(jié)論：當 leader 已經(jīng)成功應(yīng)用了自己 term 的第一條 log 之后，不需要再取 commit index，也不用等狀態(tài)機，直接讀，一定是線性一致讀。

小結(jié)：Wait Free 機制將最大程度的降低讀延遲，SOFAJRaft 暫未實現(xiàn) wait free 這一優(yōu)化，不過已經(jīng)在計劃中。

在 SOFAJRaft 中發(fā)起一次線性一致讀請求：

// KV 存儲實現(xiàn)線性一致讀 
public void readFromQuorum(String key, AsyncContext asyncContext) { 
    // 請求 ID 作為請求上下文傳入 
    byte[] reqContext = new byte[4]; 
    Bits.putInt(reqContext, 0, requestId.incrementAndGet()); 
    // 調(diào)用 readIndex 方法, 等待回調(diào)執(zhí)行 
    this.node.readIndex(reqContext, new ReadIndexClosure() { 
 
        @Override 
        public void run(Status status, long index, byte[] reqCtx) { 
            if (status.isOk()) { 
                try { 
                    // ReadIndexClosure 回調(diào)成功, 可以從狀態(tài)機讀取最新數(shù)據(jù)返回 
                    // 如果你的狀態(tài)實現(xiàn)有版本概念, 可以根據(jù)傳入的日志 index 編號做讀取 
                    asyncContext.sendResponse(new ValueCommand(fsm.getValue(key))); 
                } catch (KeyNotFoundException e) { 
                    asyncContext.sendResponse(GetCommandProcessor.createKeyNotFoundResponse()); 
                } 
            } else { 
                // 特定情況下, 比如發(fā)生選舉, 該讀請求將失敗 
                asyncContext.sendResponse(new BooleanCommand(false, status.getErrorMsg())); 
            } 
        } 
    }); 
}

四 SOFAJRaft 應(yīng)用場景

1 SOFAJRaft 可以做什么

選舉
分布式鎖服務(wù)，比如 zookeeper
高可靠的元信息管理
分布式存儲系統(tǒng)，如分布式消息隊列、分布式文件系統(tǒng)、分布式塊系統(tǒng)等等。

2 用戶案例

AntQ Streams QCoordinator：使用 SOFAJRaft 在 coordinator 集群內(nèi)做選舉、元信息存儲等功能。
Schema Registry：高可靠 schema 管理服務(wù)，類似 kafka schema registry。
SOFA 服務(wù)注冊中心元信息管理模塊：IP 數(shù)據(jù)信息注冊，要求寫數(shù)據(jù)達到各個節(jié)點一致，并且在少數(shù)派節(jié)點掛掉時保證不影響數(shù)據(jù)正常存儲。
RheaKV：基于 SOFAJRaft 和 rocksDB 實現(xiàn)的嵌入式、分布式、高可用、強一致的 KV 存儲類庫。

3 簡單實踐：基于 SOFAJRaft 設(shè)計一個簡單的 KV Store

到目前為止，我們似乎還沒看到 SOFAJRaft 作為一個 lib 有什么特別之處, 因為 SOFAJRaft 能辦到的 zk，etcd 似乎基本上也都可以辦到, 那么 SOFAJRaft 算不算重復造輪子?

為了說明 SOFAJRaft 具有很好的想象空間以及擴展能力，下面再介紹一個基于 SOFAJRaft 的復雜一些的實踐。

4 復雜一點的實踐：基于 SOFAJRaft 的 Rhea KV 的設(shè)計

功能名詞

PD：全局的中心總控節(jié)點, 負責整個集群的調(diào)度, 不需要自管理的集群可不啟用 PD (一個PD可管理多個集群，基于 clusterId 隔離)。
Store：集群中的一個物理存儲節(jié)點，一個 store 包含一個或多個 region。
Region：最小的 KV 數(shù)據(jù)單元，每個 region 都有一個左閉右開的區(qū)間 [startKey, endKey)，可根據(jù)請求流量/負載/數(shù)據(jù)量大小等指標自動分裂以及自動副本搬遷。

特點

嵌入式
強一致性
自驅(qū)動：自診斷，自優(yōu)化，自決策，自恢復。以上幾點(尤其2, 3)基本都是依托于 SOFAJRaft 自身的功能來實現(xiàn)。

責任編輯：武曉燕來源： 51CTO專欄

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<tt id="hezmo"></tt>

<em id="hezmo"><rt id="hezmo"></rt></em>