自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

雪花算法,什么情況下發(fā)生 ID 沖突?

開發(fā) 前端 算法
分布式系統(tǒng)中,有一些需要使用全局唯一 ID 的場景,這種時候為了防止 ID 沖突可以使用 36 位的 UUID,但是 UUID 有一些缺點,首先他相對比較長,另外 UUID 一般是無序的。

[[423697]]

分布式系統(tǒng)中,有一些需要使用全局唯一 ID 的場景,這種時候為了防止 ID 沖突可以使用 36 位的 UUID,但是 UUID 有一些缺點,首先他相對比較長,另外 UUID 一般是無序的

有些時候我們希望能使用一種簡單些的 ID,并且希望 ID 能夠按照時間有序生成

什么是雪花算法

Snowflake 中文的意思是雪花,所以常被稱為雪花算法,是 Twitter 開源的分布式 ID 生成算法

Twitter 雪花算法生成后是一個 64bit 的 long 型的數(shù)值,組成部分引入了時間戳,基本保持了自增

SnowFlake 算法的優(yōu)點:

高性能高可用:生成時不依賴于數(shù)據(jù)庫,完全在內(nèi)存中生成

高吞吐:每秒鐘能生成數(shù)百萬的自增 ID

ID 自增:存入數(shù)據(jù)庫中,索引效率高

SnowFlake 算法的缺點:

依賴與系統(tǒng)時間的一致性,如果系統(tǒng)時間被回調(diào),或者改變,可能會造成 ID 沖突或者重復

雪花算法組成

snowflake 結(jié)構(gòu)如下圖所示:

包含四個組成部分

不使用:1bit,最高位是符號位,0 表示正,1 表示負,固定為 0

時間戳:41bit,毫秒級的時間戳(41 位的長度可以使用 69 年)

標識位:5bit 數(shù)據(jù)中心 ID,5bit 工作機器 ID,兩個標識位組合起來最多可以支持部署 1024 個節(jié)點

序列號:12bit 遞增序列號,表示節(jié)點毫秒內(nèi)生成重復,通過序列號表示唯一,12bit 每毫秒可產(chǎn)生 4096 個 ID

通過序列號 1 毫秒可以產(chǎn)生 4096 個不重復 ID,則 1 秒可以生成 4096 * 1000 = 409w ID

默認的雪花算法是 64 bit,具體的長度可以自行配置。如果希望運行更久,增加時間戳的位數(shù);如果需要支持更多節(jié)點部署,增加標識位長度;如果并發(fā)很高,增加序列號位數(shù)

總結(jié):雪花算法并不是一成不變的,可以根據(jù)系統(tǒng)內(nèi)具體場景進行定制

雪花算法適用場景

因為雪花算法有序自增,保障了 MySQL 中 B+ Tree 索引結(jié)構(gòu)插入高性能

所以,日常業(yè)務(wù)使用中,雪花算法更多是被應用在數(shù)據(jù)庫的主鍵 ID 和業(yè)務(wù)關(guān)聯(lián)主鍵

雪花算法生成 ID 重復問題

假設(shè):一個訂單微服務(wù),通過雪花算法生成 ID,共部署三個節(jié)點,標識位一致

此時有 200 并發(fā),均勻散布三個節(jié)點,三個節(jié)點同一毫秒同一序列號下生成 ID,那么就會產(chǎn)生重復 ID

通過上述假設(shè)場景,可以知道雪花算法生成 ID 沖突存在一定的前提條件

服務(wù)通過集群的方式部署,其中部分機器標識位一致

業(yè)務(wù)存在一定的并發(fā)量,沒有并發(fā)量無法觸發(fā)重復問題

生成 ID 的時機:同一毫秒下的序列號一致

標識位如何定義

如果能保證標識位不重復,那么雪花 ID 也不會重復

通過上面的案例,知道了 ID 重復的必要條件。如果要避免服務(wù)內(nèi)產(chǎn)生重復的 ID,那么就需要從標識位上動文章

我們先看看開源框架中使用雪花算法,如何定義標識位

Mybatis-Plus v3.4.2 雪花算法實現(xiàn)類 Sequence,提供了兩種構(gòu)造方法:無參構(gòu)造,自動生成 dataCenterId 和 workerId;有參構(gòu)造,創(chuàng)建 Sequence 時明確指定標識位

Hutool v5.7.9 參照了 Mybatis-Plus dataCenterId 和 workerId 生成方案,提供了默認實現(xiàn)

一起看下 Sequence 的創(chuàng)建默認無參構(gòu)造,如何生成 dataCenterId 和 workerId

  1. public static long getDataCenterId(long maxDatacenterId) { 
  2.     long id = 1L; 
  3.     final byte[] mac = NetUtil.getLocalHardwareAddress(); 
  4.     if (null != mac) { 
  5.         id = ((0x000000FF & (long) mac[mac.length - 2]) 
  6.                 | (0x0000FF00 & (((long) mac[mac.length - 1]) << 8))) >> 6; 
  7.         id = id % (maxDatacenterId + 1); 
  8.     } 
  9.  
  10.     return id; 

入?yún)?maxDatacenterId 是一個固定值,代表數(shù)據(jù)中心 ID 最大值,默認值 31

為什么最大值要是 31?因為 5bit 的二進制最大是 11111,剛好是 31

獲取 dataCenterId 時存在兩種情況,一種是網(wǎng)絡(luò)接口為空,默認取 1L;另一種不為空,通過 Mac 地址獲取 dataCenterId

可以得知,dataCenterId 的取值與 Mac 地址有關(guān)

接下來再看看 workerId

  1. public static long getWorkerId(long datacenterId, long maxWorkerId) { 
  2.     final StringBuilder mpid = new StringBuilder(); 
  3.     mpid.append(datacenterId); 
  4.     try { 
  5.         mpid.append(RuntimeUtil.getPid()); 
  6.     } catch (UtilException igonre) { 
  7.         //ignore 
  8.     } 
  9.     return (mpid.toString().hashCode() & 0xffff) % (maxWorkerId + 1); 

入?yún)?maxWorkderId 也是一個固定值,代表工作機器 ID 最大值,默認值 31;datacenterId 取自上述的 getDatacenterId 方法

name 變量值為 PID@IP,所以 name 需要根據(jù) @ 分割并獲取下標 0,得到 PID

通過 MAC + PID 的 hashcode 獲取16個低位,進行運算,最終得到 workerId

分配標識位

Mybatis-Plus 標識位的獲取依賴 Mac 地址和進程 PID,雖然能做到盡量不重復,但仍有小幾率

標識位如何定義才能不重復?有兩種方案:預分配和動態(tài)分配

預分配

應用上線前,統(tǒng)計當前服務(wù)的節(jié)點數(shù),人工去申請標識位

這種方案,沒有代碼開發(fā)量,在服務(wù)節(jié)點固定或者項目少可以使用,但是解決不了服務(wù)節(jié)點動態(tài)擴容性問題

動態(tài)分配

通過將標識位存放在 Redis、Zookeeper、MySQL 等中間件,在服務(wù)啟動的時候去請求標識位,請求后標識位更新為下一個可用的

通過存放標識位,延伸出一個問題:雪花算法的 ID 是 服務(wù)內(nèi)唯一還是全局唯一

以 Redis 舉例,如果要做服務(wù)內(nèi)唯一,存放標識位的 Redis 節(jié)點使用自己項目內(nèi)的就可以;如果是全局唯一,所有使用雪花算法的應用,要用同一個 Redis 節(jié)點

兩者的區(qū)別僅是 不同的服務(wù)間是否公用 Redis。如果沒有全局唯一的需求,最好使 ID 服務(wù)內(nèi)唯一,因為這樣可以避免單點問題

服務(wù)的節(jié)點數(shù)超過 1024,則需要做額外的擴展;可以擴展 10 bit 標識位,或者選擇開源分布式 ID 框架

動態(tài)分配實現(xiàn)方案

Redis 存儲一個 Hash 結(jié)構(gòu) Key,包含兩個鍵值對:dataCenterId 和 workerId

在應用啟動時,通過 Lua 腳本去 Redis 獲取標識位。dataCenterId 和 workerId 的獲取與自增在 Lua 腳本中完成,調(diào)用返回后就是可用的標示位

具體 Lua 腳本邏輯如下:

第一個服務(wù)節(jié)點在獲取時,Redis 可能是沒有 snowflake_work_id_key 這個 Hash 的,應該先判斷 Hash 是否存在,不存在初始化 Hash,dataCenterId、workerId 初始化為 0

如果 Hash 已存在,判斷 dataCenterId、workerId 是否等于最大值 31,滿足條件初始化 dataCenterId、workerId 設(shè)置為 0 返回

dataCenterId 和 workerId 的排列組合一共是 1024,在進行分配時,先分配 workerId

判斷 workerId 是否 != 31,條件成立對 workerId 自增,并返回;如果 workerId = 31,自增 dataCenterId 并將 workerId 設(shè)置為 0

dataCenterId、workerId 是一直向下推進的,總體形成一個環(huán)狀。通過 Lua 腳本的原子性,保證 1024 節(jié)點下的雪花算法生成不重復。如果標識位等于 1024,則從頭開始繼續(xù)循環(huán)推進

開源分布式 ID 框架

Leaf 和 Uid 都有實現(xiàn)雪花算法,Leaf 額外提供了號段模式生成 ID

美團 Leaf:https://github.com/Meituan-Dianping/Leaf

百度 Uid:https://github.com/baidu/uid-generator

雪花算法可以滿足大部分場景,如無必要,不建議引入開源方案增加系統(tǒng)復雜度

回顧總結(jié)

文章通過圖文并茂的方式幫助讀者梳理了一遍什么是雪花算法,以及如何解決雪花算法生成 ID 沖突的問題

關(guān)于雪環(huán)算法生成 ID 沖突問題,文中給了一種方案:分配標示位;通過分配雪花算法的組成標識位,來達到默認 1024 節(jié)點下 ID 生成唯一

可以去看看 Hutool 或者 Mybatis-Plus 雪花算法的具體實現(xiàn),幫助大家更好的理解

 

雪花算法不是萬能的,并不能適用于所有場景。如果 ID 要求全局唯一并且服務(wù)節(jié)點超出 1024 節(jié)點,可以選擇修改算法本身的組成,即擴展標識位,或者選擇開源方案:LEAF、UID

 

責任編輯:武曉燕 來源: 龍臺的技術(shù)筆記
相關(guān)推薦

2020-09-24 09:43:59

Http協(xié)議options請求

2023-11-23 23:52:06

options請求瀏覽器

2013-09-12 10:41:39

VDI部署

2021-04-23 23:19:26

加密貨幣穩(wěn)定幣比特幣

2013-07-29 14:50:43

API

2015-06-01 06:39:18

JavaJava比C++

2020-11-18 09:26:52

@property裝飾器代碼

2012-04-25 09:24:40

Android

2015-06-29 14:23:13

JavaC++慢很多

2013-09-23 10:05:50

2010-07-13 16:07:26

SQL Server行

2023-05-18 08:38:13

Java鎖機制

2014-11-03 09:52:25

DNSUDPTCP

2024-01-09 11:39:47

數(shù)字化轉(zhuǎn)型數(shù)字優(yōu)先企業(yè)

2021-06-04 09:17:13

JavaScriptBoolean函數(shù)

2009-03-05 10:55:00

企業(yè)無線Wi-Fi

2010-04-14 17:46:10

Oracle數(shù)據(jù)庫

2024-11-07 12:08:27

微服務(wù)協(xié)議通信

2022-07-20 08:07:21

數(shù)據(jù)庫分布式數(shù)據(jù)庫

2019-09-05 13:06:08

雪花算法分布式ID
點贊
收藏

51CTO技術(shù)棧公眾號