為什么用雪花ID替代自增ID?
今天咱們來看一道數(shù)據(jù)庫中比較經(jīng)典的面試問題:為什么要使用雪花 ID 替代數(shù)據(jù)庫自增 ID?同時這道題也出現(xiàn)在了浩鯨科技的 Java 面試中,下面我們一起來看吧。
1.什么是雪花 ID?
雪花 ID(Snowflake ID)是一個用于分布式系統(tǒng)中生成唯一 ID 的算法,由 Twitter 公司提出。它的設(shè)計目標(biāo)是在分布式環(huán)境下高效地生成全局唯一的 ID,具有一定的有序性。
雪花 ID 的結(jié)構(gòu)如下所示:
這四部分代表的含義
- 符號位:最高位是符號位,始終為 0,1 表示負(fù)數(shù),0 表示正數(shù),ID 都是正整數(shù),所以固定為 0。
- 時間戳部分:由 41 位組成,精確到毫秒級??梢允褂迷?41 位表示的時間戳來表示的時間可以使用 69 年。
- 節(jié)點 ID 部分:由 10 位組成,用于表示機(jī)器節(jié)點的唯一標(biāo)識符。在同一毫秒內(nèi),不同的節(jié)點生成的 ID 會有所不同。
- 序列號部分:由 12 位組成,用于標(biāo)識同一毫秒內(nèi)生成的不同 ID 序列。在同一毫秒內(nèi),可以生成 4096 個不同的 ID。
2.Java 版雪花算法實現(xiàn)
接下來,我們來實現(xiàn)一個 Java 版的雪花算法:
public class SnowflakeIdGenerator {
// 定義雪花 ID 的各部分位數(shù)
private static final long TIMESTAMP_BITS = 41L;
private static final long NODE_ID_BITS = 10L;
private static final long SEQUENCE_BITS = 12L;
// 定義起始時間戳(可根據(jù)實際情況調(diào)整)
private static final long EPOCH = 1609459200000L;
// 定義最大取值范圍
private static final long MAX_NODE_ID = (1L << NODE_ID_BITS) - 1;
private static final long MAX_SEQUENCE = (1L << SEQUENCE_BITS) - 1;
// 定義偏移量
private static final long TIMESTAMP_SHIFT = NODE_ID_BITS + SEQUENCE_BITS;
private static final long NODE_ID_SHIFT = SEQUENCE_BITS;
private final long nodeId;
private long lastTimestamp = -1L;
private long sequence = 0L;
public SnowflakeIdGenerator(long nodeId) {
if (nodeId < 0 || nodeId > MAX_NODE_ID) {
throw new IllegalArgumentException("Invalid node ID");
}
this.nodeId = nodeId;
}
public synchronized long generateId() {
long currentTimestamp = timestamp();
if (currentTimestamp < lastTimestamp) {
throw new IllegalStateException("Clock moved backwards");
}
if (currentTimestamp == lastTimestamp) {
sequence = (sequence + 1) & MAX_SEQUENCE;
if (sequence == 0) {
currentTimestamp = untilNextMillis(lastTimestamp);
}
} else {
sequence = 0L;
}
lastTimestamp = currentTimestamp;
return ((currentTimestamp - EPOCH) << TIMESTAMP_SHIFT) |
(nodeId << NODE_ID_SHIFT) |
sequence;
}
private long timestamp() {
return System.currentTimeMillis();
}
private long untilNextMillis(long lastTimestamp) {
long currentTimestamp = timestamp();
while (currentTimestamp <= lastTimestamp) {
currentTimestamp = timestamp();
}
return currentTimestamp;
}
}
調(diào)用代碼如下:
public class Main {
public static void main(String[] args) {
// 創(chuàng)建一個雪花 ID 生成器實例,傳入節(jié)點 ID
SnowflakeIdGenerator idGenerator = new SnowflakeIdGenerator(1);
// 生成 ID
long id = idGenerator.generateId();
System.out.println(id);
}
}
其中,nodeId 表示當(dāng)前節(jié)點的唯一標(biāo)識,可以根據(jù)實際情況進(jìn)行設(shè)置。generateId 方法用于生成雪花 ID,采用同步方式確保線程安全。具體的生成邏輯遵循雪花 ID 的位運(yùn)算規(guī)則,結(jié)合當(dāng)前時間戳、節(jié)點 ID 和序列號生成唯一的 ID。
“
需要注意的是,示例中的時間戳獲取方法使用了 System.currentTimeMillis(),根據(jù)實際需要可以替換為其他更精確的時間戳獲取方式。同時,需要確保節(jié)點 ID 的唯一性,避免不同節(jié)點生成的 ID 重復(fù)。
”
3.雪花算法問題
雖然雪花算法是一種被廣泛采用的分布式唯一 ID 生成算法,但它也存在以下幾個問題:
- 時間回?fù)軉栴}:雪花算法生成的 ID 依賴于系統(tǒng)的時間戳,要求系統(tǒng)的時鐘必須是單調(diào)遞增的。如果系統(tǒng)的時鐘發(fā)生回?fù)?,可能?dǎo)致生成的 ID 重復(fù)。時間回?fù)苁侵赶到y(tǒng)的時鐘在某個時間點之后突然往回走(人為設(shè)置),即出現(xiàn)了時間上的逆流情況。
- 時鐘回?fù)軒淼目捎眯院托阅軉栴}:由于時間依賴性,當(dāng)系統(tǒng)時鐘發(fā)生回?fù)軙r,雪花算法需要進(jìn)行額外的處理,如等待系統(tǒng)時鐘追上上一次生成 ID 的時間戳或拋出異常。這種處理會對算法的可用性和性能產(chǎn)生一定影響。
- 節(jié)點 ID 依賴問題:雪花算法需要為每個節(jié)點分配唯一的節(jié)點 ID 來保證生成的 ID 的全局唯一性。節(jié)點 ID 的分配需要有一定的管理和調(diào)度,特別是在動態(tài)擴(kuò)容或縮容時,節(jié)點 ID 的管理可能較為復(fù)雜。
4.如何解決時間回?fù)軉栴}?
百度 UidGenerator 框架中解決了時間回?fù)艿膯栴},并且解決方案比較經(jīng)典,所以咱們這里就來給大家分享一下百度 UidGenerator 是怎么解決時間回?fù)軉栴}的?
“
UidGenerator 介紹:UidGenerator 是百度開源的一個分布式唯一 ID 生成器,它是基于 Snowflake 算法的改進(jìn)版本。與傳統(tǒng)的 Snowflake 算法相比,UidGenerator 在高并發(fā)場景下具有更好的性能和可用性。它的實現(xiàn)源碼在:https://github.com/baidu/uid-generator
”
UidGenerator 是這樣解決時間回?fù)軉栴}的:UidGenerator 的每個實例中,都維護(hù)一個本地時鐘緩存,用于記錄當(dāng)前時間戳。這個本地時鐘會定期與系統(tǒng)時鐘進(jìn)行同步,如果檢測到系統(tǒng)時鐘往前走了(出現(xiàn)了時鐘回?fù)埽?,則將本地時鐘調(diào)整為系統(tǒng)時鐘。
5.為什么要使用雪花 ID 替代數(shù)據(jù)庫自增 ID?
數(shù)據(jù)庫自增 ID 只適用于單機(jī)環(huán)境,但如果是分布式環(huán)境,是將數(shù)據(jù)庫進(jìn)行分庫、分表或數(shù)據(jù)庫分片等操作時,那么數(shù)據(jù)庫自增 ID 就有問題了。
例如,數(shù)據(jù)庫分片之后,會在同一張業(yè)務(wù)表的分片數(shù)據(jù)庫中產(chǎn)生相同 ID(數(shù)據(jù)庫自增 ID 是由每個數(shù)據(jù)庫單獨記錄和增加的),這樣就會導(dǎo)致,同一個業(yè)務(wù)表的竟然有相同的 ID,而且相同 ID 背后存儲的數(shù)據(jù)又完全不同,這樣業(yè)務(wù)查詢的時候就出問題了。
所以為了解決這個問題,就必須使用分布式中能保證唯一性的雪花 ID 來替代數(shù)據(jù)庫的自增 ID。
6.擴(kuò)展:使用 UUID 替代雪花 ID 行不行?
如果單從唯一性來考慮的話,那么 UUID 和雪花 ID 的效果是一致的,二者都能保證分布式系統(tǒng)下的數(shù)據(jù)唯一性,但是即使這樣,也不建議使用 UUID 替代雪花 ID,因為這樣做的問題有以下兩個:
- 可讀性問題:UUID 內(nèi)容很長,但沒有業(yè)務(wù)含義,就是一堆看不懂的“字母”。
- 性能問題:UUID 是字符串類型,而字符串類型在數(shù)據(jù)庫的查詢中效率很低。
所以,基于以上兩個原因,不建議使用 UUID 來替代雪花 ID。
小結(jié)
數(shù)據(jù)庫自增 ID 只適用于單機(jī)數(shù)據(jù)庫環(huán)境,而對于分庫、分表、數(shù)據(jù)分片來說,自增 ID 不具備唯一性,所以要要使用雪花 ID 來替代數(shù)據(jù)庫自增 ID。但雪花算法依然存在一些問題,例如時間回?fù)軉栴}、節(jié)點過度依賴問題等,所以此時,可以使用雪花算法的改進(jìn)框架,如百度的 UidGenerator 來作為數(shù)據(jù)庫的 ID 生成方案會比較好。