雪花算法:分布式唯一ID生成利器
前言
以分布式ID為例,它的生成往往會在唯一性、遞增性、高可用性、高性能等方面都有所要求。并且在業(yè)務(wù)處理時,還要防止爬蟲根據(jù)ID的自增進(jìn)行數(shù)據(jù)爬取。而雪花算法,在這些方面表現(xiàn)得都不錯。
常見分布式ID生成
市面上比較常見的分布式ID生成算法及類庫:
UUID:Java自帶API,生成一串唯一隨機(jī)36位字符串(32個字符串+4個“-”)??梢员WC唯一性,但可讀性差,無法有序遞增。
SnowFlake:雪花算法,Twitter開源的由64位整數(shù)組成分布式ID,性能較高,并且在單機(jī)上遞增。GitHub上官方地址:https://github.com/twitter-archive/snowflake/tree/snowflake-2010 。
UidGenerator:百度開源的分布式ID生成器,基于雪花算法。GitHub參考鏈接:https://github.com/baidu/uid-generator/blob/master/README.zh_cn.md 。該項目的說明文檔及測試案例都值得深入學(xué)習(xí)一下。
Leaf:美團(tuán)開源的分布式ID生成器,能保證全局唯一,趨勢遞增,但需要依賴關(guān)系數(shù)據(jù)庫、Zookeeper等中間件。相關(guān)實現(xiàn)可參考該文:https://tech.meituan.com/2017/04/21/mt-leaf.html 。
雪花算法
雪花(snowflake),美麗、獨(dú)特又變幻莫測。在大自然中幾乎找不到兩片完全一樣的雪花。雪花的這些特性正好在雪花算法上有所展示。
SnowFlake算法是Twitter開源的分布式ID生成算法。核心思想就是:使用一個64 bit的 long 型的數(shù)字作為全局唯一ID。算法中還引入了時間戳,基本上保證了自增特性。
最初的版本的雪花算法是基于scala寫的,當(dāng)然,不同的編程語言都可以根據(jù)其算法邏輯進(jìn)行實現(xiàn)。
雪花算法原理
SnowFlake算法生成ID的結(jié)果是一個64bit大小的整數(shù),結(jié)構(gòu)如下圖:
算法解析:
- 第一個部分:1個bit,無意義,固定為0。二進(jìn)制中最高位是符號位,1表示負(fù)數(shù),0表示正數(shù)。ID都是正整數(shù),所以固定為0。
- 第二個部分:41個bit,表示時間戳,精確到毫秒,可以使用69年。時間戳帶有自增屬性。
- 第三個部分:10個bit,表示10位的機(jī)器標(biāo)識,最多支持1024個節(jié)點(diǎn)。此部分也可拆分成5位datacenterId和5位workerId,datacenterId表示機(jī)房ID,workerId表示機(jī)器ID。
- 第四部分:12個bit,表示序列化,即一些列的自增ID,可以支持同一節(jié)點(diǎn)同一毫秒生成最多4095個ID序號。
由于在Java中64bit的整數(shù)是long類型,所以在Java中SnowFlake算法生成的id就是long來存儲的。
雪花算法Java實現(xiàn)
雪花算法Java工具類實現(xiàn):
public class SnowFlake {
/**
* 起始的時間戳(可設(shè)置當(dāng)前時間之前的鄰近時間)
*/
private final static long START_STAMP = 1480166465631L;
/**
* 序列號占用的位數(shù)
*/
private final static long SEQUENCE_BIT = 12;
/**
* 機(jī)器標(biāo)識占用的位數(shù)
*/
private final static long MACHINE_BIT = 5;
/**
* 數(shù)據(jù)中心占用的位數(shù)
*/
private final static long DATA_CENTER_BIT = 5;
/**
* 每一部分的最大值
*/
private final static long MAX_DATA_CENTER_NUM = ~(-1L << DATA_CENTER_BIT);
private final static long MAX_MACHINE_NUM = ~(-1L << MACHINE_BIT);
private final static long MAX_SEQUENCE = ~(-1L << SEQUENCE_BIT);
/**
* 每一部分向左的位移
*/
private final static long MACHINE_LEFT = SEQUENCE_BIT;
private final static long DATA_CENTER_LEFT = SEQUENCE_BIT + MACHINE_BIT;
private final static long TIMESTAMP_LEFT = DATA_CENTER_LEFT + DATA_CENTER_BIT;
/**
* 數(shù)據(jù)中心ID(0~31)
*/
private final long dataCenterId;
/**
* 工作機(jī)器ID(0~31)
*/
private final long machineId;
/**
* 毫秒內(nèi)序列(0~4095)
*/
private long sequence = 0L;
/**
* 上次生成ID的時間截
*/
private long lastStamp = -1L;
public SnowFlake(long dataCenterId, long machineId) {
if (dataCenterId > MAX_DATA_CENTER_NUM || dataCenterId < 0) {
throw new IllegalArgumentException("dataCenterId can't be greater than MAX_DATA_CENTER_NUM or less than " +
"0");
}
if (machineId > MAX_MACHINE_NUM || machineId < 0) {
throw new IllegalArgumentException("machineId can't be greater than MAX_MACHINE_NUM or less than 0");
}
this.dataCenterId = dataCenterId;
this.machineId = machineId;
}
/**
* 產(chǎn)生下一個ID
*/
public synchronized long nextId() {
long currStamp = getNewStamp();
if (currStamp < lastStamp) {
throw new RuntimeException("Clock moved backwards. Refusing to generate id");
}
if (currStamp == lastStamp) {
//相同毫秒內(nèi),序列號自增
sequence = (sequence + 1) & MAX_SEQUENCE;
//同一毫秒的序列數(shù)已經(jīng)達(dá)到最大
if (sequence == 0L) {
//阻塞到下一個毫秒,獲得新的時間戳
currStamp = getNextMill();
}
} else {
//不同毫秒內(nèi),序列號置為0
sequence = 0L;
}
lastStamp = currStamp;
// 移位并通過或運(yùn)算拼到一起組成64位的ID
return (currStamp - START_STAMP) << TIMESTAMP_LEFT //時間戳部分
| dataCenterId << DATA_CENTER_LEFT //數(shù)據(jù)中心部分
| machineId << MACHINE_LEFT //機(jī)器標(biāo)識部分
| sequence; //序列號部分
}
private long getNextMill() {
long mill = getNewStamp();
while (mill <= lastStamp) {
mill = getNewStamp();
}
return mill;
}
private long getNewStamp() {
return System.currentTimeMillis();
}
public static void main(String[] args) {
SnowFlake snowFlake = new SnowFlake(11, 11);
long start = System.currentTimeMillis();
for (int i = 0; i < 10; i++) {
System.out.println(snowFlake.nextId());
}
System.out.println(System.currentTimeMillis() - start);
}
}
上述代碼中,在算法的核心方法上,通過加synchronized鎖來保證線程安全。這樣,同一服務(wù)器線程是安全的,生成的ID不會出現(xiàn)重復(fù),而不同服務(wù)器由于機(jī)器碼不同,就算同一時刻兩臺服務(wù)器都產(chǎn)生了雪花ID,結(jié)果也是不一樣的。
其他問題
41位時間戳最長只能有69年
下面來用程序推算一下,41位時間戳為什么只能支持69年。
41的二進(jìn)制,最大值也就41位都是1,也就是說41位可以表示2^{41}-1個毫秒的值,轉(zhuǎn)化成單位年則是(2^{41}-1) / (1000 * 60 * 60 * 24 *365) = 69年。
通過代碼驗證一下:
public static void main(String[] args) {
//41位二進(jìn)制最小值
String minTimeStampStr = "00000000000000000000000000000000000000000";
//41位二進(jìn)制最大值
String maxTimeStampStr = "11111111111111111111111111111111111111111";
//轉(zhuǎn)10進(jìn)制
long minTimeStamp = new BigInteger(minTimeStampStr, 2).longValue();
long maxTimeStamp = new BigInteger(maxTimeStampStr, 2).longValue();
//一年總共多少毫秒
long oneYearMills = 1L * 1000 * 60 * 60 * 24 * 365;
//算出最大可以多少年
System.out.println((maxTimeStamp - minTimeStamp) / oneYearMills);
}
所以,雪花算法生成的ID只能保證69年內(nèi)不會重復(fù),如果超過69年的話,那就考慮換個服務(wù)器(服務(wù)器ID)部署,并且要保證該服務(wù)器的ID和之前都沒有重復(fù)過。
前后端數(shù)值類型
在使用雪花算法時,由于生成的ID是64位,在傳遞給前端時,需要考慮以字符串的類型進(jìn)行傳遞,否則可能會導(dǎo)致前端類型溢出,再回傳到服務(wù)器時已經(jīng)變成另外一個值。
這是因為Number類型的ID在JS中最大只支持53位,直接將雪花算法的生成的ID傳遞給JS,會導(dǎo)致溢出。
小結(jié)
生成唯一性ID(其他數(shù)據(jù))是幾乎在每個系統(tǒng)中都會有的場景,對其生成算法不僅要保證全局唯一性、趨勢遞增性,還要保證信息安全(比如被爬取數(shù)據(jù)),同時還要保證算法的高可用性(QPS、可行5個9、平均延時、TP999等指標(biāo))。這就對ID生成的算法有一定的要求,而雪花算法算是一個不錯的選擇。
但它也是有一定的缺點(diǎn)的,比如強(qiáng)依賴機(jī)器時鐘,如果機(jī)器上的時鐘回?fù)埽瑫?dǎo)致重復(fù)或服務(wù)不可用的問題,這也是我們在使用時需要注意的事項。