Redis內(nèi)部數(shù)據(jù)結(jié)構(gòu)SDS詳解
本文轉(zhuǎn)載自微信公眾號(hào)「 學(xué)習(xí)Java的小姐姐」,作者學(xué)習(xí)Java的小姐姐0618。轉(zhuǎn)載本文請(qǐng)聯(lián)系學(xué)習(xí)Java的小姐姐公眾號(hào)。
前言
Redis是使用C寫(xiě)的,而C中根本不存在string,list,hash,set和zset這些數(shù)據(jù)類(lèi)型,那么C是如何將這些數(shù)據(jù)類(lèi)型實(shí)現(xiàn)出來(lái)的呢?我們從該篇開(kāi)始,就要開(kāi)始分析源碼啦??。
API使用
我們這篇來(lái)學(xué)習(xí)string的底層實(shí)現(xiàn),首先看下API的簡(jiǎn)單應(yīng)用,設(shè)置str1變量為helloworld,然后我們使用debug object +變量名的方式看下,注意標(biāo)紅的編碼為embstr。
如果我們將str2設(shè)置為helloworldhelloworldhelloworldhelloworldhell,字符長(zhǎng)度為44,再使用下debug object+變量名的方式看下,注意標(biāo)紅的編碼為embstr。
但是當(dāng)我們?cè)O(shè)置為helloworldhelloworldhelloworldhelloworldhello,字符長(zhǎng)度為45,再使用debug object+變量名的方式看下,注意標(biāo)紅的編碼為raw。
最后我們將str3設(shè)置為整數(shù)100,再使用debug object+變量名的方式看下,注意標(biāo)紅的編碼為int。
所以Redis的string類(lèi)型一共有三種存儲(chǔ)方式,當(dāng)字符串長(zhǎng)度小于等于44,底層采用embstr;當(dāng)字符串長(zhǎng)度大于44,底層采用raw;當(dāng)設(shè)置是整數(shù),底層則采用int。
embstr和raw的區(qū)別
所有類(lèi)型的數(shù)據(jù)結(jié)構(gòu)最外層都是RedisObject,這部分會(huì)說(shuō),先這樣大致了解下,因?yàn)檫@篇的重點(diǎn)不在這。如果字符串小于等于44,實(shí)際的數(shù)據(jù)和RedisObject在內(nèi)存中地址相鄰,如下圖。
如果字符串大于44,實(shí)際的數(shù)據(jù)和RedisObject在內(nèi)存中地址不相鄰,如下圖。
再次強(qiáng)調(diào),這些不重要,以后會(huì)講,現(xiàn)在提下,只是為了能讓Redis的String類(lèi)型有個(gè)大致了解,先從整體把握。我們今天要說(shuō)的其實(shí)是實(shí)際的數(shù)據(jù),即上圖指針指向的位置??。
SDSHdr的定義
其實(shí)的數(shù)據(jù)并不是直接存儲(chǔ),也有封裝,看下面的代碼就知道分為五種,分別是sdshdr5,sdshdr8,sdshdr16,sdshdr32,sdshdr64。sdshdr5和另外四種的區(qū)別比較明顯,sdshrd5其實(shí)對(duì)內(nèi)存空間的更加節(jié)約。其他四種乍一看都差不多,包括已用長(zhǎng)度len,總長(zhǎng)度alloc,標(biāo)記flags(感覺(jué)沒(méi)啥用,要是有知道的小伙伴,歡迎指教),實(shí)際數(shù)據(jù)buf。
- //定義五種不同的結(jié)構(gòu)體,sdshdr5,sdshdr8, sdshdr16,sdshdr32,sdshdr64
- struct __attribute__ ((__packed__)) sdshdr5 {
- unsigned char flags; // 8位的標(biāo)記
- char buf[];//實(shí)際數(shù)據(jù)的指針
- };
- struct __attribute__ ((__packed__)) sdshdr8 {
- uint8_t len; /* 已使用長(zhǎng)度 */
- uint8_t alloc; /* 總長(zhǎng)度*/
- unsigned char flags;
- char buf[];
- };
- struct __attribute__ ((__packed__)) sdshdr16 {
- uint16_t len;
- uint16_t alloc;
- unsigned char flags;
- char buf[];
- };
- struct __attribute__ ((__packed__)) sdshdr32 {
- uint32_t len;
- uint32_t alloc;
- unsigned char flags;
- char buf[];
- };
- struct __attribute__ ((__packed__)) sdshdr64 {
- uint64_t len;
- uint64_t alloc;
- unsigned char flags;
- char buf[];
- };
SDS具體邏輯圖
假設(shè)我們?cè)O(shè)置某個(gè)字符串為hello,那么他SDS的可用長(zhǎng)度len為8,已用長(zhǎng)度len為6,如下圖。注意:Redis會(huì)根據(jù)具體的字符長(zhǎng)度,選擇相應(yīng)的sdshdr,但是各個(gè)類(lèi)型都差不多,所以下圖加簡(jiǎn)單畫(huà)了。
SDS的優(yōu)勢(shì)
我們可以看到是對(duì)字符數(shù)組的再封裝,但是為什么呢,直接使用字符數(shù)組不是更簡(jiǎn)單嗎?這要從C和Java語(yǔ)言的根本區(qū)別說(shuō)起。
更快速的獲取字符串長(zhǎng)度
我們都知道Java的字符串有提供length方法,列表有提供size方法,我們可以直接獲取大小。但是C卻不一樣,更偏向底層實(shí)現(xiàn),所以沒(méi)有直接的方法使用。這樣就帶來(lái)一個(gè)問(wèn)題,如果我們想要獲取某個(gè)數(shù)組的長(zhǎng)度,就只能從頭開(kāi)始遍歷,當(dāng)遇到第一個(gè)'\0'則表示該數(shù)組結(jié)束。這樣的速度太慢了,不能每次因?yàn)橐@取長(zhǎng)度就變量數(shù)組。所以設(shè)計(jì)了SDS數(shù)據(jù)結(jié)構(gòu),在原來(lái)的字符數(shù)組外面增加總長(zhǎng)度,和已用長(zhǎng)度,這樣每次直接獲取已用長(zhǎng)度即可。復(fù)雜度為O(1)。
數(shù)據(jù)安全,不會(huì)截?cái)?/strong>
如果傳統(tǒng)字符串保存圖片,視頻等二進(jìn)制文件,中間可能出現(xiàn)'\0',如果按照原來(lái)的邏輯,會(huì)造成數(shù)據(jù)丟失。所以可以用已用長(zhǎng)度來(lái)表示是否字符數(shù)組已結(jié)束。
SDS關(guān)鍵代碼分析
獲取常見(jiàn)值(抽象出常見(jiàn)方法)
在sds.h中寫(xiě)了一些常見(jiàn)方法,比如計(jì)算sds的長(zhǎng)度(即sdshdr的len),計(jì)算sds的空閑長(zhǎng)度(即sdshdr的可用長(zhǎng)度alloc-已用長(zhǎng)度len),計(jì)算sds的可用長(zhǎng)度(即sdshdr的alloc)等等。但是大家有沒(méi)有疑問(wèn),這不是一行代碼搞定的事嗎,為啥要抽象出方法呢?那么問(wèn)題在于在上面,我們有將sdshdr分為五種類(lèi)型,分別是sdshdr5,sdshdr8,sdshdr16,sdshdr32,sdshdr64。那么我們?cè)趯?shí)際使用的時(shí)候,想要區(qū)分當(dāng)前是哪個(gè)類(lèi)型,并取其相應(yīng)字段或設(shè)置相應(yīng)字段。
- //計(jì)算sds對(duì)應(yīng)的字符串長(zhǎng)度,其實(shí)上取得是字符串所對(duì)應(yīng)的哪種sdshdr的len值
- static inline size_t sdslen(const sds s) {
- // 柔性數(shù)組不占空間,所以倒數(shù)第二位的是flags
- unsigned char flags = s[-1];
- //flags與上面定義的宏變量7做位運(yùn)算
- switch(flags&SDS_TYPE_MASK) {
- case SDS_TYPE_5://0
- return SDS_TYPE_5_LEN(flags);
- case SDS_TYPE_8://1
- return SDS_HDR(8,s)->len;//取上面結(jié)構(gòu)體sdshdr8的len
- case SDS_TYPE_16://2
- return SDS_HDR(16,s)->len;
- case SDS_TYPE_32://3
- return SDS_HDR(32,s)->len;
- case SDS_TYPE_64://5
- return SDS_HDR(64,s)->len;
- }
- return 0;
- }
- //計(jì)算sds對(duì)應(yīng)的空余長(zhǎng)度,其實(shí)上是alloc-len
- static inline size_t sdsavail(const sds s) {
- unsigned char flags = s[-1];
- switch(flags&SDS_TYPE_MASK) {
- case SDS_TYPE_5: {
- return 0;
- }
- case SDS_TYPE_8: {
- SDS_HDR_VAR(8,s);
- return sh->alloc - sh->len;
- }
- case SDS_TYPE_16: {
- SDS_HDR_VAR(16,s);
- return sh->alloc - sh->len;
- }
- case SDS_TYPE_32: {
- SDS_HDR_VAR(32,s);
- return sh->alloc - sh->len;
- }
- case SDS_TYPE_64: {
- SDS_HDR_VAR(64,s);
- return sh->alloc - sh->len;
- }
- }
- return 0;
- }
- //設(shè)置sdshdr的len
- static inline void sdssetlen(sds s, size_t newlen) {
- unsigned char flags = s[-1];
- switch(flags&SDS_TYPE_MASK) {
- case SDS_TYPE_5:
- {
- unsigned char *fp = ((unsigned char*)s)-1;
- *fp = SDS_TYPE_5 | (newlen << SDS_TYPE_BITS);
- }
- break;
- case SDS_TYPE_8:
- SDS_HDR(8,s)->len = newlen;
- break;
- case SDS_TYPE_16:
- SDS_HDR(16,s)->len = newlen;
- break;
- case SDS_TYPE_32:
- SDS_HDR(32,s)->len = newlen;
- break;
- case SDS_TYPE_64:
- SDS_HDR(64,s)->len = newlen;
- break;
- }
- }
- //給sdshdr的len添加多少大小
- static inline void sdsinclen(sds s, size_t inc) {
- unsigned char flags = s[-1];
- switch(flags&SDS_TYPE_MASK) {
- case SDS_TYPE_5:
- {
- unsigned char *fp = ((unsigned char*)s)-1;
- unsigned char newlen = SDS_TYPE_5_LEN(flags)+inc;
- *fp = SDS_TYPE_5 | (newlen << SDS_TYPE_BITS);
- }
- break;
- case SDS_TYPE_8:
- SDS_HDR(8,s)->len += inc;
- break;
- case SDS_TYPE_16:
- SDS_HDR(16,s)->len += inc;
- break;
- case SDS_TYPE_32:
- SDS_HDR(32,s)->len += inc;
- break;
- case SDS_TYPE_64:
- SDS_HDR(64,s)->len += inc;
- break;
- }
- }
- //獲取sdshdr的總長(zhǎng)度
- static inline size_t sdsalloc(const sds s) {
- unsigned char flags = s[-1];
- switch(flags&SDS_TYPE_MASK) {
- case SDS_TYPE_5:
- return SDS_TYPE_5_LEN(flags);
- case SDS_TYPE_8:
- return SDS_HDR(8,s)->alloc;
- case SDS_TYPE_16:
- return SDS_HDR(16,s)->alloc;
- case SDS_TYPE_32:
- return SDS_HDR(32,s)->alloc;
- case SDS_TYPE_64:
- return SDS_HDR(64,s)->alloc;
- }
- return 0;
- }
- //設(shè)置sdshdr的總長(zhǎng)度
- static inline void sdssetalloc(sds s, size_t newlen) {
- unsigned char flags = s[-1];
- switch(flags&SDS_TYPE_MASK) {
- case SDS_TYPE_5:
- /* Nothing to do, this type has no total allocation info. */
- break;
- case SDS_TYPE_8:
- SDS_HDR(8,s)->alloc = newlen;
- break;
- case SDS_TYPE_16:
- SDS_HDR(16,s)->alloc = newlen;
- break;
- case SDS_TYPE_32:
- SDS_HDR(32,s)->alloc = newlen;
- break;
- case SDS_TYPE_64:
- SDS_HDR(64,s)->alloc = newlen;
- break;
- }
- }
創(chuàng)建對(duì)象
我們通過(guò)sdsnew方法來(lái)創(chuàng)建對(duì)象,顯示通過(guò)判斷init是否為空來(lái)確定初始大小,接著調(diào)用方法sdsnew(這邊方法名一樣,但是參數(shù)不一樣,其為方法的重載),先根據(jù)長(zhǎng)度確定類(lèi)型(上面有提過(guò)五種類(lèi)型,不記得的可以往上翻),然后根據(jù)類(lèi)型分配相應(yīng)的內(nèi)存資源,最后追加C語(yǔ)言的結(jié)尾符'\0'。
- sds sdsnew(const char *init) {
- size_t initlen = (init == NULL) ? 0 : strlen(init);
- return sdsnewlen(init, initlen);
- }
- sds sdsnewlen(const void *init, size_t initlen) {
- void *sh;
- sds s;
- char type = sdsReqType(initlen);//根據(jù)長(zhǎng)度確定類(lèi)型
- /*空字符串,用sdshdr8,這邊是經(jīng)驗(yàn)寫(xiě)法,當(dāng)想構(gòu)造空串是為了放入超過(guò)32長(zhǎng)度的字符串 */
- if (type == SDS_TYPE_5 && initlen == 0) type = SDS_TYPE_8;
- int hdrlen = sdsHdrSize(type);//到下一個(gè)方法,已經(jīng)把他們放在一起了
- unsigned char *fp; /* flags pointer. */
- //分配內(nèi)存
- sh = s_malloc(hdrlen+initlen+1);
- if (!init)
- memset(sh, 0, hdrlen+initlen+1);
- if (sh == NULL) return NULL;
- s = (char*)sh+hdrlen;
- fp = ((unsigned char*)s)-1;
- //根據(jù)不同的類(lèi)型,創(chuàng)建不同結(jié)構(gòu)體,調(diào)用SDS_HDR_VAR函數(shù)
- //為不同的結(jié)構(gòu)體賦值,如已用長(zhǎng)度len,總長(zhǎng)度alloc
- switch(type) {
- case SDS_TYPE_5: {
- *fp = type | (initlen << SDS_TYPE_BITS);
- break;
- }
- case SDS_TYPE_8: {
- SDS_HDR_VAR(8,s);
- sh->len = initlen;
- sh->alloc = initlen;
- *fp = type;
- break;
- }
- case SDS_TYPE_16: {
- SDS_HDR_VAR(16,s);
- sh->len = initlen;
- sh->alloc = initlen;
- *fp = type;
- break;
- }
- case SDS_TYPE_32: {
- SDS_HDR_VAR(32,s);
- sh->len = initlen;
- sh->alloc = initlen;
- *fp = type;
- break;
- }
- case SDS_TYPE_64: {
- SDS_HDR_VAR(64,s);
- sh->len = initlen;
- sh->alloc = initlen;
- *fp = type;
- break;
- }
- }
- if (initlen && init)
- memcpy(s, init, initlen);
- //最后追加'\0'
- s[initlen] = '\0';
- return s;
- }
- //根據(jù)實(shí)際字符長(zhǎng)度確定類(lèi)型
- static inline char sdsReqType(size_t string_size) {
- if (string_size < 1<<5)
- return SDS_TYPE_5;
- if (string_size < 1<<8)
- return SDS_TYPE_8;
- if (string_size < 1<<16)
- return SDS_TYPE_16;
- #if (LONG_MAX == LLONG_MAX)
- if (string_size < 1ll<<32)
- return SDS_TYPE_32;
- #endif
- return SDS_TYPE_64;
- }
刪除
String類(lèi)型的刪除并不是直接回收內(nèi)存,而是修改字符,讓其為空字符,這其實(shí)是惰性釋放,等待將來(lái)使用。在調(diào)用sdsempty方法時(shí),再次調(diào)用上面的sdsnewlen方法。
- /*修改sds字符串使其為空(零長(zhǎng)度)。
- *但是,所有現(xiàn)有緩沖區(qū)不會(huì)被丟棄,而是設(shè)置為可用空間
- *這樣,下一個(gè)append操作將不需要分配到
- *當(dāng)要縮短SDS保存的字符串時(shí),程序并不立即使用內(nèi)存充分配來(lái)回收縮短后多出來(lái)的字節(jié),并等待將來(lái)使用。*/
- void sdsclear(sds s) {
- sdssetlen(s, 0);
- s[0] = '\0';
- }
- sds sdsempty(void) {
- return sdsnewlen("",0);
- }
添加字符(擴(kuò)容)重點(diǎn)!!!
添加字符串,sdscat輸入?yún)?shù)為sds和字符串t,首先調(diào)用sdsMakeRoomFor擴(kuò)容方法,再追加新的字符串,最后添加上結(jié)尾符'\0'。我們來(lái)看下擴(kuò)容方法里面是如何實(shí)現(xiàn)的?第一步先調(diào)用常見(jiàn)方法中的sdsavail方法,獲取還剩多少空閑空間。如果空閑空間大于要添加的字符串t的長(zhǎng)度,則直接返回,不想要擴(kuò)容。如果空閑空間不夠,則想要擴(kuò)容。第二步判斷想要擴(kuò)容多大,這邊有分情況,如果目前的字符串小于1M,則直接擴(kuò)容雙倍,如果目前的字符串大于1M,則直接添加1M。第三個(gè)判斷添加字符串之后的數(shù)據(jù)類(lèi)型還是否和原來(lái)的一致,如果一致,則沒(méi)啥事。如果不一致,則想要新建一個(gè)sdshdr,把現(xiàn)有的數(shù)據(jù)都挪過(guò)去。
這樣是不是有點(diǎn)抽象,舉個(gè)例子,現(xiàn)在str的字符串為hello,目前是sdshdr8,總長(zhǎng)度50,已用6,空閑44?,F(xiàn)在想要添加長(zhǎng)度為50的字符t,第一步想要看下是否要擴(kuò)容,50明顯大于44,需要擴(kuò)容。第二步擴(kuò)容多少,str的長(zhǎng)度小于1M,所以擴(kuò)容雙倍,新的長(zhǎng)度為50*2=100。第三步50+50所對(duì)應(yīng)sdshdr類(lèi)型還是sdshdr8嗎?明顯還是sdshdr8,所以不要數(shù)據(jù)遷移,還在原來(lái)的基礎(chǔ)上添加t即可。
- sds sdscat(sds s, const char *t) {
- return sdscatlen(s, t, strlen(t));
- }
- sds sdscatlen(sds s, const void *t, size_t len) {
- //調(diào)用sds.h里面的sdslen,即取已用長(zhǎng)度
- size_t curlen = sdslen(s);
- //擴(kuò)容方法
- s = sdsMakeRoomFor(s,len);
- if (s == NULL) return NULL;
- memcpy(s+curlen, t, len);
- sdssetlen(s, curlen+len);
- s[curlen+len] = '\0';
- return s;
- }
- sds sdsMakeRoomFor(sds s, size_t addlen) {
- void *sh, *newsh;
- //調(diào)用sds.h,獲取空閑長(zhǎng)度alloc
- size_t avail = sdsavail(s);
- size_t len, newlen;
- char type, oldtype = s[-1] & SDS_TYPE_MASK;
- int hdrlen;
- //空閑長(zhǎng)度大于需要增加的,不需要擴(kuò)容,直接返回
- if (avail >= addlen) return s;
- //調(diào)用sds.h里面的sdslen,即取可用長(zhǎng)度
- len = sdslen(s);
- sh = (char*)s-sdsHdrSize(oldtype);
- //len加上要添加的大小
- newlen = (len+addlen);
- //#define SDS_MAX_PREALLOC (1024*1024)
- //當(dāng)新長(zhǎng)度小于 1024*1024,直接擴(kuò)容兩倍
- if (newlen < SDS_MAX_PREALLOC)
- newlen *= 2;
- else //當(dāng)新長(zhǎng)度大于 1024*1024,加2014*1024
- newlen += SDS_MAX_PREALLOC;
- //根據(jù)長(zhǎng)度計(jì)算新的類(lèi)型
- type = sdsReqType(newlen);
- /* Don't use type 5: the user is appending to the string and type 5 is
- * not able to remember empty space, so sdsMakeRoomFor() must be called
- * at every appending operation. */
- if (type == SDS_TYPE_5) type = SDS_TYPE_8;
- //獲取不同結(jié)構(gòu)體的頭部大小
- hdrlen = sdsHdrSize(type);
- //如果類(lèi)型一樣,直接使用原地址,長(zhǎng)度加上就行
- if (oldtype==type) {
- newsh = s_realloc(sh, hdrlen+newlen+1);
- if (newsh == NULL) return NULL;
- s = (char*)newsh+hdrlen;
- } else {//如果類(lèi)型不一樣,重新開(kāi)辟內(nèi)存,把原來(lái)的數(shù)據(jù)復(fù)制過(guò)去
- newsh = s_malloc(hdrlen+newlen+1);
- if (newsh == NULL) return NULL;
- memcpy((char*)newsh+hdrlen, s, len+1);
- s_free(sh);
- s = (char*)newsh+hdrlen;
- s[-1] = type;
- sdssetlen(s, len);
- }
- //設(shè)置新的總長(zhǎng)度
- sdssetalloc(s, newlen);
- return s;
- }
- //計(jì)算不同類(lèi)型的結(jié)構(gòu)體的大小
- static inline int sdsHdrSize(char type) {
- switch(type&SDS_TYPE_MASK) {
- case SDS_TYPE_5:
- return sizeof(struct sdshdr5);
- case SDS_TYPE_8:
- return sizeof(struct sdshdr8);
- case SDS_TYPE_16:
- return sizeof(struct sdshdr16);
- case SDS_TYPE_32:
- return sizeof(struct sdshdr32);
- case SDS_TYPE_64:
- return sizeof(struct sdshdr64);
- }
- return 0;
- }
總結(jié)
該篇主要講了Redis的底層實(shí)現(xiàn)SDS,包括SDS是什么,與傳統(tǒng)的C語(yǔ)言相比的優(yōu)勢(shì),具體的邏輯圖,常見(jiàn)的方法(包括創(chuàng)建,刪除,擴(kuò)容等)。同時(shí)也知道了Redis的embstr和raw的區(qū)別。
如果覺(jué)得寫(xiě)得還行,麻煩給個(gè)贊??,您的認(rèn)可才是我寫(xiě)作的動(dòng)力!
如果覺(jué)得有說(shuō)的不對(duì)的地方,歡迎評(píng)論指出。
好了,拜拜咯。