Ceph中序列化的設(shè)計與實現(xiàn)
作為主要和磁盤、網(wǎng)絡(luò)打交道的分布式存儲系統(tǒng),序列化是最基礎(chǔ)的功能之一,今天我們來看一下Ceph中序列化的設(shè)計與實現(xiàn)。
1 Ceph序列化的方式
序列化(ceph稱之為encode)的目的是將數(shù)據(jù)結(jié)構(gòu)表示為二進(jìn)制流的方式,以便通過網(wǎng)絡(luò)傳輸或保存在磁盤等存儲介質(zhì)上,其逆過程稱之為反序列化(ceph稱之為decode)。 例如對于字符串“abc”,其序列化結(jié)果為8個字節(jié)(bytes):
03 00 00 00 61 62 63
其中頭四個字節(jié)(03 00 00 00)表示字符串的長度為3個字符,后3個字節(jié)(61 62 63)分別是字符“abc”的ASCII碼的16進(jìn)制表示。 Ceph采用little-endian的序列化方式,即低地址存放***有效字節(jié),所以32位整數(shù)0x12345678的序列化結(jié)果為78 56 34 12。
由于序列化在整個系統(tǒng)中是非?;?,非常常用的功能,Ceph將其序列化方式設(shè)計為一個同一的結(jié)構(gòu),即任意支持序列化的數(shù)據(jù)結(jié)構(gòu),都必須提供一對定義在全局命名空間上的序列化/反序列化(encode/decode)函數(shù)。例如,如果我們定義了一個結(jié)構(gòu)體inode,就必須在全局命名空間中定義以下兩個方法:
- encode(struct inode, bufferlist bl)
- decode(struct inode, bufferlist::iterator bl);
在此基礎(chǔ)上,序列化的使用就變得非常容易 。 即對于任意可序列化的類型T的實例instance_T,都可以通過以下語句:
- ::encode(instance_T, instance_bufferlist);
將instance_T序列化并保存到bufferlist類的實例instance_bufferlist中。
以下代碼演示了將一個時間戳以及一個inode序列化到一個bufferlist中。
- utime_t timestamp;
- inode_t inode;
- bufferlist bl;
- ::encode(timetamp, bl)
- ::encode(inode, bl);
bufferlist類(定義于include/buffer.h)是ceph核心的緩存類,用于保存序列化結(jié)果、數(shù)據(jù)緩存、網(wǎng)絡(luò)通訊等,可以將bufferlist理解為一個可變長度的char數(shù)組。關(guān)于bufferlist的設(shè)計與實現(xiàn),可以參考《Ceph中Bufferlist》。
序列化后的數(shù)據(jù)可以通過反序列化方法讀取,例如以下代碼片段從一個bufferlist中反序列化一個時間戳和一個inode(前提是該bl中已經(jīng)被序列化了一個utime_t和一個inode,否則會報錯)。
- bufferlist::iterator bl;
- ::decode(timetamp, bl)
- ::decode(inode, bl);
#p#
2 數(shù)據(jù)結(jié)構(gòu)的序列化
Ceph為其所有用到數(shù)據(jù)類型提供了序列化方法或反序列化方法,這些數(shù)據(jù)類型包括了絕大部分基礎(chǔ)數(shù)據(jù)類型(int、bool等)、結(jié)構(gòu)體類型的序列化(ceph_mds_request_head等)、集合類型(vector、list、set、map等)、以及自定義的復(fù)雜數(shù)據(jù)類型(例如表示 inode的inode_t等),以下分別介紹不同數(shù)據(jù)類型的序列化實現(xiàn)方式。
2.1 基本數(shù)據(jù)類型的序列化
基本數(shù)據(jù)類型的序列化結(jié)果基本就是該類型在內(nèi)存中的表示形式?;緮?shù)據(jù)類型的序列化方法使用手工編寫,定義在include/encoding.h中,包括以下類型:
- __u8, __s8, char, bool
- ceph_le64, ceph_le32, ceph_le16,
- float, double,
- uint64_t, int64_t, uint32_t, int32_t, uint16_t, int16_t,
- string, char*
在手工編寫encode方法過程中,為了避免重復(fù)代碼,借助了WRITE_RAW_ENCODER和WRITE_INTTYPE_ENCODER兩個宏。
2.2 結(jié)構(gòu)體類型的序列化
結(jié)構(gòu)體類型的序列化方法與基本數(shù)據(jù)類型的序列化方法一致,即使用結(jié)構(gòu)體的內(nèi)存布局作為序列化的形式。在結(jié)構(gòu)體定義完成后,通過調(diào)用 WRITE_RAW_ENCODER宏函數(shù)生成結(jié)構(gòu)體的全局encode方法,例如結(jié)構(gòu)體ceph_mds_request_head相關(guān)結(jié)構(gòu)實現(xiàn)如下。
- struct ceph_mds_request_head {
- __le64 oldest_client_tid;
- __le32 mdsmap_epoch;
- __le32 flags;
- __u8 num_retry, num_fwd;
- __le16 num_releases;
- __le32 op;
- __le32 caller_uid, caller_gid;
- __le64 ino;
- } __attribute__ ((packed));
- WRITE_RAW_ENCODER(ceph_mds_request_head)
其中:
- ceph_mds_request_head結(jié)構(gòu)體定義在include/ceph_fs.h
- WRITE_RAW_ENCODER(ceph_mds_request_head)語句位于include/types.h
- WRITE_RAW_ENCODER宏函數(shù)定義在include/encoding.h
WRITE_RAW_ENCODER宏函數(shù)實際上是通過調(diào)用encode_raw實現(xiàn)的,而encode_raw調(diào)用bufferlist的append的方法,通過內(nèi)存拷貝,將數(shù)據(jù)結(jié)構(gòu)放入到bufferlist中。相關(guān)代碼為:
- template
- inline void encode_raw(const T& t, bufferlist& bl)
- {
- bl.append((char*)&t, sizeof(t));
- }
- template
- inline void decode_raw(T& t, bufferlist::iterator &p)
- {
- p.copy(sizeof(t), (char*)&t);
- }
2.3 集合數(shù)據(jù)類型的序列化
集合數(shù)據(jù)類型序列化的基本思路包括兩步:
- 序列化集合大小,
- 序列化集合內(nèi)的所有元素
例如vector& v的序列化方法:
- template
- inline void encode(const std::vector& v, bufferlist& bl)
- {
- __u32 n = v.size();
- encode(n, bl);
- for (typename std::vector::const_iterator p = v.begin(); p != v.end(); ++p)
- encode(*p, bl);
- }
其中元素的序列化通過調(diào)用該元素的encode方法實現(xiàn)。
常用集合數(shù)據(jù)類型的序列化已經(jīng)由Ceph實現(xiàn),位于include/encoding.h中,包括以下集合類型:
- pair, triple
- list, set, vector, map, multimap
- hash_map, hash_set
- deque
集合類型的序列化方法皆為基于泛型(模板類)的實現(xiàn)方式,適用于所有泛型派生類。
2.4 復(fù)雜數(shù)據(jù)類型的序列化
除以上兩種業(yè)務(wù)無關(guān)的數(shù)據(jù)類型外,其它數(shù)據(jù)類型的序列化實現(xiàn)包括兩部分:
在類型內(nèi)部現(xiàn)實encode方法,
將類型內(nèi)部的encode方法重定義為全局方法。
以下以utime_t類為例:
- class utime_t {
- struct {
- __u32 tv_sec, tv_nsec;
- } tv;
- void encode(bufferlist &bl) const {
- ::encode(tv.tv_sec, bl);
- ::encode(tv.tv_nsec, bl);
- }
- void decode(bufferlist::iterator &p) {
- ::decode(tv.tv_sec, p);
- ::decode(tv.tv_nsec, p);
- }
- };
- WRITE_CLASS_ENCODER(utime_t)
- utime_t內(nèi)部實現(xiàn)了encode和decode兩個方法,WRITE_CLASS_ENCODER宏函數(shù)將這兩個方法轉(zhuǎn)化為全局方法。
- WRITE_CLASS_ENCODER宏函數(shù)定義于include/encoding.h中,其定義如下:
- #define WRITE_CLASS_ENCODER(cl) \
- inline void encode(const cl &c, bufferlist &bl, uint64_t features=0) { \
- ENCODE_DUMP_PRE(); c.encode(bl); ENCODE_DUMP_POST(cl); } \
- inline void decode(cl &c, bufferlist::iterator &p) { c.decode(p); }
復(fù)雜數(shù)據(jù)結(jié)構(gòu)內(nèi)部的encode方法的實現(xiàn)方式通常是調(diào)用其內(nèi)部主要數(shù)據(jù)結(jié)構(gòu)的encode方法,例如utime_t類的encode方法實際上是序列化內(nèi)部的tv.tv_sec和tv.tv_nsec兩個成員。