自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Hadoop的一個變長long編碼剖析

2015-06-15 12:30:10

大數(shù)據(jù) Hadoop

Hadoop對于long、int （化成long進行編碼）的編碼設計了自己的一套編碼方式，這是一個zero-compressed encoded的變長編碼方式，有利于大大壓縮冗余數(shù)據(jù)。

Hadoop對于long、int （化成long進行編碼）的編碼設計了自己的一套編碼方式，這是一個zero-compressed encoded的變長編碼方式，有利于大大壓縮冗余數(shù)據(jù)。具體算法其實很簡單，具體來說有如下幾點：

1、對于-112 <= i <= 127的整數(shù)，只用1個字節(jié)byte來表示；如果超過上述范圍時，編碼***個字節(jié)則會用來表示i的總字節(jié)數(shù)，后面則跟著 i 的字節(jié)；

2、如果i大于0，則編碼的***個字節(jié) b 范圍在-113和-120之間，則 i 會有 (-112 - b)個字節(jié)，所以可以表示有1-8個字節(jié)；

3、如果i小于0，則編碼***個字節(jié) b 范圍在 -121 和 -128之間，則 i 會有 (-120 - b)個字節(jié)，同樣也可以表示有1-8個字節(jié)。（Hadoop的實現(xiàn)里，當i為負數(shù)被編碼的是 i 補碼）。

算法看上去比較容易理解，具體要點就是利用***個字節(jié)表示 i 的長度，以及 i 的符號，不過其實，如果深入源碼后，發(fā)現(xiàn)Hadoop的實現(xiàn)有點小巧妙的地方，我們先看代碼的實現(xiàn)：

首先是變長long的編碼：

public static void writeVLong(DataOutput stream, long i) throws IOException { if (i >= -112 && i <= 127) { stream.writeByte((byte)i); return; } int len = -112; if (i < 0) { i ^= -1L; // take one's complement' //關鍵部分！替換做法是 i = -i; len = -120; } long tmp = i; while (tmp != 0) { tmp = tmp >> 8; len--; } stream.writeByte((byte)len); len = (len < -120) ? -(len + 120) : -(len + 112); for (int idx = len; idx != 0; idx--) { int shiftbits = (idx - 1) * 8; long mask = 0xFFL << shiftbits; stream.writeByte((byte)((i & mask) >> shiftbits)); } }

為了方便，我這里也貼上自己稍微簡化了Hadoop實現(xiàn)的解碼變長long的實現(xiàn)：

public static long readVLong(DataInputStream input) throws IOException { byte firstByte = input.readByte; int len = -112; boolean isNegative = false; if (firstByte >= -112 && firstByte <= 127) { return firstByte; } else if (firstByte <= -121) { len = -120; isNegative = true; } len = len - firstByte; long res = 0; for (int i = 0; i < len; ++i) { res <<= 8; byte b = input.readByte; res = (b & 0xFF) | res; } //如果編碼是i = -i; 則這里是return isNegative ? (-res) : res; return isNegative ? (res ^ -1L) : res; } 算法的具體實現(xiàn)部分，參照之前概括的描述很容易了解大致框架，但有一個很關鍵的部分，就是在添加了注釋的編碼和解碼的部分，對于算法第3個條件里，如果 i 為負數(shù)的時候，Hadoop的默認實現(xiàn)里會把 i 進行補碼運算，然后再繼續(xù)執(zhí)行編碼，而因此，在解碼的時候，***部分也要重新取一個補碼操作。

算法思想分析

為什么要這樣呢？其實分析一下整個算法的原理。首先如果我們簡單的把***個字節(jié)表示 i 的字節(jié)數(shù)，不分為正、負兩個部分來額外表示符號的話，這樣會出現(xiàn)一個問題：那就是會沒辦法通過變長編碼簡單實現(xiàn)正負判斷，舉個簡單的例子，對于 i = 128和 i = -128，這兩個數(shù)的編碼對于1個字節(jié)來說，都是0x80！為什么會這樣呢？如果想到負數(shù)的二進制編碼是正數(shù)取反后加1（加1是為了避免直接取反對0進行兩次編碼，這樣負數(shù)能夠多表示1個數(shù)），因此，對于給定的字節(jié)，負數(shù)總是會比正數(shù)多表示1個數(shù)，對于1個字節(jié)，能表示-128~127。因此對于 i = 128的時候，沒辦法分辨出正負，必須要靠***個字節(jié)添加符號信息。

當給***個字節(jié)多分8個數(shù)出來表示符號的時候，為了要計算 i 的位數(shù)，如果 i 為負數(shù)的時候，i 的高位則全為1，因此必須要對 i 為負數(shù)的情況取反，然后再不斷循環(huán)計算 i 的長度，但事實上，我們同樣也可以對 i 取反后加1，也就是對 i = -i；轉為絕對值，而事實上，經(jīng)過本人的測試，無論是取反或者是做絕對值操作，兩者均可以正常進行編碼解碼，但事實上，取反有一個好處，對于i = -256的時候，如果將 i 取反，則會編碼輸出的兩個字節(jié)為：-121，-1。如果將 i 取絕對值，則編碼輸出的兩個字節(jié)為：-122，1，0。可見，對于這種的時候，取反能夠比取絕對值少用1個字節(jié)。

責任編輯：王雪燕

Hadoop long編碼剖析

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="zmw9h"></sub>