自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大數據計數原理1+0=1這你都不會算(二)

企業(yè)動態(tài)
如果我們估計有N個數,那么我們至少需要N*32bit(按照int在32位操作系統(tǒng)下占用32個bit)的空間來進行存儲,這太費錢了。有沒有辦法進行改進呢?這就引出了一個新的數據結構 - BitMap。

上一次我們說完了用 HashSet 來進行計數了。我們可以發(fā)現,如果我們估計有N個數,那么我們至少需要N*32bit(按照int在32位操作系統(tǒng)下占用32個bit)的空間來進行存儲,這太費錢了。有沒有辦法進行改進呢?這就引出了一個新的數據結構 - BitMap。

這時候看到一張圖代表了一個存儲int的字節(jié)bit信息。

我們可以發(fā)現,每一個bit都有自己的值,比如一個int的空間除了作為int類型的數字外,是否還可以做其他的利用?數字可以表示0~31位置的情況,如果我們使用bit的位置信息來存儲會怎樣?我們來試試看。

如果我們得到Hash的值為0,那就直接將第0位置上的bit位置為1。

如果我們得到Hash的值為31,那就直接將第31上的bit位置為1。

如果發(fā)現位置上已經有值了,那當前的值就已經存在了,不再進行統(tǒng)計,這樣子就可以完成超大數據量的統(tǒng)計啦。

這樣進行存儲的數據結構就叫BitMap,使用每個bit位來進行信息存儲,而不是一個int數字。

那有小伙伴就有疑問了,如果超過了32個數字怎么辦?

可以使用數組來進行拓展,比如一個a = int[2]的數組。

a[0] 可以表示0~31位,a[1] 可以表示32~63位,以此類推,幾乎可以***大。如果數據確實非常巨大,連下標也到達int的界限了,也可以用其他的單個空間更大的數據類型來進行存儲。

相比較于HashSet,BitMap 進行統(tǒng)計所使用的存儲只需要 HashSet 的1/32。但是這個數據結構簡單,相對于 HashSet 有一點小問題,就是hash在數據量巨大的情況下,碰撞會比較嚴重,那么統(tǒng)計精度會下降,需要怎么改善呢?請關注下一篇布隆過濾器。

【本文為51CTO專欄作者“大蕉”的原創(chuàng)稿件,轉載請通過作者微信公眾號“一名叫大蕉的程序員”獲取授權】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2017-10-27 15:23:56

大數據計數原理

2017-10-25 16:03:08

大數據計數原理

2017-10-13 16:32:49

大數據計數原理

2017-09-15 17:49:25

大數據計數原理

2017-09-26 15:51:29

大數據計數原理

2017-09-30 08:05:41

大數據計數原理

2017-09-19 15:09:50

大數據計數原理

2022-03-27 22:07:35

元宇宙虛擬人IBM

2015-03-16 11:33:16

程序員代碼bug

2021-07-07 06:54:37

網頁Selenium瀏覽器

2017-02-08 19:49:03

內存SSDDRAM

2019-12-26 09:56:34

Java多線程內部鎖

2023-05-16 07:15:11

架構模型對象

2020-09-27 06:50:56

Java互聯(lián)網注解

2021-04-20 09:55:37

Linux 開源操作系統(tǒng)

2016-09-13 22:46:41

大數據

2010-10-26 11:05:27

霍金

2014-12-11 10:01:09

程序員

2019-12-13 09:00:58

架構運維技術

2019-07-09 13:19:02

微軟瀏覽器Windows
點贊
收藏

51CTO技術棧公眾號