自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

內(nèi)存崩潰了?其實(shí)你只需要換一種方式

開發(fā) 架構(gòu)
在上一篇 Java 多線程爬蟲及分布式爬蟲架構(gòu)探索 中,我們使用了 JDK 自帶的 Set 集合來進(jìn)行 URL 去重,看上去效果不錯(cuò),但是這種做法有一個(gè)致命了缺陷,就是隨著采集的 URL 增多,你需要的內(nèi)存越來越大,最終會(huì)導(dǎo)致你的內(nèi)存崩潰。

 在上一篇 Java 多線程爬蟲及分布式爬蟲架構(gòu)探索 中,我們使用了 JDK 自帶的 Set 集合來進(jìn)行 URL 去重,看上去效果不錯(cuò),但是這種做法有一個(gè)致命了缺陷,就是隨著采集的 URL 增多,你需要的內(nèi)存越來越大,最終會(huì)導(dǎo)致你的內(nèi)存崩潰。那我們?cè)诓皇褂脭?shù)據(jù)庫(kù)的情況下有沒有解決辦法呢?還記得我們?cè)谏弦黄恼轮刑岬降牟悸∵^濾器嗎?它就可以完美解決這個(gè)問題,布隆過濾器有什么特殊的地方呢?接下來就一起來學(xué)習(xí)一下布隆過濾器。

[[280450]]

什么是布隆過濾器

布隆過濾器是一種數(shù)據(jù)結(jié)構(gòu),比較巧妙的概率型數(shù)據(jù)結(jié)構(gòu),它是在 1970 年由一個(gè)名叫布隆提出的,它實(shí)際上是由一個(gè)很長(zhǎng)的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)組成,這點(diǎn)跟哈希表有些相同,但是相對(duì)哈希表來說布隆過濾器它更高效、占用空間更少,布隆過濾器有一個(gè)缺點(diǎn)那就是有一定的誤識(shí)別率和刪除困難。布隆過濾器只能告訴你某個(gè)元素一定不存在或者可能存在在集合中, 所以布隆過濾器經(jīng)常用來處理可以忍受判斷失誤的業(yè)務(wù),比如爬蟲 URL 去重。

布隆過濾器原理

在說布隆過濾器原理之前,我們先來復(fù)習(xí)一下哈希表,在上一篇文章中,我們利用的是 Set 來進(jìn)行 URL 去重,我們來看看 Set 的存儲(chǔ)模型

 

 

 

Set url 去重

 

URL 經(jīng)過一個(gè)哈希函數(shù)后,將 URL 存入了數(shù)組里,這樣查詢時(shí)也是非常高效的,但是由于數(shù)組里存入的是 URL,隨著 URL 的增多,需要的數(shù)組越來越大,意味著你需要更多的內(nèi)存,比如我們采集了幾億的 URL,那么可能就需要上百G 的內(nèi)存,這是條件不允許的,因?yàn)閮?nèi)存特別的昂貴,所以這個(gè)在 url 去重中是不可取的,占內(nèi)存更小的布隆過濾器就是一種不錯(cuò)的選擇。

布隆過濾器實(shí)質(zhì)上由長(zhǎng)度為 m 的位向量或位列表(僅包含 0 或 1 位值的列表)組成,最初所有值均設(shè)置為 0,如下所示。

 

 

 

布隆過濾器

 

因?yàn)榈讓邮?bit 數(shù)組,所以意味著數(shù)組只有 0、1 兩個(gè)值,跟哈希表一樣,我們將 URL 通過 K 個(gè)函數(shù)映射 bit 數(shù)組里,并且將指向的 Bit 數(shù)組對(duì)應(yīng)的值改成 1 。我們以 /nba/2492297.html 為例,如下圖所示。

 

 

 

布隆過濾器

 

/nba/2492297.html經(jīng)過三個(gè)哈希函數(shù)分別映射到了 1、4、9 的位置,這三個(gè) bit 數(shù)組的值就變成了 1,我們?cè)俅嫒胍粋€(gè) /nba/2492298.html,此時(shí) bit 數(shù)組就變成下面這樣:

 

 

 

布隆過濾器

 

/nba/2492298.html被映射到了 0、4、11 的位置,所以此時(shí) bit 數(shù)組上有 5 個(gè)位置的值為 1,本應(yīng)該是有 6 個(gè)值為 1 的,但是因?yàn)樵?4 這個(gè)位置重復(fù)了,所以會(huì)覆蓋。

布隆過濾器是如何判斷某個(gè)值一定不存在或者可能存在呢?通過判斷哈希函數(shù)映射到對(duì)應(yīng)數(shù)組的值,如果都為 1,說明可能存在,如果有一個(gè)不為 1,說明一定不存在。對(duì)于一定不存在好理解,但是都為 1 時(shí),為什么說可能存在呢?這跟哈希表一樣,哈希函數(shù)會(huì)產(chǎn)生哈希沖突,也就是說兩個(gè)不同的值經(jīng)過哈希函數(shù)都會(huì)得到同一個(gè)數(shù)組下標(biāo),布隆過濾器也是一樣的。我們以判斷 /nba/2492299.html 是否已經(jīng)采集過為例,經(jīng)過哈希函數(shù)映射的 bit 數(shù)組上的位置如下圖所示:

 

 

 

布隆過濾器

 

 

 

/nba/2492299.html 被哈希函數(shù)映射到了 4、9、11 的位置,而這幾個(gè)位置的值都為 1 ,所以布隆過濾器就認(rèn)為 /nba/2492299.html 被采集過了,實(shí)際上是沒有采集過的,這就說明了布隆過濾器存在誤判,這也是我們業(yè)務(wù)允許的。布隆過濾器的誤判率跟 bit 數(shù)組的大小和哈希函數(shù)的個(gè)數(shù)有關(guān)系,如果 bit 數(shù)組過小,哈希函數(shù)過多,那么 bit 數(shù)組的值很快都會(huì)變成 1,這樣誤判率就會(huì)越來越高,bit 數(shù)組過大,就會(huì)浪費(fèi)更多的內(nèi)存,所以就要平衡好 bit 數(shù)組的大小和哈希函數(shù)的個(gè)數(shù),關(guān)于如何平衡這兩個(gè)的關(guān)系,不是我們這篇文章的重點(diǎn)。

布隆過濾器的原理我們已經(jīng)了解了,為了加深對(duì)布隆過濾器的理解,我們用 Java 來實(shí)現(xiàn)一個(gè)簡(jiǎn)易版的布隆過濾器,代碼如下:

  1. public class SimpleBloomFilterTest { 
  2.     // bit 數(shù)組的大小 
  3.     private static final int DEFAULT_SIZE = 1000; 
  4.     // 用來生產(chǎn)三個(gè)不同的哈希函數(shù)的 
  5.     private static final int[] seeds = new int[]{7, 31, 61,}; 
  6.     // bit 數(shù)組 
  7.     private BitSet bits = new BitSet(DEFAULT_SIZE); 
  8.     // 存放哈希函數(shù)的數(shù)組 
  9.     private SimpleHash[] func = new SimpleHash[seeds.length]; 
  10.     public static void main(String[] args) { 
  11.         SimpleBloomFilterTest filter = new SimpleBloomFilterTest(); 
  12.         filter.add("https://voice.hupu.com/nba/2492440.html"); 
  13.         filter.add("https://voice.hupu.com/nba/2492437.html"); 
  14.         filter.add("https://voice.hupu.com/nba/2492439.html"); 
  15.         System.out.println(filter.contains("https://voice.hupu.com/nba/2492440.html")); 
  16.         System.out.println(filter.contains("https://voice.hupu.com/nba/249244.html")); 
  17.     } 
  18.     public SimpleBloomFilterTest() { 
  19.         for (int i = 0; i < seeds.length; i++) { 
  20.             func[i] = new SimpleHash(DEFAULT_SIZE, seeds[i]); 
  21.         } 
  22.     } 
  23.     /** 
  24.      * 向布隆過濾器添加元素 
  25.      * @param value 
  26.      */ 
  27.     public void add(String value) { 
  28.         for (SimpleHash f : func) { 
  29.             bits.set(f.hash(value), true); 
  30.         } 
  31.     } 
  32.     /** 
  33.      * 判斷某元素是否存在布隆過濾器 
  34.      * @param value 
  35.      * @return 
  36.      */ 
  37.     public boolean contains(String value) { 
  38.         if (value == null) { 
  39.             return false
  40.         } 
  41.         boolean ret = true
  42.         for (SimpleHash f : func) { 
  43.             ret = ret && bits.get(f.hash(value)); 
  44.         } 
  45.         return ret; 
  46.     } 
  47.  
  48.     /** 
  49.      * 哈希函數(shù) 
  50.      */ 
  51.     public static class SimpleHash { 
  52.         private int cap; 
  53.         private int seed; 
  54.         public SimpleHash(int cap, int seed) { 
  55.             this.cap = cap; 
  56.             this.seed = seed; 
  57.         } 
  58.         public int hash(String value) { 
  59.             int result = 0; 
  60.             int len = value.length(); 
  61.             for (int i = 0; i < len; i++) { 
  62.                 result = seed * result + value.charAt(i); 
  63.             } 
  64.             return (cap - 1) & result; 
  65.         } 
  66.     } 

把上面這段代碼理解好對(duì)我們理解布隆過濾器非常有幫助,實(shí)際上在工作中并不需要我們自己實(shí)現(xiàn)布隆過濾器,谷歌已經(jīng)幫我們實(shí)現(xiàn)了布隆過濾器,在 Guava 包中提供了 BloomFilter,這個(gè)布隆過濾器實(shí)現(xiàn)的非常棒,下面就看看谷歌辦的布隆過濾器。

布隆過濾器 Guava 版

要使用 Guava 包下提供的 BloomFilter ,就需要引入 Guava 包,我們?cè)?pom.xml 中引入下面依賴:

  1. <dependency> 
  2.     <groupId>com.google.guava</groupId> 
  3.     <artifactId>guava</artifactId> 
  4.     <version>28.1-jre</version> 
  5. </dependency> 

Guava 中的布隆過濾器實(shí)現(xiàn)的非常復(fù)雜,關(guān)于細(xì)節(jié)我們就不去探究了,我們就來看看 Guava 中布隆過濾器的構(gòu)造函數(shù)吧,Guava 中并沒有提供構(gòu)造函數(shù),而且提供了 create 方法來構(gòu)造布隆過濾器:

  1. public static <T> BloomFilter<T> create
  2.     Funnel<? super T> funnel, int expectedInsertions, double fpp) { 
  3.   return create(funnel, (long) expectedInsertions, fpp); 

funnel:你要過濾數(shù)據(jù)的類型

expectedInsertions:你要存放的數(shù)據(jù)量

fpp:誤判率

你只需要傳入這三個(gè)參數(shù)你就可以使用 Guava 包中的布隆過濾器了,下面這我寫的一段 Guava 布隆過濾器測(cè)試程序,可以改動(dòng) fpp 多運(yùn)行幾次,體驗(yàn) Guava 的布隆過濾器。

  1. public class GuavaBloomFilterTest { 
  2.     // bit 數(shù)組大小 
  3.     private static int size = 10000; 
  4.     // 布隆過濾器 
  5.     private static BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charset.defaultCharset()), size, 0.03); 
  6.  
  7.     public static void main(String[] args) { 
  8.         // 先向布隆過濾器中添加 10000 個(gè)url 
  9.         for (int i = 0; i < size; i++) { 
  10.             String url = "https://voice.hupu.com/nba/" + i; 
  11.             bloomFilter.put(url); 
  12.         } 
  13.         // 前10000個(gè)url不會(huì)出現(xiàn)誤判 
  14.         for (int i = 0; i < size; i++) { 
  15.             String url = "https://voice.hupu.com/nba/" + i; 
  16.             if (!bloomFilter.mightContain(url)) { 
  17.                 System.out.println("該 url 被采集過了"); 
  18.             } 
  19.         } 
  20.         List<String> list = new ArrayList<String>(1000); 
  21.         // 再向布隆過濾器中添加 2000 個(gè) url ,在這2000 個(gè)中就會(huì)出現(xiàn)誤判了 
  22.         // 誤判的個(gè)數(shù)為 2000 * fpp 
  23.         for (int i = size; i < size + 2000; i++) { 
  24.             String url = "https://voice.hupu.com/nba/" + i; 
  25.             if (bloomFilter.mightContain(url)) { 
  26.                 list.add(url); 
  27.             } 
  28.         } 
  29.         System.out.println("誤判數(shù)量:" + list.size()); 
  30.     } 

布隆過濾器的應(yīng)用

緩存擊穿

緩存擊穿是查詢數(shù)據(jù)庫(kù)中不存在的數(shù)據(jù),如果有用戶惡意模擬請(qǐng)求很多緩存中不存在的數(shù)據(jù),由于緩存中都沒有,導(dǎo)致這些請(qǐng)求短時(shí)間內(nèi)直接落在了DB上,對(duì)DB產(chǎn)生壓力,導(dǎo)致數(shù)據(jù)庫(kù)異常。

最常見的解決辦法就是采用布隆過濾器,將所有可能存在的數(shù)據(jù)哈希到一個(gè)足夠大的bitmap中,一個(gè)一定不存在的數(shù)據(jù)會(huì)被這個(gè)bitmap攔截掉,從而避免了對(duì)底層存儲(chǔ)系統(tǒng)的查詢壓力。下面是一段偽代碼:

  1. public String getByKey(String key) { 
  2.     // 通過key獲取value 
  3.     String value = redis.get(key); 
  4.     if (StringUtil.isEmpty(value)) { 
  5.         if (bloomFilter.mightContain(key)) { 
  6.             value = xxxService.get(key); 
  7.             redis.set(key, value); 
  8.             return value; 
  9.         } else { 
  10.             return null
  11.         } 
  12.     } 
  13.     return value; 

爬蟲 URL 去重

爬蟲是對(duì) url 的去重,防止 url 重復(fù)采集,這也是我們這篇文章重點(diǎn)講解的內(nèi)容

垃圾郵件識(shí)別

從數(shù)十億個(gè)垃圾郵件列表中判斷某郵箱是否垃圾郵箱,將垃圾郵箱添加到布隆過濾器中,然后判斷某個(gè)郵件是否是存在在布隆過濾器中,存在說明就是垃圾郵箱。

責(zé)任編輯:華軒 來源: 平頭哥的技術(shù)博文
相關(guān)推薦

2021-08-06 16:57:39

存儲(chǔ)Redis數(shù)據(jù)類型

2018-03-18 23:34:57

2020-02-25 23:36:04

代碼開發(fā)工具

2021-04-16 09:17:39

機(jī)器學(xué)習(xí)人工智能AI

2020-02-15 14:34:33

IDEA插件代碼

2019-07-22 15:59:21

2018-01-09 15:44:57

2016-12-13 17:02:49

androidjava移動(dòng)應(yīng)用開發(fā)

2023-01-26 23:46:15

2018-08-03 12:21:02

2018-01-05 15:36:12

工具博客寫作

2013-08-12 09:31:39

Windows操作系統(tǒng)

2012-11-12 09:44:43

2012-02-01 10:18:23

編程

2013-07-05 14:33:19

IoCDIP

2018-03-07 10:03:40

2009-04-09 16:52:47

LinuxUbuntu 9.04

2023-05-23 10:01:51

冪等性抽象代數(shù)

2023-10-11 12:45:49

Windows系統(tǒng)

2022-10-08 06:26:48

人工智能機(jī)器學(xué)習(xí)藝術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)