自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

設(shè)計和實(shí)現(xiàn)一款輕量級的爬蟲框架

開發(fā)
說起爬蟲,大家能夠想起 Python 里赫赫有名的 Scrapy 框架, 在本文中我們參考這個設(shè)計思想使用 Java 語言來實(shí)現(xiàn)一款自己的爬蟲框(lun)架(zi)。 我們從起點(diǎn)一步一步分析爬蟲框架的誕生過程。

說起爬蟲,大家能夠想起 Python 里赫赫有名的 Scrapy 框架, 在本文中我們參考這個設(shè)計思想使用 Java 語言來實(shí)現(xiàn)一款自己的爬蟲框(lun)架(zi)。 我們從起點(diǎn)一步一步分析爬蟲框架的誕生過程。 

我把這個爬蟲框架的源碼放在 github 上,里面有幾個例子可以運(yùn)行。

 [[217425]]

關(guān)于爬蟲的一切 

下面我們來介紹什么是爬蟲?以及爬蟲框架的設(shè)計和遇到的問題。

什么是爬蟲? 

“爬蟲”不是一只生活在泥土里的小蟲子,網(wǎng)絡(luò)爬蟲(web crawler),也叫網(wǎng)絡(luò)蜘蛛(spider),是一種用來自動瀏覽網(wǎng)絡(luò)上內(nèi)容的機(jī)器人。 爬蟲訪問網(wǎng)站的過程會消耗目標(biāo)系統(tǒng)資源,很多網(wǎng)站不允許被爬蟲抓?。ㄟ@就是你遇到過的 robots.txt 文件, 這個文件可以要求機(jī)器人只對網(wǎng)站的一部分進(jìn)行索引,或完全不作處理)。 因此在訪問大量頁面時,爬蟲需要考慮到規(guī)劃、負(fù)載,還需要講“禮貌”(大兄弟,慢點(diǎn))。 

互聯(lián)網(wǎng)上的頁面極多,即使是***的爬蟲系統(tǒng)也無法做出完整的索引。因此在公元2000年之前的萬維網(wǎng)出現(xiàn)初期,搜索引擎經(jīng)常找不到多少相關(guān)結(jié)果。 現(xiàn)在的搜索引擎在這方面已經(jīng)進(jìn)步很多,能夠即刻給出高質(zhì)量結(jié)果。

網(wǎng)絡(luò)爬蟲會遇到的問題 

既然有人想抓取,就會有人想防御。網(wǎng)絡(luò)爬蟲在運(yùn)行的過程中會遇到一些阻礙,在業(yè)內(nèi)稱之為 反爬蟲策略 我們來列出一些常見的。 

  • 訪問頻率限制
  • Header 頭信息校驗(yàn)
  • 動態(tài)頁面生成
  • IP 地址限制
  • Cookie 限制(或稱為登錄限制)
  • 驗(yàn)證碼限制
  • 等等… 

這些是傳統(tǒng)的反爬蟲手段,當(dāng)然未來也會更加先進(jìn),技術(shù)的革新永遠(yuǎn)會帶動多個行業(yè)的發(fā)展,畢竟 AI 的時代已經(jīng)到來, 爬蟲和反爬蟲的斗爭一直持續(xù)進(jìn)行。

爬蟲框架要考慮什么

設(shè)計我們的框架 

我們要設(shè)計一款爬蟲框架,是基于 Scrapy 的設(shè)計思路來完成的,先來看看在沒有爬蟲框架的時候我們是如何抓取頁面信息的。 一個常見的例子是使用 HttpClient 包或者 Jsoup 來處理,對于一個簡單的小爬蟲而言這足夠了。 

下面來演示一段沒有爬蟲框架的時候抓取頁面的代碼,這是我在網(wǎng)絡(luò)上搜索的 

 

  1. public class Reptile {   
  2.    public static void main(String[] args) {  
  3.     //傳入你所要爬取的頁面地址  
  4.     String url1 = "";  
  5.     //創(chuàng)建輸入流用于讀取流  
  6.     InputStream is = null;  
  7.     //包裝流,加快讀取速度  
  8.     BufferedReader br = null;  
  9.     //用來保存讀取頁面的數(shù)據(jù).  
  10.     StringBuffer html = new StringBuffer();  
  11.     //創(chuàng)建臨時字符串用于保存每一次讀的一行數(shù)據(jù),然后html調(diào)用append方法寫入temp;  
  12.     String temp = "";  
  13.     try {  
  14.         //獲取URL;  
  15.         URL url2 = new URL(url1);  
  16.         //打開流,準(zhǔn)備開始讀取數(shù)據(jù);  
  17.         is = url2.openStream();  
  18.         //將流包裝成字符流,調(diào)用br.readLine()可以提高讀取效率,每次讀取一行;  
  19.         br= new BufferedReader(new InputStreamReader(is));  
  20.         //讀取數(shù)據(jù),調(diào)用br.readLine()方法每次讀取一行數(shù)據(jù),并賦值給temp,如果沒數(shù)據(jù)則值==null,跳出循環(huán); 
  21.         while ((temp = br.readLine()) != null) {  
  22.             //將temp的值追加給html,這里注意的時String跟StringBuffere的區(qū)別前者不是可變的后者是可變的;  
  23.             html.append(temp);  
  24.         }  
  25.         //接下來是關(guān)閉流,防止資源的浪費(fèi);  
  26.         if(is != null) {  
  27.             is.close();  
  28.             is = null;  
  29.         }  
  30.         //通過Jsoup解析頁面,生成一個document對象;  
  31.         Document doc = Jsoup.parse(html.toString());  
  32.         //通過class的名字得到(即XX),一個數(shù)組對象Elements里面有我們想要的數(shù)據(jù),至于這個div的值呢你打開瀏覽器按下F12就知道了;  
  33.         Elements elements = doc.getElementsByClass("XX");  
  34.         for (Element element : elements) {  
  35.         //打印出每一個節(jié)點(diǎn)的信息;你可以選擇性的保留你想要的數(shù)據(jù),一般都是獲取個固定的索引;  
  36.             System.out.println(element.text());  
  37.         }  
  38.     } catch (MalformedURLException e) {  
  39.         e.printStackTrace();  
  40.     } catch (IOException e) {  
  41.         e.printStackTrace();  
  42.     }     
  43. }  

從如此豐富的注釋中我感受到了作者的耐心,我們來分析一下這個爬蟲在干什么? 

  1. 輸入一個要爬取的URL地址
  2. 通過 JDK 原生 API 發(fā)送網(wǎng)絡(luò)請求獲取頁面信息(這里沒有使用 HttpClient)
  3. 使用 Jsoup 解析 DOM
  4. 處理自己需要的數(shù)據(jù)
  5. 將它們輸出在控制臺 

大概就是這樣的步驟,代碼也非常簡潔,我們設(shè)計框架的目的是將這些流程統(tǒng)一化,把通用的功能進(jìn)行抽象,減少重復(fù)工作。 還有一些沒考慮到的因素添加進(jìn)去,那么設(shè)計爬蟲框架要有哪些組成呢? 

  1. URL管理
  2. 網(wǎng)頁下載器
  3. 爬蟲調(diào)度器
  4. 網(wǎng)頁解析器
  5. 數(shù)據(jù)處理器 

分別來解釋一下每個組成的作用是什么。 

URL管理器 

爬蟲框架要處理很多的URL,我們需要設(shè)計一個隊(duì)列存儲所有要處理的URL,這種先進(jìn)先出的數(shù)據(jù)結(jié)構(gòu)非常符合這個需求。 將所有要下載的URL存儲在待處理隊(duì)列中,每次下載會取出一個,隊(duì)列中就會少一個。我們知道有些URL的下載會有反爬蟲策略, 所以針對這些請求需要做一些特殊的設(shè)置,進(jìn)而可以對URL進(jìn)行封裝抽出 Request。 

網(wǎng)頁下載器 

在前面的簡單例子中可以看出,如果沒有網(wǎng)頁下載器,用戶就要編寫網(wǎng)絡(luò)請求的處理代碼,這無疑對每個URL都是相同的動作。 所以在框架設(shè)計中我們直接加入它就好了,至于使用什么庫來進(jìn)行下載都是可以的,你可以用 httpclient 也可以用 okhttp, 在本文中我們使用一個超輕量級的網(wǎng)絡(luò)請求庫 oh-my-request (沒錯,就是在下搞的)。 優(yōu)秀的框架設(shè)計會將這個下載組件置為可替換,提供默認(rèn)的即可。 

爬蟲調(diào)度器 

調(diào)度器和我們在開發(fā) web 應(yīng)用中的控制器是一個類似的概念,它用于在下載器、解析器之間做流轉(zhuǎn)處理。 解析器可以解析到更多的URL發(fā)送給調(diào)度器,調(diào)度器再次的傳輸給下載器,這樣就會讓各個組件有條不紊的進(jìn)行工作。 

網(wǎng)頁解析器 

我們知道當(dāng)一個頁面下載完成后就是一段 HTML 的 DOM 字符串表示,但還需要提取出真正需要的數(shù)據(jù), 以前的做法是通過 String 的 API 或者正則表達(dá)式的方式在 DOM 中搜尋,這樣是很麻煩的,框架 應(yīng)該提供一種合理、常用、方便的方式來幫助用戶完成提取數(shù)據(jù)這件事兒。常用的手段是通過 xpath 或者 css 選擇器從 DOM 中進(jìn)行提取,而且學(xué)習(xí)這項(xiàng)技能在幾乎所有的爬蟲框架中都是適用的。 

數(shù)據(jù)處理器 

普通的爬蟲程序中是把 網(wǎng)頁解析器 和 數(shù)據(jù)處理器 合在一起的,解析到數(shù)據(jù)后馬上處理。 在一個標(biāo)準(zhǔn)化的爬蟲程序中,他們應(yīng)該是各司其職的,我們先通過解析器將需要的數(shù)據(jù)解析出來,可能是封裝成對象。 然后傳遞給數(shù)據(jù)處理器,處理器接收到數(shù)據(jù)后可能是存儲到數(shù)據(jù)庫,也可能通過接口發(fā)送給老王。

基本特性 

上面說了這么多,我們設(shè)計的爬蟲框架有以下幾個特性,沒有做到大而全,可以稱得上輕量迷你挺好用。 

  • 易于定制: 很多站點(diǎn)的下載頻率、瀏覽器要求是不同的,爬蟲框架需要提供此處擴(kuò)展配置
  • 多線程下載: 當(dāng)CPU核數(shù)多的時候多線程下載可以更快完成任務(wù)
  • 支持 XPath 和 CSS 選擇器解析 

架構(gòu)圖

 

 

整個流程和 Scrapy 是一致的,但簡化了一些操作 

  • 引擎(Engine): 用來處理整個系統(tǒng)的數(shù)據(jù)流處理, 觸發(fā)事務(wù)(框架核心)
  • 調(diào)度器(Scheduler): 用來接受引擎發(fā)過來的請求, 壓入隊(duì)列中, 并在引擎再次請求的時候返回. 可以想像成一個URL(抓取網(wǎng)頁的網(wǎng)址或者說是鏈接)的優(yōu)先隊(duì)列, 由它來決定下一個要抓取的網(wǎng)址是什么, 同時去除重復(fù)的網(wǎng)址
  • 下載器(Downloader): 用于下載網(wǎng)頁內(nèi)容, 并將網(wǎng)頁內(nèi)容返回給調(diào)度器
  • 爬蟲(Spiders): 爬蟲是主要干活的, 用于從特定的網(wǎng)頁中提取自己需要的信息, 即所謂的實(shí)體(Item)。 用戶也可以從中提取出鏈接,讓框架繼續(xù)抓取下一個頁面
  • 項(xiàng)目管道(Pipeline): 負(fù)責(zé)處理爬蟲從網(wǎng)頁中抽取的實(shí)體,主要的功能是持久化實(shí)體、驗(yàn)證實(shí)體的有效性、清除不需要的信息。 當(dāng)頁面被爬蟲解析后,將被發(fā)送到項(xiàng)目管道,并經(jīng)過幾個特定的次序處理數(shù)據(jù)。 

執(zhí)行流程圖

 

 

  • 首先,引擎從調(diào)度器中取出一個鏈接(URL)用于接下來的抓取
  • 引擎把URL封裝成一個請求(Request)傳給下載器,下載器把資源下載下來,并封裝成應(yīng)答包(Response)
  • 然后,爬蟲解析Response
  • 若是解析出實(shí)體(Item),則交給實(shí)體管道進(jìn)行進(jìn)一步的處理。
  • 若是解析出的是鏈接(URL),則把URL交給Scheduler等待抓取 

項(xiàng)目結(jié)構(gòu) 

該項(xiàng)目使用 Maven3、Java8 進(jìn)行構(gòu)建,代碼結(jié)構(gòu)如下:

 

  1.  
  2. └── elves 
  3.  
  4.     ├── Elves.java 
  5.  
  6.     ├── ElvesEngine.java 
  7.  
  8.     ├── config 
  9.  
  10.     ├── download 
  11.  
  12.     ├── event 
  13.  
  14.     ├── pipeline 
  15.  
  16.     ├── request 
  17.  
  18.     ├── response 
  19.  
  20.     ├── scheduler 
  21.  
  22.     ├── spider 
  23.  
  24.     └── utils  

 

編碼要點(diǎn) 

前面設(shè)計思路明白之后,編程不過是順手之作,至于寫的如何考量的是程序員對編程語言的使用熟練度以及架構(gòu)上的思考, 優(yōu)秀的代碼是經(jīng)驗(yàn)和優(yōu)化而來的,下面我們來看幾個框架中的代碼示例。 

使用觀察者模式的思想來實(shí)現(xiàn)基于事件驅(qū)動的功能 

 

  1. public enum ElvesEvent {   
  2.     GLOBAL_STARTED,  
  3.     SPIDER_STARTED   
  4. }   
  5. public class EventManager {   
  6.     private static final Map<ElvesEvent, List<Consumer<Config>>> elvesEventConsumerMap = new HashMap<>(); 
  7.  
  8.     // 注冊事件  
  9.     public static void registerEvent(ElvesEvent elvesEvent, Consumer<Config> consumer) {  
  10.         List<Consumer<Config>> consumers = elvesEventConsumerMap.get(elvesEvent);  
  11.         if (null == consumers) {  
  12.             consumers = new ArrayList<>();  
  13.         }  
  14.         consumers.add(consumer);  
  15.         elvesEventConsumerMap.put(elvesEvent, consumers);  
  16.     }  
  17.     // 執(zhí)行事件  
  18.     public static void fireEvent(ElvesEvent elvesEvent, Config config) {  
  19.         Optional.ofNullable(elvesEventConsumerMap.get(elvesEvent)).ifPresent(consumers -> consumers.forEach(consumer -> consumer.accept(config)));  
  20.     }   
  21. }  

這段代碼中使用一個 Map 來存儲所有事件,提供兩個方法:注冊一個事件、執(zhí)行某個事件。 

阻塞隊(duì)列存儲請求響應(yīng) 

  1. public class Scheduler {  
  2.  
  3.     private BlockingQueue<Request>  pending = new LinkedBlockingQueue<>();    
  4.  
  5.     private BlockingQueue<Response> result  = new LinkedBlockingQueue<>();  
  6.  
  7.     public void addRequest(Request request) { 
  8.  
  9.         try { 
  10.  
  11.             this.pending.put(request); 
  12.  
  13.         } catch (InterruptedException e) { 
  14.  
  15.             log.error("向調(diào)度器添加 Request 出錯", e); 
  16.  
  17.         } 
  18.  
  19.     }  
  20.  
  21.     public void addResponse(Response response) { 
  22.  
  23.         try { 
  24.  
  25.             this.result.put(response); 
  26.  
  27.         } catch (InterruptedException e) { 
  28.  
  29.             log.error("向調(diào)度器添加 Response 出錯", e); 
  30.  
  31.         } 
  32.  
  33.     }  
  34.  
  35.     public boolean hasRequest() { 
  36.  
  37.         return pending.size() > 0; 
  38.  
  39.     }  
  40.  
  41.     public Request nextRequest() { 
  42.  
  43.         try { 
  44.  
  45.             return pending.take(); 
  46.  
  47.         } catch (InterruptedException e) { 
  48.  
  49.             log.error("從調(diào)度器獲取 Request 出錯", e); 
  50.  
  51.             return null
  52.  
  53.         } 
  54.  
  55.     }  
  56.  
  57.     public boolean hasResponse() { 
  58.  
  59.         return result.size() > 0; 
  60.  
  61.     }  
  62.  
  63.     public Response nextResponse() { 
  64.  
  65.         try { 
  66.  
  67.             return result.take(); 
  68.  
  69.         } catch (InterruptedException e) { 
  70.  
  71.             log.error("從調(diào)度器獲取 Response 出錯", e); 
  72.  
  73.             return null
  74.  
  75.         } 
  76.  
  77.     }  
  78.  
  79.     public void addRequests(List<Request> requests) { 
  80.  
  81.         requests.forEach(this::addRequest); 
  82.  
  83.     }  
  84.  
  85. }  

pending 存儲等待處理的URL請求,result 存儲下載成功的響應(yīng),調(diào)度器負(fù)責(zé)請求和響應(yīng)的獲取和添加流轉(zhuǎn)。

舉個栗子 

設(shè)計好我們的爬蟲框架后來試一下吧,這個例子我們來爬取豆瓣電影的標(biāo)題。豆瓣電影中有很多分類,我們可以選擇幾個作為開始抓取的 URL。 

 

  1. public class DoubanSpider extends Spider {  
  2.     public DoubanSpider(String name) { 
  3.         super(name); 
  4.         this.startUrls( 
  5.             "https://movie.douban.com/tag/愛情"
  6.             "https://movie.douban.com/tag/喜劇"
  7.             "https://movie.douban.com/tag/動畫"
  8.             "https://movie.douban.com/tag/動作"
  9.             "https://movie.douban.com/tag/史詩"
  10.             "https://movie.douban.com/tag/犯罪"); 
  11.     } 
  12.     @Override 
  13.     public void onStart(Config config) { 
  14.         this.addPipeline((Pipeline<List<String>>) (item, request) -> log.info("保存到文件: {}", item)); 
  15.     } 
  16.     public Result parse(Response response) { 
  17.         Result<List<String>> result   = new Result<>(); 
  18.         Elements             elements = response.body().css("#content table .pl2 a");  
  19.         List<String> titles = elements.stream().map(Element::text).collect(Collectors.toList()); 
  20.         result.setItem(titles);  
  21.         // 獲取下一頁 URL 
  22.         Elements nextEl = response.body().css("#content > div > div.article > div.paginator > span.next > a"); 
  23.         if (null != nextEl && nextEl.size() > 0) { 
  24.             String  nextPageUrl = nextEl.get(0).attr("href"); 
  25.             Request nextReq     = this.makeRequest(nextPageUrl, this::parse); 
  26.             result.addRequest(nextReq); 
  27.         } 
  28.         return result; 
  29.     } 
  30. public static void main(String[] args) { 
  31.     DoubanSpider doubanSpider = new DoubanSpider("豆瓣電影"); 
  32.     Elves.me(doubanSpider, Config.me()).start(); 
  33. }  

這段代碼中在 onStart 方法是爬蟲啟動時的一個事件,會在啟動該爬蟲的時候執(zhí)行,在這里我們設(shè)置了啟動要抓取的URL列表。 然后添加了一個數(shù)據(jù)處理的 Pipeline,在這里處理管道中只進(jìn)行了輸出,你也可以存儲。 

在 parse 方法中做了兩件事,首先解析當(dāng)前抓取到的所有電影標(biāo)題,將標(biāo)題數(shù)據(jù)收集為 List 傳遞給 Pipeline; 其次根據(jù)當(dāng)前頁面繼續(xù)抓取下一頁,將下一頁請求傳遞給調(diào)度器,由調(diào)度器轉(zhuǎn)發(fā)給下載器。這里我們使用一個 Result 對象接收。

總結(jié) 

設(shè)計一款爬蟲框架的基本要點(diǎn)在文中已經(jīng)闡述,要做的更好還有很多細(xì)節(jié)需要打磨,比如分布式、容錯恢復(fù)、動態(tài)頁面抓取等問題。 歡迎在 elves 中提交你的意見。 

參考文獻(xiàn) 

責(zé)任編輯:龐桂玉 來源: blog.biezhi.me
相關(guān)推薦

2022-02-12 21:05:11

異步爬蟲框架

2021-05-18 13:25:28

feapder爬蟲Python

2013-11-28 15:02:34

Ubuntu技巧Geary

2023-12-12 13:50:00

代碼業(yè)務(wù)狀態(tài)

2022-07-14 11:31:04

SQLToolsVScode數(shù)據(jù)庫

2016-10-14 16:35:39

2021-02-21 17:35:31

Viper瀏覽器開源

2022-01-24 11:02:27

PySimpleGUPython計算器

2021-09-26 16:31:18

滑動驗(yàn)證碼開發(fā)組件設(shè)計

2022-10-09 10:11:30

Python爬蟲神器

2023-06-27 16:42:18

Tinygrad深度學(xué)習(xí)工具

2021-07-23 16:50:19

httpJava框架

2024-12-23 06:10:00

RustRigAI Agent

2020-11-11 12:13:59

JS

2022-08-10 12:21:07

PythonWebBottle

2021-10-27 11:29:32

框架Web開發(fā)

2023-06-28 08:16:50

Autofac應(yīng)用程序

2013-06-20 10:28:39

MVVM框架avalon架構(gòu)

2019-02-25 10:18:43

工具代碼測試

2020-05-26 07:00:00

Windows 10瀏覽器輕量級
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號