自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<i id="vekei"><legend id="vekei"><dfn id="vekei"></dfn></legend></i><strong id="vekei"></strong>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

只聽說過用Python做爬蟲，Java程序員笑了！

作者：鴨血粉絲 2020-10-09 07:54:43

開發(fā) 后端

網(wǎng)絡(luò)爬蟲技術(shù)，早在萬維網(wǎng)誕生的時候，就已經(jīng)出現(xiàn)了，今天我們就一起來揭開它神秘的面紗!

本文轉(zhuǎn)載自微信公眾號「Java極客技術(shù)」，作者鴨血粉絲。轉(zhuǎn)載本文請聯(lián)系Java極客技術(shù)公眾號。

網(wǎng)絡(luò)爬蟲技術(shù)，早在萬維網(wǎng)誕生的時候，就已經(jīng)出現(xiàn)了，今天我們就一起來揭開它神秘的面紗!

一、摘要

說起網(wǎng)絡(luò)爬蟲，相信大家都不陌生，又俗稱網(wǎng)絡(luò)機器人，指的是程序按照一定的規(guī)則，從互聯(lián)網(wǎng)上抓取網(wǎng)頁，然后從中獲取有價值的數(shù)據(jù)，隨便在網(wǎng)上搜索一下，排在前面基本都是 pyhton 教程介紹。

的確，pyhton 在處理網(wǎng)頁方面，有著開發(fā)簡單、便捷、性能高效的優(yōu)勢!

但是我們 java 也不賴，在處理復雜的網(wǎng)頁方面，需要解析網(wǎng)頁內(nèi)容生成結(jié)構(gòu)化數(shù)據(jù)或者對網(wǎng)頁內(nèi)容精細的解析時，java 可以說更勝一籌!

下面我們以爬取國家省市區(qū)信息為例，使用 java 技術(shù)來實現(xiàn)，過程主要分三部：

第一步：目標網(wǎng)頁分析
第二步：編寫爬蟲程序，對關(guān)鍵數(shù)據(jù)進行抓取
第三步：將抓取的數(shù)據(jù)寫入數(shù)據(jù)庫

廢話不多說，直接開擼!

二、網(wǎng)頁分析

網(wǎng)絡(luò)爬蟲，其實不是一個很難的技術(shù)，只是需要掌握的技術(shù)內(nèi)容比較多，只會 java 技術(shù)是遠遠不夠，還需要熟悉 html 頁面屬性!

以爬取國家省市區(qū)信息為例，我們可以直接在百度上搜索國家省市區(qū)，點擊進入全國行政區(qū)劃信息查詢平臺。

在民政數(shù)據(jù)菜單欄下，找到最新的行政區(qū)域代碼公示欄。

點擊進去，展示結(jié)果如下!

可以很清楚的看到，這就是我們要獲取省市區(qū)代碼的網(wǎng)頁信息。

可能有的同學會問，這么直接干合不合法?

國家既然已經(jīng)公示了，我們直接拿來用就可以，完全合法!而且國家省市區(qū)代碼是一個公共字典，在很多業(yè)務場景下必不可少!

當我們找到了目標網(wǎng)頁之后，我們首先要做的就是對網(wǎng)頁進行分析，打開瀏覽器調(diào)試器，可以很清晰的看到它是一個table表格組成的數(shù)據(jù)。

熟悉 html 標簽的同學，想必已經(jīng)知道了它的組成原理。

其實table是一個非常簡單的 html 標簽，主要有tr和td組成，其中tr代表行，td代表列，例如用table標簽畫一個學生表格，代碼如下：

<table> 
 <!-- 定義表格頭部 --> 
 <tr> 
  <td>編號</td> 
  <td>姓名</td> 
 </tr> 
 <!-- 定義表格內(nèi)容 --> 
 <tr> 
  <td>100</td> 
  <td>張三</td> 
 </tr> 
 <tr> 
  <td>101</td> 
  <td>李四</td> 
 </tr> 
</table>

展示結(jié)果如下：

了解了table標簽之后，我們再對網(wǎng)頁進行詳細分析。

首先對整個內(nèi)容進行觀察，很容易的看到，市級以上(包括市級)，都是黑體字加粗的，區(qū)或者縣級地區(qū)，都是常規(guī)!

出現(xiàn)這個現(xiàn)象，其實是由樣式標簽CSS來控制的，點擊北京市，找到對應的代碼位置，從圖中我們可以很清晰的看到，市級對應的樣式class為xl7030796，區(qū)或者縣級地區(qū)對應的樣式class為xl7130796

除此之外，我們繼續(xù)來看看省和市級的區(qū)別!

可以很清晰的看到，市級相比省級信息，多了一個span占位符標簽。

于是，我們可以得出如下結(jié)論：

省級信息，樣式標簽為xl7030796

市級信息，樣式標簽為xl7030796，同時包含span占位符標簽

區(qū)或者縣級信息，樣式標簽為xl7130796

等會會通過這些規(guī)律信息來從網(wǎng)頁信息中抓取省、市、區(qū)信息。

三、編寫爬蟲程序

3.1、創(chuàng)建項目

新建一個基于 maven 工程 java 項目，在pom.xml工程中引入如下 jar 包!

<!--解析HTML--> 
<dependency> 
    <groupId>org.jsoup</groupId> 
    <artifactId>jsoup</artifactId> 
    <version>1.11.2</version> 
</dependency>

3.2、編寫爬取程序

先創(chuàng)建一個實體數(shù)據(jù)類，用于存放抓取的數(shù)據(jù)

public class ChinaRegionsInfo { 
 
    /** 
     * 行政區(qū)域編碼 
     */ 
    private String code; 
 
    /** 
     * 行政區(qū)域名稱 
     */ 
    private String name; 
 
    /** 
     * 行政區(qū)域類型，1:省份，2：城市，3：區(qū)或者縣城 
     */ 
    private Integer type; 
 
    /** 
     * 上一級行政區(qū)域編碼 
     */ 
    private String parentCode; 
 
    //省略get、set 
}

然后，我們來編寫爬取代碼，將抓取的數(shù)據(jù)封裝到實體類中

//需要抓取的網(wǎng)頁地址 
private static final String URL = "http://www.mca.gov.cn//article/sj/xzqh/2020/202006/202008310601.shtml"; 
 
public static void main(String[] args) throws IOException { 
    List<ChinaRegionsInfo> regionsInfoList = new ArrayList<>(); 
 //抓取網(wǎng)頁信息 
    Document document = Jsoup.connect(URL).get(); 
 //獲取真實的數(shù)據(jù)體 
    Element element = document.getElementsByTag("tbody").get(0); 
    String provinceCode = "";//省級編碼 
    String cityCode = "";//市級編碼 
    if(Objects.nonNull(element)){ 
        Elements trs = element.getElementsByTag("tr"); 
        for (int i = 3; i < trs.size(); i++) { 
            Elements tds = trs.get(i).getElementsByTag("td"); 
            if(tds.size() < 3){ 
                continue; 
            } 
            Element td1 = tds.get(1);//行政區(qū)域編碼 
            Element td2 = tds.get(2);//行政區(qū)域名稱 
            if(StringUtils.isNotEmpty(td1.text())){ 
                if(td1.classNames().contains("xl7030796")){ 
                    if(td2.toString().contains("span")){ 
                        //市級 
                        ChinaRegionsInfo chinaRegions = new ChinaRegionsInfo(); 
                        chinaRegions.setCode(td1.text()); 
                        chinaRegions.setName(td2.text()); 
                        chinaRegions.setType(2); 
                        chinaRegions.setParentCode(provinceCode); 
                        regionsInfoList.add(chinaRegions); 
                        cityCode = td1.text(); 
                    } else { 
                        //省級 
                        ChinaRegionsInfo chinaRegions = new ChinaRegionsInfo(); 
                        chinaRegions.setCode(td1.text()); 
                        chinaRegions.setName(td2.text()); 
                        chinaRegions.setType(1); 
                        chinaRegions.setParentCode(""); 
                        regionsInfoList.add(chinaRegions); 
                        provinceCode = td1.text(); 
                    } 
 
                } else { 
                    //區(qū)或者縣級 
                    ChinaRegionsInfo chinaRegions = new ChinaRegionsInfo(); 
                    chinaRegions.setCode(td1.text()); 
                    chinaRegions.setName(td2.text()); 
                    chinaRegions.setType(3); 
                    chinaRegions.setParentCode(StringUtils.isNotEmpty(cityCode) ? cityCode : provinceCode); 
                    regionsInfoList.add(chinaRegions); 
                } 
            } 
        } 
    } 
    //打印結(jié)果 
    System.out.println(JSONArray.toJSONString(regionsInfoList)); 
}

運行程序，輸出結(jié)果如下：

json解析結(jié)果如下：

至此，網(wǎng)頁有效數(shù)據(jù)已經(jīng)全部抓取完畢!

四、寫入數(shù)據(jù)庫

在實際的業(yè)務場景中，我們需要做的不僅僅只是抓取出有價值的數(shù)據(jù)，最重要的是將這些數(shù)據(jù)記錄數(shù)據(jù)庫，以備后續(xù)的業(yè)務可以用的上!

例如，當我們在開發(fā)一個給員工發(fā)放薪資系統(tǒng)的時候，其中的社保、公積金，可能每個城市都不一樣，這個時候就會到國家省市區(qū)編碼。

因此，我們可以將抓取的國家省市區(qū)編碼寫入數(shù)據(jù)庫!

在上面，我們已經(jīng)將具體的省市區(qū)數(shù)據(jù)結(jié)構(gòu)封裝成數(shù)組對象，寫入過程也很簡單。

首先，創(chuàng)建一張國家行政地域信息表china_regions

CREATE TABLE `china_regions` ( 
  `id` bigint(20) unsigned NOT NULL COMMENT '主鍵ID', 
  `code` varchar(32) COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '' COMMENT '行政地域編碼', 
  `name` varchar(50) COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '' COMMENT '行政地域名稱', 
  `type` tinyint(4) NOT NULL DEFAULT '1' COMMENT '行政地域類型，1:省份，2：城市，3：區(qū)域', 
  `parent_code` varchar(32) COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '' COMMENT '上一級行政編碼', 
  `is_delete` tinyint(4) NOT NULL DEFAULT '0' COMMENT '是否刪除 1：已刪除；0：未刪除', 
  `create_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '創(chuàng)建時間', 
  `update_time` datetime NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新時間', 
  PRIMARY KEY (`id`), 
  KEY `idx_code` (`code`) USING BTREE, 
  KEY `idx_name` (`name`) USING BTREE, 
  KEY `idx_type` (`type`) USING BTREE, 
  KEY `idx_parent_code` (`parent_code`) USING BTREE 
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_unicode_ci COMMENT='國家行政地域信息表';

搭建一個springboot工程，通過mybatis-plus組件，一鍵生成代碼

最后，配置好數(shù)據(jù)源，重新封裝數(shù)組對象，調(diào)用批量插入方法，即可插入操作

chinaRegionsService.saveBatch(regionsInfoList);

插入執(zhí)行完之后，數(shù)據(jù)庫結(jié)果如下

至此，大部分工作基本已經(jīng)完成!

但是，細心的你，可能會發(fā)現(xiàn)還有數(shù)據(jù)問題，因為我們國家在省級區(qū)域上，還有一個直轄市的概念，以北京市為例，在數(shù)據(jù)庫中type類型為1，表示省級類型，但是它的子級是一個區(qū)，中間還掉了一層市級類型。

因此，我們還需要對這些直轄市類型的數(shù)據(jù)進行修復，查詢出所有的直轄市類型的城市。

對這些編號的城市，單獨處理，中間加一層市級類型!

至此，國家省市區(qū)編碼數(shù)據(jù)字典，全部處理完畢!

五、總結(jié)

本篇主要以爬取國家省市區(qū)編號為例，以 java 技術(shù)為背景進行講解，在整個爬取過程中，最重要的一部分就是網(wǎng)頁分析，找出規(guī)律，然后通過jsoup工具包解析網(wǎng)頁，獲取其中的有效數(shù)據(jù)。

同時，技術(shù)是一把雙面刀，希望同學們能正當使用!

七、參考

1、2020年行政區(qū)劃代碼

2、jsoup -中文文檔

責任編輯：武曉燕來源： Java極客技術(shù)

Python Java 爬蟲

51CTO技術(shù)棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<table id="ftlvr"></table>