自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="yqnks"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

華為官方解析何為Python爬蟲

作者：滄海 2019-07-08 15:49:12

開發(fā) 前端

隨著信息化社會(huì)的到來(lái)，人們對(duì)網(wǎng)絡(luò)爬蟲這個(gè)詞已經(jīng)不再陌生。但什么是爬蟲，如何利用爬蟲為自己服務(wù)，這些在ICT技術(shù)小白聽起來(lái)又有些高入云端。不用愁，下面一文帶你走近爬蟲世界，讓即使身為ICT技術(shù)小白的你，也能秒懂使用Python爬蟲高效抓取圖片。

據(jù)華為中國(guó)官方消息，今日，華為中國(guó)發(fā)文《小白看過(guò)來(lái)，讓Python爬蟲成為你的好幫手》，文中詳細(xì)介紹了Python爬蟲的工作原理，我們來(lái)看一下吧。

以下為《小白看過(guò)來(lái)，讓Python爬蟲成為你的好幫手》全文：

隨著信息化社會(huì)的到來(lái)，人們對(duì)網(wǎng)絡(luò)爬蟲這個(gè)詞已經(jīng)不再陌生。但什么是爬蟲，如何利用爬蟲為自己服務(wù)，這些在ICT技術(shù)小白聽起來(lái)又有些高入云端。不用愁，下面一文帶你走近爬蟲世界，讓即使身為ICT技術(shù)小白的你，也能秒懂使用Python爬蟲高效抓取圖片。

什么是專用爬蟲?

網(wǎng)絡(luò)爬蟲是一種從互聯(lián)網(wǎng)抓取數(shù)據(jù)信息的自動(dòng)化程序。如果我們把互聯(lián)網(wǎng)比作一張大的蜘蛛網(wǎng)，數(shù)據(jù)便是存放于蜘蛛網(wǎng)的各個(gè)節(jié)點(diǎn)，而爬蟲就是一只小蜘蛛(程序)，沿著網(wǎng)絡(luò)抓取自己的獵物(數(shù)據(jù))。

爬蟲可以在抓取過(guò)程中進(jìn)行各種異常處理、錯(cuò)誤重試等操作，確保爬取持續(xù)高效地運(yùn)行。它分為通用爬蟲和專用爬蟲。通用爬蟲是捜索引擎抓取系統(tǒng)的重要組成部分，主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地，形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份;專用爬蟲主要為某一類特定的人群提供服務(wù)，爬取的目標(biāo)網(wǎng)頁(yè)定位在與主題相關(guān)的頁(yè)面中，節(jié)省大量的服務(wù)器資源和帶寬資源。比如要獲取某一垂直領(lǐng)域的數(shù)據(jù)或有明確的檢索需求，此時(shí)就需要過(guò)濾掉一些無(wú)用的信息。

爬蟲工作原理

爬蟲可以根據(jù)我們提供的信息從網(wǎng)頁(yè)上獲取大量的圖片，它的工作原理是什么呢?

爬蟲首先要做的工作是獲取網(wǎng)頁(yè)的源代碼，源代碼里包含了網(wǎng)頁(yè)的部分有用信息;之后爬蟲構(gòu)造一個(gè)請(qǐng)求并發(fā)送給服務(wù)器，服務(wù)器接收到響應(yīng)并將其解析出來(lái)。實(shí)際上，獲取網(wǎng)頁(yè)——分析網(wǎng)頁(yè)源代碼——提取信息，便是爬蟲工作的三部曲。如何提取信息?最通用的方法是采用正則表達(dá)式。網(wǎng)頁(yè)結(jié)構(gòu)有一定的規(guī)則，還有一些根據(jù)網(wǎng)頁(yè)節(jié)點(diǎn)屬性、CSS選擇器或XPath來(lái)提取網(wǎng)頁(yè)信息的庫(kù)，如Requests、pyquery、lxml等，使用這些庫(kù)，便可以高效快速地從中提取網(wǎng)頁(yè)信息，如節(jié)點(diǎn)的屬性、文本值等，并能簡(jiǎn)單保存為TXT文本或JSON文本，這些信息可保存到數(shù)據(jù)庫(kù)，如MySQL和MongoDB等，也可保存至遠(yuǎn)程服務(wù)器，如借助SFTP進(jìn)行操作等。提取信息是爬蟲非常重要的作用，它可以使雜亂的數(shù)據(jù)變得條理清晰，以便我們后續(xù)處理和分析數(shù)據(jù)。

責(zé)任編輯：未麗燕來(lái)源： IT之家

爬蟲互聯(lián)網(wǎng)抓取數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)