零基礎(chǔ)不知道如何做Python爬蟲(chóng)，這是一份簡(jiǎn)單入門(mén)的教程！

作者：技術(shù)學(xué)派 2018-06-25 15:15:11

隨著互聯(lián)網(wǎng)的數(shù)據(jù)爆炸式增長(zhǎng)，而利用Python爬蟲(chóng)我們可以獲取大量有價(jià)值的數(shù)據(jù)。掌握正確的方法，在短時(shí)間內(nèi)做到能夠爬取主流網(wǎng)站的數(shù)據(jù)，其實(shí)非常容易實(shí)現(xiàn)。

隨著互聯(lián)網(wǎng)的數(shù)據(jù)爆炸式增長(zhǎng)，而利用Python爬蟲(chóng)我們可以獲取大量有價(jià)值的數(shù)據(jù)：

[[234002]]

1.爬取數(shù)據(jù)，進(jìn)行市場(chǎng)調(diào)研和商業(yè)分析

爬取知乎優(yōu)質(zhì)答案，篩選各話(huà)題下最優(yōu)質(zhì)的內(nèi)容；抓取房產(chǎn)網(wǎng)站買(mǎi)賣(mài)信息，分析房?jī)r(jià)變化趨勢(shì)、做不同區(qū)域的房?jī)r(jià)分析；爬取招聘網(wǎng)站職位信息，分析各行業(yè)人才需求情況及薪資水平。

2.作為機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的原始數(shù)據(jù)

比如你要做一個(gè)推薦系統(tǒng)，那么你可以去爬取更多維度的數(shù)據(jù)，做出更好的模型。

3.爬取優(yōu)質(zhì)的資源：圖片、文本、視頻

爬取商品的評(píng)論以及各種圖片網(wǎng)站，獲得圖片資源以及評(píng)論文本數(shù)據(jù)。

掌握正確的方法，在短時(shí)間內(nèi)做到能夠爬取主流網(wǎng)站的數(shù)據(jù)，其實(shí)非常容易實(shí)現(xiàn)。

首先我們來(lái)了解爬蟲(chóng)的基本原理及過(guò)程

大部分爬蟲(chóng)都是按“發(fā)送請(qǐng)求——獲得頁(yè)面——解析頁(yè)面——抽取并儲(chǔ)存內(nèi)容”這樣的流程來(lái)進(jìn)行，這其實(shí)也是模擬了我們使用瀏覽器獲取網(wǎng)頁(yè)信息的過(guò)程。

簡(jiǎn)單來(lái)說(shuō)，我們向服務(wù)器發(fā)送請(qǐng)求后，會(huì)得到返回的頁(yè)面，通過(guò)解析頁(yè)面之后，我們可以抽取我們想要的那部分信息，并存儲(chǔ)在指定的文檔或數(shù)據(jù)庫(kù)中。

在這部分你可以簡(jiǎn)單了解 HTTP 協(xié)議及網(wǎng)頁(yè)基礎(chǔ)知識(shí)，比如 POSTGET、HTML、CSS、JS，簡(jiǎn)單了解即可，不需要系統(tǒng)學(xué)習(xí)。

學(xué)習(xí) Python 包并實(shí)現(xiàn)基本的爬蟲(chóng)過(guò)程

Python中爬蟲(chóng)相關(guān)的包很多：urllib、requests、bs4、scrapy、pyspider 等，建議你從requests+Xpath 開(kāi)始，requests 負(fù)責(zé)連接網(wǎng)站，返回網(wǎng)頁(yè)，Xpath 用于解析網(wǎng)頁(yè)，便于抽取數(shù)據(jù)。

如果你用過(guò) BeautifulSoup，會(huì)發(fā)現(xiàn) Xpath 要省事不少，一層一層檢查元素代碼的工作，全都省略了。掌握之后，你會(huì)發(fā)現(xiàn)爬蟲(chóng)的基本套路都差不多，一般的靜態(tài)網(wǎng)站根本不在話(huà)下，小豬、豆瓣、糗事百科、騰訊新聞等基本上都可以上手了。

存數(shù)據(jù)

首先，我們來(lái)說(shuō)存數(shù)據(jù)，是因?yàn)樵诔跗趯W(xué)習(xí)的時(shí)候，接觸的少，也不需要太過(guò)于關(guān)注，隨著學(xué)習(xí)的慢慢深入，我們需要保存大批量的數(shù)據(jù)的時(shí)候，就需要去學(xué)習(xí)數(shù)據(jù)庫(kù)的相關(guān)知識(shí)了！

初期，我們抓到需要的內(nèi)容后，只需要保存到本地，無(wú)非保存到文檔、表格（excel）等等幾個(gè)方法，這里大家只需要掌握with語(yǔ)句就基本可以保證需求了。大概是這樣的：

with open（路徑以及文件名，保存模式） as f：

f.write（數(shù)據(jù)）#如果是文本可直接寫(xiě)入，如果是其他文件，數(shù)據(jù)為二進(jìn)制模式更好

當(dāng)然保存到excel表格或者word文檔需要用到 xlwt庫(kù)（excel）、python-docx庫(kù)（word），這個(gè)在網(wǎng)上很多，大家可以自行去學(xué)習(xí)。

取數(shù)據(jù)

說(shuō)了這么多，我們來(lái)說(shuō)說(shuō)主題。怎么來(lái)抓取我們想要的數(shù)據(jù)呢？我們一步步的來(lái)！

一般所謂的取網(wǎng)頁(yè)內(nèi)容，指的是通過(guò)Python腳本實(shí)現(xiàn)訪(fǎng)問(wèn)某個(gè)URL地址(請(qǐng)求數(shù)據(jù))，然后獲得其所返回的內(nèi)容（HTML源碼，Json格式的字符串等）。然后通過(guò)解析規(guī)則（頁(yè)面解析），分析出我們需要的數(shù)據(jù)并?。▋?nèi)容匹配）出來(lái)。

在python中實(shí)現(xiàn)爬蟲(chóng)非常方便，有大量的庫(kù)可以滿(mǎn)足我們的需求，比如先用requests庫(kù)取一個(gè)url（網(wǎng)頁(yè)）的源碼

import requests#導(dǎo)入庫(kù)  
url = '你的目標(biāo)網(wǎng)址'  
response = requests.get(url) #請(qǐng)求數(shù)據(jù)  
print(response.text) #打印出數(shù)據(jù)的文本內(nèi)容

這幾行代碼就可以獲得網(wǎng)頁(yè)的源代碼，但是有時(shí)候這里面會(huì)有亂碼，為什么呢？

因?yàn)橹形木W(wǎng)站中包含中文，而終端不支持gbk編碼，所以我們?cè)诖蛴r(shí)需要把中文從gbk格式轉(zhuǎn)為終端支持的編碼，一般為utf-8編碼。

所以我們?cè)诖蛴esponse之前，需要對(duì)它進(jìn)行編碼的指定（我們可以直接指定代碼顯示的編碼格式為網(wǎng)頁(yè)本身的編碼格式，比如utf-8，網(wǎng)頁(yè)編碼格式一般都在源代碼中的<meta>標(biāo)簽下的charset屬性中指定）。加上一行即可。

response.encode = 'utf-8' #指定編碼格式

至此，我們已經(jīng)獲取了網(wǎng)頁(yè)的源代碼，接下來(lái)就是在亂七八糟的源代碼中找到我們需要的內(nèi)容，這里就需要用到各種匹配方式了，常用的幾種方式有：正則表達(dá)式（re庫(kù)），bs4（Beautifulsoup4庫(kù)），xpath（lxml庫(kù)）！

建議大家從正則開(kāi)始學(xué)習(xí)，最后一定要看看xpath，這個(gè)在爬蟲(chóng)框架scrapy中用的很多！

通過(guò)各種匹配方式找到我們的內(nèi)容后（注意：一般匹配出來(lái)的是列表），就到了上面所說(shuō)的存數(shù)據(jù)的階段了，這就完成了一個(gè)簡(jiǎn)單的爬蟲(chóng)！

當(dāng)然了，在我們具體寫(xiě)代碼的時(shí)候，會(huì)發(fā)現(xiàn)很多上面沒(méi)有說(shuō)到的內(nèi)容，比如

獲取源代碼的時(shí)候遇到反爬，根本獲取不到數(shù)據(jù)
有的網(wǎng)站需要登錄后才可以拿到內(nèi)容
遇到驗(yàn)證碼
獲取到內(nèi)容后寫(xiě)入文件出錯(cuò)
怎樣來(lái)設(shè)計(jì)循環(huán)，獲取大批量的內(nèi)容甚至整站爬蟲(chóng)

剩下的我們?cè)賮?lái)慢慢的研究。

總結(jié)

Python爬蟲(chóng)這種技術(shù)，既不需要你系統(tǒng)地精通一門(mén)語(yǔ)言，也不需要多么高深的數(shù)據(jù)庫(kù)技術(shù)，高效的姿勢(shì)就是從實(shí)際的項(xiàng)目中去學(xué)習(xí)這些零散的知識(shí)點(diǎn)，你能保證每次學(xué)到的都是最需要的那部分。

當(dāng)然唯一麻煩的是，在具體的問(wèn)題中，如何找到具體需要的那部分學(xué)習(xí)資源、如何篩選和甄別，是很多初學(xué)者面臨的一個(gè)大問(wèn)題。

責(zé)任編輯：龐桂玉來(lái)源：今日頭條