自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Python爬蟲：把廖雪峰的教程轉(zhuǎn)換成PDF電子書

作者：liuzhijun 2017-03-02 14:28:32

開(kāi)發(fā) 后端

寫爬蟲似乎沒(méi)有比用 Python 更合適了，Python 社區(qū)提供的爬蟲工具多得讓你眼花繚亂，各種拿來(lái)就可以直接用的 library 分分鐘就可以寫出一個(gè)爬蟲出來(lái)，今天就琢磨著寫一個(gè)爬蟲，將廖雪峰的 Python 教程爬下來(lái)做成 PDF 電子書方便大家離線閱讀。

寫爬蟲似乎沒(méi)有比用 Python 更合適了，Python 社區(qū)提供的爬蟲工具多得讓你眼花繚亂，各種拿來(lái)就可以直接用的 library 分分鐘就可以寫出一個(gè)爬蟲出來(lái)，今天就琢磨著寫一個(gè)爬蟲，將廖雪峰的 Python 教程爬下來(lái)做成 PDF 電子書方便大家離線閱讀。

開(kāi)始寫爬蟲前，我們先來(lái)分析一下該網(wǎng)站1的頁(yè)面結(jié)構(gòu)，網(wǎng)頁(yè)的左側(cè)是教程的目錄大綱，每個(gè) URL 對(duì)應(yīng)到右邊的一篇文章，右側(cè)上方是文章的標(biāo)題，中間是文章的正文部分，正文內(nèi)容是我們關(guān)心的重點(diǎn)，我們要爬的數(shù)據(jù)就是所有網(wǎng)頁(yè)的正文部分，下方是用戶的評(píng)論區(qū)，評(píng)論區(qū)對(duì)我們沒(méi)什么用，所以可以忽略它。

工具準(zhǔn)備

弄清楚了網(wǎng)站的基本結(jié)構(gòu)后就可以開(kāi)始準(zhǔn)備爬蟲所依賴的工具包了。requests、beautifulsoup 是爬蟲兩大神器，reuqests 用于網(wǎng)絡(luò)請(qǐng)求，beautifusoup 用于操作 html 數(shù)據(jù)。有了這兩把梭子，干起活來(lái)利索，scrapy 這樣的爬蟲框架我們就不用了，小程序派上它有點(diǎn)殺雞用牛刀的意思。此外，既然是把 html 文件轉(zhuǎn)為 pdf，那么也要有相應(yīng)的庫(kù)支持， wkhtmltopdf 就是一個(gè)非常好的工具，它可以用適用于多平臺(tái)的 html 到 pdf 的轉(zhuǎn)換，pdfkit 是 wkhtmltopdf 的Python封裝包。首先安裝好下面的依賴包，接著安裝 wkhtmltopdf

pip install requests pip install beautifulsoup pip install pdfkit

安裝 wkhtmltopdf

Windows平臺(tái)直接在 wkhtmltopdf 官網(wǎng)2下載穩(wěn)定版的進(jìn)行安裝，安裝完成之后把該程序的執(zhí)行路徑加入到系統(tǒng)環(huán)境 $PATH 變量中，否則 pdfkit 找不到 wkhtmltopdf 就出現(xiàn)錯(cuò)誤 “No wkhtmltopdf executable found”。Ubuntu 和 CentOS 可以直接用命令行進(jìn)行安裝

$ sudo apt-get install wkhtmltopdf  # ubuntu $ sudo yum intsall wkhtmltopdf      # centos

爬蟲實(shí)現(xiàn)

一切準(zhǔn)備就緒后就可以上代碼了，不過(guò)寫代碼之前還是先整理一下思緒。程序的目的是要把所有 URL 對(duì)應(yīng)的 html 正文部分保存到本地，然后利用 pdfkit 把這些文件轉(zhuǎn)換成一個(gè) pdf 文件。我們把任務(wù)拆分一下，首先是把某一個(gè) URL 對(duì)應(yīng)的 html 正文保存到本地，然后找到所有的 URL 執(zhí)行相同的操作。

用 Chrome 瀏覽器找到頁(yè)面正文部分的標(biāo)簽，按 F12 找到正文對(duì)應(yīng)的 div 標(biāo)簽： <div class="x-wiki-content">，該 div 是網(wǎng)頁(yè)的正文內(nèi)容。用 requests 把整個(gè)頁(yè)面加載到本地后，就可以使用 beautifulsoup 操作 HTML 的 dom 元素來(lái)提取正文內(nèi)容了。

具體的實(shí)現(xiàn)代碼如下：用 soup.find_all 函數(shù)找到正文標(biāo)簽，然后把正文部分的內(nèi)容保存到 a.html 文件中。

def parse_url_to_html(url):     response = requests.get(url)     soup = BeautifulSoup(response.content, "html5lib")     body = soup.find_all(class_="x-wiki-content")[0]     html = str(body)     with open("a.html", 'wb') as f:         f.write(html)

第二步就是把頁(yè)面左側(cè)所有 URL 解析出來(lái)。采用同樣的方式，找到左側(cè)菜單標(biāo)簽 <ul class="uk-nav uk-nav-side">

具體代碼實(shí)現(xiàn)邏輯：因?yàn)轫?yè)面上有兩個(gè)uk-nav uk-nav-side的 class 屬性，而真正的目錄列表是第二個(gè)。所有的 url 獲取了，url 轉(zhuǎn) html 的函數(shù)在***步也寫好了。

def get_url_list():     """     獲取所有URL目錄列表     """     response = requests.get("http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000")     soup = BeautifulSoup(response.content, "html5lib")     menu_tag = soup.find_all(class_="uk-nav uk-nav-side")[1]     urls = []     for li in menu_tag.find_all("li"):         url = "http://www.liaoxuefeng.com" + li.a.get('href')         urls.append(url)     return urls

***一步就是把 html 轉(zhuǎn)換成pdf文件了。轉(zhuǎn)換成 pdf 文件非常簡(jiǎn)單，因?yàn)?pdfkit 把所有的邏輯都封裝好了，你只需要調(diào)用函數(shù) pdfkit.from_file

def save_pdf(htmls):     """     把所有html文件轉(zhuǎn)換成pdf文件     """     options = {         'page-size': 'Letter',         'encoding': "UTF-8",         'custom-header': [             ('Accept-Encoding', 'gzip')         ]     }     pdfkit.from_file(htmls, file_name, options=options)

執(zhí)行 save_pdf 函數(shù)，電子書 pdf 文件就生成了，效果圖：

總結(jié)

總共代碼量加起來(lái)不到50行，不過(guò)，且慢，其實(shí)上面給出的代碼省略了一些細(xì)節(jié)，比如，如何獲取文章的標(biāo)題，正文內(nèi)容的 img 標(biāo)簽使用的是相對(duì)路徑，如果要想在 pdf 中正常顯示圖片就需要將相對(duì)路徑改為絕對(duì)路徑，還有保存下來(lái)的 html 臨時(shí)文件都要?jiǎng)h除，這些細(xì)節(jié)末葉都放在github上。

完整代碼可以上github下載，代碼在 Windows 平臺(tái)親測(cè)有效，歡迎 fork 下載自己改進(jìn)。github 地址3，GitHub訪問(wèn)不了的同學(xué)可以用碼云4，《廖雪峰的 Python 教程》電子書 PDF 文件可以通過(guò)關(guān)注本公眾號(hào)『一個(gè)程序員的微站』回復(fù) “pdf” 免費(fèi)下載閱讀。

本文首發(fā)于公眾號(hào)『一個(gè)程序員的微站』（id:VTtalk），分享 Python 干貨的有溫度的內(nèi)容
博客地址：https://foofish.net/python-crawler-html2pdf.html

責(zé)任編輯：張燕妮來(lái)源：開(kāi)源中國(guó)社區(qū)

Python 教程 PDF電子書

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="kaq9z"><abbr id="kaq9z"></abbr></legend>

<sup id="kaq9z"></sup><style id="kaq9z"><button id="kaq9z"></button></style>

<cite id="kaq9z"><track id="kaq9z"></track></cite>