自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Python爬取電子課本,送給居家上課的孩子們

開發(fā) 后端
今天我們就利用python的爬蟲功能,把網絡鏈接的課本爬下來,再做成PDF格式的本地文件,讓孩子們隨時都能看。

[[316679]]

在這個全民抗疫的日子,中小學生們也開啟了居家上網課的生活。很多沒借到書的孩子,不得不在網上看電子課本,有的電子課本是老師發(fā)的網絡鏈接,每次打開網頁去看,既費流量,也不方便。今天我們就利用python的爬蟲功能,把網絡鏈接的課本爬下來,再做成PDF格式的本地文件,讓孩子們隨時都能看。本文案例爬取的網絡課本見下圖: 

python爬取電子課本,送給居家上課的孩子們
圖1 電子課本首頁

實現思路為兩部分:

  • 用python從網站爬取全部課本圖片;
  • 將圖片合并生成PDF格式文件。

具體過程:

一、爬取課本圖片

爬蟲4流程:發(fā)出請求——獲得網頁——解析內容——保存內容。

根據上篇python批量爬取網絡圖片里講過的知識,網頁里的圖片有單獨的網址,爬取圖片時需要先爬取出圖片網址,再根據圖片網址爬取圖片。

1、發(fā)出請求:

首先找出合適的網址URL,因是靜態(tài)網頁網址,我們可直接用瀏覽器地址欄的網址,下圖2中紅框位置即為要用的網址,復制下來就行。 

python爬取電子課本,送給居家上課的孩子們
圖2 瀏覽器地址欄網址可用于發(fā)出請求

網頁網址為:http://www.shuxue9.com/beishida/cz8x/ebook/1.html

2、發(fā)出請求獲得響應:

  1. url = http://www.shuxue9.com/beishida/cz8x/ebook/1.htmlresponse = requests.get(url) 

3、解析響應獲得網頁內容:

  1. soup = BeautifulSoup(response.content, 'lxml'

4、解析網頁內容,獲得圖片網址:

  1. jgp_url = soup.find('div', class_="center").find('a').find('img')['src'

5、向圖片網址發(fā)出訪問請求,并獲得圖片(因為該網址僅有圖片,不需用find解析):

  1. jpg = requests.get(jgp_url).content 

6、保存圖片:

  1. f = open(set_path() + number + '.jpg','wb')f.write(jpg) 

其中,set_path()是提前建好的用于存放圖片的路徑,代碼見下,也可直接寫上想用的路徑:

  1. def set_path():    path = r'e:/python/book'    if not  
  2. os.path.isdir(path):        os.makedirs(path)    paths = path+'/'    
  3.  return(paths) 

7、存在問題:

以上就完成了課本圖片的爬取,我們打開文件夾,發(fā)現只有一張圖片被下載了,后面的都沒。這是因為瀏覽網頁時,每個頁面都有不同的網址,我們試著分析一下,發(fā)現電子課本的每一頁網址很有規(guī)律:

  • 第1頁網址:http://www.shuxue9.com/beishida/cz8x/ebook/1.html
  • 第2頁網址:http://www.shuxue9.com/beishida/cz8x/ebook/2.html
  • ......
  • 第n頁網址:http://www.shuxue9.com/beishida/cz8x/ebook/n.html

每頁上的圖片網址各不相同,沒規(guī)律。我們可以根據規(guī)律用循環(huán)方式,對網址發(fā)起訪問,獲得圖片后,自動循環(huán)訪問下一個網址......最終獲得全部圖片。

8、設置循環(huán)提?。?/strong>

在以上全部過程納入到一個for循環(huán)里,根據網頁,我們可以看到共有152頁,設置循環(huán)后完整代碼為:

  1. import requests , osfrom bs4 import BeautifulSoupfor i in range(1,  
  2. 153):# 發(fā)出請求    url = "http://www.shuxue9.com/beishida/cz8x/ebook 
  3. /{}".format(i)+".html"    response = requests.get(url)# 獲得網頁    
  4.  soup = BeautifulSoup(response.content, 'lxml')# 解析網頁得到圖片網址 
  5.     jgp_url = soup.find('div', class_="center").find('a').find('img'
  6. ['src']# 發(fā)出請求解析獲得圖片    jpg = requests.get(jgp_url).content#  
  7. 設置圖片保存路徑    p = r'e:/python-book'    if not os.path.isdir(p): 
  8.         os.makedirs(p)# 保存圖片    f = open(p + '/' + str(i) +  
  9. '.jpg''wb')    f.write(jpg)print("下載完成"

運行程序,即可一次下載全部課本圖片,效果為: 

python爬取電子課本,送給居家上課的孩子們
圖3 運行程序下載圖片

 

python爬取電子課本,送給居家上課的孩子們
圖4 下載好的圖片

二、將圖片合并生成PDF格式文件

圖片下載完成后,將圖片生成PDF格式才方便使用。網上有專門的軟件,但免費的試用版只能合并幾張圖片。今天教大家一個免費且常用的OFFICE—ppt軟件來將多張圖片合并成一個PDF格式文件。

新建一個PowerPoint空白文件,點擊插入——相冊——新建相冊, 

python爬取電子課本,送給居家上課的孩子們

在彈出的窗體里,點擊左上角的“文件/磁盤”,將剛才下載的圖片全部導入進去,導入后的效果如下圖右側紅框樣式,然后點擊“創(chuàng)建”,保存文件時另存為PDF格式即可。 

python爬取電子課本,送給居家上課的孩子們

總結:

至此,從網頁爬取電子課本圖片,生成PDF格式的本地文件就全部完成了。其中,如何找到并提取網頁中的圖片網址,在本頭條上一篇文章里已有詳述,有疑問的可查閱或留言交流。

另分享一個從網頁內容中找到圖片網址的簡便方法:在打開的開發(fā)者工具界面,點擊左上角的箭頭符號,然后在網頁上點擊想要查找網址的圖片,會自動高亮顯示圖片網址所在位置。如下所示: 

python爬取電子課本,送給居家上課的孩子們

 

 

 

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2012-06-27 14:38:32

網絡問題飛魚星

2011-02-22 10:41:17

2014-07-23 10:02:56

老式電腦ENIAC

2011-09-13 11:17:43

iPad應用

2018-07-25 16:24:17

區(qū)塊鏈疫苗災害事故

2015-04-28 10:44:40

編程孩子編程

2019-01-18 12:18:31

編程語言Python

2019-03-26 09:00:43

樹莓派編程Linux

2020-11-30 16:53:43

新華三

2019-09-19 15:43:35

人工智能AI

2018-10-08 14:35:01

Linux游戲教育軟件

2017-05-31 09:57:00

潤乾張北希望小學孩子

2022-03-05 12:08:17

干擾器斷網

2021-06-21 16:29:53

送書助學

2021-01-24 16:40:00

Python爬取網站編程語言

2016-12-07 11:18:58

Python爬蟲網站

2017-05-24 15:07:19

Python爬蟲爬取

2021-06-02 15:10:20

PythonScrapy視頻
點贊
收藏

51CTO技術棧公眾號