自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Python爬取電子課本，送給居家上課的孩子們

作者：比目魚2號 2020-03-01 14:16:55

開發(fā) 后端

今天我們就利用python的爬蟲功能，把網絡鏈接的課本爬下來，再做成PDF格式的本地文件，讓孩子們隨時都能看。

[[316679]]

在這個全民抗疫的日子，中小學生們也開啟了居家上網課的生活。很多沒借到書的孩子，不得不在網上看電子課本，有的電子課本是老師發(fā)的網絡鏈接，每次打開網頁去看，既費流量，也不方便。今天我們就利用python的爬蟲功能，把網絡鏈接的課本爬下來，再做成PDF格式的本地文件，讓孩子們隨時都能看。本文案例爬取的網絡課本見下圖：

python爬取電子課本，送給居家上課的孩子們

圖1 電子課本首頁

實現思路為兩部分：

用python從網站爬取全部課本圖片;
將圖片合并生成PDF格式文件。

具體過程：

一、爬取課本圖片

爬蟲4流程：發(fā)出請求——獲得網頁——解析內容——保存內容。

根據上篇python批量爬取網絡圖片里講過的知識，網頁里的圖片有單獨的網址，爬取圖片時需要先爬取出圖片網址，再根據圖片網址爬取圖片。

1、發(fā)出請求：

首先找出合適的網址URL，因是靜態(tài)網頁網址，我們可直接用瀏覽器地址欄的網址，下圖2中紅框位置即為要用的網址，復制下來就行。

python爬取電子課本，送給居家上課的孩子們

圖2 瀏覽器地址欄網址可用于發(fā)出請求

網頁網址為：http://www.shuxue9.com/beishida/cz8x/ebook/1.html

2、發(fā)出請求獲得響應：

url = http://www.shuxue9.com/beishida/cz8x/ebook/1.htmlresponse = requests.get(url)

3、解析響應獲得網頁內容：

soup = BeautifulSoup(response.content, 'lxml')

4、解析網頁內容，獲得圖片網址：

jgp_url = soup.find('div', class_="center").find('a').find('img')['src']

5、向圖片網址發(fā)出訪問請求，并獲得圖片(因為該網址僅有圖片，不需用find解析)：

jpg = requests.get(jgp_url).content

6、保存圖片：

f = open(set_path() + number + '.jpg','wb')f.write(jpg)

其中，set_path()是提前建好的用于存放圖片的路徑，代碼見下，也可直接寫上想用的路徑：

def set_path():    path = r'e:/python/book'    if not  
os.path.isdir(path):        os.makedirs(path)    paths = path+'/'    
 return(paths)

7、存在問題：

以上就完成了課本圖片的爬取，我們打開文件夾，發(fā)現只有一張圖片被下載了，后面的都沒。這是因為瀏覽網頁時，每個頁面都有不同的網址，我們試著分析一下，發(fā)現電子課本的每一頁網址很有規(guī)律：

第1頁網址：http://www.shuxue9.com/beishida/cz8x/ebook/1.html
第2頁網址：http://www.shuxue9.com/beishida/cz8x/ebook/2.html
......
第n頁網址：http://www.shuxue9.com/beishida/cz8x/ebook/n.html

每頁上的圖片網址各不相同，沒規(guī)律。我們可以根據規(guī)律用循環(huán)方式，對網址發(fā)起訪問，獲得圖片后，自動循環(huán)訪問下一個網址......最終獲得全部圖片。

8、設置循環(huán)提?。?/strong>

在以上全部過程納入到一個for循環(huán)里，根據網頁，我們可以看到共有152頁，設置循環(huán)后完整代碼為：

import requests , osfrom bs4 import BeautifulSoupfor i in range(1,
153):# 發(fā)出請求    url = "http://www.shuxue9.com/beishida/cz8x/ebook
/{}".format(i)+".html"    response = requests.get(url)# 獲得網頁
soup = BeautifulSoup(response.content, 'lxml')# 解析網頁得到圖片網址
    jgp_url = soup.find('div', class_="center").find('a').find('img')
['src']# 發(fā)出請求解析獲得圖片    jpg = requests.get(jgp_url).content#
設置圖片保存路徑    p = r'e:/python-book'    if not os.path.isdir(p):
        os.makedirs(p)# 保存圖片    f = open(p + '/' + str(i) +
'.jpg', 'wb')    f.write(jpg)print("下載完成")

運行程序，即可一次下載全部課本圖片，效果為：

圖3 運行程序下載圖片

圖4 下載好的圖片
二、將圖片合并生成PDF格式文件

圖片下載完成后，將圖片生成PDF格式才方便使用。網上有專門的軟件，但免費的試用版只能合并幾張圖片。今天教大家一個免費且常用的OFFICE—ppt軟件來將多張圖片合并成一個PDF格式文件。

新建一個PowerPoint空白文件，點擊插入——相冊——新建相冊，

在彈出的窗體里，點擊左上角的“文件/磁盤”，將剛才下載的圖片全部導入進去，導入后的效果如下圖右側紅框樣式，然后點擊“創(chuàng)建”，保存文件時另存為PDF格式即可。

總結：

至此，從網頁爬取電子課本圖片，生成PDF格式的本地文件就全部完成了。其中，如何找到并提取網頁中的圖片網址，在本頭條上一篇文章里已有詳述，有疑問的可查閱或留言交流。

另分享一個從網頁內容中找到圖片網址的簡便方法：在打開的開發(fā)者工具界面，點擊左上角的箭頭符號，然后在網頁上點擊想要查找網址的圖片，會自動高亮顯示圖片網址所在位置。如下所示：

責任編輯：未麗燕來源：今日頭條

Python 電子課本爬取

分享到微信

微信掃碼分享

分享到微博

相關推薦

暑假讓孩子們健康上網
隨著期末考試的結束，暑假即將來臨。平時學生的學習任務繁重，放暑假后，在家上網娛樂、游戲聊天是大多數學生首選的減壓的方式。

2012-06-27 14:38:32

網絡問題飛魚星

硅谷故事：喬布斯的“孩子們”
如果說肉身終究抵不過生命周期，那么移動互聯網這一由喬布斯創(chuàng)建的全新商業(yè)模式，是他送給我們最好的禮物。

2011-02-22 10:41:17

孩子們看到老式電腦后的反應
老式電腦，并不是指的歷史上第一臺圖靈機計算機，也不是指第一臺體積有幾間屋子大小的那臺ENIAC電腦，也不是第一臺IBMpc機，而是蘋果公司的AppleMonitorIII。

2014-07-23 10:02:56

老式電腦 ENIAC

為孩子們量身打造的9款iPad應用
iPad應用已經是孩子們不可轉移的話題，文章中介紹了9款ipad應用，孩子專用ipad應用軟件，首先透露一個，Tozzle是一個完美的拼圖iPad應用，既好玩兒又具有教育意義，快來看吧。

2011-09-13 11:17:43

iPad應用

區(qū)塊鏈能解決孩子們的疫苗之殤嗎
對于疫苗這樣的藥品來說，通過區(qū)塊鏈技術，再加入智能合約后來實現比較簡單的判斷，如果在鏈上出現非合規(guī)事件，比如藥品偷換等，將會自動進行記錄并進行實時通知，這樣就可以將醫(yī)療領域中間一些檢查環(huán)節(jié)去除，從而大大簡化了整個流程，降低了監(jiān)管的成本。

2018-07-25 16:24:17

區(qū)塊鏈疫苗災害事故

21 世紀的孩子們請注意！編程已成必備技能
10歲的杜諾萬，顯然不知道他已經成為美國小學教育方式轉型的代表人物。如今，他忙著學習游戲關卡設計、藝術指導，甚至是銷售——據悉，《槍手塔克卡車》已經開發(fā)了一款體恤衫。

2015-04-28 10:44:40

編程孩子編程

編玩邊學，孩子們都在學什么編程語言？
“你聽過C、C++、python、Java或者其他編程語言嗎那么，你或者你的孩子，應該選擇什么語言開始編程學習呢”

2019-01-18 12:18:31

編程語言 Python

樹莓派使用入門：教孩子們用樹莓派學編程的5種方法
這是我們的《樹莓派入門指南》系列的第五篇文章，它探索了幫助孩子們學習編程的一些資源。

2019-03-26 09:00:43

樹莓派編程 Linux

為孩子們打開精彩新世界新華三數字化公益課堂溫暖起航
數字化已經融入我們生活的方方面面。新華三集團開展數字化公益課堂等系列創(chuàng)新實踐，目的是希望為欠發(fā)達地區(qū)的孩子們輸入最新的數字化科技知識，幫助他們開闊視野，增長見識，同時勤勉其努力學習。

2020-11-30 16:53:43

新華三

人工智能進校園，恐過度“發(fā)揮”觸及孩子們的隱私底線，傷及自尊
近日，準備赴港上市的AI巨頭曠視科技引發(fā)爭議。在其發(fā)布的場景演示視頻中，身處教室的學生們正被AI系統(tǒng)所監(jiān)控，每一個學生的睡覺、舉手、閱讀等動作都將被捕捉，并成為衡量他們在校表現的指標。一些輿論認為，曠視科技是在打著“校園安全”的幌子，將孩子置于360度全透明的“監(jiān)獄”中。

2019-09-19 15:43:35

人工智能 AI

5個給孩子的非常好的Linux游戲和教育軟件
未來是屬于孩子們的，讓孩子們了解Linux是他們掌控未來的最佳方式。這個操作系統(tǒng)上或許并沒有一些像FIFA或PES那樣的聲名赫赫的游戲；但是，它為孩子們提供了一些非常好的教育軟件和游戲。這里有五款最好的Linux教育軟件，可以讓你的孩子遠離游戲。

2018-10-08 14:35:01

Linux 游戲教育軟件

【公益活動】捐贈張北希望小學有感《陽光下的關愛》
在六一兒童節(jié)來臨之際，潤乾軟件再次走進校園，為張北希望小學的孩子們送去了兒童節(jié)禮物。這些禮物是由潤乾員工精心挑選和捐贈的近百本課外讀物，內容生動有趣的書籍，很快就吸引了孩子們注意力，愛不釋手地閱讀起來。潤乾軟件再次用行動讓孩子們感受到來自社會的溫暖和關愛，用愛心承托起孩子們的希望與夢想。

2017-05-31 09:57:00

潤乾張北希望小學孩子

為限制熊孩子深夜打游戲，老父親用干擾器給全城斷網，面臨6個月監(jiān)禁及賠款
最近在法國，為了讓孩子們在晚上少玩游戲早點睡覺，某位父親就不得不放大招，用上了非法的“信號干擾器”，企圖通過給家里斷網，讓孩子遠離電子產品。

2022-03-05 12:08:17

干擾器斷網

深圳市物聯網產業(yè)協會開展的“情系山區(qū) 送書助學”愛心捐贈項目圓滿收官??！
書是人類進步的階梯，是獲取知識的源泉，是開啟心智的鑰匙。書是孩子永遠的伙伴，讓孩子認識世界，讓孩子快樂成長。閱讀，可以帶山區(qū)的孩子們去更遠的地方，汲取更多的知識，是孩子們一生最寶貴的財富，甚至能影響孩子的一生。他們渴望知識，渴望閱讀，更需要公眾的關懷。

2021-06-21 16:29:53

送書助學

利用 Python 爬取網站的新手指南
這篇文章旨在說明如何使用Python的requests庫訪問網頁內容，并使用BeatifulSoup4庫以及JSON和pandas庫解析網頁內容。我將簡要介紹Selenium庫，但我不會深入研究如何使用該庫——這個主題值得有自己的教程。

2021-01-24 16:40:00

Python 爬取網站編程語言

Python爬蟲爬取美劇網站
正好一直在學習Python爬蟲，所以今天就心血來潮來寫了個爬蟲，抓取該網站上所有美劇鏈接，并保存在文本文檔中，想要哪部劇就直接打開復制鏈接到迅雷就可以下載啦。

2016-12-07 11:18:58

Python 爬蟲網站

Python爬蟲爬取知乎小結
最近學習了一點網絡爬蟲，并實現了使用Python來爬取知乎的一些功能，這里做一個小的總結。網絡爬蟲是指通過一定的規(guī)則自動的從網上抓取一些信息的程序或腳本。我們知道機器學習和數據挖掘等都是從大量的數據出發(fā)，找到一些有價值有規(guī)律的東西，而爬蟲則可以幫助我們解決獲取數據難的問題，因此網絡爬蟲是我們應該掌握的一個技巧。

2017-05-24 15:07:19

Python 爬蟲爬取

如何用 Python + Scrapy 爬取視頻？
Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架，我們只需要實現少量的代碼，就能夠快速的抓取.

2021-06-02 15:10:20

Python Scrapy 視頻

相似話題

前端
 28326內容

開發(fā)工具
 7413內容

測試
 530內容

游戲開發(fā)
654內容
全部話題

同話題下的熱門內容

騰訊女后端設計了一套短鏈系統(tǒng)，當場就想給她 offer！你應該知道的七個“無用的”Python標準庫函數別再死磕.NET Core！2025年C#突圍新方向揭秘

相關專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動

HPE ProLiant DL145 Gen11 服務器解讀

2025-04-21 09:59:50

開發(fā)者成長學院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內容

微博

QQ

微信

復制鏈接

微信掃碼分享

51CTO業(yè)務

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學堂精培企業(yè)培訓 CTO訓練營

51CTO學堂

51CTO學堂企業(yè)版

51CTO官微

51CTO

關于我們&條款

關于我們

新聞動態(tài)

站點地圖

意見反饋

English

用戶協議

隱私協議

北京市海淀區(qū)中關村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權所有未經許可請勿轉載

營業(yè)執(zhí)照出版物經營許可證

友情鏈接

新浪科技騰訊科技網易科技鳳凰科技驅動科技科技行者 TechWeb 艾瑞網站長之家速途網中國經濟新聞網 IT之家工聯網極客公園 236視頻會議中國IDC圈企業(yè)網D1Net 投資界次方元火山引擎

51CTO技術棧公眾號

51CTO技術棧公眾號

業(yè)務
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學堂精培企業(yè)培訓 CTO訓練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷