自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<thead id="3cx3v"></thead>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

20行Python代碼批量抓取免費(fèi)高清圖片！

作者：佚名 2019-07-24 16:00:37

開發(fā) 后端

如何將網(wǎng)站中的圖片存儲(chǔ)到本地呢（例如比較關(guān)心跟數(shù)據(jù)相關(guān)的素材）？如果做到了，就可以在沒有網(wǎng)絡(luò)的情況下，隨心所欲的選擇精美圖片制作PPT，隨時(shí)隨地的查看自己的圖片庫。而本文所要跟大家分享的就是這個(gè)問題的解決方案。

相信在你的工作中可能會(huì)經(jīng)常用到PPT吧，你在PPT制作過程中有沒有這樣的困惑，就是可以到哪里找到既高清又無版權(quán)爭議的圖片素材呢？這里強(qiáng)烈推薦ColorHub，這是一個(gè)允許個(gè)人和商業(yè)用途的免費(fèi)圖片網(wǎng)站，真的很贊！從她的主頁界面來看，也許你就會(huì)愛上她。

那么，如何將網(wǎng)站中的圖片存儲(chǔ)到本地呢（例如比較關(guān)心跟數(shù)據(jù)相關(guān)的素材）？如果做到了，就可以在沒有網(wǎng)絡(luò)的情況下，隨心所欲的選擇精美圖片制作PPT，隨時(shí)隨地的查看自己的圖片庫。而本文所要跟大家分享的就是這個(gè)問題的解決方案。

爬蟲思路

我們知道，對(duì)于圖片網(wǎng)站的抓取，往往需要經(jīng)過三層網(wǎng)頁鏈接，為了能夠直觀地理解這三層鏈接，可以查看下圖：

頂層頁：是指通過網(wǎng)站主頁的搜索欄，搜索出感興趣的圖片方向，便進(jìn)入到的圖片列表頁，它的樣子是這樣的：

次層頁：是指點(diǎn)擊圖片列表頁中的某張圖片，轉(zhuǎn)而對(duì)應(yīng)到的圖片詳情頁，它的樣子是這樣的：

目標(biāo)頁：最后就是為了抓取圖片詳情頁中的那張高清圖片，而這張圖片在網(wǎng)頁源代碼中就是一個(gè)圖片鏈接，它的樣子是這樣的：

所以，爬蟲抓取圖片的最終目的就是找到高清圖片所對(duì)應(yīng)的鏈接。接下來將通過代碼的介紹，呈現(xiàn)三層鏈接的尋找和請(qǐng)求過程。

 1# 導(dǎo)入第三方包  
 2import requests  
 3from bs4 import BeautifulSoup  
 4import random  
 5import time  
 6from fake_useragent import UserAgent  
 7  
 8# 通過循環(huán)實(shí)現(xiàn)多頁圖片的抓取  
 9for page in range(1,11):  
10    # 生成頂層圖片列表頁的鏈接  
11    fst_url = r https://colorhub.me/search?tag=data&page={} .format(page)     
12    # 生成UA，用于爬蟲請(qǐng)求頭的設(shè)置  
13    UA = UserAgent()  
14    # 向頂層鏈接發(fā)送請(qǐng)求  
15    fst_response = requests.get(fst_url, headers = { User-Agent :UA.random})     
16    # 解析頂層鏈接的源代碼  
17    fst_soup = BeautifulSoup(fst_response.text)  
18    # 根據(jù)HTML的標(biāo)記規(guī)則，返回次層圖片詳情頁的鏈接和圖片名稱  
19    sec_urls = [i.find( a )[ href ] for i in fst_soup.findAll(name =  div , attrs = { class : card })]  
20    pic_names = [i.find( a )[ title ] for i in fst_soup.findAll(name =  div , attrs = { class : card })]  
21    # 對(duì)每一個(gè)次層鏈接做循環(huán)  
22    for sec_url,pic_name in zip(sec_urls,pic_names):  
23        # 生成UA，用于爬蟲請(qǐng)求頭的設(shè)置  
24        UA = UserAgent()  
25        ua = UA.random  
26        # 向次層鏈接發(fā)送請(qǐng)求  
27        sec_response = requests.get(sec_url, headers = { User-Agent :ua})      
28        # 解析次層鏈接的源代碼  
29        sec_soup = BeautifulSoup(sec_response.text)  
30        # 根據(jù)HTML的標(biāo)記規(guī)則，返回圖片鏈接  
31        pic_url =  https:  + sec_soup.find( img ,{ class : card-img-top })[ src ]  
32        # 對(duì)圖片鏈接發(fā)送請(qǐng)求  
33        pic_response = requests.get(pic_url, headers = { User-Agent :ua})  
34        # 將二進(jìn)制的圖片數(shù)據(jù)寫入到本地（即存儲(chǔ)圖片到本地）         
35        with open(pic_name+ .jpg , mode =  wb ) as fn:  
36            fn.write(pic_response.content)       
37        # 生成隨機(jī)秒數(shù)，用于也沒的停留  
38        seconds = random.uniform(1,3)  
39        time.sleep(seconds)

不難發(fā)現(xiàn)，代碼的核心部分就16行，還是很簡單的吧。還不趕快去測試一下這里的代碼哦（如果你對(duì)某個(gè)方面感興趣，如商務(wù)、建筑、植物等，通過搜索，找到頂層頁鏈接，替換代碼中的fst_url值即可）。

在運(yùn)行完如上代碼后，將會(huì)抓取ColorHub網(wǎng)站中的10頁圖片，一共包含325張高清圖片，展示如下：

責(zé)任編輯：龐桂玉來源：機(jī)器學(xué)習(xí)算法與Python學(xué)習(xí)

Python 代碼高清圖片

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="ac3nx"><track id="ac3nx"></track></legend>

<big id="ac3nx"><code id="ac3nx"><rp id="ac3nx"></rp></code></big>