自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

手把手教你用Python爬取某圖網(wǎng)4000張圖片

作者：游世九黎 2021-05-08 08:04:05

開發(fā) 后端

相信很多設(shè)計(jì)小伙伴有好的靈感，但是沒有好的設(shè)計(jì)素材,今天它來(lái)了。攝圖網(wǎng)4000張?jiān)O(shè)計(jì)素材，取之不盡，如下圖所示：

本文轉(zhuǎn)載自微信公眾號(hào)「菜J學(xué)Python」，作者游世九黎。轉(zhuǎn)載本文請(qǐng)聯(lián)系菜J學(xué)Python公眾號(hào)。

大家好，我是J哥，本文來(lái)自我的好友游世久黎的投稿。

相信很多設(shè)計(jì)小伙伴有好的靈感，但是沒有好的設(shè)計(jì)素材,今天它來(lái)了。攝圖網(wǎng)4000張?jiān)O(shè)計(jì)素材，取之不盡，如下圖所示：

好了，廢話不多說(shuō)，開始用Python采集。

01需求分析

采集攝圖網(wǎng)的素材圖片，目標(biāo)網(wǎng)址-->請(qǐng)求數(shù)據(jù)-->解析數(shù)據(jù)-->提取數(shù)據(jù)-->保存數(shù)據(jù)。

02技術(shù)棧

首先我們用到的技術(shù)包括：urllib，requests，bs4等。

03采集流程

1、分析網(wǎng)頁(yè)結(jié)構(gòu)

打開網(wǎng)址:https://699pic.com/paihang/tupian.html,分析網(wǎng)頁(yè)結(jié)構(gòu),我們可以看到首頁(yè)圖片數(shù)據(jù)雜論,這里我們爬取的是"今日熱門"的圖片,點(diǎn)擊發(fā)現(xiàn)更多:來(lái)到目標(biāo)頁(yè)面,拖動(dòng)滾輪滑到底部,發(fā)現(xiàn)有40個(gè)分頁(yè),也就是我們今天要爬取的4000張?jiān)O(shè)計(jì)圖片：

2、發(fā)起請(qǐng)求

接著對(duì)列表中的每一條url進(jìn)行遍歷,然后發(fā)起請(qǐng)求：

for url in urllist: 
    resp = requests.get(url,headers=hd) 
    html = resp.content.decode('utf-8')

3、數(shù)據(jù)解析

得到了一個(gè)html對(duì)象,爬取頁(yè)面數(shù)據(jù)信息后,需要對(duì)頁(yè)面進(jìn)行解析,這里我使用到的解析庫(kù)是bs4(偏愛),當(dāng)然xpath也是可以的。通過(guò)分析頁(yè)面元素,我們發(fā)現(xiàn)每個(gè)翻頁(yè)里面的圖片都有這樣的規(guī)律：

因此可以通過(guò)bs4的select方法抓取所有class='lazy'的img標(biāo)簽,得到一個(gè)列表,然后通過(guò)測(cè)試發(fā)現(xiàn)圖片的鏈接存放在img標(biāo)簽的data-original屬性里,通過(guò)img.attrs['data-original']得到,再與'https:'進(jìn)行字符串拼接,得到完整圖片鏈接。

for img in imgs: 
           img_url = img.attrs['data-original'] 
           total_url = base_http_str + img_url 
           print(total_url) 
           # print('--'*60) 
           imgurllist.append(total_url)

4.提取保存數(shù)據(jù)

最后運(yùn)用urllib中的urlretrive方法,把圖片保存到本地。

def writeData(imgurllist): 
    for index,url in enumerate(imgurllist): 
        urllib.request.urlretrieve(url,'image/'+ '%s.png'%index) 
        print('第%s張圖片下載完成'%index)

04運(yùn)行爬蟲

運(yùn)行爬蟲代碼，效果如下：

圖片就下載完成了，不過(guò)運(yùn)用傳統(tǒng)方法有點(diǎn)慢，下次試試多線程，提升爬蟲效率。

責(zé)任編輯：武曉燕來(lái)源：菜J學(xué)Python

Python 爬取素材

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="uyvwv"></cite>