自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="khbi3"></sub>}

<s id="khbi3"></s>

<sub id="khbi3"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Python爬蟲實戰(zhàn)之豆瓣音樂、微打賞、陽光電影（附代碼）

作者：羅攀 2018-01-11 10:20:04

開發(fā) 后端

本文作者分享了通過Python代碼爬取豆瓣音樂、微打賞、陽光電影網(wǎng)站的過程，喜歡爬蟲的伙伴們過來看看吧。

一、豆瓣音樂

今天爬的是豆瓣音樂top250，比較簡單，主要是練練手。

1、加了請求頭，本來沒加，調(diào)試幾次突然沒數(shù)據(jù)了，加了請求頭開始也沒好，后來又好了，可能是網(wǎng)絡(luò)原因；

2、這次是進(jìn)入信息頁爬的數(shù)據(jù)，上次爬電影沒采用這種方法，缺少了部分?jǐn)?shù)據(jù)；

3、數(shù)據(jù)的預(yù)處理用了很多if函數(shù)

數(shù)據(jù)分析

1、部分?jǐn)?shù)據(jù)可以見上圖

2、中國音樂作者還是很多的。

3、隨著音樂設(shè)備和網(wǎng)絡(luò)的普及，流行音樂的發(fā)展，可以看出2000年后作品越來越多，到2010年又積極下滑（經(jīng)典就是經(jīng)典，無法吐槽現(xiàn)在的音樂）

4、風(fēng)格大家可以看出流行，搖滾，民謠占了一大半。

5、最后弄了一首周董的《不能說的秘密》做詞云，想想小時候都是回憶啊。

代碼片段

import requests 
import re 
from bs4 import BeautifulSoup 
import time 
import pymongo 
client = pymongo.MongoClient('localhost', 27017) 
douban = client['douban'] 
musictop = douban['musictop'] 
headers = {    
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36' 
} 
urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for  i  in  range ( 0 , 250 , 25 )] 
def  get_url_music ( url ): 
    wb_data  =  requests . get ( url , headers = headers ) 
    soup  =   BeautifulSoup ( wb_data . text , 'lxml' ) 
    music_hrefs  =  soup . select ( 'a.nbg' ) 
     
for  music_href  in  music_hrefs : 
        get_music_info ( music_href [ 'href' ]) 
        time . sleep ( 2 )

二、微打賞

網(wǎng)站分析

打開網(wǎng)站，翻頁網(wǎng)頁不變，看看是post的請求，很好辦，直接把參數(shù)懟進(jìn)去，這里只要切換page就能進(jìn)行翻頁。

json格式，這里post返回的是json數(shù)據(jù)，解析json數(shù)據(jù)就行，小技巧：看preview，解析起來嗖嗖噠。這里需要提取活動的名稱，id和參與打賞的人數(shù)。這個后面詳細(xì)頁用的到。

詳細(xì)頁，依舊是post，依舊是json數(shù)據(jù)，這里的參數(shù)pro_id為之前的爬取的id，這一頁20個信息，通過前面的參與打賞人數(shù)構(gòu)造出有多少頁，繼續(xù)懟參數(shù)。

代碼片段

import  requests 
 
import  json 
 
import  math 
 
def  get_sup_info (  url , page ): 
  
   params = { 
 
   'ajaxtype' : 1 ,          
 
   'page' : page ,          
 
   'category' : 1 ,          
 
   'pageSize' : 8     
 
  } 
 
   cookies = {         
 
   'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36' ,          
 
   'Cookie': 'acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com; 
 
    } 
 
    html = requests.post(url, data=params, headers=cookies) 
 
    json_data = json.loads(html.text) 
 
    des = json_data[' des '] 
 
    for data in des: 
 
        name = data['  name '] 
 
        id = data[' id '] 
 
        pay_count = data[' pay_count '] 
 
        all_page = math.ceil(int(pay_count)/20) 
 
        for i in range(1,int(all_page)+1): 
 
            get_app_info(i,id,name)

三、陽光電影

爬蟲分析

這里涉及跨頁的爬取，需要理清爬蟲的思路。首先打開網(wǎng)站，需爬取前11個分類的電影數(shù)據(jù),經(jīng)典影片格式不一樣，爬蟲時過濾掉了。

進(jìn)入電影列表頁后，正則爬取頁數(shù)和電影的分類標(biāo)簽，以此構(gòu)造分頁url，然后爬取電影的名字和url。

最后在詳細(xì)頁爬取電影的下載地址，爬取結(jié)果如下：

代碼片段

import requests 
 
import re 
 
from lxml import etree 
 
import csv 
 
def get_resource(url,cate_name,cate_url,movie_name): 
 
    res = requests.get(url)    
 
    res.encoding = 'gb2312' 
 
    html = etree.HTML(res.text) 
 
    movie_resource = html.xpath('//tbody//tr/td/a/text()')[0] 
 
    writer.writerow((cate_name,cate_url,movie_name,url,movie_resource))     
 
    print(movie_resource)

責(zé)任編輯：龐桂玉來源： Python中文社區(qū)

Python 爬蟲豆瓣音樂

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="4r1h8"></style>

<thead id="4r1h8"></thead>