Python爬蟲實戰(zhàn)之豆瓣音樂、微打賞、陽光電影(附代碼)
一、豆瓣音樂
今天爬的是豆瓣音樂top250,比較簡單,主要是練練手。
1、加了請求頭,本來沒加,調(diào)試幾次突然沒數(shù)據(jù)了,加了請求頭開始也沒好,后來又好了,可能是網(wǎng)絡(luò)原因;
2、這次是進(jìn)入信息頁爬的數(shù)據(jù),上次爬電影沒采用這種方法,缺少了部分?jǐn)?shù)據(jù);
3、數(shù)據(jù)的預(yù)處理用了很多if函數(shù)
數(shù)據(jù)分析
1、部分?jǐn)?shù)據(jù)可以見上圖
2、中國音樂作者還是很多的。
3、隨著音樂設(shè)備和網(wǎng)絡(luò)的普及,流行音樂的發(fā)展,可以看出2000年后作品越來越多,到2010年又積極下滑(經(jīng)典就是經(jīng)典,無法吐槽現(xiàn)在的音樂)
4、風(fēng)格大家可以看出流行,搖滾,民謠占了一大半。
5、最后弄了一首周董的《不能說的秘密》做詞云,想想小時候都是回憶啊。
代碼片段
- import requests
- import re
- from bs4 import BeautifulSoup
- import time
- import pymongo
- client = pymongo.MongoClient('localhost', 27017)
- douban = client['douban']
- musictop = douban['musictop']
- headers = {
- 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
- }
- urls = ['https://music.douban.com/top250?start={}'.format(str(i)) for i in range ( 0 , 250 , 25 )]
- def get_url_music ( url ):
- wb_data = requests . get ( url , headers = headers )
- soup = BeautifulSoup ( wb_data . text , 'lxml' )
- music_hrefs = soup . select ( 'a.nbg' )
- for music_href in music_hrefs :
- get_music_info ( music_href [ 'href' ])
- time . sleep ( 2 )
二、微打賞
網(wǎng)站分析
打開網(wǎng)站,翻頁網(wǎng)頁不變,看看是post的請求,很好辦,直接把參數(shù)懟進(jìn)去,這里只要切換page就能進(jìn)行翻頁。
json格式,這里post返回的是json數(shù)據(jù),解析json數(shù)據(jù)就行,小技巧:看preview,解析起來嗖嗖噠。這里需要提取活動的名稱,id和參與打賞的人數(shù)。這個后面詳細(xì)頁用的到。
詳細(xì)頁,依舊是post,依舊是json數(shù)據(jù),這里的參數(shù)pro_id為之前的爬取的id,這一頁20個信息,通過前面的參與打賞人數(shù)構(gòu)造出有多少頁,繼續(xù)懟參數(shù)。
代碼片段
- import requests
- import json
- import math
- def get_sup_info ( url , page ):
- params = {
- 'ajaxtype' : 1 ,
- 'page' : page ,
- 'category' : 1 ,
- 'pageSize' : 8
- }
- cookies = {
- 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36' ,
- 'Cookie': 'acw_tc=AQAAAKLQ3U/WTAYAggq7PZ24WOlm9vQW; PHPSESSID=r0nbvk7hppjftegk4fpt9cu535; _uab_collina=150094753858198811653567; mdswv=v1.0; mdsa=MD-STICS-5976a44746eca; mdss=6-o; mdsf=md; mdsff=www_so_com;
- }
- html = requests.post(url, data=params, headers=cookies)
- json_data = json.loads(html.text)
- des = json_data[' des ']
- for data in des:
- name = data[' name ']
- id = data[' id ']
- pay_count = data[' pay_count ']
- all_page = math.ceil(int(pay_count)/20)
- for i in range(1,int(all_page)+1):
- get_app_info(i,id,name)
三、陽光電影
爬蟲分析
這里涉及跨頁的爬取,需要理清爬蟲的思路。首先打開網(wǎng)站,需爬取前11個分類的電影數(shù)據(jù),經(jīng)典影片格式不一樣,爬蟲時過濾掉了。
進(jìn)入電影列表頁后,正則爬取頁數(shù)和電影的分類標(biāo)簽,以此構(gòu)造分頁url,然后爬取電影的名字和url。
最后在詳細(xì)頁爬取電影的下載地址,爬取結(jié)果如下:
代碼片段
- import requests
- import re
- from lxml import etree
- import csv
- def get_resource(url,cate_name,cate_url,movie_name):
- res = requests.get(url)
- res.encoding = 'gb2312'
- html = etree.HTML(res.text)
- movie_resource = html.xpath('//tbody//tr/td/a/text()')[0]
- writer.writerow((cate_name,cate_url,movie_name,url,movie_resource))
- print(movie_resource)