我用Python爬了7W知乎用戶信息,終于捕獲了心儀小姐姐.....
雙十一就要來(lái)了,在舉國(guó)一片“買(mǎi)買(mǎi)買(mǎi)”的呼聲中,單身汪的咆哮聲也愈發(fā)凄厲了。
作為一個(gè) Python 程序員,要如何找到小姐姐,避開(kāi)暴擊傷害,在智中取勝呢?于是就有了以下的對(duì)話:
so~今天我們的目標(biāo)是,爬社區(qū)的小姐姐~而且,我們又要用到新的姿勢(shì)(霧)了~scrapy 爬蟲(chóng)框架~
本文主要講 scrapy 框架的原理和使用,建議至少在理解掌握 Python 爬蟲(chóng)原理后再使用框架(不要問(wèn)我為什么,我哭給你看)。
scrapy 原理
在寫(xiě)過(guò)幾個(gè)爬蟲(chóng)程序之后,我們就會(huì)知道,利用爬蟲(chóng)獲取數(shù)據(jù)大概的步驟:
- 請(qǐng)求網(wǎng)頁(yè)。
- 獲取網(wǎng)頁(yè)。
- 匹配信息。
- 下載數(shù)據(jù)。
- 數(shù)據(jù)清洗。
- 存入數(shù)據(jù)庫(kù)。
scrapy 是一個(gè)很有名的爬蟲(chóng)框架,可以很方便的進(jìn)行網(wǎng)頁(yè)信息爬取。那么 scrapy 到底是如何工作的呢?之前在網(wǎng)上看了不少 scrapy 入門(mén)的教程,大多數(shù)入門(mén)教程都配有這張圖。
也不知道是這張圖實(shí)在太經(jīng)典了,還是程序員們都懶得畫(huà)圖,我第一次看到這個(gè)圖的時(shí)候,心情是這樣的。
經(jīng)過(guò)了一番深入的理解,大概知道這幅圖的意思,讓我來(lái)舉個(gè)栗子(是的,我又要舉奇怪的栗子了):
scrapy 原理圖之我要吃好吃的
當(dāng)我們想吃東西的時(shí)候,我們會(huì)出門(mén),走到街上,尋找一家想吃的店,然后點(diǎn)餐,服務(wù)員再通知廚房去做,最后菜到餐桌上,或者被打包帶走。這就是爬蟲(chóng)程序在做的事,它要將所有獲取數(shù)據(jù)需要進(jìn)行的操作,都寫(xiě)好。
而 scrapy 就像一個(gè)點(diǎn)餐 APP 一般的存在,在訂餐列表(spiders)選取自己目標(biāo)餐廳里想吃的菜(items),在收貨(pipeline)處寫(xiě)上自己的收貨地址(存儲(chǔ)方式)。
點(diǎn)餐系統(tǒng)(scrapy engine)會(huì)根據(jù)訂餐情況要求商鋪(Internet)的廚房(download)將菜做好,由于會(huì)產(chǎn)生多個(gè)外賣(mài)取貨訂單(request),系統(tǒng)會(huì)根據(jù)派單(schedule)分配外賣(mài)小哥從廚房取貨(request)和送貨(response)。說(shuō)著說(shuō)著我都餓了。。。。
什么意思呢?在使用 scrapy 時(shí),我們只需要設(shè)置 spiders(想要爬取的內(nèi)容),pipeline(數(shù)據(jù)的清洗,數(shù)據(jù)的存儲(chǔ)方式),還有一個(gè) middlewares,是各功能間對(duì)接時(shí)的一些設(shè)置,就可以不用操心其他的過(guò)程,一切交給 scrapy模塊來(lái)完成。
創(chuàng)建 scrapy 工程
安裝 scrapy 之后,創(chuàng)建一個(gè)新項(xiàng)目:
- $ scrapy startproject zhihuxjj
我用的是 pycharm 編譯器,在 spiders 文件下創(chuàng)建 zhihuxjj.py。
在 zhihuxjj.py 這個(gè)文件中,我們要編寫(xiě)我們的爬取規(guī)則。
爬取規(guī)則制定(spider)
創(chuàng)建好了項(xiàng)目,讓我們來(lái)看一下我們要吃的店和菜…哦不,要爬的網(wǎng)站和數(shù)據(jù)。
我選用了知乎作為爬取平臺(tái),知乎是沒(méi)有用戶從 1 到 n 的序列 id 的,每個(gè)人可以設(shè)置自己的個(gè)人主頁(yè) id,且為唯一。
所以采選了一枚種子用戶,爬取他的關(guān)注者,也可以關(guān)注者和粉絲一起爬,考慮到粉絲中有些三無(wú)用戶,我僅選擇了爬取關(guān)注者列表,再通過(guò)關(guān)注者主頁(yè)爬取關(guān)注者的關(guān)注者,如此遞歸。
對(duì)于程序的設(shè)計(jì),是這樣的。
之后就是種子用戶的個(gè)人主頁(yè),知乎粉絲多的大 V 很多,但是關(guān)注多的人就比較難發(fā)現(xiàn)了,這里我選擇了知乎的黃繼新,聯(lián)合創(chuàng)始人,想必關(guān)注了不少優(yōu)質(zhì)用戶(???)?。
分析一下個(gè)人主頁(yè)可知,個(gè)人主頁(yè)由'https://www.zhihu.com/people/' + 用戶 id 組成。
我們要獲取的信息是用 callback 回調(diào)函數(shù)(敲黑板??!劃重點(diǎn)??!)的方式設(shè)計(jì),這里一共設(shè)計(jì)了倆個(gè)回調(diào)函數(shù):用戶的關(guān)注列表和關(guān)注者的個(gè)人信息。
使用 chrome 瀏覽器查看上圖的頁(yè)面可知獲取關(guān)注列表的 url,以及關(guān)注者的用戶 id。
將鼠標(biāo)放在用戶名上,如下圖:
可以獲得個(gè)人用戶信息的 url,分析 url 可知:
- 關(guān)注者列表鏈接構(gòu)成:'https://www.zhihu.com/api/v4/members/' + '用戶id' + '/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=0&limit=20'
- 個(gè)人信息鏈接構(gòu)成:'https://www.zhihu.com/api/v4/members/' + '用戶id' + '?include=allow_message%2Cis_followed%2Cis_following%2Cis_org%2Cis_blocking%2Cemployments%2Canswer_count%2Cfollower_count%2Carticles_count%2Cgender%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics'
so,我們?cè)谏弦还?jié)中創(chuàng)建的 zhihuxjj.py 文件中寫(xiě)入以下代碼:
- import json
- from zhihuxjj.items import ZhihuxjjItem
- from scrapy import Spider,Request
- class ZhihuxjjSpider(Spider):
- name='zhihuxjj' #scrapy用于區(qū)別其他spider的名字,具有唯一性。
- allowed_domains = ["www.zhihu.com"] #爬取范圍
- start_urls = ["https://www.zhihu.com/"]
- start_user = "jixin"
- followees_url = 'https://www.zhihu.com/api/v4/members/{user}/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset={offset}&limit=20' #關(guān)注列表網(wǎng)址
- user_url = 'https://www.zhihu.com/api/v4/members/{user}?include=locations,employments,gender,educations,business,voteup_count,thanked_Count,follower_count,following_count,cover_url,following_topic_count,following_question_count,following_favlists_count,following_columns_count,avatar_hue,answer_count,articles_count,pins_count,question_count,commercial_question_count,favorite_count,favorited_count,logs_count,marked_answers_count,marked_answers_text,message_thread_token,account_status,is_active,is_force_renamed,is_bind_sina,sina_weibo_url,sina_weibo_name,show_sina_weibo,is_blocking,is_blocked,is_following,is_followed,mutual_followees_count,vote_to_count,vote_from_count,thank_to_count,thank_from_count,thanked_count,description,hosted_live_count,participated_live_count,allow_message,industry_category,org_name,org_homepage,badge[?(type=best_answerer)].topics' #個(gè)人信息鏈接
- def start_requests(self):
- yield Request(self.followees_url.format(user=self.start_user,offset=0),callback=self.parse_fo) #回調(diào)種子用戶的關(guān)注列表
- yield Request(self.user_url.format(user=self.start_user,include = self.user_include),callback=self.parse_user) #回調(diào)種子用戶的個(gè)人信息
- def parse_user(self, response):
- result = json.loads(response.text)
- print(result)
- item = ZhihuxjjItem()
- item['user_name'] = result['name']
- item['sex'] = result['gender'] # gender為1是男,0是女,-1是未設(shè)置
- item['user_sign'] = result['headline']
- item['user_avatar'] = result['avatar_url_template'].format(size='xl')
- item['user_url'] = 'https://www.zhihu.com/people/' + result['url_token']
- if len(result['locations']):
- item['user_add'] = result['locations'][0]['name']
- else:
- item['user_add'] = ''
- yield item
- def parse_fo(self, response):
- results = json.loads(response.text)
- for result in results['data']:
- yield Request(self.user_url.format(user=result['url_token'], include=self.user_include),callback=self.parse_user)
- yield Request(self.followees_url.format(user=result['url_token'], offset=0),callback=self.parse_fo) # 對(duì)關(guān)注者的關(guān)注者進(jìn)行遍歷,爬取深度depth+=1
- if results['paging']['is_end'] is False: #關(guān)注列表頁(yè)是否為尾頁(yè)
- next_url = results['paging']['next'].replace('http','https')
- yield Request(next_url,callback=self.parse_fo)
- else:
- pass
這里需要?jiǎng)澲攸c(diǎn)的是 yield 的用法,以及 item['name'],將爬取結(jié)果賦值給 item,就是告訴系統(tǒng),這是我們要選的菜…啊呸…要爬的目標(biāo)數(shù)據(jù)。
設(shè)置其他信息
在 items.py 文件中,按照 spider 中設(shè)置的目標(biāo)數(shù)據(jù) item,添加對(duì)應(yīng)的代碼。
- import scrapy
- class ZhihuxjjItem(scrapy.Item):
- # define the fields for your item here like:
- # name = scrapy.Field()
- user_name = scrapy.Field()
- sex = scrapy.Field()
- user_sign = scrapy.Field()
- user_url = scrapy.Field()
- user_avatar = scrapy.Field()
- user_add = scrapy.Field()
- pass
在 pipeline.py 中添加存入數(shù)據(jù)庫(kù)的代碼:
- import pymysql
- def dbHandle():
- conn = pymysql.connect(
- host='localhost',
- user='root',
- passwd='數(shù)據(jù)庫(kù)密碼',
- charset='utf8',
- use_unicode=False
- )
- return conn
- class ZhihuxjjPipeline(object):
- def process_item(self, item, spider):
- dbObject = dbHandle() # 寫(xiě)入數(shù)據(jù)庫(kù)
- cursor = dbObject.cursor()
- sql = "insert into xiaojiejie.zhihu(user_name,sex,user_sign,user_avatar,user_url,user_add) values(%s,%s,%s,%s,%s,%s)"
- param = (item['user_name'],item['sex'],item['user_sign'],item['user_avatar'],item['user_url'],item['user_add'])
- try:
- cursor.execute(sql, param)
- dbObject.commit()
- except Exception as e:
- print(e)
- dbObject.rollback()
- return item
因?yàn)槭褂昧?pipeline.py,所以我們還需要在 setting.py 文件中,將 ITEM_PIPELINE 注釋解除,這里起到連接兩個(gè)文件的作用。
到這里,基本就都設(shè)置好了,程序基本上就可以跑了。
不過(guò)因?yàn)?scrapy 是遵循robots.txt法則的,所以讓我們來(lái)觀察一下知乎的法則:https://www.zhihu.com/robots.txt
emmmmmmm,看完法則了嗎,很好,然后我們?cè)趕etting.py中,將ROBOTSTXT_OBEY 改成 False。
好像…還忘了點(diǎn)什么,對(duì)了,忘記設(shè)置 headers 了。
通用的設(shè)置 headers 的方法同樣是在 setting.py 文件中,將 DEFAULTREQUESTHEADERS 的代碼注釋狀態(tài)取消,并設(shè)置模擬瀏覽器頭。
知乎是要模擬登錄的,如果使用游客方式登錄,就需要添加 authorization,至于這個(gè) authorization 是如何獲取的,我,就,不,告,訴,你......
- DEFAULT_REQUEST_HEADERS = {
- "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36",
- 'authorization': 'oauth c3cef7c66a1843f8b3a9e6a1e3160e20'
- }
為了減少服務(wù)器壓力&防止被封,解除 DOWNLOAD_DELAY 注釋狀態(tài),這時(shí)設(shè)置下載延遲,將下載延遲設(shè)為 3(robots 法則里要求是 10,但 10 實(shí)在太慢了_(:зゝ∠)知乎的程序員小哥哥看不見(jiàn)這句話看不見(jiàn)這句話…
寫(xiě)到這里你會(huì)發(fā)現(xiàn),很多我們需要進(jìn)行的操作,scrapy 都已經(jīng)寫(xiě)好了,只需要將注釋去掉,再稍作修改,就可以實(shí)現(xiàn)功能了。scrapy 框架還有很多功能,可以閱讀官方文檔了解。
運(yùn)行scrapy文件
寫(xiě)好 scrapy 程序后,我們可以在終端輸入。
- $ scrapy crawl zhihuxjj
運(yùn)行文件,但也可以在文件夾中添加 main.py,并添加以下代碼。
然后直接用 pycharm 運(yùn)行 main.py 文件即可,然后我們就可以愉快的爬知乎用戶啦~(小姐姐我來(lái)啦~)
查找小姐姐
經(jīng)過(guò)了 X 天的運(yùn)行,_(:зゝ∠)_爬到了 7w 條用戶數(shù)據(jù),爬取深度 5。(這爬取速度讓我覺(jué)得有必要上分布式爬蟲(chóng)了…這個(gè)改天再嘮)
有了數(shù)據(jù)我們就可以選擇,同城市的用戶進(jìn)行研究了……先國(guó)際慣例的分析一下數(shù)據(jù)。
知乎用戶性別分布
在 7w 用戶中,明顯男性超過(guò)了半數(shù),標(biāo)明自己是女性的用戶只占了 30% 左右,還有一部分沒(méi)有注明性別,優(yōu)質(zhì)的小姐姐還是稀缺資源呀~
再來(lái)看看小姐姐們都在哪個(gè)城市。(從 7w 用戶中篩選出性別女且地址信息不為空的用戶)
知乎女性用戶位置分布
看來(lái)小姐姐們還是集中在北上廣深杭的,所以想發(fā)現(xiàn)優(yōu)質(zhì)小姐姐的男孩紙們還是要向一線看齊啊,當(dāng)然也不排除在二三線的小姐姐們沒(méi)有標(biāo)記出自己的地理位置。
emmmmm……這次的分析,就到此為止,你們可以去撩小姐姐們了。
研究小姐姐
意不意外?開(kāi)不開(kāi)心?這里還有一章。正所謂,授之以魚(yú),不如授之以漁;撒了心靈雞湯,還得加一只心靈雞腿;找到了小姐姐,我們還要了解小姐姐…………
讓我再舉個(gè)栗子~來(lái)研究一個(gè)小姐姐。(知乎名:動(dòng)次,已獲取小姐姐授權(quán)作為示例。)
知乎用戶:動(dòng)次
讓我們來(lái)爬一下她的動(dòng)態(tài),chrome 右鍵檢查翻 network 這些套路我就不說(shuō)了,直接講研究目標(biāo)。
- 贊同的答案和文章(了解小姐姐的興趣點(diǎn))
- 發(fā)布的答案和文章(了解小姐姐的世界觀、人生觀、價(jià)值觀)
- 關(guān)注的問(wèn)題和收藏夾(了解小姐姐需求)
- 提出的問(wèn)題(了解小姐姐的疑惑)
代碼也不貼了,會(huì)放在 GitHub 的,來(lái)看一下輸出。
研究動(dòng)次的結(jié)果輸出
因?yàn)槟愫躏L(fēng)格,所以對(duì)停用詞進(jìn)行了一些加工,添加了“如何”、“看待”、“體驗(yàn)”等詞語(yǔ),得到了小姐姐回答問(wèn)題的詞頻。小姐姐的回答里出現(xiàn)了喜歡、朋友、爺爺?shù)仍~語(yǔ)。
動(dòng)次回答問(wèn)題的詞頻
還有?。≡陉P(guān)注、贊同和輸出中,都有的詞(?ω?)。(是不是可以靠美味捕獲小姐姐呢……
再來(lái)一張劉看山背景的,答題詞云。
動(dòng)次的回答問(wèn)題詞云
后記
本文涉及項(xiàng)目會(huì)持續(xù)更新,會(huì)將研究對(duì)象拓展至各平臺(tái),并進(jìn)行后續(xù)優(yōu)化,有興趣的盆友可以關(guān)注 GitHub 項(xiàng)目。
結(jié)尾引用知乎用戶陳壯壯在《當(dāng)你追求女生時(shí),你們聊些什么?》的回答。(因?yàn)楦F我就不申請(qǐng)轉(zhuǎn)載了你們自己點(diǎn)進(jìn)去看吧(?﹏?),你們只要知道我有顆帶你們撩妹的心就行了)
安裝scrapy:
http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html
pycharm編譯器:
http://www.jianshu.com/p/23e52f7b8ec7
回調(diào)函數(shù):
https://www.zhihu.com/question/19801131
yield的用法:
https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/
robots.txt法則:
scrapy官方文檔:
http://scrapy-chs.readthedocs.io/zh_CN/1.0/index.html
動(dòng)次:https://www.zhihu.com/people/wang-dong-ci/activities
GitHub項(xiàng)目:
https://github.com/otakurice/danshengoustyle
當(dāng)你追求女生時(shí),你們聊些什么?