自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="bkeds"><p id="bkeds"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

我用Python爬了7W知乎用戶信息，終于捕獲了心儀小姐姐.....

作者：大吉大利小米醬 2017-11-10 14:12:35

開(kāi)發(fā) 后端

本文主要講 scrapy 框架的原理和使用，建議至少在理解掌握 Python 爬蟲(chóng)原理后再使用框架(不要問(wèn)我為什么，我哭給你看)。

雙十一就要來(lái)了，在舉國(guó)一片“買(mǎi)買(mǎi)買(mǎi)”的呼聲中，單身汪的咆哮聲也愈發(fā)凄厲了。

作為一個(gè) Python 程序員，要如何找到小姐姐，避開(kāi)暴擊傷害，在智中取勝呢？于是就有了以下的對(duì)話：

so~今天我們的目標(biāo)是，爬社區(qū)的小姐姐~而且，我們又要用到新的姿勢(shì)(霧)了~scrapy 爬蟲(chóng)框架~

本文主要講 scrapy 框架的原理和使用，建議至少在理解掌握 Python 爬蟲(chóng)原理后再使用框架(不要問(wèn)我為什么，我哭給你看)。

scrapy 原理

在寫(xiě)過(guò)幾個(gè)爬蟲(chóng)程序之后，我們就會(huì)知道，利用爬蟲(chóng)獲取數(shù)據(jù)大概的步驟：

請(qǐng)求網(wǎng)頁(yè)。
獲取網(wǎng)頁(yè)。
匹配信息。
下載數(shù)據(jù)。
數(shù)據(jù)清洗。
存入數(shù)據(jù)庫(kù)。

scrapy 是一個(gè)很有名的爬蟲(chóng)框架，可以很方便的進(jìn)行網(wǎng)頁(yè)信息爬取。那么 scrapy 到底是如何工作的呢？之前在網(wǎng)上看了不少 scrapy 入門(mén)的教程，大多數(shù)入門(mén)教程都配有這張圖。

也不知道是這張圖實(shí)在太經(jīng)典了，還是程序員們都懶得畫(huà)圖，我第一次看到這個(gè)圖的時(shí)候，心情是這樣的。

經(jīng)過(guò)了一番深入的理解，大概知道這幅圖的意思，讓我來(lái)舉個(gè)栗子(是的，我又要舉奇怪的栗子了)：

scrapy 原理圖之我要吃好吃的

當(dāng)我們想吃東西的時(shí)候，我們會(huì)出門(mén)，走到街上，尋找一家想吃的店，然后點(diǎn)餐，服務(wù)員再通知廚房去做，最后菜到餐桌上，或者被打包帶走。這就是爬蟲(chóng)程序在做的事，它要將所有獲取數(shù)據(jù)需要進(jìn)行的操作，都寫(xiě)好。

而 scrapy 就像一個(gè)點(diǎn)餐 APP 一般的存在，在訂餐列表(spiders)選取自己目標(biāo)餐廳里想吃的菜(items)，在收貨(pipeline)處寫(xiě)上自己的收貨地址(存儲(chǔ)方式)。

點(diǎn)餐系統(tǒng)(scrapy engine)會(huì)根據(jù)訂餐情況要求商鋪(Internet)的廚房(download)將菜做好，由于會(huì)產(chǎn)生多個(gè)外賣(mài)取貨訂單(request)，系統(tǒng)會(huì)根據(jù)派單(schedule)分配外賣(mài)小哥從廚房取貨(request)和送貨(response)。說(shuō)著說(shuō)著我都餓了。。。。

什么意思呢？在使用 scrapy 時(shí)，我們只需要設(shè)置 spiders(想要爬取的內(nèi)容)，pipeline(數(shù)據(jù)的清洗，數(shù)據(jù)的存儲(chǔ)方式)，還有一個(gè) middlewares，是各功能間對(duì)接時(shí)的一些設(shè)置，就可以不用操心其他的過(guò)程，一切交給 scrapy模塊來(lái)完成。

創(chuàng)建 scrapy 工程

安裝 scrapy 之后，創(chuàng)建一個(gè)新項(xiàng)目：

$ scrapy startproject zhihuxjj

我用的是 pycharm 編譯器，在 spiders 文件下創(chuàng)建 zhihuxjj.py。

在 zhihuxjj.py 這個(gè)文件中，我們要編寫(xiě)我們的爬取規(guī)則。

爬取規(guī)則制定(spider)

創(chuàng)建好了項(xiàng)目，讓我們來(lái)看一下我們要吃的店和菜…哦不，要爬的網(wǎng)站和數(shù)據(jù)。

我選用了知乎作為爬取平臺(tái)，知乎是沒(méi)有用戶從 1 到 n 的序列 id 的，每個(gè)人可以設(shè)置自己的個(gè)人主頁(yè) id，且為唯一。

所以采選了一枚種子用戶，爬取他的關(guān)注者，也可以關(guān)注者和粉絲一起爬，考慮到粉絲中有些三無(wú)用戶，我僅選擇了爬取關(guān)注者列表，再通過(guò)關(guān)注者主頁(yè)爬取關(guān)注者的關(guān)注者，如此遞歸。

對(duì)于程序的設(shè)計(jì)，是這樣的。

之后就是種子用戶的個(gè)人主頁(yè)，知乎粉絲多的大 V 很多，但是關(guān)注多的人就比較難發(fā)現(xiàn)了，這里我選擇了知乎的黃繼新，聯(lián)合創(chuàng)始人，想必關(guān)注了不少優(yōu)質(zhì)用戶(???)?。

分析一下個(gè)人主頁(yè)可知，個(gè)人主頁(yè)由'https://www.zhihu.com/people/' + 用戶 id 組成。

我們要獲取的信息是用 callback 回調(diào)函數(shù)(敲黑板??！劃重點(diǎn)??！)的方式設(shè)計(jì)，這里一共設(shè)計(jì)了倆個(gè)回調(diào)函數(shù)：用戶的關(guān)注列表和關(guān)注者的個(gè)人信息。

使用 chrome 瀏覽器查看上圖的頁(yè)面可知獲取關(guān)注列表的 url，以及關(guān)注者的用戶 id。

將鼠標(biāo)放在用戶名上，如下圖：

可以獲得個(gè)人用戶信息的 url，分析 url 可知：

關(guān)注者列表鏈接構(gòu)成：'https://www.zhihu.com/api/v4/members/' + '用戶id' + '/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=0&limit=20' 
個(gè)人信息鏈接構(gòu)成：'https://www.zhihu.com/api/v4/members/' + '用戶id' + '?include=allow_message%2Cis_followed%2Cis_following%2Cis_org%2Cis_blocking%2Cemployments%2Canswer_count%2Cfollower_count%2Carticles_count%2Cgender%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics'

so，我們?cè)谏弦还?jié)中創(chuàng)建的 zhihuxjj.py 文件中寫(xiě)入以下代碼：

import json 
from zhihuxjj.items import ZhihuxjjItem 
from scrapy import Spider,Request 
 
class ZhihuxjjSpider(Spider): 
    name='zhihuxjj' #scrapy用于區(qū)別其他spider的名字，具有唯一性。 
    allowed_domains = ["www.zhihu.com"] #爬取范圍 
    start_urls = ["https://www.zhihu.com/"] 
    start_user = "jixin" 
    followees_url = 'https://www.zhihu.com/api/v4/members/{user}/followees?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset={offset}&limit=20' #關(guān)注列表網(wǎng)址 
    user_url = 'https://www.zhihu.com/api/v4/members/{user}?include=locations,employments,gender,educations,business,voteup_count,thanked_Count,follower_count,following_count,cover_url,following_topic_count,following_question_count,following_favlists_count,following_columns_count,avatar_hue,answer_count,articles_count,pins_count,question_count,commercial_question_count,favorite_count,favorited_count,logs_count,marked_answers_count,marked_answers_text,message_thread_token,account_status,is_active,is_force_renamed,is_bind_sina,sina_weibo_url,sina_weibo_name,show_sina_weibo,is_blocking,is_blocked,is_following,is_followed,mutual_followees_count,vote_to_count,vote_from_count,thank_to_count,thank_from_count,thanked_count,description,hosted_live_count,participated_live_count,allow_message,industry_category,org_name,org_homepage,badge[?(type=best_answerer)].topics' #個(gè)人信息鏈接 
    def start_requests(self): 
        yield Request(self.followees_url.format(user=self.start_user,offset=0),callback=self.parse_fo) #回調(diào)種子用戶的關(guān)注列表 
        yield Request(self.user_url.format(user=self.start_user,include = self.user_include),callback=self.parse_user) #回調(diào)種子用戶的個(gè)人信息 
 
    def parse_user(self, response): 
        result = json.loads(response.text) 
        print(result) 
        item = ZhihuxjjItem() 
        item['user_name'] = result['name'] 
        item['sex'] = result['gender']  # gender為1是男，0是女，-1是未設(shè)置 
        item['user_sign'] = result['headline'] 
        item['user_avatar'] = result['avatar_url_template'].format(size='xl') 
        item['user_url'] = 'https://www.zhihu.com/people/' + result['url_token'] 
        if len(result['locations']): 
            item['user_add'] = result['locations'][0]['name'] 
        else: 
            item['user_add'] = '' 
        yield item 
 
    def parse_fo(self, response): 
        results = json.loads(response.text) 
        for result in results['data']: 
            yield Request(self.user_url.format(user=result['url_token'], include=self.user_include),callback=self.parse_user) 
            yield Request(self.followees_url.format(user=result['url_token'], offset=0),callback=self.parse_fo)  # 對(duì)關(guān)注者的關(guān)注者進(jìn)行遍歷，爬取深度depth+=1 
        if results['paging']['is_end'] is False: #關(guān)注列表頁(yè)是否為尾頁(yè) 
            next_url = results['paging']['next'].replace('http','https') 
            yield Request(next_url,callback=self.parse_fo) 
        else: 
            pass

這里需要?jiǎng)澲攸c(diǎn)的是 yield 的用法，以及 item['name']，將爬取結(jié)果賦值給 item，就是告訴系統(tǒng)，這是我們要選的菜…啊呸…要爬的目標(biāo)數(shù)據(jù)。

設(shè)置其他信息

在 items.py 文件中，按照 spider 中設(shè)置的目標(biāo)數(shù)據(jù) item，添加對(duì)應(yīng)的代碼。

import scrapy 
 
class ZhihuxjjItem(scrapy.Item): 
   # define the fields for your item here like: 
   # name = scrapy.Field() 
   user_name = scrapy.Field() 
   sex  = scrapy.Field() 
   user_sign = scrapy.Field() 
   user_url = scrapy.Field() 
   user_avatar = scrapy.Field() 
   user_add = scrapy.Field() 
   pass

在 pipeline.py 中添加存入數(shù)據(jù)庫(kù)的代碼：

import pymysql 
 
def dbHandle(): 
    conn = pymysql.connect( 
        host='localhost', 
        user='root', 
        passwd='數(shù)據(jù)庫(kù)密碼', 
        charset='utf8', 
        use_unicode=False 
    ) 
    return conn 
 
class ZhihuxjjPipeline(object): 
    def process_item(self, item, spider): 
        dbObject = dbHandle()  # 寫(xiě)入數(shù)據(jù)庫(kù) 
        cursor = dbObject.cursor() 
        sql = "insert into xiaojiejie.zhihu(user_name,sex,user_sign,user_avatar,user_url,user_add) values(%s,%s,%s,%s,%s,%s)" 
        param = (item['user_name'],item['sex'],item['user_sign'],item['user_avatar'],item['user_url'],item['user_add']) 
        try: 
            cursor.execute(sql, param) 
            dbObject.commit() 
        except Exception as e: 
            print(e) 
            dbObject.rollback() 
        return item

因?yàn)槭褂昧?pipeline.py，所以我們還需要在 setting.py 文件中，將 ITEM_PIPELINE 注釋解除，這里起到連接兩個(gè)文件的作用。

到這里，基本就都設(shè)置好了，程序基本上就可以跑了。

不過(guò)因?yàn)?scrapy 是遵循robots.txt法則的，所以讓我們來(lái)觀察一下知乎的法則：https://www.zhihu.com/robots.txt

emmmmmmm，看完法則了嗎，很好，然后我們?cè)趕etting.py中，將ROBOTSTXT_OBEY 改成 False。

好像…還忘了點(diǎn)什么，對(duì)了，忘記設(shè)置 headers 了。

通用的設(shè)置 headers 的方法同樣是在 setting.py 文件中，將 DEFAULTREQUESTHEADERS 的代碼注釋狀態(tài)取消，并設(shè)置模擬瀏覽器頭。

知乎是要模擬登錄的，如果使用游客方式登錄，就需要添加 authorization，至于這個(gè) authorization 是如何獲取的，我，就，不，告，訴，你......

DEFAULT_REQUEST_HEADERS = { 
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36", 
    'authorization': 'oauth c3cef7c66a1843f8b3a9e6a1e3160e20' 
}

為了減少服務(wù)器壓力&防止被封，解除 DOWNLOAD_DELAY 注釋狀態(tài)，這時(shí)設(shè)置下載延遲，將下載延遲設(shè)為 3(robots 法則里要求是 10，但 10 實(shí)在太慢了_(:зゝ∠)知乎的程序員小哥哥看不見(jiàn)這句話看不見(jiàn)這句話…

寫(xiě)到這里你會(huì)發(fā)現(xiàn)，很多我們需要進(jìn)行的操作，scrapy 都已經(jīng)寫(xiě)好了，只需要將注釋去掉，再稍作修改，就可以實(shí)現(xiàn)功能了。scrapy 框架還有很多功能，可以閱讀官方文檔了解。

運(yùn)行scrapy文件

寫(xiě)好 scrapy 程序后，我們可以在終端輸入。

$ scrapy crawl zhihuxjj

運(yùn)行文件，但也可以在文件夾中添加 main.py，并添加以下代碼。

然后直接用 pycharm 運(yùn)行 main.py 文件即可，然后我們就可以愉快的爬知乎用戶啦~(小姐姐我來(lái)啦~）

查找小姐姐

經(jīng)過(guò)了 X 天的運(yùn)行，_(:зゝ∠)_爬到了 7w 條用戶數(shù)據(jù)，爬取深度 5。(這爬取速度讓我覺(jué)得有必要上分布式爬蟲(chóng)了…這個(gè)改天再嘮)

有了數(shù)據(jù)我們就可以選擇，同城市的用戶進(jìn)行研究了……先國(guó)際慣例的分析一下數(shù)據(jù)。

知乎用戶性別分布

在 7w 用戶中，明顯男性超過(guò)了半數(shù)，標(biāo)明自己是女性的用戶只占了 30% 左右，還有一部分沒(méi)有注明性別，優(yōu)質(zhì)的小姐姐還是稀缺資源呀~

再來(lái)看看小姐姐們都在哪個(gè)城市。(從 7w 用戶中篩選出性別女且地址信息不為空的用戶)

知乎女性用戶位置分布

看來(lái)小姐姐們還是集中在北上廣深杭的，所以想發(fā)現(xiàn)優(yōu)質(zhì)小姐姐的男孩紙們還是要向一線看齊啊，當(dāng)然也不排除在二三線的小姐姐們沒(méi)有標(biāo)記出自己的地理位置。

emmmmm……這次的分析，就到此為止，你們可以去撩小姐姐們了。

研究小姐姐

意不意外？開(kāi)不開(kāi)心？這里還有一章。正所謂，授之以魚(yú)，不如授之以漁；撒了心靈雞湯，還得加一只心靈雞腿；找到了小姐姐，我們還要了解小姐姐…………

讓我再舉個(gè)栗子~來(lái)研究一個(gè)小姐姐。(知乎名：動(dòng)次，已獲取小姐姐授權(quán)作為示例。)

知乎用戶：動(dòng)次

讓我們來(lái)爬一下她的動(dòng)態(tài)，chrome 右鍵檢查翻 network 這些套路我就不說(shuō)了，直接講研究目標(biāo)。

贊同的答案和文章(了解小姐姐的興趣點(diǎn))
發(fā)布的答案和文章(了解小姐姐的世界觀、人生觀、價(jià)值觀)
關(guān)注的問(wèn)題和收藏夾(了解小姐姐需求)
提出的問(wèn)題(了解小姐姐的疑惑)

代碼也不貼了，會(huì)放在 GitHub 的，來(lái)看一下輸出。

研究動(dòng)次的結(jié)果輸出

因?yàn)槟愫躏L(fēng)格，所以對(duì)停用詞進(jìn)行了一些加工，添加了“如何”、“看待”、“體驗(yàn)”等詞語(yǔ)，得到了小姐姐回答問(wèn)題的詞頻。小姐姐的回答里出現(xiàn)了喜歡、朋友、爺爺?shù)仍~語(yǔ)。

動(dòng)次回答問(wèn)題的詞頻

還有?。≡陉P(guān)注、贊同和輸出中，都有的詞(?ω?)。(是不是可以靠美味捕獲小姐姐呢……

再來(lái)一張劉看山背景的，答題詞云。

動(dòng)次的回答問(wèn)題詞云

后記

本文涉及項(xiàng)目會(huì)持續(xù)更新，會(huì)將研究對(duì)象拓展至各平臺(tái)，并進(jìn)行后續(xù)優(yōu)化，有興趣的盆友可以關(guān)注 GitHub 項(xiàng)目。

結(jié)尾引用知乎用戶陳壯壯在《當(dāng)你追求女生時(shí)，你們聊些什么？》的回答。(因?yàn)楦F我就不申請(qǐng)轉(zhuǎn)載了你們自己點(diǎn)進(jìn)去看吧(?﹏?)，你們只要知道我有顆帶你們撩妹的心就行了)

安裝scrapy：

http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/install.html

pycharm編譯器：

http://www.jianshu.com/p/23e52f7b8ec7

回調(diào)函數(shù)：

https://www.zhihu.com/question/19801131

yield的用法：

https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/

robots.txt法則：

https://baike.baidu.com/item/robots%E5%8D%8F%E8%AE%AE/2483797?fr=aladdin&fromid=9518761&fromtitle=robots.txt

scrapy官方文檔：

http://scrapy-chs.readthedocs.io/zh_CN/1.0/index.html

動(dòng)次：https://www.zhihu.com/people/wang-dong-ci/activities

GitHub項(xiàng)目：

https://github.com/otakurice/danshengoustyle

當(dāng)你追求女生時(shí)，你們聊些什么?

https://www.zhihu.com/question/25955712/answer/37668446

責(zé)任編輯：武曉燕來(lái)源：知乎專欄

Python 用戶信息

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="gms6i"></cite>