自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

10行代碼爬取微信公眾號(hào)文章評(píng)論

作者：劉志軍 2017-08-01 17:02:19

開(kāi)發(fā) 開(kāi)發(fā)工具

10 行代碼就能把公眾號(hào)文章評(píng)論爬下來(lái)，有點(diǎn)聳人聽(tīng)聞？如果我跟你說(shuō)是用 Python 實(shí)現(xiàn)的，你可能會(huì)信了，因?yàn)?Python 確實(shí)很強(qiáng)大，寫(xiě)個(gè)簡(jiǎn)單爬蟲(chóng)真的只要幾行代碼就可以搞定，這次爬的是微信的數(shù)據(jù)，相對(duì)來(lái)說(shuō)要麻煩一點(diǎn)

10 行代碼就能把公眾號(hào)文章評(píng)論爬下來(lái)，有點(diǎn)聳人聽(tīng)聞?如果我跟你說(shuō)是用 Python 實(shí)現(xiàn)的，你可能會(huì)信了，因?yàn)?Python 確實(shí)很強(qiáng)大，寫(xiě)個(gè)簡(jiǎn)單爬蟲(chóng)真的只要幾行代碼就可以搞定，這次爬的是微信的數(shù)據(jù)，相對(duì)來(lái)說(shuō)要麻煩一點(diǎn)。這里討論的是如何爬自己公眾號(hào)下面文章的評(píng)論，有人說(shuō)別人文章能抓取嗎?理論上都可以，但凡是你能看到的都可以爬，不過(guò)，這篇文章討論的是自己文章，思路都是相通的，希望本文可以給你一些啟迪。

1. 獲取Cookie

因?yàn)槭桥雷约何⑿盘?hào)文章里面的評(píng)論，首先你需要登錄公眾號(hào)后臺(tái)，登錄后才能看到文章的評(píng)論，登錄就會(huì)涉及到 cookie，發(fā)起請(qǐng)求時(shí)只有帶上 cookie 才能得到正確的數(shù)據(jù)。所以***步就是把 cookie 信息取到。

打開(kāi) Chrome 瀏覽器你會(huì)看到發(fā)送請(qǐng)求時(shí)會(huì)自動(dòng)把 Cookie 信息發(fā)送給微信，我們就把這段 Cookie 數(shù)據(jù)拷貝出來(lái)，用 Python 構(gòu)建一個(gè) Cookie 對(duì)象，給 requests 使用。

from http.cookies import SimpleCookie 
raw_cookie = "gsScrollPos-5517=; ..中間還省略很多... bizuin=2393828" 
 
cookie = SimpleCookie(raw_cookie) 
requests_cookies = dict([(c, cookie[c].value) for c in cookie]) 
 
r = requests.get(url, cookies=requests_cookies)

2. 構(gòu)造URL

打開(kāi)任意文章的評(píng)論列表，你會(huì)發(fā)現(xiàn)它的 URL 結(jié)構(gòu)非常清晰，根據(jù)名字基本能判斷每個(gè)參數(shù)的意義，這里比較重要的參數(shù)是 begin，它是作為分頁(yè)的起始位置，其實(shí)它固定不變就好

url = "https://mp.weixin.qq.com/misc/appmsgcomment?" \ 
                 "action=list_comment&" \ 
                 "mp_version=7&" \ 
                 "type=0&" \ 
                 "comment_id=2881104117&" \ # 被評(píng)論的文章ID 
                 "begin=0&" \  # 分頁(yè)參數(shù) 
                 "count=10&" \ # 每次返回10條評(píng)論 
                 "token=1300595798&" \ 
                 "lang=zh_CN"

3. 抓取數(shù)據(jù)

把 Cookie 和 URL 都搞清楚了，就可以把模擬瀏覽器抓取數(shù)據(jù)并進(jìn)行清洗，開(kāi)始想著用 BeautifulSoup 來(lái)解析網(wǎng)頁(yè)，結(jié)果失敗了。

查找了原因，把爬下來(lái)的頁(yè)面另存為 html 文件，在 html 源代碼文件中找留言里面的關(guān)鍵字，發(fā)現(xiàn)評(píng)論并沒(méi)有在 div 標(biāo)簽中，而是存在于一段 JS 代碼塊中，看起來(lái)像 JSON 數(shù)據(jù)，看來(lái)數(shù)據(jù)是在本地用 JavaScript 渲染后顯示的。

于是改用正則表達(dá)式，截取需要的數(shù)據(jù)，最終存儲(chǔ)數(shù)據(jù)庫(kù)，差不多10代碼搞定。

def main(): 
    # 普通留言, 精選留言總數(shù) 
    normal_count, selected_count = 141, 100 
    # 普通留言u(píng)rl 
    normal_url = "https://mp.weixin.qq.com/misc/appmsgcomment?" 
    dd = dict([(normal_count, selected_url)]) 
 
    for k, v in dd.items(): 
        crawler(k, v) 
 
def crawler(count, url): 
    for i in range(0, count, 10): 
        r = requests.get(url.format(begin=i), cookies=requests_cookies) 
        match = re.search(r'"comment":(\[\{.*\}\])', r.text, re.S) 
        if match: 
            data = json.loads(match.group(1), encoding="utf-8") 
            conn.insert_many(data) 
        time.sleep(1)

【本文是51CTO專欄作者“劉志軍”的原創(chuàng)文章，作者微信公眾號(hào)：Python之禪(VTtalk)】

戳這里，看該作者更多好文

責(zé)任編輯：趙寧寧來(lái)源： 51CTO專欄

代碼 Python 數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="4f8ej"></sub>