自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<acronym id="z0tfo"><td id="z0tfo"></td></acronym>

<tfoot id="z0tfo"></tfoot>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一篇文章教會(huì)你使用Python定時(shí)抓取微博評(píng)論

作者： IT共享者 2020-12-10 08:20:27

開發(fā) 后端

試想一個(gè)問(wèn)題，如果我們要抓取某個(gè)微博大V微博的評(píng)論數(shù)據(jù)，應(yīng)該怎么實(shí)現(xiàn)呢?最簡(jiǎn)單的做法就是找到微博評(píng)論數(shù)據(jù)接口，然后通過(guò)改變參數(shù)來(lái)獲取最新數(shù)據(jù)并保存。首先從微博api尋找抓取評(píng)論的接口。

【Part1——理論篇】

試想一個(gè)問(wèn)題，如果我們要抓取某個(gè)微博大V微博的評(píng)論數(shù)據(jù)，應(yīng)該怎么實(shí)現(xiàn)呢?最簡(jiǎn)單的做法就是找到微博評(píng)論數(shù)據(jù)接口，然后通過(guò)改變參數(shù)來(lái)獲取最新數(shù)據(jù)并保存。首先從微博api尋找抓取評(píng)論的接口，如下圖所示。

但是很不幸，該接口頻率受限，抓不了幾次就被禁了，還沒有開始起飛，就涼涼了。

接下來(lái)小編又選擇微博的移動(dòng)端網(wǎng)站，先登錄，然后找到我們想要抓取評(píng)論的微博，打開瀏覽器自帶流量分析工具，一直下拉評(píng)論，找到評(píng)論數(shù)據(jù)接口，如下圖所示。

之后點(diǎn)擊“參數(shù)”選項(xiàng)卡，可以看到參數(shù)為下圖所示的內(nèi)容：

可以看到總共有4個(gè)參數(shù)，其中第1、2個(gè)參數(shù)為該條微博的id，就像人的身份證號(hào)一樣，這個(gè)相當(dāng)于該條微博的“身份證號(hào)”，max_id是變換頁(yè)碼的參數(shù)，每次都要變化，下次的max_id參數(shù)值在本次請(qǐng)求的返回?cái)?shù)據(jù)中。

【Part2——實(shí)戰(zhàn)篇】

有了上文的基礎(chǔ)之后，下面我們開始擼代碼，使用Python進(jìn)行實(shí)現(xiàn)。

1、首先區(qū)分url，第一次不需要max_id,第二次需要用第一次返回的max_id。

2、請(qǐng)求的時(shí)候需要帶上cookie數(shù)據(jù)，微博cookie的有效期比較長(zhǎng)，足夠抓一條微博的評(píng)論數(shù)據(jù)了，cookie數(shù)據(jù)可以從瀏覽器分析工具中找到。

3、然后將返回?cái)?shù)據(jù)轉(zhuǎn)換成json格式，取出評(píng)論內(nèi)容、評(píng)論者昵稱和評(píng)論時(shí)間等數(shù)據(jù)，輸出結(jié)果如下圖所示。

4、為了保存評(píng)論內(nèi)容，我們要將評(píng)論中的表情去掉，使用正則表達(dá)式進(jìn)行處理，如下圖所示。

5、之后接著把內(nèi)容保存到txt文件中，使用簡(jiǎn)單的open函數(shù)進(jìn)行實(shí)現(xiàn)，如下圖所示。

6、重點(diǎn)來(lái)了，通過(guò)此接口最多只能返回16頁(yè)的數(shù)據(jù)(每頁(yè)20條)，網(wǎng)上也有說(shuō)返回50頁(yè)的，但是接口不同、返回的數(shù)據(jù)條數(shù)也不同，所以我加了個(gè)for循環(huán)，一步到位，遍歷還是很給力的，如下圖所示。

7、這里把函數(shù)命名為job。為了能夠一直取出最新的數(shù)據(jù)，我們可以用schedule給程序加個(gè)定時(shí)功能，每隔10分鐘或者半個(gè)小時(shí)抓1次，如下圖所示。

8、對(duì)獲取到的數(shù)據(jù)，做去重處理，如下圖所示。如果評(píng)論已經(jīng)在里邊的話，就直接pass掉，如果沒有的話，繼續(xù)追加即可。

這項(xiàng)工作到此就基本完成了。

【Part3——總結(jié)篇】

這種方法雖然抓不全數(shù)據(jù)，但在這種微博的限制條件下，也是一種比較有效的方法。

本文轉(zhuǎn)載自微信公眾號(hào)「 IT共享者」，可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系 IT共享者公眾號(hào)。

責(zé)任編輯：武曉燕來(lái)源： IT共享之家

Python 微博評(píng)論

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<sub id="dnm7q"><p id="dnm7q"></p></sub>

<legend id="dnm7q"><abbr id="dnm7q"><dfn id="dnm7q"></dfn></abbr></legend>