自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Python微博移動端爬蟲實例(附代碼)

開發(fā) 后端
本文簡要講述用Python爬取微博移動端數(shù)據(jù)的方法??梢钥匆幌翿obots協(xié)議。另外盡量不要爬取太快。如果你毫無節(jié)制的去爬取別人數(shù)據(jù),別人網(wǎng)站當然會反爬越來越嚴厲。至于為什么不爬PC端,原因是移動端較簡單,很適合爬蟲新手入門。有時間再寫PC端吧!

本文簡要講述用Python爬取微博移動端數(shù)據(jù)的方法。可以看一下Robots協(xié)議。另外盡量不要爬取太快。如果你毫無節(jié)制的去爬取別人數(shù)據(jù),別人網(wǎng)站當然會反爬越來越嚴厲。至于為什么不爬PC端,原因是移動端較簡單,很適合爬蟲新手入門。有時間再寫PC端吧!

環(huán)境介紹

Python3/Windows-10-64位/微博移動端

網(wǎng)頁分析

以獲取評論信息為例(你可以以自己的喜好獲得其他數(shù)據(jù))。如下圖:

在這里就會涉及到一個動態(tài)加載的概念,也就是我們只有向下滑動鼠標滾輪才會加載出更多的評論數(shù)據(jù)。這也是網(wǎng)頁經(jīng)常使用的方式。接下來就應該找到評論信息的真實網(wǎng)址,找到真實網(wǎng)址的方法就是打開瀏覽器的開發(fā)者工具,火狐/谷歌是F12鍵。打開如下:

打開以后點擊網(wǎng)絡,網(wǎng)絡用來記錄瀏覽器和服務器交換的信息。接下來將鼠標滾輪緩慢向下滾動,在這個過程中就會彈出類似于上圖的信息,也就是評論信息加載出來了。找到評論信息,應該會在***條。如下圖:

真實網(wǎng)址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3

將網(wǎng)址在火狐里面打開如下圖:

上面的網(wǎng)址其實pages=3就代表第三頁,所以只需模擬網(wǎng)址即可,pages=4,5,6。。。。

 

另外由于是Json文件,所以提取數(shù)據(jù)非常方便,只需用切片操作即可。 

責任編輯:龐桂玉 來源: Python中文社區(qū)
相關推薦

2018-01-11 10:20:04

Python爬蟲豆瓣音樂

2021-11-08 14:38:50

框架Scrapy 爬蟲

2021-11-09 09:46:09

ScrapyPython爬蟲

2013-05-27 09:52:35

Android開發(fā)移動開發(fā)移動應用

2013-07-16 15:21:53

微微博新浪微博AndroidAndroid開發(fā)學習

2021-06-02 22:18:11

Python關鍵詞微博

2017-09-21 10:02:02

Java網(wǎng)頁爬蟲Httpclient

2011-07-26 09:58:24

2013-01-21 13:12:03

微信移動電子商務阿里

2015-01-14 13:59:50

騰訊微博客戶端源碼下載

2018-11-27 11:58:34

Python人臉識別編程語言

2021-02-19 23:55:15

PythonPythonic數(shù)據(jù)

2012-07-06 13:29:50

北京移動

2023-10-30 09:38:12

GUI程序接口方法

2021-08-24 13:05:25

TypeScript代碼前端

2022-09-28 08:05:37

PythonGUI程序

2018-06-11 08:20:42

微博評論菊姐

2011-12-21 16:19:06

網(wǎng)秦手機安全微博保鏢

2011-12-08 16:31:43

新浪微博開放平臺

2012-07-04 09:59:10

金山WPSWPS移動版
點贊
收藏

51CTO技術棧公眾號