自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

我是怎樣爬下6萬共享單車數(shù)據(jù)并進(jìn)行分析的(附代碼)

開發(fā) 數(shù)據(jù)分析
在城市中隨處可見共享單車的身影,給人們的生活出行帶來了便利。有沒有一個(gè)辦法通過獲得這些單車的數(shù)據(jù),來分析這些車是否變成了僵尸車?是否有人故意放到小區(qū)里面讓人無法獲取呢?帶著這些問題,筆者開始了研究如何獲取這些數(shù)據(jù)。

[[212227]]

共享經(jīng)濟(jì)的浪潮席卷著各行各業(yè),而出行行業(yè)是這股大潮中的主要分支。如今,在城市中隨處可見共享單車的身影,給人們的生活出行帶來了便利。相信大家總會遇到這樣的窘境,在APP中能看到很多單車,但走到那里的時(shí)候,才發(fā)現(xiàn)車并不在那里。有些車不知道藏到了哪里;有些車或許是在高樓的后面,由于有GPS的誤差而找不到了;有些車被放到了小區(qū)里面,一墻之隔讓騎車人無法獲得到車。

那么有沒有一個(gè)辦法通過獲得這些單車的數(shù)據(jù),來分析這些車是否變成了僵尸車?是否有人故意放到小區(qū)里面讓人無法獲取呢?帶著這些問題,筆者開始了研究如何獲取這些數(shù)據(jù)。

01 從哪里獲得數(shù)據(jù)

如果你能夠看到數(shù)據(jù),那么我們總有辦法自動(dòng)化的獲取到這些數(shù)據(jù)。只不過獲取數(shù)據(jù)的方式方法決定了獲取數(shù)據(jù)的效率。

對于摩拜單車的數(shù)據(jù)分析這個(gè)任務(wù)而言,這個(gè)爬蟲要能夠在短時(shí)間內(nèi)(通常是10分鐘左右)獲取到更多的數(shù)據(jù),對于數(shù)據(jù)分析才有用處。那么數(shù)據(jù)來源于哪里?

最直接的來源是摩拜單車的APP?,F(xiàn)代的軟件設(shè)計(jì)都講究前后端分離,而且服務(wù)端會同時(shí)服務(wù)于APP、網(wǎng)頁等。在這種趨勢下我們只需要搞清楚軟件的HTTP請求就好了。一般而言有以下一些工具可以幫忙:

直接抓包:

  • Wireshark (在路由器或者電腦)
  • Shark for Root (Android)

用代理進(jìn)行HTTP請求抓包及調(diào)試:

  • Fiddler 4
  • Charles
  • Packet Capture (Android)

由于我的手機(jī)沒有root,在路由器上抓包又太多的干擾,對于https也不好弄。所以只能首先采用Fiddler或者Charles的方式試試。

掛上Fiddler的代理,然后在手機(jī)端不停的移動(dòng)位置,看有沒有新的請求。但遺憾的是似乎請求都是去拿高德地圖的,并沒有和摩拜車相關(guān)的數(shù)據(jù)。

那怎么一回事?試試手機(jī)端的。換成Packet Capture后果然就有流量了,在請求中找到了我最關(guān)心的那個(gè):

這個(gè)API請求一看就很顯然了,在postman中試了一下能夠正確的返回信息,看來就是你了!

高興得太早。

連續(xù)爬了幾天的數(shù)據(jù),將數(shù)據(jù)進(jìn)行一分析,發(fā)現(xiàn)摩拜單車的GPS似乎一直在跳動(dòng),有時(shí)候跳動(dòng)會超過幾公里的距離,顯然不是一個(gè)正常的值。

難道是他們的接口做了手腳返回的是假數(shù)據(jù)?我觀察到即便在APP中,單車返回的數(shù)據(jù)也有跳動(dòng)。有某一天凌晨到第二天早上,我隔段時(shí)間刷新一下我家附近的車,看看是否真的如此。

圖片我找不到了,但是觀察后得出的結(jié)論是,APP中返回的位置確實(shí)有問題。有一臺車放在一個(gè)很偏僻的位置,一會兒就不見了,待會兒又回來了,和我抓下來的數(shù)據(jù)吻合。

而且這個(gè)跳動(dòng)和手機(jī)、手機(jī)號、甚至移動(dòng)運(yùn)營商沒有關(guān)系,說明這個(gè)跳動(dòng)是摩拜接口的問題,也可以從另一方面解釋為什么有時(shí)候看到車但其實(shí)那里沒有車。

這是之前發(fā)的一個(gè)朋友圈的視頻截圖,可以看到在營門口附近有一個(gè)尖,在那里其實(shí)車是停住的,但是GPS軌跡顯示短時(shí)間內(nèi)在附近攢動(dòng),甚至攢動(dòng)到很遠(yuǎn),又回到那個(gè)位置。

這樣的數(shù)據(jù)對于數(shù)據(jù)分析來講根本沒法用,我差點(diǎn)就放棄了。

隨著微信小程序的火爆,摩拜單車也在***時(shí)間出了小程序。我一看就笑了,不錯(cuò),又給我來了一個(gè)數(shù)據(jù)源,試試。

用Packet Capture抓了一次數(shù)據(jù)后很容易確定API。抓取后爬取了兩三天的數(shù)據(jù),發(fā)現(xiàn)出現(xiàn)了轉(zhuǎn)機(jī),數(shù)據(jù)符合正常的單車的軌跡。

剩下事情,就是提高爬蟲的效率了。

02 其他嘗試

有時(shí)候直接分析APP的源代碼會很方便的找到API入口,將摩拜的Android端的APP進(jìn)行反編譯,但發(fā)現(xiàn)里面除了一些資源文件有用外,其他的文件都是用奇虎360的混淆器加殼的。網(wǎng)上有文章分析如何進(jìn)行脫殼,但我沒有太多時(shí)間去鉆研,也就算了。

摩拜單車的API之所以很容易抓取和分析,很大程度上來講是由于API設(shè)計(jì)的太簡陋:

  • 僅使用http請求,使得很容易進(jìn)行抓包分析
  • 在這些API中都沒有對request進(jìn)行一些加密,使得自己的服務(wù)很容易被人利用。
  • 另外微信小程序也是泄露API的一個(gè)重要來源,畢竟在APP中request請求可以通過native代碼進(jìn)行加密然后在發(fā)出,但在小程序中似乎還沒有這樣的功能。

如果大家有興趣,可以試著看一下小藍(lán)單車APP的request,他們使用https請求,對數(shù)據(jù)的request進(jìn)行了加密,要抓取到他們的數(shù)據(jù)難度會增加非常多。

當(dāng)然了,如果摩拜單車官方并不care數(shù)據(jù)的事情的話,這樣的API設(shè)計(jì)也是ok的。

聲明:

此爬蟲僅用于學(xué)習(xí)、研究用途,請不要用于非法用途。任何由此引發(fā)的法律糾紛自行負(fù)責(zé)。

03 目錄結(jié)構(gòu)

    \analysis - jupyter做數(shù)據(jù)分析

    \influx-importer - 導(dǎo)入到influxdb,但之前沒怎么弄好

    \modules - 代理模塊

    \web - 實(shí)時(shí)圖形化顯示模塊,當(dāng)時(shí)只是為了學(xué)一下react而已,效果請見這里

    crawler.py - 爬蟲核心代碼

    importToDb.py - 導(dǎo)入到postgres數(shù)據(jù)庫中進(jìn)行分析

    sql.sql - 創(chuàng)建表的sql

    start.sh - 持續(xù)運(yùn)行的腳本

04 思路

核心代碼放在crawler.py中,數(shù)據(jù)首先存儲在sqlite3數(shù)據(jù)庫中,然后去重復(fù)后導(dǎo)出到csv文件中以節(jié)約空間。

摩拜單車的API返回的是一個(gè)正方形區(qū)域中的單車,我只要按照一塊一塊的區(qū)域移動(dòng)就能抓取到整個(gè)大區(qū)域的數(shù)據(jù)。

left,top,right,bottom定義了抓取的范圍,目前是成都市繞城高速之內(nèi)以及南至南湖的正方形區(qū)域。offset定義了抓取的間隔,現(xiàn)在以0.002為基準(zhǔn),在DigitalOcean 5$的服務(wù)器上能夠15分鐘內(nèi)抓取一次。

   

  1. def start(self): 
  2.  
  3.         left = 30.7828453209 
  4.  
  5.         top = 103.9213455517 
  6.  
  7.         right = 30.4781772402 
  8.  
  9.         bottom = 104.2178123382  
  10.  
  11.  
  12.         offset = 0.002  
  13.  
  14.  
  15.         if os.path.isfile(self.db_name): 
  16.              os.remove(self.db_name)  
  17.  
  18.  
  19.         try: 
  20.  
  21.             with sqlite3.connect(self.db_name) as c: 
  22.  
  23.                 c.execute('''CREATE TABLE mobike 
  24.  
  25.                     (Time DATETIME, bikeIds VARCHAR(12), bikeType TINYINT,distId INTEGER,distNum TINYINT, type TINYINT, x DOUBLE, y DOUBLE)''') 
  26.  
  27.         except Exception as ex: 
  28.  
  29.             pass 

然后就啟動(dòng)了250個(gè)線程,至于你要問我為什么沒有用協(xié)程,哼哼~~我當(dāng)時(shí)沒學(xué)~~~其實(shí)是可以的,說不定效率更高。

由于抓取后需要對數(shù)據(jù)進(jìn)行去重,以便消除小正方形區(qū)域之間重復(fù)的部分,***的group_data正是做這個(gè)事情。       

  1. executor = ThreadPoolExecutor(max_workers=250) 
  2.  
  3.         print("Start"
  4.  
  5.         self.total = 0 
  6.  
  7.         lat_range = np.arange(leftright, -offset) 
  8.  
  9.         for lat in lat_range: 
  10.  
  11.             lon_range = np.arange(top, bottom, offset) 
  12.  
  13.             for lon in lon_range: 
  14.  
  15.                 self.total += 1 
  16.  
  17.                 executor.submit(self.get_nearby_bikes, (lat, lon))  
  18.  
  19.  
  20.         executor.shutdown() 
  21.  
  22.         self.group_data() 

最核心的API代碼在這里。小程序的API接口,搞幾個(gè)變量就可以了,十分簡單。   

  1. def get_nearby_bikes(self, args): 
  2.  
  3.        try: 
  4.             url = "https://mwx.mobike.com/mobike-api/rent/nearbyBikesInfo.do"  
  5.  
  6.  
  7.            payload = "latitude=%s&longitude=%s&errMsg=getMapCenterLocation" % (args[0], args[1])  
  8.  
  9.  
  10.            headers = { 
  11.  
  12.                'charset'"utf-8"
  13.  
  14.                'platform'"4"
  15.  
  16.                "referer":"https://servicewechat.com/wx40f112341ae33edb/1/"
  17.  
  18.                'content-type'"application/x-www-form-urlencoded"
  19.  
  20.                'user-agent'"MicroMessenger/6.5.4.1000 NetType/WIFI Language/zh_CN"
  21.  
  22.                'host'"mwx.mobike.com"
  23.  
  24.                'connection'"Keep-Alive"
  25.  
  26.                'accept-encoding'"gzip"
  27.  
  28.                'cache-control'"no-cache" 
  29.  
  30.            }  
  31.  
  32.  
  33.            self.request(headers, payload, args, url) 
  34.  
  35.        except Exception as ex: 
  36.  
  37.            print(ex) 

***你可能要問頻繁的抓取IP沒有被封么?其實(shí)摩拜單車是有IP的訪問速度限制的,只不過破解之道非常簡單,就是用大量的代理。

我是有一個(gè)代理池,每天基本上有8000以上的代理。在ProxyProvider中直接獲取到這個(gè)代理池然后提供一個(gè)pick函數(shù)用于隨機(jī)選取得分前50的代理。

請注意,我的代理池是每小時(shí)更新的,但是代碼中提供的jsonblob的代理列表僅僅是一個(gè)樣例,過段時(shí)間后應(yīng)該大部分都作廢了。

在這里用到一個(gè)代理得分的機(jī)制。我并不是直接隨機(jī)選擇代理,而是將代理按照得分高低進(jìn)行排序。每一次成功的請求將加分,而出錯(cuò)的請求將減分。

這樣一會兒就能選出速度、質(zhì)量***的代理。如果有需要還可以存下來下次繼續(xù)用。

 

  1. class ProxyProvider: 
  2.  
  3.     def __init__(self, min_proxies=200): 
  4.  
  5.         self._bad_proxies = {} 
  6.  
  7.         self._minProxies = min_proxies 
  8.  
  9.         self.lock = threading.RLock()   
  10.  
  11.         self.get_list()  
  12.  
  13.  
  14.     def get_list(self): 
  15.  
  16.         logger.debug("Getting proxy list"
  17.  
  18.         r = requests.get("https://jsonblob.com/31bf2dc8-00e6-11e7-a0ba-e39b7fdbe78b", timeout=10) 
  19.  
  20.         proxies = ujson.decode(r.text) 
  21.  
  22.         logger.debug("Got %s proxies", len(proxies)) 
  23.  
  24.         self._proxies = list(map(lambda p: Proxy(p), proxies))  
  25.  
  26.  
  27.     def pick(self): 
  28.  
  29.         with self.lock: 
  30.  
  31.             self._proxies.sort(key = lambda p: p.score, reverse=True
  32.  
  33.             proxy_len = len(self._proxies) 
  34.  
  35.             max_range = 50 if proxy_len > 50 else proxy_len 
  36.  
  37.             proxy = self._proxies[random.randrange(1, max_range)] 
  38.  
  39.             proxy.used() 
  40.  
  41.             return proxy 

在實(shí)際使用中,通過proxyProvider.pick()選擇代理,然后使用。如果代理出現(xiàn)任何問題,則直接用proxy.fatal_error()降低評分,這樣后續(xù)就不會選擇到這個(gè)代理了。   

  1. def request(self, headers, payload, args, url): 
  2.  
  3.         while True
  4.  
  5.             proxy = self.proxyProvider.pick() 
  6.  
  7.             try: 
  8.  
  9.                 response = requests.request( 
  10.  
  11.                     "POST", url, data=payload, headers=headers, 
  12.  
  13.                     proxies={"https": proxy.url}, 
  14.  
  15.                     timeout=5,verify=False 
  16.  
  17.                 ) 
  18.  
  19.  
  20.  
  21.                 with self.lock: 
  22.  
  23.                     with sqlite3.connect(self.db_name) as c: 
  24.  
  25.                         try: 
  26.  
  27.                             print(response.text) 
  28.  
  29.                             decoded = ujson.decode(response.text)['object'
  30.  
  31.                             self.done += 1 
  32.  
  33.                             for x in decoded: 
  34.  
  35.                                 c.execute("INSERT INTO mobike VALUES (%d,'%s',%d,%d,%s,%s,%f,%f)" % ( 
  36.  
  37.                                     int(time.time()) * 1000, x['bikeIds'], int(x['biketype']), int(x['distId']), 
  38.  
  39.                                     x['distNum'], x['type'], x['distX'], 
  40.  
  41.                                     x['distY'])) 
  42.  
  43.  
  44.  
  45.                             timespend = datetime.datetime.now() - self.start_time 
  46.  
  47.                             percent = self.done / self.total 
  48.  
  49.                             total = timespend / percent 
  50.  
  51.                             print(args, self.done, percent * 100, self.done / timespend.total_seconds() * 60, total, 
  52.  
  53.                                   total - timespend) 
  54.  
  55.                         except Exception as ex: 
  56.  
  57.                             print(ex) 
  58.  
  59.                     break 
  60.  
  61.             except Exception as ex: 
  62.  
  63.                 proxy.fatal_error() 

抓取了摩拜單車的數(shù)據(jù)并進(jìn)行了大數(shù)據(jù)分析。以下數(shù)據(jù)分析自1月19日整日的數(shù)據(jù),范圍成都繞城區(qū)域以及至華陽附近(天府新區(qū))內(nèi)。成都的摩拜單車的整體情況如下:

05 標(biāo)準(zhǔn)、Lite車型數(shù)量相當(dāng)

摩拜單車在成都大約已經(jīng)有6萬多輛車,兩種類型的車分別占有率為55%和44%,可見更為好騎的Lite版本的占有率在提高。(1為標(biāo)準(zhǔn)車,2為Lite車型)

06 三成左右的車沒有移動(dòng)過

數(shù)據(jù)分析顯示,有三成的單車并沒有任何移動(dòng),這說明這些單車有可能被放在不可獲取或者偏僻地方。市民的素質(zhì)還有待提高啊。

07 出行距離以3公里以下為主

數(shù)據(jù)分析顯示3公里以下的出行距離占據(jù)了87.2%,這也十分符合共享單車的定位。100米以下的距離也占據(jù)了大量的數(shù)據(jù),但認(rèn)為100米以下的數(shù)據(jù)為GPS的波動(dòng),所以予以排除。

出行距離分布

08 騎行次數(shù)以5次以下居多

單車的使用頻率越高共享的效果越好。從摩拜單車的數(shù)據(jù)看,在流動(dòng)的單車中,5次以下占據(jù)了60%左右的出行。但1次、2次的也占據(jù)了30%左右的份額,說明摩拜單車的利用率也不是很高。

單車騎行次數(shù)

騎行次數(shù)

 

09 從單車看城市發(fā)展

從摩拜單車的熱圖分布來看,成都已經(jīng)逐步呈現(xiàn)“雙核”發(fā)展的態(tài)勢,城市的新中心天府新區(qū)正在聚集更多的人和機(jī)會。

雙核發(fā)展

原來的老城區(qū)占有大量的單車,在老城區(qū),熱圖顯示在東城區(qū)占有更多的單車,可能和這里的商業(yè)(春熙路、太古里、萬達(dá))及人口密集的小區(qū)有直接的聯(lián)系。

老城區(qū)

而在成都的南部天府新區(qū)越來越多也茁壯的發(fā)展起來,商業(yè)區(qū)域和住宅區(qū)域區(qū)分明顯。在晚上,大量的單車聚集在華陽、世紀(jì)城、中和,而在上班時(shí)間,則大量聚集在軟件園附近。

 

軟件園夜間

 

 

軟件園白天 

責(zé)任編輯:龐桂玉 來源: 大數(shù)據(jù)
相關(guān)推薦

2020-08-25 18:10:22

Python代碼線性回歸

2024-12-24 09:17:31

2017-03-28 15:55:32

2018-03-05 11:00:19

共享單車互聯(lián)網(wǎng)保險(xiǎn)理賠

2015-11-10 09:09:23

代碼程序員成長

2023-08-26 07:09:36

2012-11-28 01:47:35

軟件測試測試

2018-03-09 10:37:48

詩歌代碼寫詩

2015-08-24 13:51:40

數(shù)據(jù)挖掘

2022-10-19 11:17:35

2013-01-10 10:05:29

編程面向?qū)ο缶幊?/a>

2017-10-10 15:42:56

Python鹿晗關(guān)曉彤

2010-01-26 09:40:23

C++代碼

2021-07-02 07:06:20

調(diào)試代碼crash

2011-02-23 14:54:58

FileZilla

2020-09-09 08:23:53

URLIP代碼

2017-07-21 09:41:17

共享單車物聯(lián)網(wǎng)盈利

2017-08-14 10:24:19

2012-01-09 14:48:15

響應(yīng)式Web

2017-09-05 14:34:02

數(shù)據(jù)分析數(shù)據(jù)庫python
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號