自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

大數據 數據分析
本次數據樣本共13041條,本別采集了北京、上海、廣州、深圳、杭州的某一天出行數據,由于手動操作難以保證取樣的公平性,所以不能對全部數據結果的準確性做保證,本文以提供思路參考為主,先放一張路線圖:

目錄

  • 前言
  • 統(tǒng)計結果
  • 爬蟲思路
  • 統(tǒng)計思路
  • 后記

前言

很早之前發(fā)過一篇關于某拼車平臺爬蟲的文章,因為工作比較忙,一直沒有下文。最近年底稍微空了些,加上碰上春節(jié)返鄉(xiāng)大潮,剛好再拿過來寫一下數據分析的思路。

本次數據樣本共13041條,本別采集了北京、上海、廣州、深圳、杭州的某一天出行數據,由于手動操作難以保證取樣的公平性,所以不能對全部數據結果的準確性做保證,本文以提供思路參考為主,先放一張路線圖:

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

統(tǒng)計結果

好了,知道大家比較關心結果,所以先把結果放一放,后面再接著講分析過程。

乘客性別

先單獨把性別拎出來看一下,后面再根據城市進行分析,結果顯示,拋開未設置性別的乘客不論,總體來看順風車的用戶群中,男性(占比49.39%)還是多于女性(占比31.55%)的。畢竟跨城順風車,大過年的,女性乘客對于安全性的憂慮還是要有的。

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

城市訂單

真實數據的話訂單數量應該是深圳 > 北京 > 廣州 > 上海 > 杭州,但是同一個城市內的乘客性別比例應該還是具有一定的參考價值的,可以看到北京、上海、深圳的女性乘客數量占比都是高于男性的。

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

客單價

原本是想比較一下平均路程長度,但是想想這個事情太折騰了,由于平臺主要還是依靠路程來計算拼車費用的,所以通過計算客單價的話大概也能反映一下平均形成長度(我猜的,然后結果是這樣的,沒想到廣州是最高的,也可能是我統(tǒng)計錯誤)。

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

哪里乘客最壕

有時候有些偏遠地區(qū)訂單或者順路司機少,乘客會加價希望司機接單,于是統(tǒng)計了一下各城市加價訂單的占比和平均的加價額度,得出如下結果:

占比最高的城市是深圳,平均加價額度最高的城市也是深圳,看來深圳的小哥哥小姐姐們的確出手闊綽,然而加價比例最低的是北京,不過這也不能說明帝都人民不壕氣,可能就是人家繁華,司機多。

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

返鄉(xiāng)路線圖

最后放幾張返鄉(xiāng)的路線圖

北京

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

上海

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

 

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

廣州

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

 

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

深圳

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

杭州

杭州明顯有別于其他幾個城市,一個是杭州的數據樣本多,另外一個平臺上杭州黃牛多,那些最遠的單子就是黃牛廣告單。

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

分析了一萬多條拼車數據,看看北上廣深的各位都回哪過年

爬蟲思路

注冊成為司機,利用mitm抓包存儲拼車單。

統(tǒng)計思路

數據的話,我是通過本地Mongodb存儲,所以直接用python操作Mongodb數據。

Pymongo

關于Mongodb數據庫的連接,直接上代碼:

  1. client = MongoClient('mongodb://localhost:27017'
  2. spring = client.spring 
  3. collection = spring['orders'

以上代碼的意思就是連接本地Mongodb-spring數據庫-orders文檔集合。

Pyecharts

Pyecharts(http://pyecharts.org)是大名鼎鼎的Echarts的Python可視化圖表庫,用起來挺順手的,而且文檔規(guī)范,基本上可以零門檻入門,具體實現請移步文檔。

這里介紹一下關于Pyecharts的圖表樣式配置,為了保持各圖表的樣式統(tǒng)一(偷懶),Pyecharts提供了一個Style類,可用于在同一個圖或者多個圖內保持統(tǒng)一的風格。

  1. from pyecharts import Style,Geo 
  2.  
  3. style = Style( 
  4.    title_color="#fff"
  5.    title_pos="center"
  6.    width=1100, 
  7.    height=600, 
  8.    background_color='#404a59' 
  9. # style.init_style 會返回類初始化的風格配置字典 
  10. geo = Geo("全國主要城市空氣質量""data from pm2.5", **style.init_style) 

這樣,就創(chuàng)建了一個Geo地理坐標系圖表。

代碼解讀

因為全部代碼有點長,所以抽了一段舉個例子,主要思路就是從Mongodb取出指定數據,或者通過$group管道對數據進行處理,最后通過pyecharts生成相應的圖表,呈現:

  1. from pymongo import MongoClient 
  2. from pyecharts import Style,GeoLines 
  3.  
  4. def getLines(self): 
  5.    # 連接數據庫 
  6.    client = MongoClient('mongodb://localhost:27017'
  7.    spring = self.client.spring 
  8.    collection = self.spring['orders'
  9.     
  10.    # Mongodb的操作,$match-篩選出'from_poi.city.city_name''杭州'的文檔, 
  11.    # 再通過$group管道,按照目標城市統(tǒng)計出匯總數量 
  12.    line_hangzhou = collection.aggregate([ 
  13.        {'$match': {'from_poi.city.city_name''杭州'}}, 
  14.        {'$group': {'_id''$to_poi.city.city_name''count': {'$sum': 1}}} 
  15.    ]) 
  16.    # 按照Geolines圖表的數據格式格式化數據 
  17.    line_hangzhou_ = [] 
  18.    for line in line_hangzhou: 
  19.        line_hangzhou_.append(["杭州", line['_id'], line['count']]) 
  20.         
  21.    # 創(chuàng)建一個GeoLines圖表 
  22.    citylines = GeoLines("春節(jié)遷移路線圖", **style.init_style) 
  23.    # 添加數據以及樣式 
  24.    citylines.add("從杭州出發(fā)"
  25.                  line_hangzhou_, 
  26.                  **geo_style) 
  27.    # 生成html文件 
  28.    citylines.render("results/citylines.html"

后記

這是一篇遲到很久的文章,本來沒打算再寫,但是總覺得下半部分沒寫完心里有個結,所以還是抽時間補上。另外作為一個非專業(yè)技術人員,多記多練免得過幾天自己就忘了。

責任編輯:未麗燕 來源: InThirty
相關推薦

2011-12-22 09:53:44

溝通科技

2020-11-18 09:37:07

程序員技術996

2020-12-01 10:03:22

程序員技能開發(fā)者

2019-03-01 13:24:12

互聯(lián)網數據技術

2018-11-21 14:09:31

可視化天氣霧霾

2017-07-03 14:39:41

開發(fā)者故事

2018-06-11 18:15:51

快應用聯(lián)盟

2019-12-19 17:07:44

程序員工程師技術

2019-02-26 14:37:43

互聯(lián)網大齡程序員二線城市

2020-07-28 17:27:02

互聯(lián)網北上廣城市

2018-07-13 10:56:06

互聯(lián)網城市北上廣

2013-07-08 09:48:01

云計算北上廣

2017-08-14 15:53:33

大數據數據分析

2018-07-04 11:09:09

程序員北漂欲望

2018-11-12 14:21:35

2018-02-26 17:42:58

大數據一線城市北上廣深

2020-05-14 15:24:27

計算機人工智能 就業(yè)

2015-03-27 11:39:59

2010-08-30 10:38:40

蟻族逃離

2021-09-06 08:24:17

年齡焦慮程序員
點贊
收藏

51CTO技術棧公眾號