用Python分析國慶旅游景點,告訴你哪些地方好玩、便宜、人又少
2019年國慶馬上就要到來
豬哥今年想著來點新花樣吧
玩肯定是要去玩的
不然怎么給祖國慶生
那去哪里玩人少big還高呢?
咱不是程序員嘛
那就用數(shù)據(jù)分析下
看看哪些地方值得去
一、目標(biāo)
使用Python分析出國慶哪些旅游景點:好玩、便宜、人還少的地方,不然拍照都要搶著拍!
二、獲取數(shù)據(jù)
既然做數(shù)據(jù)分析肯定要先搞到數(shù)據(jù),最開始豬哥在一些官方網(wǎng)站查找旅游信息,畢竟官方的數(shù)據(jù)可信度高點, 但我一無所獲,有點失望!
然后尋找其他替代方案:爬取出行網(wǎng)站的旅游景點售票數(shù)據(jù),這樣也可以反映出旅游景點的熱度!
豬哥首先想到 去哪兒,這里必須要安利一波去哪兒,同樣的酒店同樣的房間,去哪兒價格基本都是最低,所以豬哥也用的最多!
選好學(xué)習(xí)對象,那我就開始吧!
注⚠️:本教程僅用作學(xué)習(xí)交流,如有侵害任何人權(quán)益,請聯(lián)系豬哥刪除!
1.爬取單頁數(shù)據(jù)
我們可以在哪去兒的門票頁(http://piao.qunar.com/ticket/list.htm?keyword=)搜索:**國慶旅游景點**,就可以看到推薦的景點的一些信息,如:名稱、地區(qū)、熱度、銷量、價格、等級、地理信息等等,信息應(yīng)該說是比較全,良心!
然后按下F12打開瀏覽器調(diào)試窗口,查找加載數(shù)據(jù)的url(翻頁就可以看到)
竟然直接返回了json數(shù)據(jù),真是太方便了
最后使用requests庫寫一個get請求就可以了
這樣一頁數(shù)據(jù)就抓取下來了,是不是很簡單?
這里說下去哪兒門票頁抓取數(shù)據(jù)還是很簡單,不需要登錄、不需要代理 、甚至不需要header也可以成功,后面批量抓取頁沒出現(xiàn)限制,相對于淘寶來說簡單了許多!
2.提取有效信息
既然數(shù)據(jù)拿到了,那就看看數(shù)據(jù)結(jié)構(gòu),然后提取自己想要的屬性吧
這里豬哥提取了:id、名稱、星級、評分、門票價格、銷量、地區(qū)、坐標(biāo)、簡介這些信息,基本有效信息都保存起來!
3.保存到excel
需要的數(shù)據(jù)提取出來之后,我們就可以將他們保存起來。這里我們使用pandas庫保存excel文件。
沒有安裝pandas庫的同學(xué)安裝一下
- pip install xlrd
- pip install openpyxl
- pip install numpy
- pip install pandas
這里單頁數(shù)據(jù)的處理就完成了,爬取、解析、保存三步走~
4.批量爬取
批量爬取也很簡單,先找分頁數(shù)據(jù),多點幾下頁數(shù)比較不同參數(shù)就能看出來
經(jīng)過一會的分析,我們便可以看出參數(shù) page 就是分頁參數(shù)了,這樣我們在外層寫一個for循環(huán),把頁數(shù)傳入就可以實現(xiàn)批量爬取
那個36是我在網(wǎng)頁上看到了,當(dāng)然也可以實現(xiàn)自動判斷是否爬取完成,只要判斷每次返回的條數(shù)即可!
看看批量爬取的效果
三 、分析數(shù)據(jù)
數(shù)據(jù)都下載完畢后,就要思考如何去利用分析這些數(shù)據(jù)了,豬哥簡單做了幾個分析:
- 景點門票銷量排行分析
- 景點門票銷售額排行分析
- 各省各等級景點數(shù)分析
- 景點銷量熱力圖分析
- 推薦景點分析
我們使用的可視化庫仍然是:pyecharts庫 ,更多維度分析等待你去思考~
1.景點門票銷量排行分析
我們先來分析下景點門票銷量排行
我們創(chuàng)建了一個透視表,然后根據(jù)銷量排序!最后生成柱狀圖,一起來看看效果:
我們可以看到迪士尼門票銷量排第一
2.景點銷售額排行分析
銷售額=單價*銷量,我們可以將每行的price和sale相乘算出銷售額
我們將得到的銷售額數(shù)據(jù)放回df中,然后再排序
迪士尼真是吸金厲害!!!
3.各省各等級景點數(shù)分析
由于時間原因,該項分析暫未完成,本想分析下每個省每個等級的景點有多少個,但是由于時間原因暫未完成,感興趣的同學(xué)可以下載源碼自己試試 ,就當(dāng)課后作業(yè)叭~
4.景點銷量熱力圖分析
之前我們也做過很多熱力圖,都是用的pyecharts庫,今天我們來點不一樣 的,我們使用百度地圖開放api(免費)做一個熱力圖,你首先要做的就是申請一個百度地圖開放平臺的應(yīng)用,操作很簡單,如何申請可以 直接百度或者看看這篇文章:https://jingyan.baidu.com/article/363872eccda8286e4aa16f4e.html
需要注意的是:在申請應(yīng)用的時候類型一定要選瀏覽器
然后你就可以下載一個百度熱力圖的demo的html,在html中把a(bǔ)k碼換成自己的。
換完ak碼就要換json數(shù)據(jù)了,我們先生成和默認(rèn)數(shù)據(jù)一樣格式的json數(shù)據(jù),然后再替換掉
最后來看看效果叭,動態(tài)地圖支持放大縮小,可仔細(xì)查看各省、市、區(qū)景點熱力圖
5.推薦景點分析
應(yīng)該推薦怎樣的景點呢?豬哥認(rèn)為是:高評分、銷量少、價格便宜。
推薦系數(shù)和評分成正比,和銷量、價格成反比,所以豬哥設(shè)計了一個最簡單的算法:
瞎推薦系數(shù)=評分/(銷量價格) * 1000
來看看這個簡易的推薦算法得出的結(jié)果
可以看到在這個瞎推薦TOP20中國外景點很多(尤其是日本),確實國內(nèi)到國慶了哪里其實人都是挺多的!
如果你覺得我設(shè)計的推薦算法太low了,可以自己思考下如何設(shè)計更合理,然后自己動手調(diào)試,期待看到不一樣的結(jié)果!