用Python分析了1741家大褲衩數(shù)據(jù)進(jìn)行分析,終于找到可以買入那一條
本文轉(zhuǎn)載自微信公眾號(hào)「志斌的python筆記」,作者志斌 。轉(zhuǎn)載本文請(qǐng)聯(lián)系志斌的python筆記公眾號(hào)。
大家好,我是志斌~
最近的幾天真的是太熱了,志斌翻了翻自己的衣柜,發(fā)現(xiàn)去年的大褲衩已經(jīng)不在適合自己現(xiàn)在肥胖的體型,所以志斌打開淘寶,搜索了1741條大褲衩的數(shù)據(jù),然后進(jìn)行了可視化分析,最終找到一條可以入手的大褲衩。
在后臺(tái)回復(fù)[大褲衩]即可獲得數(shù)據(jù)集。
01數(shù)據(jù)采集
淘寶網(wǎng)站是一個(gè)動(dòng)態(tài)加載的網(wǎng)站,我們之前可以采用解析接口或者用selenium自動(dòng)化測(cè)試工具來(lái)爬取數(shù)據(jù),但是現(xiàn)在淘寶對(duì)接口進(jìn)行了加密,使我們很難分析出來(lái)其中的規(guī)律,同時(shí)淘寶也對(duì)selenium進(jìn)行了反爬限制,所以我們要換種思路來(lái)進(jìn)行數(shù)據(jù)獲取。
因?yàn)槠鶈?wèn)題,數(shù)據(jù)采集的方式在這里就不在過(guò)多的講解,有興趣的小伙伴可以看看這篇文章,它詳細(xì)的介紹了淘寶商品數(shù)據(jù)的獲取方式,我們這里只展示核心代碼。
- response = requests.get('https://s.taobao.com/search', headers=headers, params=params)
- shangpinming = re.findall('"raw_title":"(.*?)"', response.text)
- jiage = re.findall('"view_price":"(.*?)"', response.text)
- fahuodi = re.findall('"item_loc":"(.*?)"', response.text)
- fukuanrenshu = re.findall('"view_sales":"(.*?)人付款"', response.text)
- dianpumingcheng = re.findall('"nick":"(.*?)"', response.text)
- for i in range(44):
- try:
- if (fukuanrenshu[i] == '1.5萬(wàn)+'):
- f = 15000
- elif (fukuanrenshu[i] == '1.0萬(wàn)+'):
- f = 10000
- elif ('+' in fukuanrenshu[i]):
- f = re.findall('\d+', fukuanrenshu[i])
- else:
- f = fukuanrenshu[i]
- if float(jiage[i]) > 10:
- sheet.append([dianpumingcheng[i], shangpinming[i], float(jiage[i]), f
02數(shù)據(jù)清洗
01導(dǎo)入商品數(shù)據(jù)
用pandas讀取爬取后的商品數(shù)據(jù)并預(yù)覽。
- df = pd.read_excel('褲衩男.xlsx',names=['店鋪名稱','商品名','價(jià)格','產(chǎn)地','付款人數(shù)'])
- print(df.head())
02刪除重復(fù)數(shù)據(jù)
- df.drop_duplicates()
03查看數(shù)據(jù)類型
查看字段類型和缺失值情況,符合分析需要,無(wú)需另做處理。
- df.info()
03數(shù)據(jù)可視化
我們來(lái)對(duì)這1741條大褲衩的數(shù)據(jù)進(jìn)行可視化分析。
01在售的大褲衩的特點(diǎn)。
通過(guò)對(duì)大褲衩的商品名稱進(jìn)行詞云圖繪制,志斌發(fā)現(xiàn),大褲衩的主要特點(diǎn)是寬松,其次是休閑和運(yùn)動(dòng)。仔細(xì)想來(lái),夏天的時(shí)候大家的穿著確實(shí)是比較寬松和休閑的。
02各省市產(chǎn)量分布圖
通過(guò)對(duì)各商品的產(chǎn)地?cái)?shù)據(jù)進(jìn)行統(tǒng)計(jì)并繪制了全國(guó)地圖,我們發(fā)現(xiàn)福建和浙江這兩個(gè)地方盛產(chǎn)大褲衩。
我們對(duì)這兩個(gè)省份的數(shù)據(jù)進(jìn)行更一步的分析發(fā)現(xiàn):福建省的大褲衩主產(chǎn)地在泉州,占據(jù)全省產(chǎn)量的70.4%
浙江省的大褲衩主產(chǎn)地在杭州,占據(jù)全省產(chǎn)量的87.4%。
03各價(jià)位商品數(shù)量圖
通過(guò)對(duì)商品價(jià)格進(jìn)行分段可視化,我們可以看出100元以下的大褲衩占據(jù)全部市場(chǎng)的77.4%,可見(jiàn)大家對(duì)大褲衩的心理價(jià)位選擇普遍較低。
04大褲衩月銷量top20商家
通過(guò)對(duì)各商品月銷售量進(jìn)行可視化分析,我們發(fā)現(xiàn),巴布衫旗艦店的月銷量最多是10000。語(yǔ)克旗艦店的商品在月銷量top20中占據(jù)6個(gè),top5中占據(jù)了3個(gè),看來(lái)這個(gè)旗艦店的商品受大眾喜歡的類型更多。同時(shí)我們還能看出,用戶們更喜歡去旗艦店和專賣店進(jìn)行購(gòu)物。
05選擇合適的大褲衩并入手
經(jīng)過(guò)以上的分析和對(duì)寶貝的評(píng)價(jià)、好評(píng)率等數(shù)據(jù)進(jìn)行綜合考慮之后,志斌最終選擇購(gòu)買這條大褲衩來(lái)入手。
05小結(jié)
1. 本文僅供學(xué)習(xí)研究使用,提供的評(píng)論僅供參考。如有不妥之處請(qǐng)及時(shí)告知作者。
2. 如需代碼,請(qǐng)聯(lián)系作者進(jìn)行獲取。