自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

用Python分析了1741家大褲衩數(shù)據(jù)進(jìn)行分析,終于找到可以買入那一條

大數(shù)據(jù) 數(shù)據(jù)分析
最近的幾天真的是太熱了,志斌翻了翻自己的衣柜,發(fā)現(xiàn)去年的大褲衩已經(jīng)不在適合自己現(xiàn)在肥胖的體型,所以志斌打開淘寶,搜索了1741條大褲衩的數(shù)據(jù),然后進(jìn)行了可視化分析,最終找到一條可以入手的大褲衩。

[[398676]]

本文轉(zhuǎn)載自微信公眾號(hào)「志斌的python筆記」,作者志斌 。轉(zhuǎn)載本文請(qǐng)聯(lián)系志斌的python筆記公眾號(hào)。

大家好,我是志斌~

最近的幾天真的是太熱了,志斌翻了翻自己的衣柜,發(fā)現(xiàn)去年的大褲衩已經(jīng)不在適合自己現(xiàn)在肥胖的體型,所以志斌打開淘寶,搜索了1741條大褲衩的數(shù)據(jù),然后進(jìn)行了可視化分析,最終找到一條可以入手的大褲衩。

在后臺(tái)回復(fù)[大褲衩]即可獲得數(shù)據(jù)集。

01數(shù)據(jù)采集

淘寶網(wǎng)站是一個(gè)動(dòng)態(tài)加載的網(wǎng)站,我們之前可以采用解析接口或者用selenium自動(dòng)化測(cè)試工具來(lái)爬取數(shù)據(jù),但是現(xiàn)在淘寶對(duì)接口進(jìn)行了加密,使我們很難分析出來(lái)其中的規(guī)律,同時(shí)淘寶也對(duì)selenium進(jìn)行了反爬限制,所以我們要換種思路來(lái)進(jìn)行數(shù)據(jù)獲取。

因?yàn)槠鶈?wèn)題,數(shù)據(jù)采集的方式在這里就不在過(guò)多的講解,有興趣的小伙伴可以看看這篇文章,它詳細(xì)的介紹了淘寶商品數(shù)據(jù)的獲取方式,我們這里只展示核心代碼。

  1. response = requests.get('https://s.taobao.com/search', headers=headers, params=params) 
  2. shangpinming = re.findall('"raw_title":"(.*?)"', response.text) 
  3.  
  4. jiage = re.findall('"view_price":"(.*?)"', response.text) 
  5.  
  6. fahuodi = re.findall('"item_loc":"(.*?)"', response.text) 
  7.  
  8. fukuanrenshu = re.findall('"view_sales":"(.*?)人付款"', response.text) 
  9.  
  10. dianpumingcheng = re.findall('"nick":"(.*?)"', response.text) 
  11.  
  12. for i in range(44): 
  13.    try: 
  14.        if (fukuanrenshu[i] == '1.5萬(wàn)+'): 
  15.            f = 15000 
  16.        elif (fukuanrenshu[i] == '1.0萬(wàn)+'): 
  17.            f = 10000 
  18.        elif ('+' in fukuanrenshu[i]): 
  19.            f = re.findall('\d+', fukuanrenshu[i]) 
  20.        else
  21.            f = fukuanrenshu[i] 
  22.        if float(jiage[i]) > 10: 
  23.            sheet.append([dianpumingcheng[i], shangpinming[i], float(jiage[i]), f 

02數(shù)據(jù)清洗

01導(dǎo)入商品數(shù)據(jù)

用pandas讀取爬取后的商品數(shù)據(jù)并預(yù)覽。

  1. df = pd.read_excel('褲衩男.xlsx',names=['店鋪名稱','商品名','價(jià)格','產(chǎn)地','付款人數(shù)']) 
  2. print(df.head()) 

02刪除重復(fù)數(shù)據(jù)

  1. df.drop_duplicates() 

03查看數(shù)據(jù)類型

查看字段類型和缺失值情況,符合分析需要,無(wú)需另做處理。

  1. df.info() 

03數(shù)據(jù)可視化

我們來(lái)對(duì)這1741條大褲衩的數(shù)據(jù)進(jìn)行可視化分析。

01在售的大褲衩的特點(diǎn)。

通過(guò)對(duì)大褲衩的商品名稱進(jìn)行詞云圖繪制,志斌發(fā)現(xiàn),大褲衩的主要特點(diǎn)是寬松,其次是休閑和運(yùn)動(dòng)。仔細(xì)想來(lái),夏天的時(shí)候大家的穿著確實(shí)是比較寬松和休閑的。

 

02各省市產(chǎn)量分布圖

通過(guò)對(duì)各商品的產(chǎn)地?cái)?shù)據(jù)進(jìn)行統(tǒng)計(jì)并繪制了全國(guó)地圖,我們發(fā)現(xiàn)福建和浙江這兩個(gè)地方盛產(chǎn)大褲衩。

我們對(duì)這兩個(gè)省份的數(shù)據(jù)進(jìn)行更一步的分析發(fā)現(xiàn):福建省的大褲衩主產(chǎn)地在泉州,占據(jù)全省產(chǎn)量的70.4%

浙江省的大褲衩主產(chǎn)地在杭州,占據(jù)全省產(chǎn)量的87.4%。

03各價(jià)位商品數(shù)量圖

通過(guò)對(duì)商品價(jià)格進(jìn)行分段可視化,我們可以看出100元以下的大褲衩占據(jù)全部市場(chǎng)的77.4%,可見(jiàn)大家對(duì)大褲衩的心理價(jià)位選擇普遍較低。

04大褲衩月銷量top20商家

通過(guò)對(duì)各商品月銷售量進(jìn)行可視化分析,我們發(fā)現(xiàn),巴布衫旗艦店的月銷量最多是10000。語(yǔ)克旗艦店的商品在月銷量top20中占據(jù)6個(gè),top5中占據(jù)了3個(gè),看來(lái)這個(gè)旗艦店的商品受大眾喜歡的類型更多。同時(shí)我們還能看出,用戶們更喜歡去旗艦店和專賣店進(jìn)行購(gòu)物。

05選擇合適的大褲衩并入手

經(jīng)過(guò)以上的分析和對(duì)寶貝的評(píng)價(jià)、好評(píng)率等數(shù)據(jù)進(jìn)行綜合考慮之后,志斌最終選擇購(gòu)買這條大褲衩來(lái)入手。

05小結(jié)

1. 本文僅供學(xué)習(xí)研究使用,提供的評(píng)論僅供參考。如有不妥之處請(qǐng)及時(shí)告知作者。

 

2. 如需代碼,請(qǐng)聯(lián)系作者進(jìn)行獲取。

 

責(zé)任編輯:武曉燕 來(lái)源: 志斌的python筆記
相關(guān)推薦

2022-09-06 08:01:23

數(shù)據(jù)采集數(shù)據(jù)可視化加密

2021-11-03 09:49:25

Python可視化數(shù)據(jù)

2020-07-23 09:15:25

Python機(jī)器學(xué)習(xí)聚類分析

2022-10-12 07:38:24

SQL語(yǔ)句異常

2019-06-23 18:30:00

Python數(shù)據(jù)分析編碼

2011-04-14 09:05:07

ExcelMySQL數(shù)據(jù)

2020-07-08 15:10:11

Python數(shù)據(jù)分析代碼

2018-05-14 08:33:06

比賽數(shù)據(jù)攻略

2020-05-16 13:25:03

分析網(wǎng)購(gòu)數(shù)據(jù)

2021-04-16 07:04:53

SQLOracle故障

2010-05-17 16:25:05

MySQL數(shù)據(jù)

2020-12-24 15:18:27

大數(shù)據(jù)數(shù)據(jù)分析

2018-07-10 15:28:44

Python爬蟲數(shù)據(jù)分析

2017-07-06 15:44:33

2012-08-08 09:53:23

HadoopMapReduce

2018-09-04 11:45:31

前端JavaScriptNodeJS

2022-04-06 14:15:10

Python數(shù)據(jù)

2021-07-10 07:40:27

Excel數(shù)據(jù)分析大數(shù)據(jù)

2021-07-21 16:16:40

PythonNLTK編程語(yǔ)言

2018-06-21 09:12:01

編程語(yǔ)言Python數(shù)據(jù)分析
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)