爬取了上萬條租房數(shù)據(jù),你還要不要北漂?
8 月初,有網(wǎng)友在“水木論壇”發(fā)帖控訴長租公寓加價搶房引起關(guān)注。據(jù)說,一名業(yè)主打算出租自己位于天通苑的三居室,預(yù)期租金 7500 元/月,結(jié)果被二方中介互相抬價,硬生生抬到了 10800 元。
過去一個月,全國熱點城市的房租如脫韁野馬。一線的房租同比漲了近 20%。一夜醒來,無產(chǎn)青年連一塊立錐之地都懸了。
從 2018 下半年開始,租金海嘯般洶洶來襲,資本狂歡,官方默然,房東糾結(jié),租客尖叫。
這不是一方的過錯,而更像是一場全社會的“集體謀殺作品”。最令人不安的是,過去房地產(chǎn)的那套玩法和上漲邏輯,今天正在轉(zhuǎn)移到房租上。
房租暴漲的不只是北京。有數(shù)據(jù)顯示,7 月份北京、上海、廣州、深圳、天津、武漢、重慶、南京、杭州和成都十大城市租金環(huán)比均有所上漲。
其中北京、上海、深圳的租金漲幅最猛,北京 7 月份房租同比上漲 3.1%,有小區(qū)甚至漲幅超過 30%。
圖自“21世紀(jì)經(jīng)濟報道”《***房租數(shù)據(jù)出爐,你一個月要交多少錢?(附房租地圖)》一文
接下來,本文使用 Python 大法通過獲取某網(wǎng)數(shù)萬條北京租房數(shù)據(jù),給大家說說真實的房租情況。
還是老規(guī)矩,老套路(是不是有股熟悉的味道),常用的三部曲:數(shù)據(jù)獲取、數(shù)據(jù)清洗預(yù)覽、數(shù)據(jù)分析可視化,與你一起探究最近房租的狀況。
數(shù)據(jù)獲取
今日就以目前市場占有率***的房屋中介公司為目標(biāo),來獲取北京、上海兩大城市的租房信息。(目標(biāo)鏈接:https://bj.lianjia.com/zufang/)
整體思路是:
- 先爬取每個區(qū)域的 url 和名稱,跟主 url 拼接成一個完整的 url,循環(huán) url 列表,依次爬取每個區(qū)域的租房信息。
- 在爬每個區(qū)域的租房信息時,找到***的頁碼,遍歷頁碼,依次爬取每一頁的二手房信息。
post 代碼之前,先簡單講一下這里用到的幾個爬蟲 Python 包:
- requests:是用來請求對鏈家網(wǎng)進(jìn)行訪問的包。
- lxml:解析網(wǎng)頁,用 Xpath 表達(dá)式與正則表達(dá)式一起來獲取網(wǎng)頁信息,相比 bs4 速度更快。
詳細(xì)代碼如下:
- import requests
- import time
- import re
- from lxml import etree
- # 獲取某市區(qū)域的所有鏈接
- def get_areas(url):
- print('start grabing areas')
- headers = {
- 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'}
- resposne = requests.get(url, headers=headers)
- content = etree.HTML(resposne.text)
- areas = content.xpath("//dd[@data-index = '0']//div[@class='option-list']/a/text()")
- areas_link = content.xpath("//dd[@data-index = '0']//div[@class='option-list']/a/@href")
- for i in range(1,len(areas)):
- area = areas[i]
- area_link = areas_link[i]
- link = 'https://bj.lianjia.com' + area_link
- print("開始抓取頁面")
- get_pages(area, link)
- #通過獲取某一區(qū)域的頁數(shù),來拼接某一頁的鏈接
- def get_pages(area,area_link):
- headers = {
- 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'}
- resposne = requests.get(area_link, headers=headers)
- pages = int(re.findall("page-data=\'{\"totalPage\":(\d+),\"curPage\"", resposne.text)[0])
- print("這個區(qū)域有" + str(pages) + "頁")
- for page in range(1,pages+1):
- url = 'https://bj.lianjia.com/zufang/dongcheng/pg' + str(page)
- print("開始抓取" + str(page) +"的信息")
- get_house_info(area,url)
- #獲取某一區(qū)域某一頁的詳細(xì)房租信息
- def get_house_info(area, url):
- headers = {
- 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36'}
- time.sleep(2)
- try:
- resposne = requests.get(url, headers=headers)
- content = etree.HTML(resposne.text)
- info=[]
- for i in range(30):
- title = content.xpath("//div[@class='where']/a/span/text()")[i]
- room_type = content.xpath("//div[@class='where']/span[1]/span/text()")[i]
- square = re.findall("(\d+)",content.xpath("//div[@class='where']/span[2]/text()")[i])[0]
- position = content.xpath("//div[@class='where']/span[3]/text()")[i].replace(" ", "")
- try:
- detail_place = re.findall("([\u4E00-\u9FA5]+)租房", content.xpath("//div[@class='other']/div/a/text()")[i])[0]
- except Exception as e:
- detail_place = ""
- floor =re.findall("([\u4E00-\u9FA5]+)\(", content.xpath("//div[@class='other']/div/text()[1]")[i])[0]
- total_floor = re.findall("(\d+)",content.xpath("//div[@class='other']/div/text()[1]")[i])[0]
- try:
- house_year = re.findall("(\d+)",content.xpath("//div[@class='other']/div/text()[2]")[i])[0]
- except Exception as e:
- house_year = ""
- price = content.xpath("//div[@class='col-3']/div/span/text()")[i]
- with open('鏈家北京租房.txt','a',encoding='utf-8') as f:
- f.write(area + ',' + title + ',' + room_type + ',' + square + ',' +position+
- ','+ detail_place+','+floor+','+total_floor+','+price+','+house_year+'\n')
- print('writing work has done!continue the next page')
- except Exception as e:
- print( 'ooops! connecting error, retrying.....')
- time.sleep(20)
- return get_house_info(area, url)
- def main():
- print('start!')
- url = 'https://bj.lianjia.com/zufang'
- get_areas(url)
- if __name__ == '__main__':
- main()
數(shù)據(jù)清洗預(yù)覽
爬取數(shù)據(jù)共 14038 條,有 10 個維度,由上圖可看出北京房源均價為 9590 元/月,中位數(shù)為 7000。
一半的房源價格在 7000 以下,所有房源的價格區(qū)間為 [1000,250000],價格極差過大。
數(shù)據(jù)分析可視化
四維度-北京房租均價
接下來,我將北京各區(qū)域、各路段、各樓盤房屋數(shù)量、均價分布放在同一張圖上,更直觀地來看待房租。
從圖中可看出,最近,北京市各區(qū)域的房租均在 6000 元/月以上,其中***區(qū)域為東城,均價達(dá) 12463 元/月。
不過,由于房源信息過多過雜,房屋位置、面積、樓層、朝向等對價格均有較大影響,因此,價格這個維度需要進(jìn)一步分析。
由上圖可得,各路段的均價基本都在 6000 元以上,其中海淀北部新區(qū)的房源數(shù)最多,但均價***,為 3308 元/月。
這或許與海淀北部生態(tài)科技新區(qū)作為高新技術(shù)產(chǎn)業(yè)的承載區(qū)、原始創(chuàng)新策源地的研發(fā)基地,以及科技園集聚區(qū),目前已入駐華為、聯(lián)想、百度、騰訊、IBM、Oracle 等近 2000 家國內(nèi)外知名的科技創(chuàng)新型企業(yè)有關(guān)。
另一方面,海淀紫竹橋的房價竟一起沖天,其附近以博物館、體育場館為特色,交通便利,配套設(shè)施完善,均價較高也是情理之中。
可以看出,不同樓盤的均價浮動很大,但都在 6000 元/月以上,***的甚至達(dá)到 17516 /月。
由于每個樓盤戶型差別較大,地理位置也較為分散,因此均價波動很大。每個樓盤具體情況還需具體分析。
附詳情代碼:
- #北京路段_房屋均價分布圖
- detail_place = df.groupby(['detail_place'])
- house_com = detail_place['price'].agg(['mean','count'])
- house_com.reset_index(inplace=True)
- detail_place_main = house_com.sort_values('count',ascending=False)[0:20]
- attr = detail_place_main['detail_place']
- v1 = detail_place_main['count']
- v2 = detail_place_main['mean']
- line = Line("北京主要路段房租均價")
- line.add("路段",attr,v2,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
- mark_point=['min','max'],xaxis_interval=0,line_color='lightblue',
- line_width=4,mark_point_textcolor='black',mark_point_color='lightblue',
- is_splitline_show=False)
- bar = Bar("北京主要路段房屋數(shù)量")
- bar.add("路段",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
- xaxis_interval=0,is_splitline_show=False)
- overlap = Overlap()
- overlap.add(bar)
- overlap.add(line,yaxis_index=1,is_add_yaxis=True)
- overlap.render('北京路段_房屋均價分布圖.html')
由上圖可以看出,均價在 8000-10000 之間的房屋數(shù)量最多,同時 1500-2000 這個價位之間房屋數(shù)少的可憐。
據(jù)北京市統(tǒng)計局的數(shù)據(jù),2017 年全市居民月人均可支配收入為 4769 元。另據(jù) 58 同城和趕集網(wǎng)發(fā)布的報告,2017 年北京人均月租金為 2795 元。
北京租房者的房租收入比,驚人地接近 60%。很多人一半的收入,都花在了租房上,人生就這樣被鎖定在貧困線上。
統(tǒng)計數(shù)據(jù)也表明,北京租房人群收入整體偏低。47% 的租房人,年薪在 10 萬以下。
在北京,能夠負(fù)擔(dān)得起每月 5000 元左右房租的群體,就算得上是中高收入人群。
就這樣,***批 90 后扛過了離婚、禿頭、出家和生育,終于還是倒在了房租面前。
附詳情代碼:
- #房源價格區(qū)間分布圖
- price_info = df[['area', 'price']]
- #對價格分區(qū)
- bins = [0,1000,1500,2000,2500,3000,4000,5000,6000,8000,10000]
- level = ['0-1000','1000-1500', '1500-2000', '2000-3000', '3000-4000', '4000-5000', '5000-6000', '6000-8000', '8000-1000','10000以上']
- price_stage = pd.cut(price_info['price'], bins = bins,labels = level).value_counts().sort_index()
- attr = price_stage.index
- v1 = price_stage.values
- bar = Bar("價格區(qū)間&房源數(shù)量分布")
- bar.add("",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
- xaxis_interval=0,is_splitline_show=False)
- overlap = Overlap()
- overlap.add(bar)
- overlap.render('價格區(qū)間&房源數(shù)量分布.html')
面積&租金分布呈階梯性
上圖可以看出,80% 的房源面積集中在 0-90 平方米之間,也符合租客單租與合租情況,大面積的房屋很少。
面積&租金分布呈階梯性,比較符合常理。租房主力軍就是上班族了,一般對房子面積要求較低,基本集中在 30 平。
附詳情代碼:
- #房屋面積分布
- bins =[0,30,60,90,120,150,200,300,400,700]
- level = ['0-30', '30-60', '60-90', '90-120', '120-150', '150-200', '200-300','300-400','400+']
- df['square_level'] = pd.cut(df['square'],bins = bins,labels = level)
- df_digit= df[['area', 'room_type', 'square', 'position', 'total_floor', 'floor', 'house_year', 'price', 'square_level']]
- s = df_digit['square_level'].value_counts()
- attr = s.index
- v1 = s.values
- pie = Pie("房屋面積分布",title_pos='center')
- pie.add(
- "",
- attr,
- v1,
- radius=[40, 75],
- label_text_color=None,
- is_label_show=True,
- legend_orient="vertical",
- legend_pos="left",
- )
- overlap = Overlap()
- overlap.add(pie)
- overlap.render('房屋面積分布.html')
- #房屋面積&價位分布
- bins =[0,30,60,90,120,150,200,300,400,700]
- level = ['0-30', '30-60', '60-90', '90-120', '120-150', '150-200', '200-300','300-400','400+']
- df['square_level'] = pd.cut(df['square'],bins = bins,labels = level)
- df_digit= df[['area', 'room_type', 'square', 'position', 'total_floor', 'floor', 'house_year', 'price', 'square_level']]
- square = df_digit[['square_level','price']]
- prices = square.groupby('square_level').mean().reset_index()
- amount = square.groupby('square_level').count().reset_index()
- attr = prices['square_level']
- v1 = prices['price']
- pie = Bar("房屋面積&價位分布布")
- pie.add("", attr, v1, is_label_show=True)
- pie.render()
- bar = Bar("房屋面積&價位分布")
- bar.add("",attr,v1,is_stack=True,xaxis_rotate=30,yaxix_min=4.2,
- xaxis_interval=0,is_splitline_show=False)
- overlap = Overlap()
- overlap.add(bar)
- overlap.render('房屋面積&價位分布.html')
大多數(shù)房屋年齡在 10 年以上
由上圖看出,房屋年齡大多集中在 10-20 年、25 年以上,而 5 年以下的不到 2%;不過,別看這些都是老房子,最近房租變得這么猖狂?原因其中之一就是資本圈地。
這條網(wǎng)貼立馬點燃了大眾的情緒:“好啊,原來是這些長租平臺燒錢圈地,一心只想要壟斷市場房源,哄抬租金,企圖賺取暴利差價!”
后記
拿自如舉例,表面上看跟中介公司沒啥兩樣,收了各種散盤,然后集中裝修、出租、管理,因為運營成本和住房質(zhì)量提高,房租肯定有所上漲。
但更關(guān)鍵的事情在背后。自如把項目打包起來搞起了資產(chǎn)證券化,以租金收益權(quán)為基礎(chǔ)資產(chǎn)做擔(dān)保,投放到金融市場上發(fā)行國內(nèi)首單租房市場消費分期類 ABS,讓各路資金來認(rèn)購,每年給大家搞點分紅。
大量資本都在賭租房這個風(fēng)口,而前期誰的規(guī)模越大、資源越多,以后的定價權(quán)就越大,利潤空間就越不可想象。
這次一共從鏈家網(wǎng)上爬取 14038 條數(shù)據(jù),而那就是大概一周前,8 月 17 日北京住建委約談了幾家中介公司。
最終的結(jié)果是自如、相寓和蛋殼承諾將拿出 12 萬間房子投入市場其中,自如將拿出 8 萬間(鏈家、自如、貝殼找房,他們的實際控制人是同一個人--鏈家老板左暉)。
也就是說,平常的時候,鏈家網(wǎng)+自如一共在網(wǎng)上待租的也就是 1 萬多套房子,但是一被約談他們就一口氣拿出了 8 萬套房子增援??怎么增?繼續(xù)收房,讓房源更加供不應(yīng)求?
昨天買不起房,今天租不起房,如果連這樣的生活也要因為市場的不規(guī)范而被逼迫、被奪走,真的會讓人對一個城市失去希望。
留 言 有 禮 活 動
作為IT技術(shù)人,你如何看待近期北京房租上漲?掃描下方二維碼,關(guān)注51CTO技術(shù)棧公眾號。歡迎在技術(shù)棧微信公眾號留言探討。小編將精選出最有價值的三條評論,分別獲得 50、30、20 元 的 紅 包 獎 勵,活動截止時間 8 月 31 號 12 時整。