5天破10億的哪吒,為啥這么火,Python來分析
不知道大家最近有沒有去看電影,最近身邊的朋友都在向我安利一部叫做《哪吒之魔童降世》的動漫電影。大家無一例外,都說非常的好看。
看一下最近的微信搜索指數(shù),比火熱的電視劇“親愛的熱愛的”搜索指數(shù)要高出近6倍,比迪斯尼的“獅子王”要高出22倍,確實非?;稹?/p>
小編抱著好奇的心態(tài),去貓眼上看了一下,結(jié)果顯示在接近84萬人評分的情況下,評分竟然高達9.7分??戳诉@確實是一部好劇,也值得我去爬取一下大家的評論,并進行一波分析,從中發(fā)現(xiàn)一些值得關(guān)注的東西。
1.數(shù)據(jù)的獲取
首先是關(guān)于數(shù)據(jù)的爬取,數(shù)據(jù)的爬取相對簡單,大家只需要打開貓眼網(wǎng)里面這部片子的網(wǎng)址,便可以看到下面的影評。在開發(fā)者模式中,切換到移動端,便可以看到影評,如果大家仔細(xì)觀察,可以發(fā)現(xiàn),影評是動態(tài)加載的,如下圖所示:
動態(tài)加載的話,大家只需要在network下的XHR內(nèi),仔細(xì)觀察,便可以發(fā)現(xiàn)網(wǎng)頁動態(tài)加載的json數(shù)據(jù),也就是我們要爬取的數(shù)據(jù)。如下圖所示。
接下來就是利用簡單的爬蟲進行爬取了,部分代碼如下圖所示。
爬取的過程其實很簡單,通過手機端的鏈接進去,然后循環(huán)爬取,用bs進行解析即可,然后把保存為json文件。
2.數(shù)據(jù)的分析
爬取完數(shù)據(jù)之后,接下來便是數(shù)據(jù)的分析,上述的數(shù)據(jù)中,大概有5000多條。(先爬5000條,高并發(fā)幾十萬條需要用分布式爬蟲才可以)
小編爬到了評論者的性別(0為未知,1代表男,2代表女)、等級、所在城市、評分以及評語。
3.影評分析
用Python做可視化分析的工具很多,目前比較輕量級好用的庫是pyecharts,在公眾號里面多次講解過它的用法,這里就不詳細(xì)重復(fù)了!我們看快速看一下近5000條影評的數(shù)據(jù)可視化結(jié)果:
1)總體評分
《哪吒》在貓眼中的總體評分為9.7分,這個分?jǐn)?shù)無疑是非常高的。超過了國產(chǎn)動畫 比如“白蛇傳”。從評分分布來看,大多數(shù)評分都給了滿分,占總數(shù)的86.5%,其次是4.5分,占總數(shù)的7.7%,給到3分及以下的人非常少,還不足總?cè)藬?shù)的5%,要知道眾口難調(diào),這個差評比例在電影中可以算非常低的了。
2)性別差異
通常來說這種國產(chǎn)動畫的“大片”比較符合大眾口味,從評論者性別分布數(shù)據(jù)來看,雖然有接近一半的人不愿透露性別,但從已知數(shù)據(jù)判斷,觀影男女比例約為1:1多一點,女性觀眾的比例稍微高一點。
3).城市分布
接下來小編分析了評論者所在的城市分布。首先是直方圖的來粗略的展示前十大熱門的影迷城市,如下圖所示:
直方圖的展示不是很直觀也不全面,因此,小編采用地圖的形式,為大家更加直觀的進行展示,由于觀影者的城市地理位置可能沒有出現(xiàn)在程序的設(shè)置中,因此,小編只選取了觀影城市最多的前八十個城市作為動態(tài)展示,如下圖所示:
(動態(tài)圖)
4).評論內(nèi)容
首先整合評論內(nèi)容,然后利用wordcloud庫繪制詞云圖,從詞云分析情況來看,滿屏的“好看”,“不錯”,“特效”等贊美的詞語,與以往的電影不同的是,“劇情”,“故事”等字眼也特別醒目。
其實這部大片,算是國產(chǎn)動畫電影里面的大制作,電影制作花了5年的時間,劇本改了60幾個版本,制作的團隊高達千人。電影里面有1800多個鏡頭,有1300多個是特效,這樣的用心之作難怪上映之后,口碑爆棚啊!
而且導(dǎo)演還有很多致敬 星爺?shù)牡胤?,比如太乙真人那段,很像功夫片段里面的橋段,最搞笑的還有一本《神仙的自我修養(yǎng)》,好了不劇透了,大家趕緊去電影院看一下吧。