貓眼電影李明輝:機器學(xué)習(xí)在票房預(yù)估中的實戰(zhàn)
原創(chuàng)【51CTO.com原創(chuàng)稿件】近幾年我國票房市場成倍增長,2011 年近 150 億,2016 年 450 億,預(yù)計 2020 年前后會達千億規(guī)模。但這樣的市場規(guī)模僅接近美國市場的一半左右,原因在于中國電影主要收入來源于電影票房本身,而美國電影衍生品的收入高達電影相關(guān)產(chǎn)業(yè)總收入的 70%,中國在這塊卻幾乎空白。所以說,中國電影市場未來還有很大的成長空間。
誠然,機遇與風(fēng)險并存,票房市場呈暴增趨勢,問題也隨之顯現(xiàn)。當(dāng)下,我國投入發(fā)行上映的電影有很多,每周都有近十部電影上映,但大部分電影不賺錢,賠本成常態(tài)。
高風(fēng)險且投資回報率難以預(yù)測,很多時候大投入未必有大產(chǎn)出。在電影票房方面,預(yù)測工具的缺失,導(dǎo)致電影票房預(yù)測處于一個真空地帶。
票房預(yù)測的意義、難點及影響票房的因素
票房預(yù)測的意義
票房預(yù)測非常重要,在每個階段,都會起到很關(guān)鍵的作用:
- 電影上映前,此時投資方準(zhǔn)備投放一部電影,如可提前預(yù)估投資回報率,就能夠有效控制風(fēng)險。
- 電影發(fā)行期,對電影進行廣告和營銷,如可依據(jù)電影票房規(guī)模制訂不同營銷方案,就能夠控制成本。
- 電影上映期,可根據(jù)票房預(yù)估結(jié)果,進行智能排片,趨近利益最大化的目標(biāo)。
票房預(yù)測的難點
目前,票房預(yù)測達不到預(yù)期效果,是因為面臨如下幾大難點:
- 中國電影正處于野蠻生長期,市場不夠成熟。
- 可使用的數(shù)據(jù)和參考的信息非常龐大,噪音卻很多,想從互聯(lián)網(wǎng)、搜索引擎、社交網(wǎng)絡(luò)等渠道獲得的大量電影信息中,挖掘?qū)ζ狈坑杏玫臄?shù)據(jù)很難。
- 可供參考和學(xué)習(xí)的樣本比較少,這是利用機器學(xué)習(xí)解決票房預(yù)測時遇到的最大問題。如若沒有樣本和數(shù)據(jù),再好的方法、再高級的模型,也難以應(yīng)用。
- 有些感性特征難以量化,如通常憑借口碑來評價一部電影的好壞,但口碑如何來度量?如國慶、暑假對電影上映的影響,又如何度量?
影響票房的因素
票房高低,會受到很多方面的影響。如下,是一些關(guān)鍵因素:
- 題材。這部電影是動畫片、文藝片、動作片、還是國際好萊塢大片,題材不同導(dǎo)致受眾范圍不同,直接影響票房高低。
- 卡司陣容。演員、導(dǎo)演的陣容,會形成粉絲群范圍,不排除有些電影質(zhì)量、內(nèi)容不是很好,但因為有一些比較有號召力的演員參演,帶來可觀票房的現(xiàn)象。
- 影片質(zhì)量。影片的質(zhì)量、口碑,大家公認(rèn)較好,且在社交上傳播廣泛,也會帶來票房的增量。
- 檔期。受到同期上映電影的競爭,會影響某部電影的票房。
- 宣傳力度。營銷用多少成本,廣告花費多少,電影上映時候投入票補多少,也會影響票房。
- 非市場因素。比如官方因素,前期給某部電影設(shè)立出售目標(biāo)或出現(xiàn)國家較反對的內(nèi)容,買、偷票房數(shù)據(jù)等因素都會影響票房。
貓眼票房預(yù)測的整體技術(shù)體系
從最早期 1915 年前后的電影膠片時代到現(xiàn)在,在票房預(yù)測的整個發(fā)展過程中,我們經(jīng)歷了三大階段,涉及到很多預(yù)測方式,具體細節(jié)見下圖:
2013 年之后,當(dāng)前的電影票房預(yù)測涉及全國實時票房、影院級實時票房、天極票房和總票房等部分。貓眼目前重點關(guān)注上映前一天、上映第一天以及上映當(dāng)周周末這幾個重要時間點的票房效果。
如下圖,是貓眼票房預(yù)測的整體技術(shù)體系:
- 實時票房,是每部電影在上映階段,當(dāng)天產(chǎn)生的票房。還有排片、人次、平均票價等各種細密度數(shù)據(jù)。
- 天級票房,是預(yù)測每部影片在全國放映次日的票房,目前貓眼能做到在前一日 17 點、21 點預(yù)測第二天的票房。
- 總票房,是指每部影片在整個上映周期的全國票房預(yù)測,以首映日、首周末日為時間節(jié)點。
- 實時票房、天極票房和總票房三者之間存在一定的關(guān)系。實時票房提供實時和未來預(yù)測的數(shù)據(jù),為天級票房提供數(shù)據(jù)的基礎(chǔ)。天極票房預(yù)測某一天的票房,為總票房預(yù)測提供數(shù)據(jù)的基礎(chǔ)。
如下圖,是基礎(chǔ)數(shù)據(jù)、預(yù)測服務(wù)和貓眼專業(yè)版三個子模塊的相關(guān)關(guān)系:
如圖中所示,基于合作影院售票數(shù)據(jù)、貓眼售票平臺交易數(shù)據(jù)等這些基礎(chǔ)數(shù)據(jù),可對全國實時票房及每個影院的實時票房進行預(yù)測,當(dāng)然獲得的數(shù)據(jù)還需要進行一些降噪處理。
得到全國每個影院的實時票房后,可以做到城市地區(qū)實時票房的預(yù)測。重點是天級票房和總票房的預(yù)測,需要相對復(fù)雜的方法來做,處理后的數(shù)據(jù)都會展示在貓眼專業(yè)版,提供給電影從業(yè)者,影院經(jīng)理、片方等進行參考。
如下圖,是貓眼工具首頁:
工具首頁顯示的是實時票房,點擊進入就會看到天級票房和總票房的預(yù)測結(jié)果。當(dāng)然,在這些數(shù)據(jù)背后,也會存在一些問題和解決方法,下面我們從實時票房開始,依次分析天極票房、總票房背后分別有哪些技術(shù)在支撐。
實時票房
實時票房數(shù)據(jù)對于電影從業(yè)者很重要,通過貓眼工具可看到電影在所有影院里的排片、分布和實時票房數(shù)據(jù)。如果沒有這樣的工具,這些數(shù)據(jù)只能等待第二天國家電影票房的公布。
我們與 90% 的電影院合作、對接 18 種售票系統(tǒng)、詳細的影院場次及座位數(shù)據(jù)等等,這些是貓眼做實時票房的優(yōu)勢。用貓眼買過票的人,一定對下圖所示 UI 很熟悉。
在購票過程中,紅色不能賣,那是不是說把全國所有影院紅色數(shù)據(jù)加起來,就趨近實時票房了?
看起來是這樣一個簡單的道理,但事實上,紅色數(shù)據(jù)并不代表全部銷售,像電影院預(yù)留的電影票,想留一些好座位或自己售賣獲得更高收益,也會呈現(xiàn)紅色。
給這個問題定義就是已知貓眼合作影院(占全國約 90%)每部電影、每個場次的實時座位圖數(shù)據(jù),如何準(zhǔn)確預(yù)測每部電影在全國全部影院的實時票房總和。這里難點有兩個:
- 位置圖中狀態(tài)不明確,導(dǎo)致數(shù)據(jù)噪音大。
- 不是全部影院,數(shù)據(jù)不完備。
針對這兩個問題,貓眼的解決方案是進行數(shù)據(jù)抽樣,以部分樣本為基礎(chǔ),估計全量。
如下圖,是實時票房的統(tǒng)計模型:
有很多影院與貓眼合作,設(shè)共有 n 個場次,從這些影院中抽樣出“高質(zhì)量”的影院,設(shè)共有m個場次。
什么是高質(zhì)量呢?就是看到的紅色位置數(shù)據(jù)和第二天上報的數(shù)據(jù)相接近。統(tǒng)計 m 場次的售票數(shù)量,設(shè)為 X。通過右上角紅色框內(nèi)的公式,可得到全國的售票總量,其中X、m、n 抽取高質(zhì)量影院的數(shù)據(jù)是確定的,只有 α 是未知。
這時,可使用前一天或歷史的 α 值來模擬今天的 α 值。帶入如圖中的公式,就可得出當(dāng)天的預(yù)估值,這是票房最核心的統(tǒng)計模型。
如下,是實時票房整個的框架圖:
為了可以很好的提供實時服務(wù),面對龐大的計算量,可以把計算分為離線和在線兩部分。
α 值相對穩(wěn)定,采用離線計算的方式即可。在線部分需要做數(shù)據(jù)清洗、票價處理,以及實時票數(shù)、票房的計算等。影院、地區(qū)實時票房計算是另一個相對獨立的部分,算法也比較類似,這里不再詳細介紹。
天級票房
基于在線售票系統(tǒng)可獲得直接交易的數(shù)據(jù),預(yù)售票房、排片場次等細粒度數(shù)據(jù)和精準(zhǔn)的實時票房為天級票房預(yù)測提供可靠的特征,這是貓眼在天級票房預(yù)測方面的優(yōu)勢。
天級票房是指預(yù)測未來某一天的票房,貓眼目前可以達到提前一天預(yù)測第二天票房,如下圖是《速度與激情 8》首映票房走勢:
從圖中可以看到前一天 21 點預(yù)測票房,比例約占全天的 30% 左右的份額。貓眼在 30% 左右的售出情況下預(yù)測整體,難度系數(shù)很高,因為每部電影占比不同。
一個基本假設(shè)為票房 = 票價*人次 = 票價*場次*場均人次,可以看出很多特征均是乘積關(guān)系的。
做對數(shù)變換后,特征與目標(biāo)之間就有了線性關(guān)系,可以利用線性模型來解決這個問題,如下是方程式:
log(票房) = log(票價)+log(場次)+log(場均人次) y=w1*x1+w2*x2+... |
如下是對數(shù)特征與目標(biāo)之間的關(guān)系圖:
通過這兩幅圖,可以看出前一日預(yù)售 VS 次日票房和前一日排片場次 VS 次日票房之間存在很強的線性相關(guān)。
特征和目標(biāo)變量之間的關(guān)系是線性的,就可以采用線性回歸模型來擬合票房,如下圖:
左側(cè)圖為一元線性回歸,右側(cè)為多元線性回歸。它們是回歸分析預(yù)測法中最簡單和最常用的方法。目標(biāo)為平方誤差,求解方法有最小二乘法、梯度下降等。這里引入正則化可防止過擬合。
如下圖所示,為天級票房預(yù)測主要用到的特征:
一方面是實時票房提供的特征,另一方面是貓眼自身售票系統(tǒng)帶來的票房相關(guān)特征。還有一些其他特征,如節(jié)假日、特征的組合等。
因為每天的規(guī)律都不相同,采用單一線性回歸模型來擬合票房預(yù)測效果并不好。所以貓眼采用的方式是找到票房衰減規(guī)律,分段建模。
根據(jù)不同時間單獨建模型,對首映日、非首映日,節(jié)假日、周幾都會進行單獨考慮。
總票房
先來看一個比較明顯的總票房預(yù)測對比,如下圖:
圖中所示兩條曲線,分別是《速度與激情 8》與《摔跤吧!爸爸》的票房走勢。
第一張《速度與激情 8》的票房走勢是相對正常的,但第二幅《摔跤吧!爸爸》后期因為口碑不斷發(fā)酵,導(dǎo)致票房曲線不斷上揚。這樣的情況,前期很難預(yù)測票房可以上漲多少。
總票房重點在首映日、首周末兩個時間節(jié)點來預(yù)測票房總量。如下圖,是總票房預(yù)測的層次模型:
總票房根據(jù)預(yù)測日的不同進行區(qū)別,如首映日、首周末一定要進行拆分。在不同的時間段上映,所用的模型也有所區(qū)別,都需要單獨建模。
如下圖,是總票房預(yù)測用到的特征:
總票房特征與天級票房特征差別很大,涉及影片屬性、檔期、競爭等。
如下圖,是總票房預(yù)測用到的支持向量回歸模型:
此模型的優(yōu)點有三個:
- 特征維度大于樣本數(shù)時,仍然適用。
- 小樣本情況下,模型泛化性強。
- 非線性核函數(shù),可解決非線性的回歸問題。
未來工作展望
在票房預(yù)測的基礎(chǔ)方面,貓眼需要提高效果、提前時間點和進行方法創(chuàng)新。細則有如下幾點:
- 洞察票房內(nèi)在規(guī)律,不斷探索新的方法。
- 正在嘗試預(yù)測票房走勢、預(yù)售比。
- 交互式預(yù)測系統(tǒng):支持總票房、天級票房的預(yù)測。
- 天級票房再提前 1~2 天的小目標(biāo)。
- 總票房預(yù)測提前 1 個月的大目標(biāo)。
在應(yīng)用拓展方面,細則也有如下幾點:
- 影片排片:排片助手=>智能排片。
- 發(fā)行營銷:參與營銷計劃,進行票補的優(yōu)化。
- 樹立票房預(yù)測的行業(yè)標(biāo)桿。
以上內(nèi)容根據(jù)李明輝老師在WOTI全球創(chuàng)新技術(shù)峰會——巔峰論壇的演講內(nèi)容整理。
2016 年加入貓眼大數(shù)據(jù)部,負(fù)責(zé)票房預(yù)測方向。2007 年畢業(yè)于哈爾濱工業(yè)大學(xué),并獲得計算機應(yīng)用博士學(xué)位,后就職于微軟、百度、阿里等互聯(lián)網(wǎng)公司,研究和工作領(lǐng)域包括自然語言處理、計算廣告、機器學(xué)習(xí)、人工智能等。
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】
本月熱文推薦TOP4
東方金信CTO石棋玲:淺析大數(shù)據(jù)風(fēng)險分析與控制應(yīng)用
民生銀行高級數(shù)據(jù)分析師張丹:用R語言把數(shù)據(jù)玩出花樣
一下科技CTO湯力嘉:技術(shù)人的產(chǎn)品創(chuàng)新力
徹底透視CDN痛點,互聯(lián)網(wǎng)老兵聊聊CDN的那些事兒!