一文搞懂“預(yù)測模型”:建模思路,模型分類,應(yīng)用場景
“建個模型預(yù)測一下!”一聽到要建模預(yù)測,很多同學(xué)都會菊花一緊??梢杂脕碜鲱A(yù)測模型很多,但是往往領(lǐng)導(dǎo)們喊著“建個模型”的時候,他丟給你的就孤零零的一行數(shù),形如下圖:
圖片
這咋辦呀!你可能很想說:“就幾個數(shù),咱拍腦袋吧!”,這時候還會被領(lǐng)導(dǎo)批評。那死馬當(dāng)活馬醫(yī)的話,該咋整呢?
一、建模思路
建預(yù)測模型有兩個基本思路:因果關(guān)系/時間序列
1、基于因果關(guān)系建模。比如預(yù)測一個用戶是否消費(fèi),會把該用戶性別、年齡、過往消費(fèi)記錄、喜歡什么商品、瀏覽過哪些網(wǎng)頁等可能影響消費(fèi)的因素視為X,將消費(fèi)結(jié)果視為Y,之后利用數(shù)據(jù)計(jì)算出X與Y的公式。
2、基于時間序列建模。它把待預(yù)測的指標(biāo)(銷售額、用戶數(shù)、出貨量等)視為Y,把時間視為X,把待預(yù)測指標(biāo)隨著時間發(fā)展而變化的公式計(jì)算出來(形如y=ax+b,不過具體形式會更復(fù)雜)。
直觀地看,兩種思路需要的數(shù)據(jù)格式如下:
圖片
顯然,在僅有一行數(shù)據(jù)的情況下,因果關(guān)系預(yù)測很難實(shí)現(xiàn)。并且一般這種只丟一行數(shù)據(jù)讓預(yù)測的公司,一般數(shù)據(jù)基建也很稀爛,最多給個業(yè)績=訂單數(shù)*客單價,很少記錄影響用戶購買的原因。綜上,在只有一列數(shù)的情況下,用時間序列法比較省事。
二、建模準(zhǔn)備
時間序列法有3種基礎(chǔ)形態(tài)(如下圖所示):
圖片
根據(jù)不同的形態(tài),可以選擇不同的方法。因此在建模的時候,要先觀察數(shù)據(jù)形態(tài)。比如開頭的例子,顯然同時有季節(jié)性+趨勢性(如下圖所示),因此可以用帶趨勢的季節(jié)回歸來做。
圖片
三、建模過程
第一步:分別把代表趨勢的自變量(t),代表季節(jié)的自變量Q1、Q2、Q3構(gòu)造出來(如下圖)因變量(Y)就是銷售額。
圖片
第二步:利用回歸模型,計(jì)算相關(guān)參數(shù),這里直接用Excel的回歸分析功能做。
圖片
第三步:觀察結(jié)果,寫出預(yù)測模型的公式。
圖片
第四步:代入下一年度的參數(shù),得出預(yù)測數(shù)值。
圖片
這樣就做完啦!如果領(lǐng)導(dǎo)想看,可以從回歸分析的源頭講起,R平方的計(jì)算公式,參數(shù)估計(jì)原理,F(xiàn)檢驗(yàn)與t檢驗(yàn)。非數(shù)據(jù)出身的領(lǐng)導(dǎo)們一聽這么多專業(yè)名詞,對模型的幻想得到了一定程度的滿足,也就能交差了。
四、模型擴(kuò)展
Excel的回歸分析默認(rèn)是線性回歸。但有可能X與Y之間不是線性關(guān)系,比如公司業(yè)務(wù)在高速增長階段,隨著時間發(fā)展,業(yè)績越來越好,此時可能是多項(xiàng)式 or 對數(shù)關(guān)系。
因此在建模以前,可以先做散點(diǎn)圖,檢查下數(shù)據(jù)之間的關(guān)系。有趣的是,excel在添加趨勢線的時候,可以直接選擇擬合曲線,因此想偷懶的同學(xué),完全可以直接如下圖操作。
圖片
不過要注意的是:R平方并不是唯一判斷標(biāo)準(zhǔn),在擬合完走勢后,還得關(guān)注:
1、是否擬合走勢與原數(shù)據(jù)走勢明顯不相符
2、是否擬合走勢某些點(diǎn)不合業(yè)務(wù)邏輯
3、是否擬合走勢近期誤差過大
要先做排除法,剔除這些明顯有問題的。
圖片
如果剔除過后,依然有多個模型符合條件,可以計(jì)算每個模型擬合數(shù)據(jù) VS 實(shí)際數(shù)據(jù)的均方差(MSE:Mean Squared Error),選一個均方差較小的模型來用。
圖片
當(dāng)然,時間序列法還有平滑法以及平滑法的各種變體(holter & winter模型),還有ARIMA、LSTM等模型可用,等以后有機(jī)會再一一介紹。
小結(jié)
本質(zhì)上看,時間序列法就是模擬過去的走勢,然后按過去的走勢推演。這種做法和我們用肉眼觀察數(shù)據(jù)走勢,拍腦袋拍個數(shù)值沒有思路上的區(qū)別,僅僅是用公式替代了肉眼觀察,增加了精確度而已。
不過,話說回來,做預(yù)測,本身就是“長袖善舞,多錢善賈”,數(shù)據(jù)越豐富,預(yù)測準(zhǔn)確可能性越大。數(shù)據(jù)貧瘠,那也只能這樣將就下。