指標(biāo)歸因在互聯(lián)網(wǎng)平臺(tái)的應(yīng)用
一、什么是指標(biāo)歸因
大家在工作中經(jīng)常會(huì)看很多的報(bào)表,在查看報(bào)表的過程中會(huì)發(fā)現(xiàn)指標(biāo)并不是穩(wěn)定不變的,而是可能會(huì)有各種各樣的變化,比如下降、上升或者突變。指標(biāo)的波動(dòng)其實(shí)反映的是業(yè)務(wù)的實(shí)際波動(dòng)。所以,一旦發(fā)生變化,我們會(huì)問一些問題,比如在一個(gè)持續(xù)下降的圖表里面,我們會(huì)好奇是什么原因?qū)е轮笜?biāo)發(fā)生了波動(dòng),以及不同原因?qū)χ笜?biāo)波動(dòng)的影響有多大。所以,簡單來說,指標(biāo)歸因本質(zhì)上就是定位指標(biāo)波動(dòng)的核心影響因素。
指標(biāo)歸因主要分為三大步驟:首先需要明確問題,其次是分析定位問題,最后是去解決問題。
1. 明確問題
什么是明確問題呢?比如上圖中的例子,假設(shè)它是一個(gè)收入的圖表,如果看到收入持續(xù)下降,有的人可能會(huì)問下降的原因是什么,也有人可能會(huì)問收入下降是不是代表現(xiàn)有的模式不再可持續(xù)了。針對(duì)不同的問題,對(duì)應(yīng)的方法可能是不一樣的。像第一個(gè)問題,問為什么這一類問題,就屬于指標(biāo)歸因的范疇。后者則是更開放性命題,需要做問題拆解后再去看某個(gè)子問題是否屬于指標(biāo)歸因的范疇。所以首先需要明確面對(duì)的問題是不是指標(biāo)歸因的問題,在明確問題之后,再進(jìn)一步思考這個(gè)問題是否能被抽象為一個(gè)數(shù)學(xué)問題,以及可以被抽象為哪一類數(shù)學(xué)問題,是否有足夠的信息進(jìn)行分析。
2. 分析定位問題
接下來就是選擇一個(gè)合適的方法來分析問題。針對(duì)這樣的問題,有哪些方法可供選擇,各方法的優(yōu)缺點(diǎn)分別是什么,哪個(gè)方法更優(yōu)?有了這樣的考量之后,通過選擇的方法就能分析到一個(gè)相對(duì)合理的波動(dòng)原因。
3. 解決問題
定位原因之后,接下來就要去解決問題。因?yàn)橥ㄟ^數(shù)學(xué)方法定位到的原因是一個(gè)數(shù)學(xué)上的解釋,所以在解決問題之前首先需要將定位到的原因還原到實(shí)際業(yè)務(wù)上?;趯?shí)際問題,討論有什么樣的解決方案,以及每個(gè)方案的利弊,最終挑選一個(gè)合適的方案去推動(dòng)執(zhí)行。
以上是指標(biāo)歸因及基礎(chǔ)分析框架的介紹,接下來將詳細(xì)介紹指標(biāo)歸因的方法。
二、指標(biāo)歸因的基本方法
1. 指標(biāo)判斷
指標(biāo)歸因的第一步是明確問題,判斷指標(biāo)的變動(dòng)是否真實(shí)存在。
指標(biāo)波動(dòng)分為兩大類:
- 第一類是短期波動(dòng),表現(xiàn)是指標(biāo)暫時(shí)性的異常,通過環(huán)比的突增/突降點(diǎn)體現(xiàn)出來。從上圖可以看到非常明顯的突降點(diǎn),短期波動(dòng)一般會(huì)快速恢復(fù)到原來的水平。一般這種情況常見的因素是碰到了比較大的事件,比如突發(fā)事件等對(duì)經(jīng)營做調(diào)整,會(huì)帶來一個(gè)突變點(diǎn)。
- 第二類是長期波動(dòng),體現(xiàn)為中長期的持續(xù)上升或下降。這種類型沒法快速看到明確的突變時(shí)刻,也沒有辦法和某一個(gè)時(shí)刻的具體事件做關(guān)聯(lián),這種情況可能預(yù)示了潛在的風(fēng)險(xiǎn),特別是如果這樣的波動(dòng)不在預(yù)期之內(nèi),或者說是未知原因的波動(dòng),就需要進(jìn)一步通過歸因分析來找到問題所在。
2. 歸因方法
如果碰到需要進(jìn)一步分析的波動(dòng),有哪些方法可以選擇呢?基于對(duì)結(jié)論的預(yù)期有三類分析方法:
- 第一類是確定性判斷。例如互聯(lián)網(wǎng)平臺(tái),在手機(jī)、電腦以及電視端都可以使用,總的收入來源于這三個(gè)終端。如果發(fā)現(xiàn)收入下降了 10%,那么希望知道每一個(gè)終端的影響是多少,這就是確定性判斷。
- 第二類是可能性判斷。繼續(xù)上面的例子,通過確定性判斷已知移動(dòng)端帶來了 80% 的下降,那么下一步可能會(huì)想知道移動(dòng)端的下降主要受什么因素的影響,是因?yàn)橛脩粜袨榘l(fā)生了改變,還是因?yàn)椴呗哉{(diào)整帶來的負(fù)面影響,這就是可能性判斷。
- 第三類是猜測(cè)性判斷。假設(shè)已知是用戶行為變化帶來的收入下降,接下來可能會(huì)去猜測(cè)用戶行為為什么發(fā)生了變化,是受競品的影響,還是因?yàn)檎哒{(diào)控的影響。
這三類方法在使用上不是完全互斥的,在猜測(cè)性判斷時(shí),可能會(huì)有假設(shè)的猜測(cè),猜測(cè)性判斷提供了很多信息增量,基于這些信息增量不一定能得到非常自信的結(jié)論,可以基于猜測(cè)進(jìn)一步通過確定性或者可能性分析的方法去驗(yàn)證猜測(cè),最終得到更完善的結(jié)論。所以,在使用過程中,會(huì)基于實(shí)際情況選擇將各種方法進(jìn)行組合。
在確定性判斷和可能性判斷下還有多種具體的方法,比如在確定性判斷下,可能會(huì)使用指標(biāo)拆解;在可能性判斷下,可能會(huì)用機(jī)器學(xué)習(xí)和因果推斷之類的方法。除了在對(duì)結(jié)論的預(yù)期以外,還要基于具體各種方法的特性做權(quán)衡與取舍。比如,非常想有明確的確定性,會(huì)選擇指標(biāo)拆解的方法,但是如果選擇了指標(biāo)拆解,就相當(dāng)于放棄了對(duì)因果性的追求。再比如,如果確實(shí)非常想去探究因果性,可能就需要放棄一定的確定性,放棄指標(biāo)拆解這樣確定性非常高的方法。在實(shí)際的使用當(dāng)中,需要基于具體情況做平衡與取舍。
3. 確定性判斷
可以通過指標(biāo)拆解來做確定性的判斷。指標(biāo)拆解的優(yōu)點(diǎn)在于,計(jì)算相對(duì)容易,效率也比較高;其次,計(jì)算出來的貢獻(xiàn)度可以量化到具體的數(shù)值,每個(gè)因素的貢獻(xiàn)度都是可以直接相加的,可以得到具體的任何一個(gè)因素量化的影響百分比。
指標(biāo)拆解分為加減乘除四個(gè)不同的方法。加法比較容易理解,比如收入波動(dòng),可以把收入拆到移動(dòng)端、PC 端和 TV 端,分別去看每個(gè)終端帶來的波動(dòng)分別是多少,然后計(jì)算出波動(dòng)的貢獻(xiàn)度。加法相當(dāng)于是場景的拆解。
減法跟加法類似,是符號(hào)上的區(qū)別。
乘法與加法最大的區(qū)別在于,乘法更側(cè)重于實(shí)際業(yè)務(wù)轉(zhuǎn)化鏈路上的拆解。以收入為例,從用戶進(jìn)入平臺(tái)到產(chǎn)生收入會(huì)有一系列的轉(zhuǎn)化鏈路,通過乘法可以看到轉(zhuǎn)化鏈路中的每個(gè)環(huán)節(jié)的波動(dòng)比例,從而定位到需要重點(diǎn)關(guān)注的環(huán)節(jié)。乘法下面又包括替換法和 LMD 乘積因子拆解的方法。替換法的局限性在于替代的順序會(huì)影響貢獻(xiàn)度的計(jì)算,因此如果在意替代的順序的話更適合選擇乘積因子拆解的方法。
除法主要針對(duì)比例型的指標(biāo),沒法直接拆解再相加。一種做法是類似于乘法替換法,拆解出鏈路中每個(gè)環(huán)節(jié)的貢獻(xiàn)度。另一種做法是雙因素法,將指標(biāo)拆解成子場景,其貢獻(xiàn)度由波動(dòng)貢獻(xiàn)和結(jié)構(gòu)貢獻(xiàn)相加得來。
實(shí)際應(yīng)用中也可以選擇多種方法進(jìn)行組合分析。
比如互聯(lián)網(wǎng)平臺(tái)的收入分為廣告收入和會(huì)員收入,是兩個(gè)非常不一樣的商業(yè)模式,在分析整體收入的時(shí)候,不能把兩者混為一談。所以,我們會(huì)先通過加法的拆解,計(jì)算出具體是廣告收入對(duì)波動(dòng)的影響更大,還是會(huì)員收入的影響更大。在明確了大方向之后,再在這個(gè)大方向下做持續(xù)的下鉆以及拆分。通過橫向和縱向的分析組合,可以逐步定位到核心的變化場景,針對(duì)核心的問題去做有針對(duì)性的方案設(shè)計(jì)。
4. 可能性判斷
可能性判斷主要是通過建模分析來做歸因分析。它主要分為幾大類:
- 第一類是大家比較熟悉的機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)的好處是對(duì)相對(duì)簡單的建模效率較高且可解釋性較強(qiáng)。
- 隨著模型越來越復(fù)雜,機(jī)器學(xué)習(xí)模型的可解釋性就會(huì)有一定的下降,這時(shí)候就需要在機(jī)器學(xué)習(xí)的基礎(chǔ)上加 SHAP 值來計(jì)算,通過 SHAP 值來計(jì)算特征的目標(biāo)指標(biāo)貢獻(xiàn)。SHAP 值的優(yōu)點(diǎn)是不管機(jī)器學(xué)習(xí)的模型有多么復(fù)雜,都能計(jì)算出貢獻(xiàn)值,能幫助解釋各個(gè)特征的貢獻(xiàn)度。
- 不論是機(jī)器學(xué)習(xí)還是 SHAP 值都是在解釋相關(guān)性,這是比較大的一個(gè)局限。如果在歸因的時(shí)候,對(duì)因果關(guān)系有非常強(qiáng)的需求,則可以考慮因果推斷或者貝葉斯網(wǎng)絡(luò)。
5. 分析落地
在明確了方法,并通過某一個(gè)方法得到了相對(duì)完善的數(shù)據(jù)結(jié)論后,最后一步就是解決問題了。解決問題時(shí)非常重要的一點(diǎn)是要把得到的數(shù)據(jù)結(jié)論和實(shí)際的商業(yè)邏輯進(jìn)行結(jié)合,這樣才能明白當(dāng)前所面臨的問題的本質(zhì)是什么,找到對(duì)應(yīng)的解決方法。比如,通過分析發(fā)現(xiàn)收入下降主要是競品的降價(jià)行為帶動(dòng)的,因?yàn)楦偲返膬r(jià)格策略左右了廣告客戶的預(yù)算分配,那么會(huì)考慮是否可以在產(chǎn)品上增加一些亮點(diǎn),來爭取客戶的預(yù)算。這就是方案的探討。
三、指標(biāo)歸因的案例介紹
1. 案例一:基于指標(biāo)拆解做的確定性判斷
第一個(gè)案例是基于確定性判斷的方法。
第一步仍然是要判斷問題是否存在。案例的背景是通過監(jiān)控發(fā)現(xiàn)了我們關(guān)心的一個(gè)轉(zhuǎn)化指標(biāo)有非常明顯的下降,下降了 3.13%,波動(dòng)是 -27.8%。看到這樣的監(jiān)控,首先的問題就是這個(gè)波動(dòng)是不是問題,需不需要關(guān)注?在這個(gè)場景下,它其實(shí)是一個(gè)非常重要的問題。首先,這個(gè)指標(biāo)監(jiān)控的是某一個(gè)核心場景的轉(zhuǎn)化效率,這個(gè)指標(biāo)反映的是在這個(gè)場景下業(yè)務(wù)的實(shí)際效率,是一個(gè)非常重要的指標(biāo);其次,這個(gè)指標(biāo)代表的是一個(gè)效率,效率的下降會(huì)削弱業(yè)務(wù)優(yōu)化的價(jià)值增量;第三,這個(gè)指標(biāo)的趨勢(shì)是長期下降,從圖上可以看到,指標(biāo)先有短暫的上升,然后持續(xù)地在緩慢下降,而且最近降幅在加劇,它反映了潛在的還沒有發(fā)現(xiàn)的一些問題。所以,這個(gè)問題是非常值得關(guān)注的。
之后,要選擇什么樣的方法呢?這個(gè)指標(biāo)是轉(zhuǎn)換率,是比例型的指標(biāo)。既然是一個(gè)衡量轉(zhuǎn)化效率的指標(biāo),那就會(huì)有非常強(qiáng)的業(yè)務(wù)轉(zhuǎn)化節(jié)點(diǎn),是層層遞進(jìn)的關(guān)系,所以選擇通過乘法來做指標(biāo)拆解,將每一個(gè)轉(zhuǎn)化環(huán)節(jié)的影響因素都量化出來,看具體是在轉(zhuǎn)化過程中的哪一個(gè)環(huán)節(jié)發(fā)生了問題。通過乘法替換法的拆解,發(fā)現(xiàn)環(huán)節(jié) D 和環(huán)節(jié) B 是指標(biāo)波動(dòng)的核心影響因素,同時(shí)我們也發(fā)現(xiàn)環(huán)節(jié) C 對(duì)指標(biāo)有正向影響,后續(xù)也會(huì)關(guān)注指標(biāo) C 為什么提升,以及怎么去強(qiáng)化這種提升。
在使用指標(biāo)拆解的時(shí)候,有一些需要注意的問題。首先,指標(biāo)得有實(shí)際意義。因?yàn)閺臄?shù)學(xué)的角度來說,不管是加法、乘法還是除法,只要讓拆解公式成立,都可以計(jì)算出每一個(gè)過程指標(biāo)的貢獻(xiàn)度,但是如果只是純數(shù)學(xué)邏輯去拆解,得到的歸因結(jié)論可能沒有辦法實(shí)際落地,沒有辦法解釋指標(biāo)為什么波動(dòng)以及最大影響因素的具體含義。一個(gè)比較好的做法是,在指標(biāo)拆解的時(shí)候能將每個(gè)指標(biāo)明確到一個(gè)具體的負(fù)責(zé)團(tuán)隊(duì),這樣當(dāng)拆解出一個(gè)指標(biāo)或某個(gè)環(huán)節(jié)的波動(dòng)比較大的時(shí)候,會(huì)有對(duì)應(yīng)的人去解決相應(yīng)的問題。
其次,在做指標(biāo)拆解的時(shí)候指標(biāo)數(shù)量不能太多。在實(shí)際的工作當(dāng)中,業(yè)務(wù)邏輯會(huì)很復(fù)雜,涉及到的指標(biāo)會(huì)很多。如果不注意,把過程指標(biāo)拆得太細(xì),可能發(fā)現(xiàn)沒有一個(gè)指標(biāo)有非常明顯的貢獻(xiàn),每個(gè)環(huán)節(jié)或者每個(gè)指標(biāo)的貢獻(xiàn)都是相對(duì)均勻的,不利于定位問題。所以比較好的實(shí)踐方式是先把需要定位的問題分為幾個(gè)大的環(huán)節(jié),如果某一個(gè)大的環(huán)節(jié)的波動(dòng)明顯高于其他環(huán)節(jié),再去看這個(gè)指標(biāo)是不是可以做進(jìn)一步的拆解。
以環(huán)節(jié) D 為例,當(dāng)發(fā)現(xiàn)它已經(jīng)足夠具體地指向某一小場景之后,再做場景的下鉆,就是維度下鉆。比如定位到點(diǎn)擊率下降,那么進(jìn)一步會(huì)思考是因?yàn)槟猩狞c(diǎn)擊率下降,還是女生的點(diǎn)擊率下降?;蛘咴诨ヂ?lián)網(wǎng)平臺(tái)頁面會(huì)考慮是因?yàn)槭醉摰狞c(diǎn)擊率下降,還是個(gè)人中心的點(diǎn)擊率下降??梢赃M(jìn)一步從不同的維度去看具體某一個(gè)子場景的下降是否是最大的影響因素。當(dāng)業(yè)務(wù)場景比較復(fù)雜時(shí),不同場景下的策略是不一樣的,通過場景的下鉆可以更準(zhǔn)確地找到應(yīng)該調(diào)整的策略或者應(yīng)該解決的問題。場景和維度的下鉆,如果環(huán)節(jié) D 是點(diǎn)擊量這樣的一個(gè)絕對(duì)值指標(biāo),那么就可以用加法來進(jìn)行維度的下鉆,如果是點(diǎn)擊率這樣一個(gè)比例型指標(biāo),則可以用雙因素法。
在明確了男生的點(diǎn)擊率是轉(zhuǎn)化效率下降的核心貢獻(xiàn)因素之后,就得思考其業(yè)務(wù)含義是什么,是不是平臺(tái)最近的內(nèi)容是男生不感興趣的內(nèi)容,那么下一步可以考慮調(diào)整平臺(tái)內(nèi)容或推薦策略、分發(fā)策略。所以,基于分析的結(jié)論,需要結(jié)合實(shí)際的業(yè)務(wù)情況做進(jìn)一步的結(jié)論定義,然后找到對(duì)應(yīng)的解決方案。
2. 案例二:可能性判斷
接下來舉例說明可能性判斷的方法。
這一案例的背景是在日常的監(jiān)控中有一個(gè)場景的用戶活躍度上升了 6.7%。這是需要關(guān)注的問題嗎?首先,這個(gè)場景是核心的場景,活躍度的提升是直接影響商業(yè)變現(xiàn)效率的;其次,這個(gè)指標(biāo)是長期相對(duì)穩(wěn)定的,突然同比上升了 6.7% 是比較異常的;第三,前面的介紹都是關(guān)于指標(biāo)下降,其實(shí)在指標(biāo)上升的時(shí)候,我們也會(huì)想要知道到底做對(duì)了什么,這樣未來就可以持續(xù)強(qiáng)化這種影響去變得越來越好。所以,這一活躍度的上升是值得分析和關(guān)注的。
接下來,明確想要關(guān)注的問題,就是什么因素對(duì)指標(biāo)上升的影響最大,以及它是如何影響活躍度的。針對(duì)這樣的問題,我們當(dāng)時(shí)選擇了可能性判斷的方法,具體來說就是機(jī)器學(xué)習(xí)加 SHAP 的方法。因?yàn)樵谶@種場景下,沒有一個(gè)相對(duì)明確的維度或者鏈路的拆解,因此用機(jī)器學(xué)習(xí)去探究不同因素之間的相關(guān)性是比較好的方法。
具體過程是先做一個(gè)預(yù)測(cè)模型,然后調(diào)用特征重要性函數(shù)計(jì)算 SHAP 值,上圖藍(lán)色的柱子代表 SHAP 值絕對(duì)值的均值,代表這個(gè)特征對(duì)y 的影響程度,藍(lán)色柱子越長證明它對(duì) y 的影響越大。從上圖可以看出因素 A 對(duì) y 的影響是最大的。在明確了因素 A 的影響最大之后,還想要知道是有正向影響還是負(fù)向影響,所以下一步會(huì)看特征影響的正負(fù)項(xiàng),通過右邊的圖表可以看到 y 是隨著 A 的增大而增大的。具體來說,紅色是特征本身的值,圖上的每一個(gè)點(diǎn)代表一個(gè)樣本,顏色越紅說明特征本身的數(shù)值越大,顏色越藍(lán)說明特征本身的數(shù)值越小,所以 y 是隨著 A 的增大而增大的。
在此基礎(chǔ)上還可以進(jìn)一步看因素 A 和 y 是什么樣的關(guān)系,如上圖所示,橫軸是因素 A 的實(shí)際值,縱軸是 SHAP 值,y 隨著因素 A 的增長線性增長。通過這樣的分析就能看出哪個(gè)因素對(duì)目標(biāo)指標(biāo)的影響最大、它是怎樣影響目標(biāo)指標(biāo)的,以及它與目標(biāo)指標(biāo)的關(guān)系是怎樣的。
既然已經(jīng)知道因素 A 是如何影響活躍度的,假設(shè)因素 A 代表內(nèi)容精彩指數(shù),那么應(yīng)該怎么解讀呢?結(jié)合互聯(lián)網(wǎng)平臺(tái)的特點(diǎn)來說,內(nèi)容精彩度上升,是否是有優(yōu)質(zhì)內(nèi)容上線了呢?上線的這些內(nèi)容有什么特性更吸引用戶呢?還是平臺(tái)的運(yùn)營或者推薦策略有什么調(diào)整和優(yōu)化?基于這樣的一些分析,最終就會(huì)得出結(jié)論,進(jìn)而進(jìn)行相應(yīng)的策略建議。
所以,基于分析的結(jié)論,結(jié)合實(shí)際的業(yè)務(wù)情況,才能透過數(shù)據(jù)看到問題的本質(zhì),提出更合理的建議。以上就是對(duì)指標(biāo)歸因案例的介紹。
四、指標(biāo)歸因的工具應(yīng)用
接下來介紹互聯(lián)網(wǎng)平臺(tái)的指標(biāo)歸因工具。
在實(shí)際工作中,有一些圖表可能會(huì)觸發(fā)監(jiān)控或者人為觀測(cè)到波動(dòng),為了明確波動(dòng)是由什么導(dǎo)致的,需要進(jìn)行歸因分析。
我們的工具上有一個(gè)類似于問答式的分析過程,可以在工具上問“某一個(gè)指標(biāo)為什么比前一天更高?”,工具會(huì)引導(dǎo)用戶去做分析。比如,工具會(huì)問用戶“你是否想要做指標(biāo)拆解?”,或者“你是否想要做維度的下鉆?”,然后再基于用戶的選擇給出相應(yīng)的答案以及相應(yīng)的結(jié)論。