通過(guò)使用因果機(jī)器學(xué)習(xí)做出有效的可操作決策以優(yōu)化業(yè)務(wù)KPI
譯文?譯者 | 李睿
審校 | 孫淑娟 ?
在不同的場(chǎng)景中,常用的機(jī)器學(xué)習(xí)建模技術(shù)可能會(huì)誤解數(shù)據(jù)中的真實(shí)關(guān)系。因此在這里試圖改變這種范式,以基于估計(jì)因果關(guān)系和衡量目標(biāo)關(guān)鍵績(jī)效指標(biāo)(KPI)結(jié)果的治療效果,找到超越虛假相關(guān)性的可操作見解。?
因果機(jī)器學(xué)習(xí)的動(dòng)機(jī)?
假設(shè)獲得了某家企業(yè)在過(guò)去一年某一產(chǎn)品的歷史數(shù)據(jù)或觀察數(shù)據(jù),面這一產(chǎn)品有5%的顧客流失,那么這家企業(yè)的目標(biāo)是通過(guò)開展有針對(duì)性的活動(dòng)來(lái)降低流失率。通常會(huì)構(gòu)建經(jīng)典的客戶流失預(yù)測(cè)性傾向模型(傾向性評(píng)分——客戶行為的協(xié)變量流失概率),并通過(guò)選擇閾值規(guī)定折扣或向客戶追加銷售/交叉銷售。?
現(xiàn)在,企業(yè)管理人員想要預(yù)測(cè)客戶流失的有效性,例如該公司的客戶是由于促銷活動(dòng)或營(yíng)銷活動(dòng)而保留下來(lái)的,還是與其相反?這需要傳統(tǒng)的AB測(cè)試標(biāo)準(zhǔn)實(shí)驗(yàn),實(shí)驗(yàn)需要一些時(shí)間,而且在某些情況下也不可行并且成本高昂。?
因此需要思考傾向模型之外的問(wèn)題。具有監(jiān)督的流失預(yù)測(cè)是有用的,但不是每次都有用,因?yàn)樗狈υ诩僭O(shè)情況下推薦下一個(gè)最佳行動(dòng)的建議。針對(duì)那些能夠積極響應(yīng)企業(yè)的營(yíng)銷建議而不會(huì)在失敗案例上浪費(fèi)資金的個(gè)性化客戶,從而采取下一個(gè)最佳行動(dòng)/干預(yù)并改變未來(lái)結(jié)果(例如最大限度地提高保留率)的問(wèn)題是因果推斷中的提升建模。?
在理解消費(fèi)世界中的某些反事實(shí)問(wèn)題時(shí),例如如果提高或降低零售價(jià)格,消費(fèi)者的行為會(huì)如何改變(價(jià)格對(duì)行為模式的影響是什么)?如果企業(yè)向顧客展示廣告,他們會(huì)不會(huì)購(gòu)買產(chǎn)品(廣告對(duì)購(gòu)買的影響)?這其中包括通過(guò)因果建模的數(shù)據(jù)驅(qū)動(dòng)決策。 ?
在通常情況下,預(yù)測(cè)或預(yù)測(cè)問(wèn)題關(guān)注的是在下個(gè)月有多少人會(huì)訂閱,而因果問(wèn)題則是如果某些政策發(fā)生改變會(huì)發(fā)生什么情況(例如,如果開展一項(xiàng)活動(dòng)會(huì)有多少人訂閱)。?
因果分析將更進(jìn)一步。它旨在推斷數(shù)據(jù)生成過(guò)程的各個(gè)方面。借助這些方面,人們不僅可以推斷靜態(tài)條件下事件的可能性,還可以推斷變化條件下事件的動(dòng)態(tài)。這種能力包括預(yù)測(cè)行動(dòng)的效果(例如,治療或政策決定),確定所報(bào)告事件的原因,以及評(píng)估責(zé)任和歸因(例如,事件x對(duì)于事件y的發(fā)生是否必要或足夠)。 ?
當(dāng)人們使用監(jiān)督機(jī)器學(xué)習(xí)使用偽相關(guān)模式的預(yù)測(cè)模型時(shí),隱含地假設(shè)事情將像過(guò)去一樣繼續(xù)。與此同時(shí),由于基于預(yù)測(cè)結(jié)果做出的決定或采取的行動(dòng),正在以經(jīng)常打破這些模式的一種方式積極地改變環(huán)境。?
從預(yù)測(cè)到?jīng)Q策?
對(duì)于決策,需要找到導(dǎo)致結(jié)果的特征,并估計(jì)如果特征發(fā)生變化,結(jié)果將如何改變。許多數(shù)據(jù)科學(xué)問(wèn)題是因果問(wèn)題,在決策場(chǎng)景中,估計(jì)反事實(shí)很常見。?
- A/B實(shí)驗(yàn):如果改變網(wǎng)站上按鈕的顏色,它是否會(huì)帶來(lái)更高的參與度??
- 政策決策:如果采用這種治療/政策,它將如何導(dǎo)致結(jié)果的改變?這會(huì)帶來(lái)更健康的病人/更多的收入嗎? ?
- 政策評(píng)估:企業(yè)在過(guò)去所做的改變或直到現(xiàn)在所知道的,以及結(jié)果變化的方式,制定的政策是幫助還是阻礙了試圖改變的產(chǎn)品? ?
- 信用歸因:人們購(gòu)買商品是因?yàn)榭吹搅藦V告嗎?他們會(huì)購(gòu)買嗎? ?
什么是因果關(guān)系和因果效應(yīng)? ?
如果一個(gè)行動(dòng)或治療(T)導(dǎo)致了一個(gè)結(jié)果(Y),當(dāng)且僅當(dāng)該行動(dòng)(T)導(dǎo)致了結(jié)果(Y)的改變,保持其他一切不變。因果關(guān)系意味著通過(guò)改變一個(gè)因素,可以改變另一個(gè)因素。?
例如:如果阿司匹林能緩解頭痛,當(dāng)且僅當(dāng)阿司匹林能使頭痛的情況發(fā)生變化。?
如果市場(chǎng)營(yíng)銷能夠帶來(lái)銷售額的增長(zhǎng),當(dāng)且僅當(dāng)營(yíng)銷活動(dòng)能夠帶來(lái)銷售額的改變,那么其它一切便能夠保持不變。?
因果效應(yīng)是Y隨T的單位變化而變化的幅度,而不是相反:?
因果推斷需要領(lǐng)域知識(shí)、假設(shè)和專業(yè)知識(shí)。微軟ALICE研究團(tuán)隊(duì)開發(fā)了DoWhy和EconML開源庫(kù),讓人們的工作和生活更輕松。任何因果分析的第一步都是提出一個(gè)明確的問(wèn)題:?
- 對(duì)什么治療/行動(dòng)感興趣? ?
- 想考慮什么樣的結(jié)果? ?
- 哪些混雜因素可能與結(jié)果和治療相關(guān)? ?
因果分析管道:基于深度學(xué)習(xí)的端到端因果推斷(DECI)(微軟專利)。 ?
因果發(fā)現(xiàn)-因果識(shí)別-因果估計(jì)-因果驗(yàn)證。 ?
負(fù)責(zé)任的人工智能儀表板(Azure Machine Learning Studio) :原因分析?
該功能基于對(duì)模型注冊(cè)表中擬合模型的解釋,如果對(duì)相同變量有因果關(guān)系理解,則可以探究可能發(fā)生的情況??梢杂^察不同特征的因果效應(yīng),并將其與異質(zhì)效應(yīng)進(jìn)行比較,可以觀察到不同的群體,以及什么特征或政策對(duì)它們最有效。?
- DECI:提供了一個(gè)端到端因果推斷的框架,也可以單獨(dú)用于發(fā)現(xiàn)或估計(jì)。?
- EconML:提供多種因果關(guān)系估計(jì)方法。?
- DoWhy:提供多種識(shí)別和驗(yàn)證方法。?
- ShowWhy:在用戶友好的圖形用戶界面(GUI)中為因果決策提供無(wú)代碼端到端因果分析。?
總結(jié)?
現(xiàn)代機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法可以在解釋黑盒算法的數(shù)據(jù)中找到復(fù)雜的模式,他們的解釋可能意味著機(jī)器學(xué)習(xí)算法從世界上學(xué)到了什么。?
當(dāng)將這些學(xué)習(xí)過(guò)的機(jī)器學(xué)習(xí)算法應(yīng)用到社會(huì)中,以制定諸如貸款批準(zhǔn)和健康保險(xiǎn)政策等政策決策時(shí),它所了解的世界并不一定能很好地反映世界上正在發(fā)生的事情。?
然而,數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型是透明的,但不能真正解釋。可解釋性需要一個(gè)因果模型(表二謬論證明了這一點(diǎn))。因果模型可靠地代表了世界上的一些過(guò)程??山忉尩娜斯ぶ悄軕?yīng)該能夠進(jìn)行推理,從而做出有效的決策,而不會(huì)產(chǎn)生偏見。?
原文標(biāo)題:??Causal Analysis in Azure Machine Learning Studio to answer your Causal questions through an end-to-end automated framework??,作者:Hari Hara
?