因果推斷在項(xiàng)目?jī)r(jià)值評(píng)估中的應(yīng)用
?作者 | 野生梨,攜程算法工程師,關(guān)注因果推斷在實(shí)際工業(yè)項(xiàng)目上的探索和應(yīng)用。
一、背景介紹
我們的日常生活中充斥著各種需要推斷原因和結(jié)果的問題,比如,吸煙是否會(huì)導(dǎo)致肺癌,大學(xué)教育是否能夠提高收入水平?有時(shí),當(dāng)我們?cè)噲D回答這些問題的時(shí)候,會(huì)陷入相關(guān)的陷阱,即認(rèn)為相關(guān)等于因果。
比如,倫敦曾經(jīng)有一個(gè)調(diào)查機(jī)構(gòu)基于數(shù)據(jù)發(fā)現(xiàn),在很長(zhǎng)一段時(shí)間內(nèi),發(fā)生車禍的數(shù)量和司機(jī)穿的衣服重量之間呈現(xiàn)正向且顯著的相關(guān)性,所以他們得出結(jié)論,認(rèn)為厚重的衣服會(huì)影響司機(jī)的行動(dòng)能力,從而更可能導(dǎo)致車禍的發(fā)生。
基于此結(jié)論,調(diào)查機(jī)構(gòu)的研究人員建議政府部門應(yīng)該立法規(guī)定——司機(jī)在開車時(shí)不得穿厚重的衣服。但是實(shí)際情況果真如此嗎?
其實(shí),這就是個(gè)典型的偽相關(guān)結(jié)論。因?yàn)楹罄m(xù)的調(diào)查研究發(fā)現(xiàn),司機(jī)穿厚重的衣服往往是因?yàn)橄掠?,而下雨的時(shí)候路況變差能見度較低,而大多數(shù)司機(jī)并不在下雨天減速,這才是導(dǎo)致大部分車禍發(fā)生的原因之一。得到這種偽相關(guān)結(jié)論,往往是因?yàn)槲覀冊(cè)诜治龅倪^程中忽略了類似下雨這樣的混雜變量(如圖1-1所示),從而認(rèn)為觀察到的兩個(gè)結(jié)果變量(司機(jī)衣服的重量和車禍數(shù)量)之間,有著某種可能不存在的因果關(guān)系。
圖1-1 倫敦出租車司機(jī)穿衣和車禍問題的因果結(jié)構(gòu)
正如上面所說,由于混雜因素的存在,會(huì)導(dǎo)致我們分析數(shù)據(jù)出具結(jié)論的時(shí)候產(chǎn)生偏差。那么,是否有一種方法可以幫助我們回答這樣的因果問題呢?答案是肯定的,那就是因果推斷。
因果推斷是專門研究此類因果關(guān)系的科學(xué),即尋找變量之間的因果關(guān)系,并且預(yù)估由于因?qū)斐尚?yīng)大小?;ヂ?lián)網(wǎng)公司中每天都在進(jìn)行的隨機(jī)實(shí)驗(yàn)(AB實(shí)驗(yàn))就是因果推斷中的黃金準(zhǔn)則,即將研究對(duì)象隨機(jī)分組,對(duì)不同組實(shí)施不同的干預(yù)/處理,然后觀察結(jié)果的變動(dòng),從而驗(yàn)證干預(yù)/處理是否是造成結(jié)果變動(dòng)的原因,進(jìn)而得到干預(yù)/處理造成結(jié)果變動(dòng)的程度。
但是需要承認(rèn)的是,在大多數(shù)情況下我們由于某些原因(比如成本限制或者道德風(fēng)險(xiǎn))或者項(xiàng)目本身性質(zhì)而無法實(shí)行嚴(yán)格的隨機(jī)試驗(yàn)。比如,攜程市場(chǎng)部為了促進(jìn)用戶在暑期的旅游消費(fèi),上線了一個(gè)營(yíng)銷活動(dòng), 在這個(gè)場(chǎng)景下我們想要知道這個(gè)營(yíng)銷活動(dòng)是否有效(是否能帶來收益增量),以及能帶來多少的價(jià)值增量,隨機(jī)實(shí)驗(yàn)就顯得無計(jì)可施。因?yàn)槲覀儾⒉荒茉谧龌顒?dòng)期間通過隨機(jī)分流的形式,控制某個(gè)版本的用戶參加活動(dòng),而另一個(gè)版本的用戶不參加活動(dòng),這首先對(duì)于用戶來說是具有價(jià)格歧視(假設(shè)活動(dòng)會(huì)有優(yōu)惠)的,當(dāng)然對(duì)于公司來說也會(huì)潛在損失很大一筆收益(假設(shè)活動(dòng)有效的情況下)。
那么,沒有了黃金法則,我們還能做什么來得到項(xiàng)目?jī)r(jià)值增量呢? 仔細(xì)思考不難發(fā)現(xiàn),用戶是否參與活動(dòng)以及最終是否下單,可能同時(shí)受其它混雜因素影響(如圖1-2所示),比如具有短期休閑旅游出行意圖的用戶更可能會(huì)參加活動(dòng)并下單,而短期商旅用戶很可能并不會(huì)參加活動(dòng)但是依舊會(huì)下單,同樣的混雜因素還有很多,比如消費(fèi)能力和長(zhǎng)期旅游出行習(xí)慣。怎么把這些混雜因素都去除或者控制起來,從而準(zhǔn)確評(píng)估活動(dòng)對(duì)于用戶下單的價(jià)值,便是此類分析任務(wù)的難點(diǎn)和挑戰(zhàn)。
圖1-2 活動(dòng)/項(xiàng)目評(píng)估問題因果結(jié)構(gòu)
在因果推斷領(lǐng)域中,存在很多方法可以幫助我們解決上述分析中的難點(diǎn)和挑戰(zhàn)。這些方法大致可以分為兩類:
(1)完全消除混雜因素的方法,比如雙重差分法(Difference in Difference)、工具變量(Instrumental Variable) 和斷點(diǎn)回歸等,但是這些方法的應(yīng)用需要滿足嚴(yán)格的額外假設(shè),在工業(yè)應(yīng)用中較少;
(2)控制混雜因素的方法,比如傾向分匹配PSM、逆傾向分加權(quán)法(IPTW)、Lookalike算法、合成控制等, 這些方法是通過調(diào)整樣本來減少樣本在混雜因素上不均衡的情況,從而達(dá)到控制混雜因素影響的目的,但是無法完全消除變量之間的內(nèi)生性。
針對(duì)無法使用隨機(jī)實(shí)驗(yàn)進(jìn)行評(píng)估價(jià)值的活動(dòng)/項(xiàng)目,基于數(shù)據(jù)可得性和方法的易操作性,本文最終使用的是因果推斷中通過調(diào)整觀察樣本來模擬隨機(jī)試驗(yàn)的方法——傾向分匹配(Propensity Score Matching, PSM),來控制同時(shí)影響用戶參與活動(dòng)和下單的混雜因素,從而完成活動(dòng)/項(xiàng)目的價(jià)值增量評(píng)估任務(wù)。
二、傾向分匹配(PSM)基本原理
傾向分匹配(Propensity Score Matching),是通過傾向分(Propensity Score)來匹配對(duì)照組和實(shí)驗(yàn)組的觀察樣本,從而控制調(diào)整混雜因素的一種方法。傾向分是由Rosenbaum和Rubin于1983年首次提出[1],其定義如下:
即給定混雜因素的條件下樣本進(jìn)入實(shí)驗(yàn)組的傾向。其中,T為實(shí)驗(yàn)/對(duì)照組的標(biāo)識(shí)變量,當(dāng)T=1時(shí),代表實(shí)驗(yàn)組,T=0代表對(duì)照組;X則為混雜因素變量集合。Rosenbaum和Rubin在論文中證明了在給定傾向分的條件下,混雜因素和樣本是否參與實(shí)驗(yàn)變量之間是條件獨(dú)立的,這一性質(zhì)說明,通過對(duì)觀察樣本的傾向分進(jìn)行匹配控制,即將實(shí)驗(yàn)組和對(duì)照組中傾向分相近的用戶進(jìn)行匹配, 使得對(duì)照組和實(shí)驗(yàn)組在混雜因素的分布上實(shí)現(xiàn)均衡,從而達(dá)到控制混雜因素的目的。
2.1 傾向分估計(jì)
進(jìn)行傾向分匹配的第一步則是估計(jì)觀測(cè)樣本(用戶)的傾向分。其實(shí),這里的估計(jì)目標(biāo)是我們很熟悉的有監(jiān)督分類學(xué)習(xí)任務(wù),其實(shí)就是基于觀察樣本擬合一個(gè)分類模型來得到P(T=1 | X=x) 。理論上,常見的分類模型都可以在這里使用,比如支持向量機(jī)SVM、邏輯回歸LR、樹模型等,但一般來說會(huì)根據(jù)奧卡姆剃刀(Occam's Razor)原則,選擇簡(jiǎn)單實(shí)施又能解決問題的LR來進(jìn)行傾向分的預(yù)估。
2.2 匹配
得到每個(gè)觀測(cè)樣本的傾向分后,下一步就需要將傾向分相近的用戶進(jìn)行匹配(如圖2-1所示),有很多種方式可以完成這個(gè)匹配步驟,常見的有以下幾種:
(1)設(shè)定閾值,當(dāng)兩個(gè)用戶傾向分距離小于等于閾值時(shí),即被認(rèn)定相近匹配;
(2)K近鄰,選擇傾向分距離最近的K個(gè)樣本作為相近匹配;
(3)K近鄰 + 閾值設(shè)定,選擇傾向分距離最近的K個(gè)樣本,且傾向分差距還要小于等于閾值,才可被認(rèn)定為相近匹配。在實(shí)際應(yīng)用中選擇哪一種方式取決于哪一種方式能夠使得實(shí)驗(yàn)組和對(duì)照組在混雜變量上平衡。
值得注意的一點(diǎn)是,PSM方法看似簡(jiǎn)單但是使用時(shí)需要滿足以下3個(gè)假設(shè)條件:
(1)可忽略假設(shè)(Ignorability),當(dāng)控制可觀測(cè)混雜變量后,不可觀測(cè)的混雜變量對(duì)于結(jié)果的影響可以忽略不計(jì);
(2)個(gè)體處理穩(wěn)定假設(shè)(SUTVA),樣本個(gè)體不受其他個(gè)體影響,即樣本獨(dú)立假設(shè);
(3)共同支撐假設(shè)(Common Support),觀察樣本中,實(shí)驗(yàn)組和對(duì)照組之間是有混雜特征相近人群存在的,即0<P(T=1 | X=x)<1,否則將無法使用傾向分找到的相近的對(duì)照組人群來對(duì)比實(shí)驗(yàn)組進(jìn)行價(jià)值增量評(píng)估。
三、 實(shí)際項(xiàng)目應(yīng)用
2020年底,攜程和某外部平臺(tái)開展等級(jí)匹配合作項(xiàng)目,針對(duì)該平臺(tái)內(nèi)滿足條件的不同等級(jí)的用戶提供領(lǐng)取對(duì)應(yīng)攜程等級(jí)會(huì)員權(quán)益的福利,整體項(xiàng)目周期為一年,每個(gè)外部平臺(tái)的用戶只可免費(fèi)領(lǐng)取一次,領(lǐng)取后相應(yīng)的會(huì)員權(quán)益有效期為一年。
針對(duì)這個(gè)項(xiàng)目的價(jià)值,可以分為直接和間接:直接價(jià)值自然是合作帶來的直接收入以及新用戶的復(fù)購價(jià)值,而項(xiàng)目帶來的老用戶的后續(xù)復(fù)購價(jià)值則屬于間接價(jià)值。直接價(jià)值很容易就可以被計(jì)算出,但是對(duì)于間接價(jià)值來說,如前所述,由于混雜因素(比如消費(fèi)能力、長(zhǎng)/短期旅游出行意圖等)同時(shí)影響了用戶在外部平臺(tái)是否參加項(xiàng)目和用戶是否在領(lǐng)取后會(huì)在攜程平臺(tái)內(nèi)下單(如圖3-1所示),使得凈效應(yīng)的評(píng)估更為困難和復(fù)雜。
圖3-1 實(shí)際項(xiàng)目評(píng)估問題因果結(jié)構(gòu)
針對(duì)間接價(jià)值的評(píng)估,本文采用因果推斷中的PSM方法,在滿足項(xiàng)目要求的未參與項(xiàng)目用戶池中,篩選與參與項(xiàng)目的用戶在混雜特征上分布一致(相近)的用戶人群,匹配后的實(shí)驗(yàn)組和對(duì)照組之間的差值即可認(rèn)為是項(xiàng)目帶來的間接價(jià)值,整體的分析流程如圖3-2所示。
圖3-2 項(xiàng)目間接價(jià)值評(píng)估分析流程
3.1 對(duì)照人群候選池篩選
考慮到攜程平臺(tái)全量用戶量較大,且因?yàn)轫?xiàng)目進(jìn)行周期長(zhǎng)達(dá)一年,對(duì)照用戶的候選池是用戶id和日期的笛卡爾積,整體數(shù)量可達(dá)到千億級(jí)別。但是,在計(jì)算項(xiàng)目對(duì)老用戶所帶來的間接價(jià)值時(shí),只需要考慮攜程和外部平臺(tái)重合的老用戶部分,因此在數(shù)據(jù)預(yù)處理過程中,本文首先采用規(guī)則篩選出有外部平臺(tái)參與項(xiàng)目資格但未參與項(xiàng)目的攜程老用戶,并剔除代理等非自然用戶,再綜合計(jì)算成本和匹配效果的考慮,按照一定的比例進(jìn)行隨機(jī)下采樣,最終得到對(duì)照用戶候選池。
3.2 特征設(shè)計(jì)和數(shù)據(jù)預(yù)處理
在特征設(shè)計(jì)和提取方面,本文認(rèn)為影響用戶參與項(xiàng)目和后續(xù)復(fù)購的混雜因素可以分為基本信息、消費(fèi)能力、出行意愿三類,共104個(gè)特征。
針對(duì)部分類別特征,比如年齡、性別、等級(jí)等,各類別之間地位相同,因此在特征提取階段,拆分成了多個(gè)虛擬變量。
完成提取特征后,在數(shù)據(jù)預(yù)處理階段,首先針對(duì)特征數(shù)據(jù)的質(zhì)量進(jìn)行了校驗(yàn),未發(fā)現(xiàn)單一信息特征(即特征在樣本數(shù)據(jù)集中的取值完全一樣),其次針對(duì)變量中的缺失值進(jìn)行了填充處理,最后因?yàn)椴煌奶卣髦g量綱不同對(duì)所有連續(xù)變量進(jìn)行了Z-Score標(biāo)準(zhǔn)化處理。
3.3 傾向分匹配PSM
(1)構(gòu)建模型,估計(jì)傾向分
本文采用邏輯回歸LR模型對(duì)參與項(xiàng)目用戶和對(duì)照人群候選池用戶組成的樣本數(shù)據(jù)進(jìn)行訓(xùn)練擬合,模型形式如式3-1所示:
其中,X為特征向量,而T為實(shí)驗(yàn)/對(duì)照組的標(biāo)識(shí)變量。
需要說明的一點(diǎn)是,在訓(xùn)練過程中,即使采用篩選后的對(duì)照人群候選池用戶,其量級(jí)也比參與項(xiàng)目用戶數(shù)量大很多,造成樣本數(shù)據(jù)不平衡的情況,從而導(dǎo)致整體預(yù)測(cè)準(zhǔn)度和精度很低。為了解決樣本不平衡問題,本文對(duì)對(duì)照組候選池用戶進(jìn)行了下采樣操作,再輸入模型進(jìn)行訓(xùn)練,最終使用訓(xùn)練好的模型再對(duì)全體樣本進(jìn)行預(yù)測(cè),得到了每個(gè)樣本的傾向分。其中,訓(xùn)練所得模型的精確率為75.22%,召回率為65.40%,ROC曲線如圖3-3所示,AUC為0.79。
圖3-3 傾向分估計(jì)模型ROC曲線
(2)匹配及結(jié)果校驗(yàn)
本文采用K近鄰 + 閾值設(shè)定的策略(K=1,閾值=0.001)進(jìn)行用戶匹配,即針對(duì)每個(gè)參與項(xiàng)目的用戶在對(duì)照人群候選池中尋找與其傾向分絕對(duì)距離最近且小于等于0.001的用戶進(jìn)行匹配,最終得到對(duì)照組用戶。匹配后的實(shí)驗(yàn)組(參與項(xiàng)目用戶, 藍(lán)線)和對(duì)照組(未參與項(xiàng)目,橙線)用戶的傾向分分布如圖3-4所示,通過KS檢驗(yàn)認(rèn)為兩組匹配后的傾向分分布一致(KS-stat = 0.00057, p_value = 0.9771)。
圖3-4 匹配后實(shí)驗(yàn)組/對(duì)照組傾向分分布
除了驗(yàn)證不同組傾向分分布一致以外,還需要針對(duì)檢驗(yàn)每個(gè)混雜變量在實(shí)驗(yàn)組與對(duì)照組之間是否還存在顯著差異,如果不同組在所有混雜變量的均值上都沒有顯著差異,此時(shí)我們可以認(rèn)為匹配后的實(shí)驗(yàn)組和對(duì)照組樣本是“平衡”(balanced)的。
本文選擇使用效應(yīng)量(effect size)指標(biāo)來評(píng)估不同組混雜特征均值差異,因?yàn)橄啾燃僭O(shè)檢驗(yàn)的p值來說,效應(yīng)量不受樣本容量影響,可以在不同研究之間進(jìn)行比較。效應(yīng)量指標(biāo)根據(jù)問題場(chǎng)景的需要有多種計(jì)算方式,本文針對(duì)連續(xù)變量和類別變量分別采用Cohen’s d(式3-2)和Cohen’s w(式3-3)來比較兩組均值的差異[2]。
效應(yīng)量的大小學(xué)術(shù)界尚未形成統(tǒng)一的共識(shí),但是對(duì)于Cohen’s d,大多數(shù)學(xué)者認(rèn)為效應(yīng)量小于0.2則可認(rèn)為兩組之間的差距很小[3],而對(duì)于Cohen’s w小于0.1則可認(rèn)為差距較小。本文基于不同組混雜變量的均值和標(biāo)準(zhǔn)差,計(jì)算得到不同組的混雜特征均值的效應(yīng)度量均小于0.1,可以認(rèn)為匹配效果較好,匹配后不同組在混雜特征上的分布達(dá)到均衡。
3.4 項(xiàng)目?jī)r(jià)值增量計(jì)算
經(jīng)過PSM得到控制了混雜因素的實(shí)驗(yàn)組和對(duì)照組樣本后,本文根據(jù)兩組復(fù)購收益均值的差異,回答了以下兩個(gè)問題:
(1)項(xiàng)目是否有價(jià)值:通過對(duì)兩組用戶的人均復(fù)購收益進(jìn)行T檢驗(yàn),發(fā)現(xiàn)可以以99%的把握(T-stat=35.21)認(rèn)為,實(shí)驗(yàn)組的平均復(fù)購收益顯著高于對(duì)照組平均復(fù)購收益;
(2)項(xiàng)目帶來了多少價(jià)值:計(jì)算兩組用戶的總復(fù)購收益的差值,得到項(xiàng)目整個(gè)周期的價(jià)值增量。
3.5 反駁推斷
雖然已經(jīng)計(jì)算得到了價(jià)值增量,但是因果推斷的工作中最重要的一環(huán)——反駁推斷尚未完成。在前面闡述的實(shí)踐過程中,我們不經(jīng)意間做出了很多假設(shè),比如:
(1)問題的因果結(jié)構(gòu)如3-1所示,混雜因素作為混雜同時(shí)影響參與項(xiàng)目和下單,而不是作為中介物傳到同時(shí)參與項(xiàng)目和下單的因果鏈路;
(2)提取的特征都是可觀測(cè)因素,我們通過PSM控制了這些混雜,至于不可觀測(cè)混雜因素的影響可以忽略不計(jì);
(3)個(gè)體選擇相互獨(dú)立。
為了邏輯的嚴(yán)謹(jǐn)性和結(jié)果的穩(wěn)健性,我們必須也要對(duì)假設(shè)的正確性做出證明,雖然我們并不知道真實(shí)的因果結(jié)構(gòu)/關(guān)系式怎么樣的,但是我們可以創(chuàng)造一些檢驗(yàn)環(huán)境,然后采用已知的事實(shí)來反駁推斷[4]。本文采用了3個(gè)方法來說明假設(shè)的正確性和結(jié)構(gòu)的穩(wěn)健性:
(1)加入隨機(jī)變量和常數(shù)特征,重新進(jìn)行PSM和因果效應(yīng)估計(jì),發(fā)現(xiàn)和之前差異不大,說明參與項(xiàng)目和復(fù)購收益之間的確具有因果效應(yīng),而不是由于不可觀測(cè)因素或者隨機(jī)波動(dòng)導(dǎo)致的,這種因果效應(yīng)是穩(wěn)健的;
(2)安慰劑檢驗(yàn),將真實(shí)的實(shí)驗(yàn)組和對(duì)照組標(biāo)簽變成隨機(jī)生成變量,重新進(jìn)行因果效應(yīng)估計(jì),發(fā)現(xiàn)虛擬實(shí)驗(yàn)組和虛擬對(duì)照組的結(jié)果差異顯著為0,認(rèn)為實(shí)驗(yàn)組和對(duì)照組之間的差異不是由隨機(jī)因素引起的,從而也說明是否參與項(xiàng)目式用戶復(fù)購收益的一個(gè)因;
(3)隨機(jī)子集抽樣,從樣本數(shù)據(jù)中隨機(jī)抽樣(80%),然后預(yù)估因果效應(yīng),差異和全量預(yù)估差別不大,認(rèn)為結(jié)果穩(wěn)健。
四、總結(jié)
項(xiàng)目/活動(dòng)往往由于無法進(jìn)行隨機(jī)實(shí)驗(yàn)和混雜因素(比如時(shí)間、用戶歷史行為等)的存在而無法準(zhǔn)確評(píng)估其所帶來的價(jià)值增量。本文采用因果推斷中通過調(diào)整觀察樣本來模擬隨機(jī)試驗(yàn)的方法——傾向分匹配(Propensity Score Matching, PSM), 控制了同時(shí)影響用戶參與活動(dòng)和下單的混雜因素,從而計(jì)算得到了活動(dòng)/項(xiàng)目的價(jià)值增量,為后續(xù)無法使用隨機(jī)實(shí)驗(yàn)的分析場(chǎng)景提供了一種思路。
當(dāng)然,上述的評(píng)估流程還有很大的優(yōu)化空間,而PSM也不是因果推斷中唯一控制匹配的方法,如前所述其他方法比如雙重差分、斷點(diǎn)回歸、Lookalike相似人群算法、合成控制、聚類分析等都可以作為后續(xù)在項(xiàng)目?jī)r(jià)值評(píng)估問題中的研究方向。
參考文獻(xiàn)
[1] Rosenbaum, P.R. and Rubin, D.B., 1984. Reducing bias in observational studies using subclassification on the propensity score. Journal of the American statistical Association, 79(387), pp.516-524.
[2] Cooper, H., Hedges, L.V. and Valentine, J.C., 2009. The handbook of research synthesis and meta-analysis 2nd edition. In The Hand. of Res. Synthesis and Meta-Analysis, 2nd Ed. (pp. 1-615). Russell Sage Foundation.
[3] Sawilowsky, S.S., 2009. New effect size rules of thumb. Journal of modern applied statistical methods, 8(2), p.26.
[4] Sharma, A., Syrgkanis, V., Zhang, C. and K?c?man, E., 2021. Dowhy: Addressing challenges in expressing and validating causal assumptions. arXiv preprint arXiv:2108.13518.
[5] Pearl, Judea, and Dana Mackenzie. 2019. The Book of Why. Harlow, England: Penguin Books.
[6] Yao, L., Chu, Z., Li, S., Li, Y., Gao, J. and Zhang, A., 2021. A survey on causal inference. ACM Transactions on Knowledge Discovery from Data (TKDD), 15(5), pp.1-46.