自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

因果推斷主要技術思想與方法總結

人工智能 機器學習
本文回顧因果推斷的兩個流派——潛在結果模型Rubin Causal Model (RCM; Rubin 1978) 和結構因果模型Causal Diagram (Pearl 1995)的主要技術思想和方法,以及近年來的新方法和應用。

導讀:因果推斷是數(shù)據(jù)科學的一個重要分支,在互聯(lián)網(wǎng)和工業(yè)界的產品迭代、算法和激勵策略的評估中都扮演者重要的角色,結合數(shù)據(jù)、實驗或者統(tǒng)計計量模型來計算新的改變帶來的收益,是決策制定的基礎。然而,因果推斷并不是一件簡單的事情。首先,在日常生活中,人們常常把相關和因果混為一談。相關往往代表著兩個變量具有同時增長或者降低的趨勢,但是因果意味著我們想要知道對一個變量施加改變的時候會發(fā)生什么樣的結果,或者說我們期望得到反事實的結果,如果過去做了不一樣的動作,未來是否會發(fā)生改變?然而難點在于,反事實的數(shù)據(jù)往往是真實世界中難以觀察和收集的。

本文?回顧因果推斷的兩個流派——潛在結果模型Rubin Causal Model (RCM; Rubin 1978) 和結構因果模型Causal Diagram (Pearl 1995)的主要技術思想和方法,以及近年來的新方法和應用。筆者由于學術背景和計量經(jīng)濟學較為相關,所以引用的方法和論文主要參考了經(jīng)濟學的文獻,可能在一些方法的理論和應用上的深度與廣度上有所疏漏,請讀者諒解。

潛在結果模型

我們借助一些數(shù)學符號和公式來描述潛在結果模型的主要思想,讀者也可以跳過這一部分直接進入具體方法的梳理。

我們把每個研究對象或者用戶用i來表示,他們可能會受到一定的策略干預:Ti=1代表受到了干預(實驗組),Ti=0代表沒有受到干預(基準組),對應的我們關心的結果分別是Yi0Yi1,但是只有一種情況會真實發(fā)生,也就是說Yi0Yi1只能觀察到其中一個,另一個未知。這里我們期望得到的因果推斷結果是平均處理效應ATE=E[Y1-Y0]。

我們可以通過一定的數(shù)學推導來解釋估計ATE的困難之處。由于我們只會觀察到Yi0Yi1中的一個,我們能夠直接計算的其實是實驗組和基準組之間的組間差異E[Yi1|Ti=1]-E[Yi0|Ti=0],這個差值進一步可以拆解等于E[Yi1|Ti=1]-E[Yi0|Ti=1]+E[Yi0|Ti=1]-E[Yi0|Ti=0]。其中E[Yi1|Ti=1]-E[Yi0|Ti=1]是實驗組個體上的平均處理效應(ATT),ATT和ATE往往并不相等,這兩者的差異代表著我們計算的外在效度(External Validity)。如果樣本局限在某個年齡段的用戶,那么結果不一定能夠推廣到全年齡段的用戶上,說明我們的分析不一定具備外在效度。上面公式里的第二部分E[Yi0|Ti=1]-E[Yi0|Ti=0]代表了樣本的選擇性偏差。選擇性偏差在實際生活中常??赡懿皇?,例如如果實驗組和基準組不是隨機抽樣而來,會在一定的特征分布上有差異,那么就可能會造成選擇性偏差。因此,我們計算的組間差異其實是只有當消除選擇性偏差、具備外在效度,并且基于大量充足的樣本的時候,才代表著我們期望得到的平均處理效應。潛在效果模型的思想方法其實就是通過一定的設定和模型達到這樣的條件。其思想背后,還有比較嚴格的數(shù)學假設。下面我們按照不同方法,分別回顧其主要思想和近年來的技術發(fā)展與應用,受篇幅限制,斷點回歸方法這里就沒有展開做詳細介紹了。

1、A/B測試

潛在效果模型最常見的方法就是隨機實驗,或者說是我們在工業(yè)界中常用到的A/B測試。我們通過一定的隨機性抽樣構造實驗組和基準組,來觀察組間的差異。但是需要指出的是,即便滿足了隨機性,這里因果推斷的有效性還需要滿足一個重要的假設——Stable Unit Treatment Value Assumption (SUTVA)。每個個體的潛在結果只和他自己有關,與其他個體是否被實驗策略干預無關,同時我們所關心的單個策略干預沒有不同形式或強度來導致不同的潛在結果。在現(xiàn)實生活中SUTVA假設違背的場景中有很多,也激發(fā)了各種新型A/B測試技術手段的發(fā)展,例如針對擠占問題的預算或者策略控制,亦或者是分流設計的改進。我們這里舉一些分流相關的例子:

在LinkedIn,實驗人員采用網(wǎng)絡抽樣的實驗方法來應對社交網(wǎng)絡對于傳統(tǒng)個體隨機試驗的挑戰(zhàn)。首先將用戶分成不同的cluster,每個cluster作為一個個體來隨機分流和測算實驗指標,通過估計用戶的網(wǎng)絡效應exposure來修正估計的處理效應(Gui et al. 2015)。

在Airbnb等平臺,買家和賣家之間常常存在著相互影響,也會干擾傳統(tǒng)的實驗方法。研究者通過雙邊實驗設計和庫存的動態(tài)模型來構造實驗評估指標(Johari et al. 2022)。需要指出的是,雙邊實驗是個比較嶄新的領域,其實驗設計可以幫助實驗者發(fā)現(xiàn)傳統(tǒng)單邊實驗的溢出效應,但是對于實驗結果如何做統(tǒng)計推斷和修正是比較困難并且不一定有絕對答案的,要更多地結合業(yè)務場景來探討。

圖片

圖片來自論文Johari et al. (2022)

2、工具變量法

工具變量是解決線性回歸問題內生性的一種方法。接下來我們介紹一下內生性問題和如何通過工具變量解決內生性。內生性的主要問題是如果我們關心X對Y的影響,但是存在無法測量到的變量U,且U會同時影響X和Y。那么X具有內生性,U即上文提到的混淆變量。如果我們能找到一個跟X有關的變量Z,且Z與U不相關。那我們可以通過Z作為工具變量來估計X對Y的因果效應,具體計算方法一般是兩階段最小二乘法。工具變量法在實際使用的時候,要注意避免“弱工具變量”的問題,也就是工具變量Z和關心的變量X相關度很低,這樣會造成估計的因果效應有偏差,可以依賴統(tǒng)計檢驗方法來確認這樣的問題是否存在。

圖片

工具變量法的一個發(fā)展是和深度學習模型相結合,例如Hartford et al. (2017) 提出的Deep IV方法。這一研究將傳統(tǒng)工具變量的兩階段最小二乘法轉化成更靈活的兩個深度神經(jīng)網(wǎng)絡的預測任務,放松了傳統(tǒng)方法中對于數(shù)據(jù)生成過程(DGP)的強假設。

在實際的應用中,基于互聯(lián)網(wǎng)大量A/B測試積累的場景,我們可以通過實驗的meta-learning和工具變量法來學習指標間的因果關系。例如Peysakhovich & Eckles (2018) 利用Facebook的數(shù)據(jù),將實驗組信息作為工具變量,在兩階段最小二乘法的基礎上結合L0正則化,可以解決傳統(tǒng)工具變量法在有限樣本上的bias問題,也能克服現(xiàn)實情況中大量實驗觀察到的效果絕對值比較低(“弱工具變量”)的問題。

工具變量的思想除了學習指標間的影響關系外也可以用于解決推薦系統(tǒng)中的偏差問題。在推薦系統(tǒng)中,模型的訓練往往依賴用戶的歷史觀看和轉評贊的反饋行為,但是這些歷史數(shù)據(jù)往往被展示的位置、曝光的模式等混淆因素所影響,快手和人大的研究者Si et al. (2022)利用工具變量的思想提出IV4Rec框架,將搜索的query作為工具變量來分解推薦系統(tǒng)embedding中的因果和非因果關系,和深度學習相結合,在快手數(shù)據(jù)和公開數(shù)據(jù)集MIND上都能驗證提升推薦模型的效果。

圖片

圖片來自論文Si et al. (2022)

3、匹配法

匹配(Matching)是被業(yè)務廣泛使用的一種因果分析方法,主要是為了解決當實驗組和控制組由于某種原因(confounder)不可比的時候,通過給實驗組的每一個用戶匹配和他在某些特征上最相似(CEM粗粒度匹配)或者接受干預概率(propensity score)最相似(PSM傾向性得分匹配)的控制組用戶,重新制造可比的實驗組和控制組。匹配是最近似AB/RCT(randomized controlled trial)隨機實驗的方法,操作方法比較類似,結果很直觀。并且,匹配是一種非參數(shù)估計處理效應的方法,不受制于一般的線性參數(shù)模型假設。通過匹配之后的樣本,也可以搭配雙重差分的方法,常用于解決新功能滲透率較低的問題。近年來,匹配法的發(fā)展主要是結合機器學習模型將傾向性得分匹配做得更加精準,同時這里的思想也應用到了一些其他因果方法、機器學習模型的糾偏中,相關內容后文講到的時候會涉及。

4、面板數(shù)據(jù)的系列方法和發(fā)展

近年來,圍繞著面板數(shù)據(jù)的因果推斷有著比較多的新方法來出現(xiàn)。我們先回顧傳統(tǒng)的面板數(shù)據(jù)方法。

最常用的是雙重差分的方法。最簡單的雙重差分是控制組間差異,用回歸模型的形式來描述yit01Treati2Postt3Treati*Postt。這里Treati=1代表個體是否受到干預,Postt=1代表干預后觀測的時間周期。通過下表,我們可以發(fā)現(xiàn)α23是實驗組在實驗日期前后的差分值,α2是對照組在實驗日期前后的差分值。對這兩項做差,α3即為因果效應的估計,也是上述模型中交互項的系數(shù),并且就是兩次差分的結果。

圖片

雙重差分法依賴比較嚴格的假設?!捌叫汹厔荨笔亲钪匾那疤?,也就是實驗組和基準組再政策干預發(fā)生前結果指標的均值隨著時間趨勢穩(wěn)定,這預示著除了政策干預本身其他因素影響對于實驗組和基準組是相同的。我們可以使用時間趨勢圖來檢驗平行假設,一些統(tǒng)計推斷包也會提供相應的功能。當平行檢驗不通過的時候,可以通過在回歸中加入控制變量或者時間趨勢項來進一步檢驗。在一些情況下,也可以借助三重差分法來解決。此外在實際實踐中,雙重差分法有比較多的實現(xiàn)方式。除了上文所述方式之外,也可以采取“雙向固定效應模型”的設定Yit=τTreatit+Xitβ+αitit,但也會依賴強假設:不存在隨時間變化的混淆因素,并且過去的結果不會影響當期的處理狀態(tài),同時也要求政策的處理效應保持不變。關于背后的理論和方法的局限性,以及拓展出的匹配和再加權等新方法,推薦結合斯坦福大學徐軼青教授的課程來進行學習:

?https://yiqingxu.org/teaching/?

下面我們列舉一些比較常用的新方法:

合成控制法是面板數(shù)據(jù)因果推斷方法中衍生出的一套方法,也在不斷的有新的估計或者統(tǒng)計推斷檢驗研究出現(xiàn)。當干預實施在一個群體或者一個地區(qū)的時候,實驗組在一個時間點上只有一個觀測值,并且數(shù)據(jù)的時間周期較長,例如某個城市做地推活動,通常不適用于雙重差分的方法,這時候可以采取合成控制法。其原理就是挑選一些對照城市,擬合成一個在干預前和實驗組極其相似的“虛擬對照組”,詳細的理論介紹和近年來的優(yōu)化可以參考麻省理工大學Aberto Abadie教授及其合作者的論文(Abadie, Diamond and Hainmueller 2010)和他在NBER的短期課程來進行進一步學習:

?https://www.nber.org/lecture/2021-summer-institute-methods-lecture-alberto-abadie-synthetic-controls-methods-and-practice?

雙重差分法和合成控制法其實都可以統(tǒng)一在一套分析框架體系內。研究Arkhangelsky et al. (2021)指出,雙重差分是在解決一個沒有任何個體或者時間上加權的雙向固定效應回歸問題,而合成控制法是在政策干預發(fā)生前的個體施加權重ω來擬合被干預的個體,這篇論文結合兩種方法提出了一個新的估計量:合成雙重差分(SDID),既包括個體上的權重ω,也包括時間上的權重λ,從而提升了整體估計量的穩(wěn)健性效果。這里的時間的權重λ可以理解為和干預發(fā)生后更相似的時期的數(shù)據(jù)時期被賦予了更高的權重。

圖片

圖片

幾種方法的比較:圖片來自論文Arkhangelsky et al. (2021)

面板數(shù)據(jù)也可以結合矩陣補全的方法做因果推斷,這也是近年來這個領域的一個新發(fā)展。矩陣補全的算法是通過解一個凸優(yōu)化問題來解決因果推斷面臨的反事實數(shù)據(jù)的缺失問題。這種方法適用于個體被政策干預時間不一致的情況,例如一個產品的迭代需要用戶更新產品版本才生效,但是用戶更新的時間不一致。詳細的方法理論可以參考Athey et al. (2021)等相關論文。矩陣補全、合成控制還有隨機干預下的回歸預測方法也都可以統(tǒng)一在優(yōu)化問題的框架下,進而我們也可以通過ensemble方式結合多種方法得到更穩(wěn)健的估計結果(Athey et.al 2019)。

圖片

矩陣補全示意圖:圖片來自Guidon Imbens在AEA的課程,此處用W代表treatment狀態(tài) https://www.aeaweb.org/conference/cont-ed/2018-webcasts

以上在這一部分我們介紹了面板數(shù)據(jù)因果推斷的主要方法和進展 ,這個領域是一個方法非常多樣化、進展非??斓念I域,但是對于應用者而言要求需要充分思考方法背后的假設和局限性,才能更加準確的評估實際中的各種政策,受篇幅限制這里我們只是做了非常簡要的介紹。

5、異質性因果效應的方法綜述

結合機器學習方法來研究異質性因果效應其實是最近幾年來因果推斷發(fā)展的潮流。我們首先介紹一下異質性因果效應:異質性因果效應(Heterogeneous Treatment Effect,簡稱HTE)是指由于樣本個體特征不同,實驗在個體上產生不同效果的現(xiàn)象。結合數(shù)學公式來表述,HTE有很多種形式:

每個個體的因果效應ITE (individual treatment effect):τi=Yi1-Yi0,Yi1和Yi0只有一個能觀測到,另一個和τi需要通過一定的模型方法進行估計。

在某些特征上的群體的平均因果效應,這里我們用X代表特征,那么估計的是CATE (conditional average treatment effect)是限定特征上去某些特定值的群體上的平均因果效應: τ(x)=E[Y1-Y0|X=x]。

HTE的分析方法目前有廣泛的應用場景。通過HTE,我們可以知道對某種策略干預反應最大的群體有哪些特征,也可以幫助我們排查一個A/B測試有預期效果或者沒效果的策略的作用機制如何,還可以應用于各種個性化策略當中。異質性因果推斷的方法在工業(yè)界和互聯(lián)網(wǎng)有非常多的應用,比如在TripAdvisor用來測算在會員注冊激勵,在微軟用這類方法和短期數(shù)據(jù)測算不同項目的長期ROI,詳細的應用案例可以參考2021的KDD培訓課程(https://causal-machine-learning.github.io/kdd2021-tutorial/)。

最常見的異質性因果效應的方法其實是實驗分析中常用的多維分析,但多維分析的使用需要警惕多重檢驗的問題。同時,當維度足夠多時,對于實驗樣本量也有比較高的要求,同時分析效率比較低。而機器學習方法,則提供了一些提升效率的挖掘手段,它的好處是可以自適應地學習異質性因果效應的分布,不需要嚴格的函數(shù)形式假設,比傳統(tǒng)基于線性回歸的計量經(jīng)濟學方法或者多維分析的方法有更強的自由度,但對于技術上的挑戰(zhàn)是如何做統(tǒng)計推斷。近年來隨著機器學習和計量經(jīng)濟學的結合不斷深入,也有多套方法在這一領域有所創(chuàng)新和應用,這里我們重點介紹以下幾類方法,這些方法成立的基本假設都是條件獨立假設(Conditional Independence Assumption),也就是說只有當各種混淆變量控制的足夠充分時,我們才能得到相對準確的因果效應估計。

因果森林:基于隨機森林,是直接進行擬合估計法的非參方法。因果樹的主要估計邏輯是通過定義每片葉子上的因果效應,來定義整體樹的loss function。因果樹旨在根據(jù)某種切分X的方式,最大化所有葉片的loss的和。和機器學習中的樹算法除了估計的目標不同之外,還有一個差異點是在因果推斷的算法中一般會將訓練集樣本分成訓練集和估計集,訓練集用于分葉,估計集用于分葉后計算每個葉子節(jié)點上的平均處理效應。因果樹的優(yōu)點是結果非常簡潔易懂,可以通過分桶的方式直接明確實驗效果在哪些人群上有明確的差異,最先分桶的指標往往是最因果效果差異性的最大的維度。但是因果樹容易過擬合,在實際工作中推薦使用因果隨機森林(細節(jié)可參考Athey and Imbens 2016, Wager and Athey 2018),同時因果隨機森林也有比較好的統(tǒng)計推斷性質。關于這一方法的拓展可以參考Athey, Tibshirani and Wager (2019)和Friedberg et al. (2020)等研究工作,這些新的方法可以進一步處理有混淆變量時的問題,以及更平滑地估計結果。

Meta Learners:和使用因果樹直接估計因果效應的模型不同,它屬于間接估計模型的一種:是通過對結果變量Y進行直接建模。因此Meta Learner不能將估計的HTE直接用于做統(tǒng)計推斷,在實際應用過程中,一些研究者會采用bootstrap方式來解決這一問題。Meta Learners估計算法有3種:T-Learner, S-Learner, X-Learner。三種方法基本的區(qū)別在于:

最簡單的是 S-learner。它將干預變量作為了一個特征變量進行一次建模,適合用在treatment和結果變量強相關的情況上,否則模型無法識別干預變量改變引起的結果的改變;

稍微復雜一點的是T-learner。其通過強制用兩個模型分別學習實驗組的Yi1和控制組Yi0而識別因果效應,適合用在實驗組和控制組變量觀測值較多且較平均的時候,否則其中一個模型會更被更重的regularized;

X-learner是一種較為新的方法,通過使用兩步估計和用傾向性得分糾偏,可以在數(shù)據(jù)量較少的情況下做出較好的估計(更多細節(jié)參考Künzel et al. 2019)。

基于DML和DRL的估計框架:這兩種框架我們結合微軟公司的Econml工具來介紹:

?https://www.microsoft.com/en-us/research/project/econml/?

DML(double machine learning)雙重機器學習是針對高維混淆變量存在的情況下,靈活混淆變量和處理變量、結果變量之間關系的一種框架性的方法,其方法顧名思義,在估計因果效應的時候主要分為兩步:第一步用兩種(不需要同樣的)機器學習模型分別估計E(Y|X,W)和E(T|X,W)兩個條件期望,然后取殘差。這里X和W都是混淆變量,但只有X是CATE中相關的變量。第二步基于殘差進行ATE或者CATE的估計,在估計CATE時,T-E(T|X,W)的殘差前乘以一個關于X的函數(shù)θ(X)來進行估計。關于如何估計ATE可以參考Chernozhukov et al. (2018)。Econml在第二步提供了很多種模型來供選擇:LinearDML(用OLS模型)、DML(用自定義的模型)、CausalForestDML(用因果隨機森林)……。DML框架在使用的時候需要注意檢驗兩個模型的殘差項是否均值顯著區(qū)別于0或者顯著相關,如果是的話,說明混淆變量可能控制的不夠多。

DRL框架則是基于Doubly Robust方法,也是分成兩步,第一步使用X,W,T預測Y,定義預測值為gt(X,W);第二步用一個分類模型,用X,W預測T得到傾向性得分,定義為pt(X,W)。需要注意的是這里的T是離散變量,并且限制gt(X,W)某種regression-based model。兩步結果之后則是計算一個調整后的結果變量:

圖片

再將調整過后的Yi,tDR在實驗組和控制組求差Yi1DR-Yi0DR,回歸X得到CATE。DRL之所以叫Doubly Robust的原因在于,上述公式中gt(X,W)和pt(X,W)中只要有一個估計正確,因果效應估計就是無偏的。但如果兩個模型估計都是錯誤的,那產生的誤差可能會非常大。同DML類似,Econml中DRL的各種Learner的差異在于使用什么樣的模型來用X擬合Yi1DR-Yi0DR。

基于機器學習模型的異質性因果推斷方法最大的應用挑戰(zhàn)其實是如何選擇合適的機器學習模型并且調參,得到相對穩(wěn)健的估計結果。根據(jù)應用經(jīng)驗和近年來的研究來說,有如下注意事項:

  • 保證訓練樣本量足夠大。
  • 如果使用Econml工具,推薦用score*函數(shù)選擇模型(score越小模型越佳),但不是每個模型都有該函數(shù):如DML有但是X-Learner或者Causal Forest無。如果使用Uber的Causalml,則可以使用Cumulative Gain圖來進行比較各種Meta Learner的表現(xiàn)。
    https://github.com/uber/causalml?。
  • 一些方法是可以對HTE做統(tǒng)計檢驗的,但是另一些不能。在Econml中,可以對HTE做統(tǒng)計檢驗的方法僅限于DML/DRL中最后一步模型設定為線形模型的方法或者因果森林,而特征變量X和實驗變量T在很多業(yè)務場景下都是非線性相關。強行選擇線性模型可能會造成HTE估計偏誤(如HTE的波動性和X無關,僅為噪音)。如果要篩選HTE顯著的個體進行后續(xù)分析,需要進行個體效應檢驗的多重檢驗矯正。
  • 除了模型擬合度還需要一個標準衡量HTE的估計好壞:如HTE的變化幅度是否大到能夠區(qū)分敏感人群和非敏感人群,可參考Chernozhukov et al. (2018)提出的基于HTE特征的統(tǒng)計推斷,也非常容易應用。

上述介紹的方法基本還是集中于一個干預變量下的靜態(tài)的異質性因果效應。但是在實際應用中,我們會遇到的問題會更加復雜。例如涉及到多個干預變量:產品給用戶的補貼激勵中可能既包括簽到激勵,又包括一些其他任務的獎勵,怎么平衡不同類型激勵的分配可以定義成一個多干預變量的異質性因果效應建模和優(yōu)化問題。再例如動態(tài)因果效應,混淆變量隨著不同時間的干預會進行變化(可參考Lewis and Syrgkanis 2020)。還是以激勵任務為例,這些任務可能使得用戶關注了新的主播、從而改變了她們的觀看內容的偏好,也會影響后續(xù)激勵的效果。這些復雜場景都激發(fā)了各類方法的進一步拓展,我們也期待未來會有更成型、更有體系化的研究和應用涌現(xiàn)出來。

結構因果模型

在前一個部分我們介紹了潛在結果模型的主要思想和方法發(fā)展。這一類流派方法統(tǒng)計理論比較完善,可以得到比較準確的估計結果。但是也存在一定的局限性,只能用于估計變量之間一度相關的影響(i.e,只允許有一個因變量和一些自變量,不能估計間接影響的鏈路),去如何學習眾多變量之間的鏈路和復雜關系,則需要用到另一個流派的結構因果模型方法。

結構因果模型用有向無環(huán)圖 (directed acyclic graph;DAG) 來描述變量之間的因果關系和條件分布。圖的每個節(jié)點是一個變量,因果關系由鏈接這些節(jié)點的邊來表示,例如X1<-X2代表了X2影響了X1,我們也稱X1為子節(jié)點,X2為父節(jié)點。對于一組隨機變量X=(X1,X2,...,XP)形成的DAG,變量的聯(lián)合分布可以表示成P(X)=∏pj=1P(Xj|paj),其中paj是Xj的緊鄰的父節(jié)點。當我們表達因果關系的時候,則引入do 算子的概念,假設當前X=(X1,X2,...Xp)=(x1,x2,...xp),用do(Xj=xj) 表示對于變量Xj干預(將其賦值為xj),那么我們可以根據(jù)變量間的條件分布關系得到一個新的DAG:P(X1=x1,X2=x2,...,Xp=xp|do(Xj=xj)),新老分布下每個其他變量的期望變化就是Xj對他們的因果作用,例如E(X1|do)(Xj=xj)-E(X1|do(Xj=xj))。結果因果模型的開創(chuàng)者Judea Pearl在他的研究中指出,利用因果圖來識別因果關系的時候,如果滿足 “后門準則”和 “前門準則”,其實并不需要觀測到所有的變量,關于具體的理論細節(jié)請參考Pearl (2009)。需要補充說明的是,結構因果模型和潛在結果模型其實也是存在關聯(lián)的。

圖片

在實際應用中,我們不一定能夠直接具備定義因果圖的信息,因此如何學習變量間的因果圖結構反而成為了重要的問題。在解決這類問題時,首先我們要明確所需的假設:

Causal Markov因果馬爾可夫假設:該假設意味任何節(jié)點的條件分布僅基于其直接父節(jié)點。

Causal Sufficiency 因果充分性假設:該假設等同于不存在無法觀測的混淆變量。

Causal Faithfulness 因果忠誠性假設:該假設意味基于一些條件概率分布,一些節(jié)點之間是獨立的(因此圖可以被切割)。

其算法大致分成兩類:

詳細介紹可以參考Glymour, Zhang and Sprites (2019)和《中國科學:數(shù)學》2018年12期的文章《因果推斷的統(tǒng)計方法》:

https://cosx.org/2022/10/causality-statistical-method/?。

Constraint-based Algorithms:基于條件分布獨立檢驗學習出所有滿足faithfulness和causal markov假設的因果圖,即檢驗兩個節(jié)點之間的條件分布是否獨立。例如PC算法(Spirtes and Glymour 1991)和IC算法(Verma and Pearl 1990)。

Score-based Algorithms:通過最優(yōu)化定義的某種score來尋找和數(shù)據(jù)最匹配的圖結構。需要定義structural equations和score functions。例如CGNN算法(Goudet et al. 2017)和NOTEARS算法(Zheng et al. 2018)。這里我們著重介紹一下NOTEARS算法。傳統(tǒng)的算法是基于在所有節(jié)點和節(jié)點間可能產生的關系的基礎上,在所有可能生成的圖中進行搜索,按照某個標準選出最優(yōu)解決,這是典型的NP-hard的問題,耗時極長且目前的計算資源基本無法滿足運算需求。NOTEARS算法將離散搜索的問題轉化成了連續(xù)搜索的問題。該算法極大提高了運算速度,使得普通的數(shù)據(jù)分析師也可以使用。但這個方法也存在著一定的局限性,例如假設所有變量的噪聲必須是高斯分布,近年來也有越來越多的方法(如He et al.2021)嘗試改進這類方法的假設。

隨著強化學習領域的發(fā)展,我們也發(fā)現(xiàn)因果推斷和強化學習可以相互結合在一起,推動相互的發(fā)展。因果推斷可以在強化學習中通過推斷狀態(tài)之間或狀態(tài)與動作之間的因果關系,幫助強化學習算法更高效的學習價值函數(shù)或者最優(yōu)策略,在這方面有興趣的讀者可以參考哥倫比亞大學教授Elias Bareinboim的課程(??https://crl.causalai.net??)。在另一方面,強化學習也可以融入因果圖的學習算法中,例如華為諾亞方舟實驗室的研究Zhu, Ng, and Chen (2019)。

關于因果推斷未來的展望,要提到近年來和圖學習、因果推斷、機器學習相關的一個新的研究范式,是清華大學崔鵬老師團隊提出的“穩(wěn)定學習”的概念(Cui and Athey 2022)。機器學習、人工智能等模型的應用依賴一個重要的假設——Independent and Identically Distributed(獨立同分布)的假設。也就是說訓練集、測試集需要來自同一個分布,但實際上存在各種各樣的OOD(Out Of Distribution,分布外)問題,此時模型的性能無法保證,這也是歷史以來各類模型面臨的一個重要的技術風險。因果推斷可以幫助克服這類問題。如果可以保證一個結構在各種各樣的環(huán)境下都具有同等的預測效應從而克服OOD問題,那么這個結構一定是一個因果結構,而且一個因果結構在各種環(huán)境下的性能都是相對穩(wěn)定的。崔鵬老師團隊的研究(He et al. 2022, Shen et al. 2021)發(fā)現(xiàn),利用混淆變量匹配平衡的思想,通過對樣本進行重加權就可以使得所有的變量變得獨立,使得一個基于關聯(lián)的模型變成基于因果的模型。所謂的穩(wěn)定學習,就是使用一種分布的訓練集和多種不同的未知分布的測試集,優(yōu)化的目標是最小化準確率的方差。相信在未來這是一個非常重要的領域,感興趣的讀者可以繼續(xù)關注相關的研究進展。

圖片

獨立同分布學習、遷移學習、穩(wěn)定學習的比較:圖片來自論文 Cui and Athey 2022

在實際應用中,推薦系統(tǒng)、計算機視覺、自動駕駛、自然語言處理等機器學習、人工智能相關的領域都不乏因果推斷和因果圖學習的身影,推動了這些領域的發(fā)展,在這里我們也是列舉一些近年來的例子,關于更詳細地與機器學習相關的應用和benchmark模擬器、數(shù)據(jù)集可以參考UCL和牛津大學的研究者的總結(Kaddour et al. 2022)。在推薦系統(tǒng)領域,如我們在工具變量方法應用中的介紹,推薦系統(tǒng)不可避免地存在偏差,識別用戶和物品之間的因果圖關系可以幫助推薦系統(tǒng)糾偏。例如Wang et al. (2021)和Zhang et al. (2021)分別利用因果圖來消除標題黨和流行度帶來的偏差。在自動駕駛領域,來自微軟的研究者推出了一個模擬駕駛環(huán)境平臺CausalCity(McDuff et al. 2022),將因果推斷融入車輛的軌跡預測。在自然語言處理領域,研究者發(fā)現(xiàn)因果推斷可以幫助NLP方法更加穩(wěn)健和可理解(Zeng et al. 2020),包括檢驗語言模型和語料庫中的偏見(Vig et al. 2020)……相信在未來,因果推斷會繼續(xù)蓬勃發(fā)展,在上述和其他領域發(fā)揮重要的作用。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2025-01-20 08:50:00

2023-08-28 07:15:49

AIGC因果推斷

2023-11-23 07:41:54

因果推斷大模型

2022-03-17 21:04:57

人工智能美團技術

2023-01-09 08:39:38

因果推斷機器學習

2024-09-29 09:22:00

2024-04-12 07:40:37

因果推斷推薦模型推薦系統(tǒng)

2022-10-14 16:48:40

因果推斷數(shù)據(jù)預處理特征設計

2024-02-05 08:41:08

因果推斷快手短視頻應用

2024-09-11 19:36:24

2024-01-26 08:31:49

2023-05-04 08:28:30

因果推斷方法算法

2024-05-11 07:57:47

因果推斷知識地圖算法

2023-06-28 14:01:13

攜程實踐

2023-06-02 07:19:56

因果推斷度小滿

2022-05-17 09:43:11

因果模型數(shù)據(jù)建模

2009-09-03 21:05:31

2010-01-22 13:28:13

VB.NET對象克隆

2021-03-29 08:54:42

StampedLock線程開發(fā)技術

2010-08-02 08:51:05

Web
點贊
收藏

51CTO技術棧公眾號