螞蟻營(yíng)銷推薦場(chǎng)景上的因果糾偏方法
一、因果糾偏的背景
1、偏差的產(chǎn)生
推薦系統(tǒng)里根據(jù)收集的數(shù)據(jù)來(lái)訓(xùn)練推薦模型,給用戶推薦一個(gè)合適的 item,當(dāng)用戶與這個(gè) item 產(chǎn)生交互后,數(shù)據(jù)又會(huì)被收集用于繼續(xù)訓(xùn)練模型,從而形成一個(gè)閉環(huán)。但是這個(gè)閉環(huán)當(dāng)中可能會(huì)存在各種各樣的影響因素,因此會(huì)產(chǎn)生誤差。誤差的主要原因就是訓(xùn)練模型時(shí)使用的大多是觀測(cè)數(shù)據(jù),而不是一個(gè)理想的訓(xùn)練數(shù)據(jù),會(huì)受到曝光策略、用戶選擇等等因素的影響。偏差的本質(zhì)就是對(duì)于經(jīng)驗(yàn)風(fēng)險(xiǎn)估計(jì)的期望和真實(shí)理想風(fēng)險(xiǎn)估計(jì)的期望之間的差異。
2、常見(jiàn)的偏差
推薦營(yíng)銷系統(tǒng)里面比較常見(jiàn)的偏差主要有以下三種:
- 選擇性偏差:是由于用戶根據(jù)自己的偏好主動(dòng)選擇交互的 item 造成的。
- 曝光性偏差:推薦的 item 通常只是整體 item 候選池里的一個(gè)子集,用戶選擇時(shí)只能與系統(tǒng)推薦的 item 進(jìn)行交互,導(dǎo)致了觀測(cè)數(shù)據(jù)產(chǎn)生偏差。
- 流行性偏差:一些熱門的 item 在訓(xùn)練數(shù)據(jù)中的占比高導(dǎo)致模型會(huì)學(xué)到這個(gè)表現(xiàn),就會(huì)更多推薦熱門的 item,造成馬太效應(yīng)。
還有其它一些偏差,例如位置偏差、一致性偏差等。
3、因果糾偏
下面通過(guò)一個(gè)例子來(lái)理解偏差對(duì)建模過(guò)程造成的影響。眾所周知,抽煙容易導(dǎo)致肺癌,且抽煙的人容易出現(xiàn)黃手指,因?yàn)槌闊熯@個(gè)共因的存在,導(dǎo)致我們認(rèn)定黃手指與肺癌之間產(chǎn)生了關(guān)聯(lián)。但是我們不能說(shuō)因?yàn)橛悬S手指所以會(huì)患肺癌,這之間是沒(méi)有因果關(guān)系的。由于抽煙這個(gè)共因的存在,導(dǎo)致了這兩者之間的虛假關(guān)聯(lián),這個(gè)共因也叫混雜因子(confounder)。這里的因果關(guān)系是一個(gè) what if 的問(wèn)題,假設(shè)其它條件不變的情況下改變了 a 會(huì)導(dǎo)致 y 發(fā)生改變,就說(shuō)明 a 跟 y 之間存在因果關(guān)系。
如何避免這種問(wèn)題呢? 一種比較常見(jiàn)的方法就是引入無(wú)偏的數(shù)據(jù),通過(guò)使用無(wú)偏的數(shù)據(jù)來(lái)幫助模型學(xué)習(xí)無(wú)偏的表征;另外一種方法是從因果圖的角度出發(fā),通過(guò)后期對(duì)觀測(cè)數(shù)據(jù)進(jìn)行調(diào)整來(lái)進(jìn)行糾偏。因果糾偏就是通過(guò)因果的手段對(duì)數(shù)據(jù)或者模型進(jìn)行處理,去除偏差的影響。
4、因果圖
因果圖是一個(gè)有向無(wú)環(huán)圖,用來(lái)刻畫場(chǎng)景中各個(gè)節(jié)點(diǎn)之間的因果關(guān)系。因果圖主要由三個(gè)結(jié)構(gòu)組成:鏈?zhǔn)浇Y(jié)構(gòu)、分叉結(jié)構(gòu)和對(duì)撞結(jié)構(gòu)。
- 鏈?zhǔn)浇Y(jié)構(gòu):給定 C,A、B 是獨(dú)立的。
- 分叉結(jié)構(gòu):給定 C,A 變化,B 不會(huì)隨之變化。
- 對(duì)撞結(jié)構(gòu):在沒(méi)有 C 的情況下,不能觀察到 A、B 是獨(dú)立的;但是觀察到 C 后,A 跟 B 是不獨(dú)立的。
后門路徑以及后門準(zhǔn)則可以參照上圖的例子“感染新冠肺炎 X 與 Z 以及死亡率 Y 之間的關(guān)系”。后門路徑就是鏈接 X 到 Y,但是從 Z 出發(fā)最終指向了 Y 的路徑。與上一個(gè)實(shí)例類似,感染新冠肺炎與死亡率之間并不是一個(gè)純粹的因果關(guān)系,感染新冠肺炎會(huì)受到年齡的影響,老齡人群感染新冠肺炎的概率更高,而老齡人群死亡率也更高。但如果我們有足夠多的數(shù)據(jù)能夠?qū)?X、Y 之間的后門路徑全部阻斷,即給定了 Z,X 與 Y 就是獨(dú)立的關(guān)系,那么就可以建模真正的因果關(guān)系了。
二、基于數(shù)據(jù)融合的糾偏
1、數(shù)據(jù)融合糾偏模型介紹
下面介紹螞蟻團(tuán)隊(duì)基于數(shù)據(jù)融合糾偏的工作,目前已經(jīng)發(fā)表在 SIGIR2023 的 Industry Track 上。工作的思路是通過(guò)無(wú)偏數(shù)據(jù)來(lái)做數(shù)據(jù)增廣,指導(dǎo)模型的糾偏。
無(wú)偏數(shù)據(jù)整體跟有偏數(shù)據(jù)的分布不相同,有偏數(shù)據(jù)會(huì)集中在整個(gè)樣本空間的某部分區(qū)域,缺失的樣本會(huì)集中在有偏數(shù)據(jù)相對(duì)較少的部分區(qū)域,所以增廣的樣本如果是靠近無(wú)偏區(qū)域比較多的區(qū)域,那無(wú)偏數(shù)據(jù)會(huì)發(fā)揮更多的作用;如果增廣樣本靠近有偏數(shù)據(jù)的區(qū)域,那有偏數(shù)據(jù)就會(huì)發(fā)揮更多的作用。對(duì)此這篇論文設(shè)計(jì)了 MDI 的模型,可以更好地利用無(wú)偏和有偏數(shù)據(jù)來(lái)做數(shù)據(jù)增廣。
上圖中展示了算法的框架圖,MDI 模型是通過(guò)元學(xué)習(xí)的方法,在無(wú)偏數(shù)據(jù)上調(diào)整樣本的權(quán)重以及加權(quán)的系數(shù)。首先,MDI 模型訓(xùn)練有兩個(gè)階段:
- 階段一:利用無(wú)偏數(shù)據(jù)訓(xùn)練無(wú)偏的 teacher 模型 fu。
- 階段二:使用原學(xué)習(xí)的方法來(lái)更新示意圖里的其它結(jié)構(gòu)。
通過(guò)優(yōu)化 L(fd) 的經(jīng)營(yíng)損失來(lái)訓(xùn)練融合去偏模型 fd,最終的 Lose 損失主要有兩項(xiàng),一個(gè)是 L-IPS,一個(gè)是 L-IMP。L-IPS 是我們利用原始樣本來(lái)進(jìn)行優(yōu)化的一個(gè) IPS 模塊;R-UI 是利用任意模型來(lái)求導(dǎo)傾向性分?jǐn)?shù)(判斷樣本屬于無(wú)偏樣本的概率或?qū)儆谟衅珮颖镜母怕剩?;第二?xiàng)的 L-IMP 是預(yù)設(shè)的增廣模塊的權(quán)重,R-UI 是預(yù)設(shè)的增廣模塊生成的尾標(biāo);P-UI 與 1—P-UI 是無(wú)偏的 Teacher 模型和融合模型在當(dāng)前樣本的傾向分?jǐn)?shù);fp 就是用來(lái)學(xué)傾向性分?jǐn)?shù)的一個(gè)函數(shù),通過(guò)學(xué)習(xí) fp 自適應(yīng)結(jié)合無(wú)偏數(shù)據(jù)的 Teacher 模型與當(dāng)前的有偏數(shù)據(jù)訓(xùn)練的模型,共同為增廣樣本生成偽標(biāo)記;通過(guò)這種方法來(lái)學(xué)習(xí)更復(fù)雜的 pattern 信息,fp 通過(guò) Meta learning 的方式求解。
下面是算法完整的訓(xùn)練流程:
- 在無(wú)偏數(shù)據(jù)上預(yù)訓(xùn)練 fu。
- 拷貝 fd 的參數(shù)到 fd(u,i),并在有偏+增廣數(shù)據(jù)上更新參數(shù)。
- 在增廣數(shù)據(jù)上更新 fp 的參數(shù)。
- 在有偏+增廣數(shù)據(jù)上基于更新后的 fp 正式更新 fd。
- 重復(fù) 2-4,直至模型收斂。
2、數(shù)據(jù)融合糾偏模型的實(shí)驗(yàn)
我們?cè)?Yahoo R3 和 Coat 這兩個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行了評(píng)估。Yahoo R3 通過(guò)收集 15000+ 用戶對(duì) 1000 首歌曲的打分,一共收集了 31 萬(wàn)+有偏數(shù)據(jù)以及 5400 條無(wú)偏數(shù)據(jù)。Coat 數(shù)據(jù)集是通過(guò) 290 個(gè)用戶對(duì)三百件衣服的打分收集了 6900+ 條有偏數(shù)據(jù)和 4600+ 條無(wú)偏數(shù)據(jù)。兩個(gè)數(shù)據(jù)集用戶的打分都在 1 到 5 之間,有偏的數(shù)據(jù)來(lái)自于平臺(tái)的數(shù)據(jù)用戶,無(wú)偏的樣本通過(guò)隨機(jī)給用戶選擇打分的形式來(lái)收集。
除了兩個(gè)公開(kāi)的數(shù)據(jù)集,螞蟻還使用了來(lái)自業(yè)界實(shí)際場(chǎng)景的一個(gè)數(shù)據(jù)集,為了模擬無(wú)偏數(shù)據(jù)樣本非常少的情況,我們把全部的有偏數(shù)據(jù)和 10% 的無(wú)偏數(shù)據(jù)用來(lái)訓(xùn)練,保留 10% 的無(wú)偏數(shù)據(jù)作為驗(yàn)證,剩下 80% 作為測(cè)試集。
我們使用的 Baseline 對(duì)比的方法主要是以下幾種:第一個(gè)方法是分別利用無(wú)偏數(shù)據(jù)、單有偏數(shù)據(jù)和直接數(shù)據(jù)融合訓(xùn)練的模型;第二個(gè)方法是通過(guò)少部分無(wú)偏數(shù)據(jù),設(shè)計(jì)了一個(gè)正則性的表征約束有偏數(shù)據(jù)、無(wú)偏數(shù)據(jù)表征的相似度來(lái)進(jìn)行糾偏的操作;第三個(gè)方法是逆概率權(quán)重的方法,傾向性分?jǐn)?shù)的一個(gè)逆概率。Double robust 也是一個(gè)比較常見(jiàn)的糾偏的方法;Propensity free double robust 是一個(gè)數(shù)據(jù)增廣的方法,它先用無(wú)偏的樣本學(xué)習(xí)一個(gè)增廣的模型,然后通過(guò)增廣的樣本幫助整個(gè)模型進(jìn)行糾偏;Auto debias 也會(huì)用到一些無(wú)偏的數(shù)據(jù)做增廣來(lái)幫助模型糾偏。
我們使用了 MSE 和 MAE 這兩個(gè)指標(biāo)來(lái)評(píng)估表現(xiàn)。如圖所示,我們提出的 MDI 方法,在 Coat 以及 Product 兩個(gè)數(shù)據(jù)集上,兩個(gè)指標(biāo)都有比較好的表現(xiàn)。
在 Yahoo R3 數(shù)據(jù)集上,我們提出的方法在 MAE 上的表現(xiàn)指標(biāo)最好,在 MSE 除了 IPS 以外的方法表現(xiàn)是最好的。三種數(shù)據(jù)增廣的方法,PFDR、Auto Debias 以及我們提出的 MDI,在多數(shù)情況下表現(xiàn)的都會(huì)更好,但是由于 PFDR 是提前利用無(wú)偏數(shù)據(jù)訓(xùn)練增廣模型,會(huì)嚴(yán)重依賴于無(wú)偏數(shù)據(jù)的質(zhì)量,因此它在 Coat 模型上就只有 464 條無(wú)偏訓(xùn)練數(shù)據(jù)樣本,當(dāng)無(wú)偏樣本比較少的時(shí)候,它的增廣模塊就會(huì)比較差,數(shù)據(jù)表現(xiàn)也會(huì)相對(duì)差一些。
AutoDebias 在不同數(shù)據(jù)上的表現(xiàn)與 PFDR 正好相反。由于 MDI 設(shè)計(jì)了同時(shí)利用無(wú)偏數(shù)據(jù)以及有偏數(shù)據(jù)的增廣方法,所以具有更強(qiáng)的數(shù)據(jù)增廣模塊,因此它在無(wú)偏數(shù)據(jù)比較少或者無(wú)偏數(shù)據(jù)比較充足這兩種情況下都可以獲得比較好的效果。
我們?cè)趦蓚€(gè)公開(kāi)數(shù)據(jù)集上也評(píng)估了這些模型在不同比例的無(wú)偏數(shù)據(jù)下的表現(xiàn),分別使用了 50% 到 40% 的無(wú)偏數(shù)據(jù)以及全部的有偏數(shù)據(jù)來(lái)用于訓(xùn)練,其它邏輯與前面 10% 的無(wú)偏數(shù)據(jù)做驗(yàn)證,剩下的數(shù)據(jù)做測(cè)試,這個(gè)設(shè)定與前面的實(shí)驗(yàn)一樣。
上圖展示了采用不同方法在不同比例的無(wú)偏數(shù)據(jù)下的 MAE 的表現(xiàn),橫坐標(biāo)表示無(wú)偏數(shù)據(jù)的比例,縱坐標(biāo)表示各個(gè)方法在無(wú)偏數(shù)據(jù)上的效果,可以看到隨著無(wú)偏數(shù)據(jù)比例的增加 AutoDebias、IPS 以及 DoubleRubus 的 MAE 沒(méi)有明顯的下降過(guò)程。但是不按 Debias 的方式,直接利用原始數(shù)據(jù)融合來(lái)學(xué)習(xí)的方法則會(huì)有比較明顯的下降,這是因?yàn)闊o(wú)偏數(shù)據(jù)的樣本比例越高,我們整體的數(shù)據(jù)質(zhì)量就越好,所以模型可以學(xué)到更好的表現(xiàn)。
當(dāng) Yahoo R3 的數(shù)據(jù)使用超過(guò) 30% 的無(wú)偏數(shù)據(jù)來(lái)訓(xùn)練的時(shí)候,這種方式甚至超過(guò)了除 MDI 以外其它所有的糾偏方法。但 MDI 的方式相對(duì)來(lái)說(shuō)可以獲得更好的表現(xiàn),這也可以證明 MDI 方法在不同規(guī)模的無(wú)偏數(shù)據(jù)下都有比較魯棒的結(jié)果。
同時(shí)我們也進(jìn)行了消融實(shí)驗(yàn),在三個(gè)數(shù)據(jù)集上分別驗(yàn)證增廣模塊當(dāng)中各個(gè)部分的設(shè)置是否有效。
λ=0 的設(shè)置表示直接去除了增廣模塊;Pu,i = 1 表示只利用無(wú)偏數(shù)據(jù)建模增廣數(shù)據(jù)模塊;Pu,i = 0 表示只利用有偏以及增廣的融合數(shù)據(jù)建模增廣數(shù)據(jù)模塊。
上圖中展示了消融實(shí)驗(yàn)的結(jié)果,可以看到 MDI 方法在三個(gè)數(shù)據(jù)集上都取得了比較好的效果,說(shuō)明增廣模塊是有必要的。
無(wú)論是在公開(kāi)數(shù)據(jù)集上,還是實(shí)際業(yè)務(wù)場(chǎng)景的數(shù)據(jù)集上,我們提出的融合無(wú)偏和有偏數(shù)據(jù)的增廣方法相比之前已有的數(shù)據(jù)融合方案都有著更好的效果,同時(shí)通過(guò)參數(shù)敏感性實(shí)驗(yàn)以及消融實(shí)驗(yàn)也驗(yàn)證了 MDI 的魯棒性。
三、基于后門調(diào)整的糾偏
下面來(lái)介紹下團(tuán)隊(duì)的另外一個(gè)工作:基于后門調(diào)整糾偏。這一工作也已發(fā)表在了 SIGIR2023 的 Industry Track 上。后門調(diào)整糾偏應(yīng)用的場(chǎng)景就是營(yíng)銷推薦的場(chǎng)景,如下圖所示,用戶與優(yōu)惠券或者用戶與任意廣告、item 的交互是不受任何干預(yù)的,有均等的可能去任意交互,每張券也有均等的可能會(huì)曝光給任意用戶。
但在實(shí)際的業(yè)務(wù)場(chǎng)景當(dāng)中,為了保護(hù)或者幫助一些小商戶提升流量,以及保證全局的用戶參與體驗(yàn),通常會(huì)設(shè)置一系列的策略約束,這種情況就會(huì)導(dǎo)致一部分用戶會(huì)更多的曝光某些優(yōu)惠券,另一部分用戶會(huì)更多的曝光另外一張優(yōu)惠券,這種干預(yù)就是前文中提到的 confounder。
這種干預(yù)在電商營(yíng)銷場(chǎng)景里會(huì)產(chǎn)生什么問(wèn)題呢?如上圖所示,為了簡(jiǎn)化,我們將用戶簡(jiǎn)單地分為高參與意愿和低參與意愿兩類,將優(yōu)惠券簡(jiǎn)單地分為大折扣和小折扣兩類。圖中柱狀圖的高低表示了對(duì)應(yīng)樣本的全局占比,柱狀圖越高,說(shuō)明對(duì)應(yīng)樣本在整體訓(xùn)練數(shù)據(jù)當(dāng)中占比越多。圖中所展示的小折扣的優(yōu)惠券以及高參與意愿用戶樣本占據(jù)了大多數(shù),會(huì)導(dǎo)致模型學(xué)到圖中所示的分布,模型會(huì)認(rèn)為高參與意愿用戶更喜歡小折扣的優(yōu)惠券。但實(shí)際上面對(duì)同樣的使用門檻,用戶肯定會(huì)傾向于折扣更高的優(yōu)惠券,這樣才會(huì)更省錢。圖中模型對(duì)于實(shí)際的轉(zhuǎn)化概率是小折扣優(yōu)惠券低于大折扣優(yōu)惠券的,但是模型對(duì)于某一個(gè)樣本的預(yù)估反而會(huì)認(rèn)為小折扣優(yōu)惠券核銷概率更高,所以模型也會(huì)推薦這個(gè)打分對(duì)應(yīng)的優(yōu)惠券,這就形成了一個(gè)悖論。
從因果圖的視角分析這個(gè)悖論產(chǎn)生的原因,在當(dāng)前的場(chǎng)景下應(yīng)用非糾偏的推薦模型,其因果圖構(gòu)造如上圖所示,U 表示用戶的表征,I 表示 item 的表征。D 和 K 分別是用戶視角與權(quán)益視角的歷史交互情況,T 表示當(dāng)前業(yè)務(wù)設(shè)置的一些規(guī)則約束,T 是沒(méi)辦法直接量化的,但是我們可以通過(guò) D 和 K 來(lái)間接地看出它對(duì)用戶和 item 的影響。y 表示用戶與 item 的交互,結(jié)果就是 item 是否被點(diǎn)擊、被核銷等。
因果圖所代表的條件概率公式如圖右上所示,公式推導(dǎo)遵循貝葉斯概率公式。在給定 U 和 I 的條件下,最終求導(dǎo) P|Y ui 并不是只與 U 和 I 相關(guān),因?yàn)?U 會(huì)受到 du 的影響,也就是 p 給定 u 的時(shí)候 p(du)的概率也是存在的。給定 I 的時(shí)候同理,I 也會(huì)受到 ki 的影響,這個(gè)情況產(chǎn)生的原因是因?yàn)?D 和 K 的存在導(dǎo)致了場(chǎng)景當(dāng)中存在后門路徑。也就是不從 U 出發(fā),但是最終指向 y 的路徑(U-D-T-Y 或者 I-K-T-Y 路徑)這種后門路徑會(huì)表示一個(gè)虛假觀念,也就是 U 不僅可以通過(guò) T 影響 y,也可以通過(guò) D 影響 y。
調(diào)整的方法是將 D 到 U 的路徑人為切斷,這樣 U 只能通過(guò) U-T-Y 跟 U-Y直接影響y,這種方式可以去除虛假關(guān)聯(lián),從而建模真正的因果關(guān)系。后門調(diào)整是對(duì)觀測(cè)數(shù)據(jù)做do-calculus,然后使用do算子聚合所有D以及所有K的情況表現(xiàn),避免U和I受到D和K的影響。通過(guò)這種方式建模一個(gè)真正的因果關(guān)系。這個(gè)公式的推導(dǎo)近似估計(jì)形式如下圖所示。
4a 和前面 3b 形式是一樣的,而 4b 是做了樣本空間的近似。因?yàn)槔碚撋蟻?lái)講 D 和 K 的樣本空間是無(wú)限的,只能通過(guò)收集到的數(shù)據(jù)(樣本空間的 D 和 K 取一個(gè)大?。﹣?lái)做近似。4c 和 4d 都是期望的近似的推導(dǎo),通過(guò)這種方式最終只需額外建模一個(gè)無(wú)偏表征 T。T 是通過(guò)遍歷所有情況下用戶跟 item 的表征概率分布和,額外建模無(wú)偏表征 T,來(lái)幫助模型得到最終的無(wú)偏數(shù)據(jù)估計(jì)。
實(shí)驗(yàn)采用了兩個(gè)開(kāi)源的數(shù)據(jù)集,天池和 84.51(優(yōu)惠券)數(shù)據(jù)集。通過(guò)采樣的方式模擬這種規(guī)則策略對(duì)整體數(shù)據(jù)的影響。同時(shí),使用了某個(gè)真實(shí)的電商營(yíng)銷活動(dòng)場(chǎng)景所產(chǎn)生的數(shù)據(jù),共同評(píng)測(cè)算法的好壞。對(duì)比了一些主流的糾偏方法,比如 IPW 是通過(guò)逆概率加權(quán)做糾偏;Unawareness 是通過(guò)去除偏差特征來(lái)緩解偏差的影響;FairCo 是通過(guò)引入誤差項(xiàng)約束表征來(lái)獲得相對(duì)無(wú)偏的估計(jì);MACR 是通過(guò)多任務(wù)的框架分別估計(jì)用戶的一致性以及 item 的流行程度,在預(yù)測(cè)階段減去一致性跟流行度這種方式來(lái)實(shí)現(xiàn)無(wú)偏估計(jì);PDA 是通過(guò)因果干預(yù),對(duì)損失項(xiàng)做調(diào)整的方式去除流行性偏差的影響;DecRS 也是借助后門調(diào)整去除信息偏差,但是它只針對(duì)用戶視角的偏差進(jìn)行糾正。
實(shí)驗(yàn)的評(píng)估指標(biāo)是 AUC,因?yàn)闋I(yíng)銷推進(jìn)場(chǎng)景對(duì)于推薦優(yōu)惠券或者推薦候選的商品只有一個(gè),所以本質(zhì)上是二分類的問(wèn)題,因此采用 AUC 來(lái)評(píng)估比較合適。對(duì)比了 DNN 和 MMOE 不同架構(gòu)下的表現(xiàn),可以看出,我們提出的 DMBR 模型相比于原始無(wú)糾偏方式以及其它糾偏方式都有著更好的效果。同時(shí) Ds_A 跟 Ds_B 在模擬數(shù)據(jù)集上比真實(shí)的業(yè)務(wù)數(shù)據(jù)集上得到了更高的提升效果,這是因?yàn)檎鎸?shí)業(yè)務(wù)數(shù)據(jù)集的數(shù)據(jù)會(huì)更復(fù)雜,不僅會(huì)受到規(guī)則策略的影響,還可能會(huì)受到其它因素的影響。
目前模型已在某電商營(yíng)銷活動(dòng)場(chǎng)景上線,上圖展示了線上的效果,對(duì)比基線模型,DMBR 模型在核銷率以及核銷量上都有一定的提升。
四、在螞蟻的應(yīng)用
因果糾偏的方法,在螞蟻主要應(yīng)用在存在規(guī)則或者存在策略約束的場(chǎng)景,比如廣告場(chǎng)景,可能會(huì)設(shè)置約束不同廣告的投放人群,一些針對(duì)寵物的廣告,會(huì)更多地投放給有寵物的用戶。電商營(yíng)銷的場(chǎng)景,會(huì)設(shè)置一些策略來(lái)保證小商家的流量,避免所有流量都被大商家消耗。以及保證用戶活動(dòng)參與體驗(yàn),因?yàn)榛顒?dòng)的整體預(yù)算有限,有一些薅羊毛的用戶反復(fù)參與活動(dòng),就會(huì)占用掉大量的資源,導(dǎo)致其他用戶的活動(dòng)參與體驗(yàn)較差。諸如此類的場(chǎng)景中,都有對(duì)因果糾偏的應(yīng)用。