關(guān)于 A/B 實(shí)驗(yàn)中策略長期效果評(píng)估方案的研究
一、實(shí)驗(yàn)長短期效應(yīng)產(chǎn)生的原因
A/B 實(shí)驗(yàn)已經(jīng)成為了一個(gè)非常普遍的量化策略效果的方法。但由于實(shí)驗(yàn)時(shí)長限制等原因,實(shí)驗(yàn)人員往往只能檢測(cè)到策略的短期影響或短期指標(biāo)。以 UI 設(shè)計(jì)為例,當(dāng)上線一個(gè)新的 UI 設(shè)計(jì)之后,通過 A/B 實(shí)驗(yàn)可能發(fā)現(xiàn) DAU 上漲了 1%。但 DAU 這種短期指標(biāo)的上漲可能是新奇效應(yīng)導(dǎo)致的,當(dāng)用戶的新鮮感過去后,就無法判斷新的 UI 設(shè)計(jì)在三個(gè)月后是否仍具有影響。當(dāng)以收入作為長期指標(biāo)時(shí),收入可能在短期內(nèi)不會(huì)發(fā)生顯著改變,但由于學(xué)習(xí)效應(yīng),當(dāng)新的 UI 設(shè)計(jì)提高了用戶體驗(yàn)時(shí),收入這一指標(biāo)可能在三個(gè)月之后發(fā)生顯著提升。這就要求實(shí)驗(yàn)人員通過短期實(shí)驗(yàn)來捕捉長期效果,高效地評(píng)估策略,提升評(píng)估效率,避免有效策略的漏判。
導(dǎo)致實(shí)驗(yàn)長短期效應(yīng)產(chǎn)生的原因大體分為兩類:
一類是外生性原因,例如,市場(chǎng)達(dá)到供需均衡狀態(tài)是需要一定時(shí)間的;或者是策略受到時(shí)間影響,如季節(jié)變化、周中周末等;還可能受到突發(fā)事件的影響。
另一類是內(nèi)生性原因,例如,用戶學(xué)習(xí)效應(yīng)(積極的結(jié)果會(huì)強(qiáng)化導(dǎo)致該結(jié)果的行為,比如說用戶體驗(yàn)會(huì)逐漸變好強(qiáng)化)、新奇效應(yīng)(策略效果會(huì)因新鮮感的降低而減弱)及首要效應(yīng)(用戶會(huì)因適應(yīng)策略而導(dǎo)致策略效果增加);還包括推薦系統(tǒng)個(gè)性化推薦(推薦系統(tǒng)是個(gè)性化的,推薦會(huì)因用戶過去的行為不同而推薦不同的內(nèi)容,久而久之會(huì)產(chǎn)生差異);可能沒有一個(gè)逐漸改變的過程,只是因?yàn)閷?shí)驗(yàn)時(shí)長有限,不能觀察到中長期北極星指標(biāo)的變化,如 30 天留存的變化;以及 A/B 實(shí)驗(yàn)的用戶圈定存在人群偏差,如活躍用戶比不活躍用戶更有可能被納入實(shí)驗(yàn)的現(xiàn)象,從而導(dǎo)致估計(jì)的效果存在偏差。
二、工業(yè)界探究策略長期效果的方案
針對(duì)實(shí)驗(yàn)長短期效應(yīng)產(chǎn)生的內(nèi)生性原因,工業(yè)界提出了相應(yīng)的解決方案,共包含 7 種。接下來將逐一介紹每種方案。
1、用戶學(xué)習(xí)效應(yīng)方法
用戶學(xué)習(xí)效應(yīng)是指積極的效應(yīng)會(huì)被強(qiáng)化,而消極的結(jié)果會(huì)逐漸衰減。因此在評(píng)估策略效果的時(shí)候要同時(shí)考慮策略的短期效果和因用戶學(xué)習(xí)效應(yīng)帶來的長期效果。例如增加廣告 adload,即每個(gè)人可以看到的廣告條數(shù)增加,在短期內(nèi)可能會(huì)使得曝光增加,即短期收益 ?RPM 出現(xiàn)上漲;同時(shí)該策略會(huì)影響用戶的長期體驗(yàn),并且這個(gè)用戶體驗(yàn)需有一定的時(shí)間學(xué)習(xí),使得長期收益〖LT〗_rpm 下降。因此,策略效果要考慮因用戶學(xué)習(xí)效應(yīng)帶來的長期效果。
谷歌在 2015 年設(shè)計(jì)了一種可量化長期用戶學(xué)習(xí)效應(yīng)(User learning effect)的實(shí)驗(yàn)方法,建立短期指標(biāo)變化與長期學(xué)習(xí)效應(yīng)影響之間的關(guān)系,以實(shí)現(xiàn)通過短期可測(cè)量的指標(biāo)來預(yù)測(cè)長期收益。
具體做法是設(shè)計(jì)一個(gè) CCD(Cookie-Cookie-Day)實(shí)驗(yàn),該實(shí)驗(yàn)共包含 3 個(gè)實(shí)驗(yàn)組,分別為長期實(shí)驗(yàn)組、對(duì)照實(shí)驗(yàn)組和 CCD 實(shí)驗(yàn)組。其中,長期組在實(shí)驗(yàn)期間始終受策略影響,積累學(xué)習(xí)效應(yīng),對(duì)照組是沒有策略作用,CCD 實(shí)驗(yàn)組是將該組用戶隨機(jī)劃分成若干份,每天抽取一份使其當(dāng)天受到策略影響而其余時(shí)間不受策略影響。
傳統(tǒng)的標(biāo)準(zhǔn)流量實(shí)驗(yàn),只是有長期實(shí)驗(yàn)和對(duì)照實(shí)驗(yàn),通過對(duì)比長期實(shí)驗(yàn)前期和后期效果其實(shí)無法捕捉用戶的學(xué)習(xí)效應(yīng),因?yàn)榈玫降慕Y(jié)果可能包含很多與學(xué)習(xí)效應(yīng)無關(guān)的影響,如系統(tǒng)效應(yīng),季節(jié)效應(yīng),周末效應(yīng),后續(xù)上線策略的交互作用等。因此需要多一個(gè) CCD 實(shí)驗(yàn),在第 d 天短期接受策略的組,通過比較第 d 天 CCD 組和長期組,可以“抹去”策略帶來的短期效果,于是兩組的差異則來自于長期效果,從而達(dá)到評(píng)估長期效果的目的。
當(dāng)捕捉到每一天的長期效果后,有如下兩種應(yīng)用方式。第一,通過指數(shù)函數(shù)擬合來外推長期效果;第二,通過短期指標(biāo)的變化來預(yù)測(cè)長期的學(xué)習(xí)效應(yīng)影響。
然而,該方法仍存在一些局限性。第一,基于 cookie 的方式并不穩(wěn)定,或者存在一些用戶行為的改變,可能會(huì)導(dǎo)致對(duì)長期學(xué)習(xí)效應(yīng)的低估;第二,在進(jìn)行指數(shù)擬合時(shí),學(xué)習(xí)速率并不一定是固定的;第三,策略的其他短期指標(biāo)仍存在探索空間;第四,該方法本身的開發(fā)和探索成本較高。
2、個(gè)性化推薦方法
2023 年谷歌提出實(shí)驗(yàn)長短期的差異除了受用戶學(xué)習(xí)影響外,還受到推薦系統(tǒng)個(gè)性化推薦效果的影響。個(gè)性化的推薦系統(tǒng)向用戶展示的物品(廣告)會(huì)因其過去的行為而異,而這又與用戶之前所接受的策略影響有關(guān)。因此,長期策略組的用戶受到長期策略影響而被推薦的物品/廣告會(huì)與短期組不一致,所以長期效果的結(jié)果中還會(huì)帶有因?yàn)椴煌瑐€(gè)性化推薦效果的影響。
文章構(gòu)建的因果圖如下,Xi 代表用戶行為(比如說點(diǎn)擊),S 代表用戶觀測(cè)到的系統(tǒng)狀態(tài)(比如說網(wǎng)頁的展示),W 代表用戶是否有策略影響,U 代表用戶行為偏好(無法觀察),Y 是最終效果,可以看到當(dāng)前的行為既受到當(dāng)前用戶行為偏好的影響,也受到當(dāng)前系統(tǒng)狀態(tài)的影響,而系統(tǒng)狀態(tài)則受到策略和過往行為的影響。
在此情況下,策略的總體效應(yīng)是由短期效應(yīng)、用戶學(xué)習(xí)效應(yīng)和個(gè)性化推薦效應(yīng)三方面共同決定的。通過對(duì) CCD 實(shí)驗(yàn)進(jìn)行改進(jìn),即可評(píng)估出上述三部分在 t 時(shí)刻的效果,從而建立與t的關(guān)系,進(jìn)行外推,得到長期總體提升效果
谷歌共提出了三種 CCD 改造方法,本次分享以 CCD-Switch 方法為例進(jìn)行闡述。相比于 CCD 實(shí)驗(yàn),CCD-Switch 方法增加了一個(gè)實(shí)驗(yàn)組,該實(shí)驗(yàn)組接受長期策略的影響,但被系統(tǒng)推薦時(shí),該組用戶接收到的廣告會(huì)被替換成對(duì)照組中“相似用戶”接收到的廣告,保證該組用戶的推薦不受其歷史行為的影響。在此設(shè)定下,就可以通過對(duì)比四個(gè)實(shí)驗(yàn)組的結(jié)果來得到總體效應(yīng)的三個(gè)部分,從而推斷出策略的長期效應(yīng)。
下面是一個(gè)應(yīng)用該方法的具體案例。
3、短期代理指標(biāo)方法
這是一個(gè)業(yè)界比較常用的做法,當(dāng)實(shí)驗(yàn)時(shí)長有限,不能觀察到長期北極星指標(biāo)效果(如 30 天留存),選取可以代表長期效果的短期代理指標(biāo),在策略的優(yōu)化和效果的評(píng)估時(shí)均可直接關(guān)注該短期代理指標(biāo),作為實(shí)驗(yàn)策略對(duì)北極星指標(biāo)是否有顯著影響的依據(jù)。代理指標(biāo)的選擇步驟共分為如下三步:第一步,根據(jù)業(yè)務(wù)邏輯選擇大量代理指標(biāo),這個(gè)候選代理指標(biāo)需要滿足以下條件:與北極星指標(biāo)有高相關(guān)性;是可能被實(shí)驗(yàn)策略撼動(dòng)的指標(biāo);適用于實(shí)驗(yàn)策略覆蓋的業(yè)務(wù)場(chǎng)景;第二步,通過模型和相關(guān)度分析,圈出若干個(gè)跟北極星指標(biāo)關(guān)聯(lián)度高的候選代理指標(biāo),進(jìn)一步精簡候選代理指標(biāo);第三步,通過實(shí)驗(yàn)回測(cè)的方式,找出最敏感的代理指標(biāo),如長期指標(biāo)顯著的實(shí)驗(yàn)中,代理指標(biāo)顯著比例最高的代理指標(biāo)。
短期代理指標(biāo)方法已經(jīng)在業(yè)界廣泛運(yùn)用。
然而該方法也存在一些明顯的局限性。首先,單一的代理指標(biāo)可能不足以表征長期效應(yīng);其次,可能存在代理指標(biāo)明顯提升但長期效果不顯著的問題;第三,代理指標(biāo)的篩選只考慮了相關(guān)性而未檢驗(yàn)因果性。
4、代理指數(shù)預(yù)測(cè)方法
代理指數(shù)預(yù)測(cè)方法是針對(duì)單一短期代理指標(biāo)不足以表征長期效應(yīng)這一問題而提出的,其核心思想是利用多個(gè)短期代理指標(biāo)來擬合長期效應(yīng),本質(zhì)上是將短期中間成果對(duì)長期效果進(jìn)行回歸預(yù)測(cè)值作為長期效果的代理指標(biāo),更大程度地利用已有的信息。策略對(duì)效果指標(biāo)的長期作用效果可以反應(yīng)在:策略對(duì)多個(gè)代理指標(biāo)的短期作用效果,可以通過實(shí)驗(yàn)數(shù)據(jù)獲??;還有多個(gè)代理指標(biāo)和長期效果指標(biāo)之間的關(guān)系,可以通過觀察數(shù)據(jù)獲取。
在使用該方法時(shí),需要注意滿足如下三個(gè)假設(shè):
- Unconfoundedness,即沒有混雜因素同時(shí)影響 W 和 Y,S。
- Surrogacy,即代理變量充分表征 W 對(duì) Y 的影響,在代理變量給定時(shí),W 和 Y 獨(dú)立。此處可盡可能引入合適的代理變量,以捕捉 W 對(duì) Y 的作用路徑。
- Comparability,即在代理變量給定時(shí),實(shí)驗(yàn)數(shù)據(jù)和觀察性數(shù)據(jù)結(jié)果指標(biāo) Y 分布相同。因代理指標(biāo) S 和 Y 之間的關(guān)系是根據(jù)歷史數(shù)據(jù)獲得,所以要用此來預(yù)測(cè)實(shí)驗(yàn)中 T 對(duì) Y 的長期效果,需保證此假設(shè)成立,這樣回歸模型才具有泛化性。
該方法在領(lǐng)英、網(wǎng)飛等公司被廣泛運(yùn)用,而該方法的局限性在于三個(gè)假設(shè)導(dǎo)致的模型預(yù)測(cè)、特征選擇以及數(shù)據(jù)同質(zhì)三方面的難度較大。
5、分期預(yù)測(cè)方法
該方法將總時(shí)間劃分為一系列時(shí)間窗的加和,根據(jù)上一階段的代理指標(biāo) S、本階段的策略 W、用戶協(xié)變量,建立對(duì)該階段 S 與結(jié)果 Y 的預(yù)測(cè),不斷重復(fù)嵌套,得到一系列的預(yù)測(cè),直到到達(dá)想要的預(yù)測(cè)時(shí)間點(diǎn)。為了實(shí)現(xiàn)這一目標(biāo),需要滿足兩個(gè)重要假設(shè)。假設(shè)效果指標(biāo)受到用戶特征、當(dāng)期的策略和過往的策略的共同影響,因此引入代理指標(biāo)表征過往策略對(duì)效果指標(biāo)的全部影響,并且假設(shè)每一期的影響效果都是同分布的。
分期預(yù)測(cè)方法的局限性主要表現(xiàn)在個(gè)體預(yù)測(cè)難度大、時(shí)間預(yù)測(cè)較難、同分布假設(shè)較強(qiáng)等方面。
6、觀察數(shù)據(jù)方法
2021 年微軟提出實(shí)驗(yàn)中 user learning 效應(yīng)主要來自于新奇效應(yīng)或首要效應(yīng),新奇效應(yīng)為前期因有新鮮感等原因效果增加后因新鮮感降低而效果衰減,首要效應(yīng)為因用戶逐漸適應(yīng)而效果增加。如微軟將郵件由 outlook 圖標(biāo)改為郵件圖標(biāo),發(fā)現(xiàn)第一天 ctr 有明顯上漲,但這個(gè)漲幅在逐天減少。
基于上述發(fā)現(xiàn),微軟提出 t 時(shí)刻的期望效果滿足固定策略與用戶學(xué)習(xí)效應(yīng)組成的線性方程表達(dá)式,并基于 DID 思想,實(shí)現(xiàn)對(duì)用戶學(xué)習(xí)效應(yīng)的無偏估計(jì)。
該方法能用于快速判斷短期實(shí)驗(yàn)是否存在新奇效應(yīng)或首要效應(yīng),若存在,一方面可以拉長實(shí)驗(yàn)周期持續(xù)觀察,另一方面可以利用時(shí)間序列分析外推長期效應(yīng)。該方法非常簡單,沒有實(shí)驗(yàn)開發(fā)的成本。
然而,該方法的主要局限性在于可能有其它外部因素使得預(yù)估有偏;并且對(duì)期望效果的線性表達(dá)式過于簡單,可能不符合真實(shí)情況;另外,時(shí)間預(yù)測(cè)較難,可能受到周期性的影響。
7、人群偏差調(diào)整方法
2019 年微軟論文表明重度用戶可能對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生偏差,影響實(shí)驗(yàn)結(jié)果泛化性,提出一種用于偏差調(diào)整的估計(jì)量。重度用戶偏差(heavy-user bias)指頻繁用戶比不頻繁用戶更有可能被納入實(shí)驗(yàn)的現(xiàn)象,從而導(dǎo)致估計(jì)的平均治療效果存在偏差。
論文基于系列假設(shè),發(fā)現(xiàn)重度用戶偏差通常與實(shí)驗(yàn)的長度 k 成反比,借鑒 jackknife 的思想,構(gòu)造出更為無偏的估計(jì)量。這個(gè)方法假設(shè)比較強(qiáng),該文作者也在探索放開部分假設(shè)的方法。業(yè)界也針對(duì)這個(gè)問題有其他方法,如根據(jù)子群占比進(jìn)行權(quán)重調(diào)整,使得實(shí)驗(yàn)周期內(nèi)樣本分布與總體分布一致。
以上介紹了七種方案,實(shí)驗(yàn)人員可以根據(jù)實(shí)際的業(yè)務(wù)情況選擇合適的方案或進(jìn)行優(yōu)化。
三、業(yè)務(wù)場(chǎng)景案例
最后,分享一個(gè)業(yè)務(wù)案例,以期引發(fā)大家思考。排序的目標(biāo)是追求匹配效率最大化,一般會(huì)通過收益(如 GMV 等)來表征匹配效率,對(duì)于有轉(zhuǎn)化的用戶,GMV 可以表征匹配效率。但對(duì)于非轉(zhuǎn)化用戶,為了更好的度量匹配效率,需要將該用戶的其它行為比如點(diǎn)擊、點(diǎn)贊、評(píng)論、快滑等行為也納入考量之中。通常如果某策略 GMV 沒有變化,但用戶其他行為有所改善,那通常會(huì)認(rèn)為新策略有一定效果。然而,當(dāng) GMV 的變化與用戶行為表現(xiàn)不一致時(shí),該如何判斷哪個(gè)算法更好呢?我們嘗試了前文中的七種方法,但每種方法都有其局限性,因此我們也在繼續(xù)探索適合業(yè)務(wù)場(chǎng)景的方案。