自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

攜程火車票短信召回算法優(yōu)化實(shí)踐

人工智能 新聞
我們分階段提出基于 Response Model 的轉(zhuǎn)化率預(yù)估模型、基于 Uplift Model 的短信敏感度預(yù)估模型,逐一對(duì)問題進(jìn)行更科學(xué)的定義、拆解和優(yōu)化。

作者簡介

Ryan,攜程算法專家,專注個(gè)性化推薦、智能營銷等領(lǐng)域;

小白,攜程算法工程師,研究智能營銷、用戶增長等領(lǐng)域。

一、背景

互聯(lián)網(wǎng)蓬勃發(fā)展的今天是流量為王的時(shí)代,但隨著流量紅利逐漸消失,獲客成本的日益增高,用戶留存成為各大互聯(lián)網(wǎng)公司的重點(diǎn)關(guān)注問題,其中流失用戶的召回在當(dāng)今的流量紅海市場(chǎng)中顯得尤為關(guān)鍵,為此,基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)的智能營銷技術(shù)應(yīng)用而生。

攜程火車票業(yè)務(wù)每周都會(huì)有短信營銷活動(dòng),旨在通過對(duì)近期未下單的老客發(fā)送短信將其召回,促進(jìn)復(fù)購,提升用戶粘性(業(yè)務(wù)流程如圖 1 所示);原有業(yè)務(wù)策略是基于規(guī)則的方式隨機(jī)從滿足條件的用戶池中選擇一部分進(jìn)行短信投放,針對(duì)該方法過于粗放、召回效果不佳、短信發(fā)送 ROI 不高的問題,我們分階段提出基于 Response Model 的轉(zhuǎn)化率預(yù)估模型、基于 Uplift Model 的短信敏感度預(yù)估模型,逐一對(duì)問題進(jìn)行更科學(xué)的定義、拆解和優(yōu)化。

圖1 攜程火車票短信召回業(yè)務(wù)流程圖圖1 攜程火車票短信召回業(yè)務(wù)流程圖

二、問題定義

上述短信召回業(yè)務(wù)需要解決的核心問題可抽象概括如下:

定義:在滿足條件的老客用戶池(假設(shè)用戶規(guī)模為 N )中,通過策略或者模型篩選出 K 個(gè)用戶(在短信成本約束下,K 通常小于 N ),對(duì)這些用戶發(fā)送短信后,提升整體的轉(zhuǎn)化率和短信發(fā)送 ROI。

三、解決方案

3.1 基于 Response Model 的轉(zhuǎn)化率預(yù)估模型

針對(duì)上述問題,在只有基于業(yè)務(wù)策略的短信發(fā)送歷史記錄的情況下,我們首先嘗試通過構(gòu)建一個(gè)基于 Response Model 的轉(zhuǎn)化率預(yù)估模型預(yù)測(cè)用戶被短信營銷影響后的下單概率,進(jìn)而選擇下單概率高的那部分用戶進(jìn)行短信投放,該方法可形式化描述如下:

V1

目標(biāo):在 N 個(gè)用戶中尋找 K 個(gè)短信投放后下單概率最高的用戶。

方法:根據(jù)歷史短信發(fā)送記錄構(gòu)建短信觸達(dá)后用戶的轉(zhuǎn)化率預(yù)估模型(考慮到樣本規(guī)模以及連續(xù)特征占比較高,我們采用 XGBoost ),對(duì)目標(biāo)用戶群進(jìn)行打分,選出前 K 個(gè)下單概率最高的用戶(標(biāo)簽定義:發(fā)送短信后,用戶下單則為正樣本,未下單則為負(fù)樣本)。

實(shí)驗(yàn)方案:如圖 2 所示,先將 N 個(gè)用戶隨機(jī)等分為兩組 A 和 B。

a. 對(duì)照組: 在 A 組中隨機(jī)選擇 K/2 個(gè)用戶進(jìn)行短信投放;

b.  實(shí)驗(yàn)組:在 B 組通過轉(zhuǎn)化率預(yù)估模型預(yù)測(cè)打分,按分值由高到低篩出前 K/2 個(gè)用戶。

評(píng)價(jià)指標(biāo):離線:AUC,TopK 的召回率;在線:用戶轉(zhuǎn)化率、短信發(fā)送 ROI。

圖2 v1 實(shí)驗(yàn)方案流程圖圖2 v1 實(shí)驗(yàn)方案流程圖

該方案實(shí)驗(yàn)后,實(shí)驗(yàn)組相比對(duì)照組在上述評(píng)價(jià)指標(biāo)上均取得大幅提升,但仔細(xì)分析后發(fā)現(xiàn)存在兩個(gè)比較明顯的問題:

a. 評(píng)價(jià)指標(biāo)不合理:轉(zhuǎn)化率預(yù)估模型選擇的用戶相比隨機(jī)選擇的用戶,在下單概率方面具有天然的偏置;

b. 實(shí)驗(yàn)方案不合理:未能排除用戶自然召回因素的影響(部分人群不管是否有營銷活動(dòng)都會(huì)下單),無法量化評(píng)估短信營銷的增量效益。

V2

針對(duì)上述兩個(gè)問題,我們改進(jìn)了實(shí)驗(yàn)方案和評(píng)價(jià)指標(biāo):

目標(biāo):驗(yàn)證通過方案 v1 找到的 K 個(gè)用戶在短信投放后下單和收益增量是否更高。

方法:構(gòu)建轉(zhuǎn)化率預(yù)估模型,同 v1。

實(shí)驗(yàn)方案:如圖 3 所示,先將 N 個(gè)用戶隨機(jī)等分為兩組 A 和 B。

a. 對(duì)照組:將 A 組隨機(jī)等分為 A1 和 A2,分別從 A1、A2 中隨機(jī)篩出 K/2 個(gè)用戶,前者投放短信,后者不投放短信;

b. 實(shí)驗(yàn)組:將B組隨機(jī)等分為 B1 和 B2,分別從 B1、B2 中通過轉(zhuǎn)化率預(yù)估模型篩出分?jǐn)?shù)最高的前 K/2 個(gè)用戶,前者投放短信,后者不投放短信。

評(píng)價(jià)指標(biāo):離線:Qini Score,AUUC;在線:短信投放人群相比未投放短信人群的增量轉(zhuǎn)化率、短信發(fā)送增量 ROI。

圖3 v3 實(shí)驗(yàn)方案流程圖

該方法的實(shí)驗(yàn)方案和評(píng)價(jià)指標(biāo)雖然更加科學(xué)合理,但由于轉(zhuǎn)化率預(yù)估模型的優(yōu)化目標(biāo)和評(píng)價(jià)指標(biāo)的優(yōu)化方向不一致,該模型無法預(yù)估短信投放的增量效益(未考慮自然轉(zhuǎn)化因素的影響),為此,我們需要針對(duì)優(yōu)化目標(biāo)進(jìn)一步構(gòu)建更加符合業(yè)務(wù)場(chǎng)景需要的模型。

3.2 基于 Uplift Model 的短信敏感度預(yù)估模型

為了解決 Response Model 在上述業(yè)務(wù)場(chǎng)景下存在的問題,提升短信投放帶來的增量效益,我們進(jìn)一步構(gòu)建了基于 Uplift Model 的短信敏感度預(yù)估模型。

Uplift Model 是工業(yè)界因果推斷與機(jī)器學(xué)習(xí)結(jié)合最成熟的算法之一,在智能營銷和用戶增長領(lǐng)域中有著廣泛的應(yīng)用,我們先介紹一下用來解釋 Uplift Model 的較為經(jīng)典的營銷人群劃分圖:

圖4 營銷人群四象限劃分圖圖4 營銷人群四象限劃分圖

圖中四類人群解釋如下:

a. 營銷敏感人群:營銷活動(dòng)觸達(dá)(短信、優(yōu)惠券等)則購買,不觸達(dá)則不買;

b. 自然轉(zhuǎn)化人群:不論營銷活動(dòng)是否觸達(dá)均會(huì)購買;

c. 無動(dòng)于衷人群:不論營銷活動(dòng)是否觸達(dá)均不會(huì)購買;

d. 反感營銷人群:營銷活動(dòng)不觸達(dá)會(huì)購買,觸達(dá)反而不買。

很顯然,智能營銷的目標(biāo)就是盡可能找到圖 4 中的營銷敏感群體,從而最大化營銷活動(dòng)的增量效益,Uplift Model 就是為此應(yīng)運(yùn)而生。

Uplift Model 是用于估計(jì)某種干預(yù)因素(Treatment,以下簡稱T)對(duì)個(gè)體處理效應(yīng)(Individual Treatment Effect,簡稱 ITE)的一類模型。在上述的業(yè)務(wù)場(chǎng)景中,假設(shè) T=0 代表不發(fā)短信(對(duì)應(yīng)人群簡稱 T 組),T=1 代表發(fā)送短信(對(duì)應(yīng)人群簡稱 C 組),X 代表用戶特征,Y 代表輸出預(yù)測(cè)值,P 代表轉(zhuǎn)化概率,ITE 即為轉(zhuǎn)化概率的增量變化,其可形式化表述如下:`

ITE=P(Y|X=x,T=1)-P(Y|X=x,T=0)         (1)

常用的 Uplift Model 有 Meta-learner(S-learner,T-learner,X-learner等[1])和 Tree-based learner(Uplift Tree[2],Causal Forest[3]等)以及 Dnn-based learner(TARNet[4]、CEVAE[5]等),其中 Causal Forest 主要基于 Uplift Tree 通過隨機(jī)森林(Random Forests)進(jìn)行集成學(xué)習(xí),業(yè)界目前較為流行的做法是使用廣義隨機(jī)森林(Generalized Random Forests,GRF[6])。

上述三類 Uplift Model 的特性總結(jié)如下:

模型名稱

優(yōu)點(diǎn)

缺點(diǎn)

Meta-learner

可擴(kuò)展性強(qiáng),表現(xiàn)較為穩(wěn)定,基礎(chǔ)模型可以直接套用現(xiàn)有分類模型(LR/GBDT/DNN等)

非直接建模ITE,基礎(chǔ)模型仍是Response Model,模型擬合能力有待提高

Tree-based learner


直接建模ITE,模型擬合能力較強(qiáng)

工程實(shí)現(xiàn)難度較大,對(duì)數(shù)據(jù)分布較為敏感,泛化能力不穩(wěn)定

Dnn-based learner

參數(shù)共享,模型結(jié)構(gòu)和損失函數(shù)定義較為靈活,模型擬合能力強(qiáng)

對(duì)訓(xùn)練數(shù)據(jù)量要求較大,否則比較難以發(fā)揮模型擬合能力的優(yōu)勢(shì)

表1 Uplift Model特性總結(jié)

通過 Uplift Model 我們可以估計(jì)短信營銷對(duì)用戶的增量效益,根據(jù)增量效益的量化排序,我們即可以篩選出圖 4 所示的營銷敏感人群,實(shí)驗(yàn)方案依然遵循圖 3 所示流程,需要注意的是 Uplift Model 的建模對(duì)訓(xùn)練樣本的要求較高,需要服從 CIA ( Conditional Independence Assumption ) 條件獨(dú)立假設(shè),我們可以通過讓 X 與 T 保持相互獨(dú)立滿足此條件。為此,我們?cè)谶M(jìn)行實(shí)驗(yàn)的同時(shí),會(huì)預(yù)留一小部分流量做隨機(jī)化 A/B 實(shí)驗(yàn),實(shí)驗(yàn)組會(huì)隨機(jī)選擇部分用戶發(fā)送短信,對(duì)照組隨機(jī)選擇部分用戶不發(fā)送短信,這個(gè)實(shí)驗(yàn),可以為 Uplift Model 建模提供無偏的樣本。

四、實(shí)驗(yàn)結(jié)果

按照?qǐng)D 3 所示實(shí)驗(yàn)方案,我們分階段做了兩次實(shí)驗(yàn),第一次是驗(yàn)證基于 Response Model 的轉(zhuǎn)化率預(yù)估模型是否帶來了短信營銷的增量效益,其線上效果如表 2 所示,可以看出,在我們的業(yè)務(wù)場(chǎng)景中,相比隨機(jī)篩選的人群,短信營銷對(duì)轉(zhuǎn)化率高的人群其實(shí)具有較強(qiáng)的正向作用,所以這算是一次較為成功的嘗試。

表2 線上實(shí)驗(yàn)結(jié)果:Response Model vs Random

基于 Response Model 的轉(zhuǎn)化率預(yù)估模型經(jīng)過線上實(shí)驗(yàn)驗(yàn)證,雖然業(yè)務(wù)指標(biāo)提升較為明顯,但基于本文中對(duì)短信營銷增量效益的分析,我們決定繼續(xù)進(jìn)行第二階段的實(shí)驗(yàn)評(píng)估,離線建模結(jié)果如表 3 所示:

圖片圖片

表3 離線評(píng)估結(jié)果:Uplift Model vs Response Model

表 3 中主要評(píng)估基于 Meta-learner 構(gòu)建的 Uplift Model 相比 Response Model 的離線指標(biāo)提升,對(duì)本次實(shí)驗(yàn)我們將基于 Response Model 的轉(zhuǎn)化率預(yù)估模型作為對(duì)照版,將基于 Uplift Model 的短信敏感度預(yù)估模型作為實(shí)驗(yàn)版,其中 Uplift Model 為離線評(píng)估效果相對(duì)較好的 T-learner,線上效果如表 4 所示:

圖片圖片

表4 線上實(shí)驗(yàn)結(jié)果:Uplift Model vs Response Model

從表 4 可以看出,Uplift Model 的線上表現(xiàn)效果和離線一致,相比 Response Model 取得了明顯的業(yè)務(wù)指標(biāo)提升,這也驗(yàn)證了 Uplift Model 確實(shí)適用于提升短信營銷的增量效益,有助于挖掘更多的短信營銷敏感人群。

五、探索分析

在進(jìn)行上述兩階段的實(shí)驗(yàn)之后,我們繼續(xù)探索更多 Uplift Model 在我們業(yè)務(wù)場(chǎng)景的適用性,同時(shí)也是為了評(píng)估當(dāng)前業(yè)務(wù)繼續(xù)進(jìn)行實(shí)驗(yàn)迭代的必要性。

除了 Meta-Learner,我們也選擇了以 GRF 作為代表的 Tree-based learner 和以 TARNet 作為代表 Dnn-based learner 進(jìn)行評(píng)估對(duì)比,同時(shí),考慮到 S-learner 中 T 作為特征加入到模型訓(xùn)練過程中有可能被眾多用戶特征稀釋,我們對(duì)用戶特征采用 PCA 進(jìn)行降維后再將 T 作為特征用 S-learner 進(jìn)行訓(xùn)練和評(píng)估(即表 5 中 PCA+S-learner),表中測(cè)試集 v1 我們繼續(xù)使用和表 3 一致的測(cè)試集。

各模型的離線評(píng)估效果如下:

圖片圖片

表5 Uplift Model 離線指標(biāo)評(píng)估結(jié)果(測(cè)試集 v1)

圖片

圖5 Uplift Model 離線評(píng)估結(jié)果-Qini Curve(測(cè)試集 v1)

為了更加清晰地看出 Uplift Model 的增量效益,我們也繪制了 Qini Curve,如圖 5 所示(圖中橫坐標(biāo)代表按 ITE 估計(jì)值排序后的樣本占比,縱坐標(biāo)代表對(duì)應(yīng)人群實(shí)際的轉(zhuǎn)化增量,曲線下的面積越大,代表模型效果越好):

從表 5 和圖 5 可以看出,TARNet、GRF、PCA+S-learner 的表現(xiàn)均較為突出,但考慮到這些模型容易受整體數(shù)據(jù)分布的影響,為了評(píng)估各個(gè)模型的泛化能力,我們額外選擇了線上受到疫情影響日期較為靠后的測(cè)試數(shù)據(jù)集 v2,其離線評(píng)估效果如圖表 6 和圖 6 所示:

圖片

表6 Uplift Model 離線指標(biāo)評(píng)估結(jié)果(測(cè)試集 v2)

圖片

圖6 Uplift Model 離線評(píng)估結(jié)果-Qini Curve(測(cè)試集 v2)

從表 6 和圖 6 可以看出,PCA+S-learner,GRF,TARNet 等模型均容易受到數(shù)據(jù)分布變化的影響,這些模型還需要進(jìn)一步優(yōu)化模型結(jié)構(gòu)提升泛化能力以增強(qiáng)適應(yīng)數(shù)據(jù)分布變化的魯棒性,這也是我們后續(xù)探索的方向之一;其中 T-learner 表現(xiàn)比較穩(wěn)定,適應(yīng)數(shù)據(jù)分布變化的能力也較強(qiáng),更加適用于我們當(dāng)前的業(yè)務(wù)場(chǎng)景。

六、總結(jié)與展望

攜程火車票短信召回業(yè)務(wù)是一個(gè)比較典型的智能營銷場(chǎng)景,短信召回算法的優(yōu)化過程和結(jié)論總結(jié)如下:

a. 針對(duì)智能營銷類場(chǎng)景,直接估計(jì)干預(yù)因子增量效應(yīng)的 Uplift Model 相比傳統(tǒng)的 Response Model 具有更強(qiáng)的適用性;

b. 智能營銷類場(chǎng)景需要設(shè)計(jì)科學(xué)合理的實(shí)驗(yàn)方案來驗(yàn)證干預(yù)因素的增量效應(yīng),最好預(yù)留部分流量進(jìn)行隨機(jī)化實(shí)驗(yàn)從而為 Uplift Model 的訓(xùn)練和評(píng)估提供無偏的樣本;

c. Uplift Model 的實(shí)現(xiàn)方式有很多種(Meta-learner、 Tree-based learner、 Dnn-based learner等),其中 T-learner 在我們的業(yè)務(wù)場(chǎng)景中效果相對(duì)穩(wěn)定,較為適用,但不一定適用于其他場(chǎng)景,需要根據(jù)實(shí)際情況進(jìn)行分析和評(píng)測(cè);

d. 我們對(duì) Uplift Model 探索還有待進(jìn)一步深化,比如應(yīng)對(duì)連續(xù)以及多元干預(yù)因子的處理、優(yōu)化模型結(jié)構(gòu)提升泛化能力和解決多目標(biāo)跨域聯(lián)合建模等。

責(zé)任編輯:張燕妮 來源: 攜程技術(shù)
相關(guān)推薦

2022-09-09 15:49:03

攜程火車票組件化管理優(yōu)化

2023-05-12 09:58:05

編譯優(yōu)化

2023-09-15 09:34:54

2023-10-20 09:17:08

攜程實(shí)踐

2023-06-28 14:01:13

攜程實(shí)踐

2023-06-09 09:54:36

攜程工具

2023-06-28 10:10:31

攜程技術(shù)

2024-01-30 08:55:24

2011-01-24 15:37:32

火車票

2018-01-10 22:19:44

2012-01-05 13:14:42

火車票

2016-08-31 13:26:24

PythonPython3工具

2022-07-15 09:20:17

性能優(yōu)化方案

2022-07-08 09:38:27

攜程酒店Flutter技術(shù)跨平臺(tái)整合

2011-01-28 15:48:11

Chrome插件Page Monito火車票

2023-08-04 09:35:18

2018-01-02 09:56:04

Python12306火車票

2018-12-29 16:24:58

Python12306火車票

2013-01-07 17:34:47

火車票搶票瀏覽器

2015-03-18 15:05:12

12306驗(yàn)證碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)