自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于事件感知的聚類增益網(wǎng)絡(luò)在飛豬保險(xiǎn)創(chuàng)意排序的應(yīng)用

人工智能 算法
本文將分享飛豬在基于事件感知的聚類增益網(wǎng)絡(luò)方面的一些工作。

一、背景介紹

提到創(chuàng)意,大家首先會(huì)想到廣告創(chuàng)意,其實(shí)保險(xiǎn)的創(chuàng)意推薦也是廣告創(chuàng)意的垂直應(yīng)用產(chǎn)品。

圖片

計(jì)算廣告解決的問題是,在特定的語義下,為特定的用戶選擇相應(yīng)的廣告去匹配最佳的創(chuàng)意圖文。在輔營保險(xiǎn)推薦模塊下,語境指的就是用戶正在購買機(jī)票或者火車票的一些上下文信息;在搜索場景下,語境是指搜索引擎里面的一些查詢?cè)~;用戶相關(guān)的信息指用戶的基礎(chǔ)信息,比如年齡性別等;廣告就是保險(xiǎn)商品,酒店美妝等量級(jí)為 N 的商品;創(chuàng)意圖文數(shù)量為 N*M 的量級(jí)。計(jì)算廣告面臨的挑戰(zhàn)在于:在復(fù)雜的約束條件下,大規(guī)模優(yōu)化和搜索問題。

本文主要講的是創(chuàng)意圖文的推薦,廣告的選擇和排序不做考慮,接下來介紹一下飛豬保險(xiǎn)是如何運(yùn)用創(chuàng)意推薦的。

圖片

首先,在 OTP 行業(yè)中,旅游保險(xiǎn)作為輔營業(yè)務(wù)目前已經(jīng)是比較重要的商業(yè)化收入來源。在保險(xiǎn)推薦當(dāng)中,除了產(chǎn)品推薦和價(jià)格推薦之外,創(chuàng)意推薦已經(jīng)作為非常重要的個(gè)性化推薦模塊使用。比如在填寫個(gè)人信息的時(shí)候,可以看到一些組件,下拉收銀臺(tái)的時(shí)候也會(huì)看到彈窗。

二、保險(xiǎn)創(chuàng)意推薦的挑戰(zhàn)

圖片

保險(xiǎn)的創(chuàng)意推薦面臨的挑戰(zhàn),可以總結(jié)為三大類:

一類是數(shù)據(jù)稀疏,包括用戶的數(shù)據(jù)稀疏和創(chuàng)意的數(shù)據(jù)稀疏。創(chuàng)意的數(shù)據(jù)稀疏指的是由于運(yùn)營或者是 UI 同學(xué)會(huì)迭代創(chuàng)意,或者是由于季節(jié)性的原因去上下架一些創(chuàng)意,所以在線上的曝光創(chuàng)意并不是均勻分布的。另外,由于旅行、保險(xiǎn)和創(chuàng)意是低頻的交易行為,我們很少能拿到三塊相關(guān)的購買數(shù)據(jù),比如用戶的個(gè)人歷史購買數(shù)據(jù)。同時(shí)由于保險(xiǎn)是輔營商品,不像搜索可以明確知道用戶的購買意圖。在創(chuàng)意理解和用戶理解之間也缺少統(tǒng)一結(jié)構(gòu)化的體系。

第二類是樣本數(shù)據(jù)反事實(shí)。每個(gè)用戶只能看到唯一的創(chuàng)意文案,也就是只能看到創(chuàng)意 A 或者 B。不能在同時(shí)間段、同時(shí)間點(diǎn),對(duì)同個(gè)用戶曝光多個(gè)創(chuàng)意。

第三類是跨行業(yè)的創(chuàng)意冷啟動(dòng)。飛豬保險(xiǎn)橫跨了多個(gè)行業(yè),在啟動(dòng)新行業(yè)的介入的時(shí)候,如何復(fù)用已有領(lǐng)域的知識(shí),比如將行業(yè) A 效果好的一些創(chuàng)意遷移到行業(yè) B,也是我們后面要去解決的問題。

圖片

再簡單介紹一下業(yè)界現(xiàn)狀。

?廣告創(chuàng)意分為兩個(gè)大類的算法:一類是上下文無關(guān)的一些算法,比如 Epsilon 貪心,或湯普森采樣,以及阿里媽媽同學(xué)做的一些比較優(yōu)雅的 E&E 算法,如貝葉斯線性回歸相關(guān)的;另一類是上下文相關(guān)的算法,把用戶和上下文信息作為推薦加入進(jìn)去。

解決數(shù)據(jù)稀疏問題,主要使用 Cross-domain learning 解決兩個(gè)問題,兩個(gè)相關(guān)的任務(wù),使用豐富數(shù)據(jù)域內(nèi)的數(shù)據(jù)去解決稀缺數(shù)據(jù)域內(nèi)的問題,以及聯(lián)合多個(gè)域內(nèi)的數(shù)據(jù)去解決各個(gè)域內(nèi)的問題。?

圖片

為了解決三個(gè)挑戰(zhàn),我們團(tuán)隊(duì)提出了一些解決思路:

首先從數(shù)據(jù)洞察當(dāng)中可以看到,我們對(duì)個(gè)體用戶的創(chuàng)意歷史偏好數(shù)據(jù)比較稀疏,但對(duì)于群體用戶其實(shí)是可以進(jìn)行一些刻畫的。比如從數(shù)據(jù)當(dāng)中可以看到,老年人更喜歡跟家庭有關(guān)的描述;當(dāng)出發(fā)日面臨惡劣天氣的時(shí)候,機(jī)票行業(yè)對(duì)類似天氣預(yù)報(bào)的素材比較敏感。那我們就可以把思路從個(gè)體用戶的數(shù)據(jù)轉(zhuǎn)化到如何把群體、相關(guān)事件以及創(chuàng)意這三塊進(jìn)行統(tǒng)一的理解,以及在關(guān)聯(lián)打標(biāo)后做群體推薦。在體系化理解之后,將三者建立因果關(guān)系圖可以解決一部分個(gè)體用戶數(shù)據(jù)稀疏問題。

?針對(duì)創(chuàng)意數(shù)據(jù)稀疏問題,我們的解決方案是當(dāng)新素材上線時(shí)在線上做隨機(jī)曝光。

另外一個(gè)問題是跨行業(yè)創(chuàng)意冷啟動(dòng)。比如我們發(fā)現(xiàn)對(duì)于天氣事件的因素,不管是在各個(gè)行業(yè)里,其實(shí)大家的偏好都比較相似的,尤其是在汽車票或者火車票業(yè)務(wù)下,大家的購買習(xí)慣很相似,所以一些創(chuàng)意的推薦知識(shí)是可以通過剛剛提到的標(biāo)簽化和體系化的理解和標(biāo)簽關(guān)聯(lián)進(jìn)行遷移的。通過將不同的行業(yè)在同一知識(shí)體系下進(jìn)行標(biāo)簽對(duì)齊,通過圖卷積模型的泛化能力對(duì)知識(shí)進(jìn)行一些泛化遷移。?

圖片

剛剛提到的體系化理解和標(biāo)準(zhǔn)化打標(biāo)主要分為三塊:

一塊是在用戶側(cè),我們會(huì)去做一些場景和事件的理解;另外一塊是在用戶的基礎(chǔ)屬性上去做一些理解;最后是在創(chuàng)意這里,對(duì)一些圖文的素材進(jìn)行理解。最后將三者都統(tǒng)一標(biāo)準(zhǔn)化到標(biāo)簽體系之下,有助于幫助后面去建立圖的關(guān)聯(lián)關(guān)系。

圖片

上圖為比較顯性的圖。其中三角符號(hào)是用戶側(cè)的一些屬性,比如女性或者老人;圓形符號(hào)是對(duì)事件或者上下文的理解進(jìn)行分類,比如打雷或者是晚間出行;方塊符號(hào)是素材的分類。

圖片

剛剛提到的第三個(gè)挑戰(zhàn)是樣本當(dāng)中存在反事實(shí)的現(xiàn)象,解決該問題我們想到的是用 uplift 思想,因果推斷是用群體在不同的營銷素材下的平均轉(zhuǎn)化率去預(yù)估個(gè)體的偏好。

三、解決方案

圖片

結(jié)合剛提到的三類思路的解決方案,我們提出了網(wǎng)絡(luò)結(jié)構(gòu)的模型設(shè)計(jì)。首先定義問題:輸入是用戶的信息、上下文的信息以及創(chuàng)意文案的結(jié)構(gòu)化信息,去做廣告創(chuàng)意的排序打分,再去選擇打分最高的創(chuàng)意對(duì)用戶進(jìn)行輸出。

圖片

上圖是保險(xiǎn)創(chuàng)意圖文推薦流程框架。

首先,前文已提到,在創(chuàng)意模塊,我們對(duì)險(xiǎn)種的排序或者價(jià)格的排序是不進(jìn)行干預(yù)的,創(chuàng)意圖文的排序是作為鏈路的最后排序邏輯。當(dāng)用戶請(qǐng)求進(jìn)來時(shí),會(huì)做四個(gè)理解。事件層面的理解,比如現(xiàn)在是否在下雨;場景理解,比如現(xiàn)在用戶是多個(gè)人帶著小孩,還是帶著老人;還有用戶基礎(chǔ)屬性的理解。在素材庫也是進(jìn)行剛剛提到的這種標(biāo)簽化的打標(biāo)之后,進(jìn)行素材的標(biāo)簽召回以及后續(xù)的素材創(chuàng)意的排序,在排序側(cè)會(huì)分出一部分流量去做線上的均勻曝光。

?另外一塊去做創(chuàng)意優(yōu)選的工作。創(chuàng)意優(yōu)選工作分兩路:

一路是以圖片素材進(jìn)行召回和粗排,另外一路是以文案的素材進(jìn)行粗排,最后進(jìn)行笛卡爾組合出來我們想要的類似創(chuàng)意文案的展示,最后再通過 ECUNet 去進(jìn)行優(yōu)先。?

1、整體結(jié)構(gòu) ECUNet

圖片

根據(jù)剛剛提到的三種解決思路,設(shè)計(jì)了 ECUNet 的解決方案。主要分為三個(gè)部分:

第一部分是基于事件感知圖向量提取,主要是在離線側(cè)進(jìn)行預(yù)訓(xùn)練的過程,去給每個(gè)用戶側(cè)的信息、上下文信息或者是創(chuàng)意的信息進(jìn)行圖向量的提??;第二部分是自適應(yīng)的聚類增益網(wǎng)絡(luò),這部分解決的問題是結(jié)合 uplift 思想去利用群體智慧解決個(gè)體問題;第三部分是將用戶和場景、用戶事件以及創(chuàng)意三部分的特征,通過圖向量提取得到的綜合向量去做兩兩之間的 Co-Attention,目的是為了提取他們相互之間的特性,最后去做打分。

2、EAGT:構(gòu)建異構(gòu)圖

圖片

異構(gòu)圖的構(gòu)建主要分兩部分:一部分是節(jié)點(diǎn)構(gòu)建,一部分是邊構(gòu)建。

?節(jié)點(diǎn)構(gòu)建主要是當(dāng)用戶樣本進(jìn)來之后,可以映射到三類節(jié)點(diǎn):用戶節(jié)點(diǎn)、事件節(jié)點(diǎn)和創(chuàng)意節(jié)點(diǎn)。當(dāng)映射到三類節(jié)點(diǎn)之后,可以在節(jié)點(diǎn)和節(jié)點(diǎn)之間去進(jìn)行邊的構(gòu)建。

邊代表的是 a 節(jié)點(diǎn)因?yàn)?b 的原因?qū)е卤kU(xiǎn)轉(zhuǎn)化的重要性。比如說學(xué)生節(jié)點(diǎn) a 在天氣惡劣節(jié)點(diǎn) b 的權(quán)重會(huì)高于學(xué)生節(jié)點(diǎn) a 在正常天氣節(jié)點(diǎn)權(quán)重。?

圖片

根據(jù)上述方法,構(gòu)建了異構(gòu)圖。基于該圖,通過比較常規(guī)的 Node embedding 去提取每個(gè)節(jié)點(diǎn)的三個(gè)場景的節(jié)點(diǎn)表征。

圖片

主要是通過圖的自監(jiān)督學(xué)習(xí)的邊預(yù)測的任務(wù),loss 使用 margin-based 的 loss function,最后學(xué)習(xí)得到的是特定場景的,比如機(jī)/火/汽三個(gè)場景的節(jié)點(diǎn)表征。

但為了遷移不同行業(yè)的知識(shí)去融合運(yùn)用到另外的一些場景行業(yè)中,我們做了 share-domain embedding 節(jié)點(diǎn)表征學(xué)習(xí)。比如火車票和汽車票比較相似,如果現(xiàn)在某條用戶樣本是來自于汽車票,那么火車票的場景的 embedding 也可以被加權(quán)共享給用戶去使用。基于這樣的假設(shè),做了 share-domain 的表征學(xué)習(xí)。主要是將三類場景的節(jié)點(diǎn)表征,通過注意力機(jī)制的加權(quán)去得到 specific embedding。

圖片

通過這樣的 EAGT Network 我們可以提取到三大類的節(jié)點(diǎn)表征。每個(gè)樣本都可以得到三個(gè)大類的節(jié)點(diǎn)表征后,再類內(nèi)取平均值,可以得到用戶、事件、創(chuàng)意的三個(gè)節(jié)點(diǎn)表征,最后將用戶事件聯(lián)合表征和每個(gè)創(chuàng)意文案聯(lián)合表征輸入到第二部分——自適應(yīng)的聚類增益網(wǎng)絡(luò)。

圖片

利用群體智慧去預(yù)估個(gè)體的偏好,流程是以 batch 內(nèi)的操作去進(jìn)行的。在每個(gè) batch 內(nèi),通過可學(xué)習(xí)的分類器將每個(gè) batch 內(nèi)用戶分到 k 個(gè)大類里,希望相似的用戶可以被分到同一類。在隨機(jī)樣本采樣機(jī)制的保障之下,可以在內(nèi)類的用戶進(jìn)行類似創(chuàng)意文案的投票得到內(nèi)類用戶到底對(duì)哪些創(chuàng)意文案比較感興趣。最后用內(nèi)類群體的喜好去代表個(gè)體用戶的偏好,之后再對(duì)每個(gè)樣本進(jìn)行 re-lable。比如 G1 對(duì)第三個(gè)創(chuàng)意比較敏感,G2 對(duì)第二個(gè)比較敏感,內(nèi)類的用戶都去重新 re-lable 一次。得到 re-lable 的樣本之后,再進(jìn)行 MLP 的預(yù)測得到預(yù)測值。

圖片

多視角的注意力網(wǎng)絡(luò),主要的目的是通過三次 Co-attention 機(jī)制可以把用戶和事件、事件和創(chuàng)意以及用戶和創(chuàng)意兩兩向量之間的內(nèi)在相關(guān)興趣提取出來,作為重要的特征去進(jìn)行預(yù)測。

圖片

?我們?cè)?Training 的 Loss Function 也進(jìn)行了一些設(shè)計(jì)。一共設(shè)計(jì)了四個(gè) Loss Function。

第一個(gè) Loss Function 是 intra loss。主要是在聚類塊,為了使得群體分類器能夠輸出一個(gè)非均勻分布的值。從這個(gè)公式可以看到我們希望讓相似的用戶能在某一個(gè)類上去得到一個(gè)峰值表達(dá),而在其他的類上是比較低的表達(dá)。

第二個(gè)是用交叉熵做聚類增益網(wǎng)絡(luò)的 Loss。

第三個(gè)是全局 Loss,也是交叉熵。

最后將三個(gè) Loss 融合到一起去做一個(gè)融合 Loss。?

四、實(shí)驗(yàn)和分析

圖片

我們的 Dataset 一部分是工業(yè)界的,收集來自于飛豬的 Dataset。另外一部分是天池廣告創(chuàng)意公開的數(shù)據(jù)集。

圖片

我們也去跟業(yè)內(nèi)的廣告創(chuàng)意的排序算法,以及一些用戶興趣和跨場景學(xué)習(xí)的 Baseline 進(jìn)行了比較,Metrics 主要是 AUC。

圖片

從實(shí)驗(yàn)數(shù)據(jù)中可以看到,我們這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)之后,在 AUC 上有一定的提升。其中多視角的網(wǎng)絡(luò)提升比較明顯,其次是增益網(wǎng)絡(luò),然后是異構(gòu)圖網(wǎng)絡(luò)的結(jié)構(gòu)。

我們也在線上去撈了一些 Case,可以學(xué)習(xí)到用戶的一些場景側(cè)的東西。比如天氣信息或長短圖等場景。

圖片

我們也在線上做了一些實(shí)驗(yàn),相比較于 Base2 隨機(jī)模型,提升了 10%,相比較于剛剛提到的廣告創(chuàng)意 HPM 模型,提升了 5%。

五、總結(jié)與展望

圖片

在這個(gè)工作當(dāng)中,主要有兩方面創(chuàng)新:

事件感知的圖提取器:當(dāng)前業(yè)內(nèi)對(duì)于事件感知較少去考慮,尤其是在創(chuàng)意推薦這個(gè)模塊,我們的工作是比較創(chuàng)新的。通過將一些跨場景的信息,比如用戶對(duì)某些險(xiǎn)種、某些圖文的偏好,或者是對(duì)于事件在跨場景之間的遷移。同時(shí)將這個(gè)事件作為一個(gè)影響節(jié)點(diǎn),以圖的形式將用戶和創(chuàng)意進(jìn)行關(guān)系建模。

自適應(yīng)聚類增益網(wǎng)絡(luò):相比較于傳統(tǒng)的排序問題,創(chuàng)意推薦是一個(gè) Top1 的問題,面臨著一些因果推斷中遇到的反事實(shí)的現(xiàn)象。我們通過群體增益學(xué)習(xí),也能比較好的緩解。

六、問答環(huán)節(jié)

Q1:如何做到事件理解和場景理解?

A1:事件理解這塊主要是跟運(yùn)營進(jìn)行了合作。我們會(huì)在數(shù)據(jù)當(dāng)中去挖掘一些,事件它其實(shí)有時(shí)候是一些不可預(yù)知的。可預(yù)知的話可以被沉淀成一個(gè)標(biāo)簽體系,那不可預(yù)知的話就需要我們?nèi)プ鲆恍┊惓z測去挖掘。

場景理解,比如在搜索場景是可以通過 Query 里面的一些意圖去分析到用戶這次想要去買什么,但是在保險(xiǎn)推薦中很難在上下文信息當(dāng)中獲取到用戶到底想要買什么保險(xiǎn)。因此場景理解更多的是通過推理,首先是一個(gè)數(shù)據(jù)分析洞察,然后再通過一些特征,上面我們可以看到哪些場景之下對(duì)用戶購買保險(xiǎn)或者用戶購買創(chuàng)意有一個(gè)轉(zhuǎn)化效果,之后再融合到標(biāo)簽體系當(dāng)中,主要是在標(biāo)簽打標(biāo)這邊去做一些事情。

Q2:創(chuàng)意文案是先做了什么形式的 Embedding?

A2:主要是以推薦的這種形式去做的,多模態(tài)在這個(gè)工作當(dāng)中沒有體現(xiàn),我們?cè)趧e的工作當(dāng)中有一些工作。Embedding 剛剛也提到了主要是比如說一些 ID 類表征,或者是一些統(tǒng)計(jì)的表征,然后這些表征都會(huì)在這個(gè)圖網(wǎng)絡(luò)里面,最后去進(jìn)行一個(gè)圖節(jié)點(diǎn)的 Embedding。圖節(jié)點(diǎn) Embedding 的一個(gè)好處是可以將比如說某一類用戶對(duì)一些創(chuàng)意文案他是有敏感的,那用戶和創(chuàng)意文案之間,可能有一個(gè)相似的事情。

Q3:異構(gòu)圖網(wǎng)絡(luò)中有對(duì)邊的特殊處理嗎?是否區(qū)分了不同類型的邊?學(xué)習(xí)過程中是否涉及對(duì)邊的表征學(xué)習(xí)和處理?

A3:關(guān)于邊,我們主要是去做了一個(gè)類似于條件轉(zhuǎn)化概率的處理。比如一個(gè)學(xué)生節(jié)點(diǎn)在天氣惡劣情況之下的轉(zhuǎn)化率可能會(huì)高一點(diǎn)。有些情況下會(huì)去做邊的裁剪操作。邊的表征學(xué)習(xí)沒有涉及到,這塊主要是在節(jié)點(diǎn)的學(xué)習(xí)處理。

Q4:事件文案的時(shí)效性如何?

A4:事件文案還是偏人工。因?yàn)榻衲暝诒kU(xiǎn)行業(yè)發(fā)生了比較多的事件,我們也會(huì)去看一下在每個(gè)事件之下,有多久的影響周期。大概的周期會(huì)是在一個(gè)星期到兩個(gè)星期左右,所以這塊的時(shí)間周期也會(huì)控制在這個(gè)范圍之內(nèi)。

關(guān)于文案的時(shí)效性,我們?nèi)⑽陌溉プ鲆粋€(gè)強(qiáng)規(guī)則綁定。比如前段時(shí)間剛剛過去的中秋,如果我們有中秋文案的話,那這個(gè)文案只會(huì)在中秋的這段時(shí)間才會(huì)生效。比如你的出發(fā)時(shí)間在中秋的這個(gè)時(shí)間段,或者是你購買的時(shí)間是中秋這個(gè)時(shí)間段,才會(huì)被召回出來,其他時(shí)間肯定不會(huì)召回出來。

今天的分享就到這里,謝謝大家。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2021-05-27 11:03:10

飛豬Serverless

2025-03-31 08:28:24

大型語言模型LLMDeepSeek

2022-06-30 20:47:58

區(qū)塊鏈

2012-05-18 09:30:27

InteropBYOD

2012-09-28 09:46:56

搗蛋豬

2018-12-19 13:49:25

大數(shù)據(jù)保險(xiǎn)業(yè)信息化

2022-03-03 19:52:25

聚類算法D2CDBSCAN

2023-04-03 07:38:36

智能搜索數(shù)據(jù)分析

2015-09-17 14:54:07

SDNNFV網(wǎng)絡(luò)架構(gòu)

2015-09-17 15:45:06

SDNNFV網(wǎng)絡(luò)架構(gòu)

2021-08-16 09:00:00

架構(gòu)開發(fā)保險(xiǎn)

2021-03-17 13:46:20

區(qū)塊鏈保險(xiǎn)技術(shù)

2023-04-02 14:16:45

凸集算法集合

2023-05-10 08:00:00

聚類分析數(shù)據(jù)分析聚類算法

2021-12-26 07:48:55

網(wǎng)絡(luò)保險(xiǎn)網(wǎng)絡(luò)攻擊網(wǎng)絡(luò)風(fēng)險(xiǎn)

2014-04-22 13:05:38

虛擬化云計(jì)算應(yīng)用感知

2010-10-18 14:28:44

感知應(yīng)用路由

2023-12-04 16:22:38

2022-04-04 08:02:53

網(wǎng)絡(luò)保險(xiǎn)網(wǎng)絡(luò)攻擊

2024-04-23 14:47:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)