自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OPPO 廣告召回算法實(shí)踐與探索

人工智能 算法
本文將分享 OPPO 在廣告召回算法上的一些具體的實(shí)踐和探索。主要從四個(gè)方面講解:主路召回模型選型、離線評(píng)估指標(biāo)建設(shè)、樣本優(yōu)化實(shí)踐、模型優(yōu)化探索。

一、背景介紹

1、舊召回架構(gòu)


圖片

上圖左上側(cè)部分是一般推薦系統(tǒng)流程,即先進(jìn)行召回,再進(jìn)行排序。左下側(cè)部分是 OPPO 舊的召回架構(gòu),即先進(jìn)行定向過(guò)濾,再經(jīng)過(guò)截?cái)嗖呗?,最后進(jìn)行個(gè)性化召回。這里有兩個(gè)問(wèn)題,第一個(gè)是由于性能問(wèn)題,不能做全量廣告的個(gè)性化召回;第二個(gè)是由于個(gè)性化召回在截?cái)嗖呗缘暮竺妫@會(huì)導(dǎo)致個(gè)性化召回的效果受到影響。因此我們想通過(guò)工程和算法的改造,做到全量廣告的個(gè)性化召回,提升平臺(tái)整體的指標(biāo)。另外,也希望能通過(guò)一個(gè)更好的多路召回機(jī)制,來(lái)提升整個(gè)廣告播放的體驗(yàn)和生態(tài)。

2、新召回架構(gòu)

圖片

上圖左上側(cè)部分是新的召回架構(gòu),最重要的變化是引入了 ANN,也就是近鄰檢索的能力。通過(guò)這個(gè)工程改造,支持了全量廣告的個(gè)性化召回。

同時(shí),我們重新設(shè)計(jì)了多路召回機(jī)制,即“單主路加多輔路”召回機(jī)制。單主路指的是主路用“面向最終目標(biāo)的一致性召回”,這是一種 LTR 的方式。多輔路包括 ECPM 支路、冷啟支路和一些其他支路。

ECPM 支路主要是為了彌補(bǔ)主路 LTR 不足。冷啟動(dòng)支路主要是對(duì)新廣告進(jìn)行冷啟的扶持。

OPPO 通過(guò)“公平”和“效率”兩方面進(jìn)行冷啟的扶持。“公平”方面,對(duì)于一些新廣告,會(huì)有獨(dú)立的流量供新廣告進(jìn)行隨機(jī)的探索,這是一個(gè)公平的策略。“效率”方面,則通過(guò)算法找出未來(lái)有潛力的新廣告,每一次請(qǐng)求都會(huì)有專門針對(duì)這些新廣告的召回配額。通過(guò)這兩種方式,提升新廣告冷啟的效果。

還有一些其他支路,主要是面向某一類特定的問(wèn)題,或者是作為運(yùn)營(yíng)同學(xué)的中短期運(yùn)營(yíng)手段而存在的。通過(guò)切換架構(gòu)及持續(xù)迭代,新召回架構(gòu)帶來(lái)了累積 15% 的 ARPU 提升,效果還是相當(dāng)可觀的。

接下來(lái)分享一下 OPPO 在主路召回模型上的一些業(yè)務(wù)實(shí)踐和探索,主要從四個(gè)方面講解:主路召回模型選型、離線評(píng)估指標(biāo)建設(shè)、樣本優(yōu)化實(shí)踐、模型優(yōu)化探索。

二、主路召回模型選型

1、主路召回模型目標(biāo)

圖片

首先介紹一下主路召回模型目標(biāo),我們將其拆解為三個(gè)方向:

  • 一致性:首先,召回側(cè)的打分標(biāo)準(zhǔn)要和下游保持一致(一致不等于一樣)。同時(shí),應(yīng)滿足激勵(lì)相容的邏輯,即要與整個(gè)廣告系統(tǒng)匹配,比如調(diào)價(jià)敏感性。
  • 泛化性:指模型在未見(jiàn)過(guò)或者很少見(jiàn)過(guò)的數(shù)據(jù)上的效果。我們將其拆解為“共性”和“個(gè)性”。“共性”是指模型能不能學(xué)到普遍規(guī)律,以便推廣到?jīng)]有見(jiàn)過(guò)的數(shù)據(jù)上,比如推廣到新廣告、新用戶上;“個(gè)性”是指模型能不能重視個(gè)體差異,尤其是數(shù)據(jù)很少的情況,比如長(zhǎng)尾的廣告和用戶。
  • 多樣性:指降低召回的寡頭效應(yīng),讓下游鏈路見(jiàn)世面。大家可能在廣告系統(tǒng)里面很少聽(tīng)到“信息繭房”的說(shuō)法,但其實(shí)廣告系統(tǒng)里也是存在“信息繭房”的。比如,如果精排見(jiàn)到的廣告過(guò)于單一,那么精排可能對(duì)中長(zhǎng)尾廣告的預(yù)估偏差比較大。

2、從 Youtube 論文看召回選型


圖片

上面三個(gè)方向確定之后,接下來(lái)看一下有哪些可能的召回選型。

我們從 2016 年 Youtube 的經(jīng)典論文看起,他們將推薦系統(tǒng)分成兩個(gè)階段,召回和排序。對(duì)于召回,他們以“點(diǎn)擊且完播的概率”作為目標(biāo)進(jìn)行建模;對(duì)于排序,他們以“播放時(shí)長(zhǎng)加權(quán)的點(diǎn)擊率”為目標(biāo)進(jìn)行建模。

基于以上內(nèi)容,可以推導(dǎo)出召回的三種可能選型:

  • 精準(zhǔn)值預(yù)估:召回和排序邏輯完全一樣。比如,如果排序做回歸,那召回也做回歸。
  • 排序?qū)W習(xí):召回學(xué)習(xí)的是排序打分的分布。
  • 分類學(xué)習(xí):召回學(xué)習(xí)的是排序的競(jìng)得,或者用戶的交互,比如用戶點(diǎn)擊的視頻、廣告等。

這三種選型本質(zhì)上對(duì)應(yīng)著兩種方案,第一種叫做“精準(zhǔn)值預(yù)估”,對(duì)應(yīng)上面第一個(gè)選型;第二種叫做“集合選擇”,對(duì)應(yīng)上面的第二、三個(gè)選型。我們應(yīng)該選擇哪種方案呢?

3、精準(zhǔn)值預(yù)估 vs 集合選擇

圖片

首先明確我們對(duì)召回選型的訴求:第一,我們希望能夠滿足一段時(shí)期的快速迭代;第二,我們希望它的起點(diǎn)足夠高。我們首先對(duì)這兩種方案做了一些優(yōu)缺點(diǎn)分析。

“精準(zhǔn)值預(yù)估”建模的目標(biāo)是 ECPM。其優(yōu)勢(shì)是可解釋性很強(qiáng),同時(shí)還天然具有調(diào)價(jià)敏感性。但是其缺點(diǎn)也很明顯:首先,召回既要與精排保持一致,又面臨大量未曝光的候選集,任務(wù)比較困難;其次,不同的 OCPC 類型分布差異巨大,雙塔模型學(xué)習(xí)難度很大;最后,召回階段對(duì)于精準(zhǔn) ECPM 的訴求不夠強(qiáng)烈,因此任務(wù)的難度可能會(huì)超過(guò)實(shí)際的需求。

“集合選擇”建模的目標(biāo)是精排頭部的廣告。由于直接面向后鏈路建模,其一致性會(huì)很強(qiáng)。同時(shí)還天然具有自動(dòng)合并下游優(yōu)化項(xiàng)的能力。當(dāng)然,它也有缺點(diǎn):首先,預(yù)估值的可解釋性比較弱;其次,為了和 ECPM 打分性質(zhì)保持一致,還需要單獨(dú)做一些優(yōu)化(如調(diào)價(jià)敏感性)。

我們通過(guò)在線效果和優(yōu)缺點(diǎn)對(duì)比,選擇“集合選擇”技術(shù)作為最終選型。

4、LTR 原型模型

圖片

上圖左側(cè)就是 LTR 原型模型。結(jié)構(gòu)比較簡(jiǎn)單,就是典型的雙塔模型。只是它的樣本稍微特殊一點(diǎn),一條 pairwise 樣本由多條樣本組成。其中正樣本指的是精排頭部的廣告,負(fù)樣本是由大盤曝光的廣告里隨機(jī)采樣得到的。Loss 采用 Ranking Loss,這里就不細(xì)講了。

三、離線評(píng)估指標(biāo)建設(shè)

通過(guò)原型模型和一些特征層面的優(yōu)化,第一版上線就取得了 6% 的 ARPU 提升。在第一版之后進(jìn)一步做迭代,就需要離線評(píng)估指標(biāo)來(lái)指導(dǎo)優(yōu)化。

1、離線評(píng)估建設(shè)-整體

圖片

離線評(píng)估建設(shè)主要分了三個(gè)階段。在第一階段,為了快速上線,我們并沒(méi)有專門去定制一個(gè)評(píng)估集,只是簡(jiǎn)單地將樣本根據(jù)時(shí)間劃分成訓(xùn)練集和測(cè)試集。這種方式的存在的問(wèn)題是 AUC 太高了,達(dá)到了 0.98,很難進(jìn)一步指導(dǎo)迭代。另外,由于召回是樣本的藝術(shù),當(dāng)樣本改變之后,實(shí)驗(yàn)之間的 AUC 是不可比的。總的來(lái)說(shuō),這個(gè)評(píng)估集難以指導(dǎo)我們持續(xù)優(yōu)化,因此需要一個(gè)更一致、更穩(wěn)定的評(píng)估集,就引出了第二階段的方案。

2、離線評(píng)估建設(shè)-全庫(kù)評(píng)估

圖片

第二階段,是離線 Faiss 全庫(kù)檢索。此時(shí),正樣本是精排 Top K 的廣告,負(fù)樣本是大盤曝光的廣告,指標(biāo)是 GAUC 和 Recall。Recall 指的是精排頭部的 Top K 跟實(shí)際打分的 Top N 的交集數(shù)量,然后除以 K 求平均,這其實(shí)衡量的是對(duì)精排 Top K 的召回效果。其中有兩個(gè)超參,第一個(gè)是 K,一般需要根據(jù)業(yè)務(wù)實(shí)際情況去選擇;第二個(gè)是 N,指的是模型的容錯(cuò)程度,理論上 N 越大,這個(gè)任務(wù)會(huì)越簡(jiǎn)單。我們離線發(fā)現(xiàn) N 的選擇需要與模型能力匹配,過(guò)于困難或過(guò)于簡(jiǎn)單都不利于模型的迭代。

第二階段方案還存在一些小問(wèn)題。首先是 Faiss 在保證精度的前提下,全庫(kù)檢索的效率還是比較低的。另外,由于當(dāng)前方案只用到了隨機(jī)的負(fù)樣本,難以做更精細(xì)的效果分析。接下來(lái)介紹第三階段的評(píng)估方案,分段采樣評(píng)估。

3、離線評(píng)估建設(shè)-分段采樣評(píng)估

圖片

分段采樣評(píng)估與之前方案最大的區(qū)別是負(fù)樣本做了拆分,拆成了 Easy、Medium 和 Hard 三部分。Easy 負(fù)樣本是從大盤曝光廣告中采樣得到的;Medium 負(fù)樣本是從當(dāng)次請(qǐng)求進(jìn)入粗排但沒(méi)進(jìn)入精排的廣告中采樣得到的;Hard 負(fù)樣本是從精排尾部的廣告中采樣得到的。Positive 還是由精排的 Top K 廣告組成。數(shù)量上我們要確保 Easy 遠(yuǎn)大于 Medium 遠(yuǎn)大于 Hard 遠(yuǎn)大于 Positive。評(píng)估指標(biāo)沒(méi)有變,還是 GAUC 和 Recall。由于拆分了負(fù)樣本,更利于我們做一些精細(xì)化的分析。

四、樣本優(yōu)化實(shí)踐

確定了評(píng)估方式之后,接下來(lái)就要去做一些樣本的優(yōu)化。

圖片

1、調(diào)價(jià)敏感模型

圖片

上文提到召回模型一定要具有調(diào)價(jià)敏感性,這里展開(kāi)介紹一下什么叫調(diào)價(jià)敏感性。對(duì)于整個(gè)廣告系統(tǒng)來(lái)說(shuō),廣告的出價(jià)是廣告主投放廣告的一個(gè)很重要的抓手,會(huì)影響廣告的競(jìng)爭(zhēng)力。我們期望廣告系統(tǒng)全鏈路對(duì)廣告主的出價(jià)都應(yīng)該敏感。這個(gè)敏感是指:如果廣告主的出價(jià)提高了,那么所有環(huán)節(jié)對(duì)這個(gè)廣告的打分都應(yīng)該提高。之前我們的處理方式是直接把這個(gè)廣告出價(jià)的分桶特征作為底層特征輸入模型。但我們發(fā)現(xiàn)隨著廣告主出價(jià)的提升,它的打分只有 5% 是提升的,這種敏感性是遠(yuǎn)遠(yuǎn)不夠的,因此我們構(gòu)建了調(diào)價(jià)敏感性模型。

模型結(jié)構(gòu)如上圖左側(cè)所示。整體看,其實(shí)就是在雙塔模型的右側(cè),加了一個(gè) bid_part 結(jié)構(gòu)。這個(gè)結(jié)構(gòu)本質(zhì)上是由廣告的出價(jià) CPA 乘以個(gè)性化的權(quán)重得到 bid_logits。通過(guò)這種優(yōu)化,廣告的調(diào)價(jià)敏感性從原來(lái)的 5% 提升到了 90%,比較符合預(yù)期,同時(shí)在線 ARPU 也有 1% 左右的提升。

2、精排負(fù)反饋-Hard Negative

圖片

在調(diào)價(jià)敏感性問(wèn)題解決后,接下來(lái)我們要做效果的優(yōu)化。其實(shí) Easy Negative 區(qū)分度已經(jīng)比較好了,想要去提升效果,最簡(jiǎn)單的方法就是引入后鏈路的數(shù)據(jù),比如加入 Medium Negative 和 Hard Negative 作為反饋機(jī)制。

前期系統(tǒng)數(shù)據(jù)上報(bào)只有 Hard 數(shù)據(jù),所以就先加入 Hard Negative。加入 Hard Negative 之前我們的預(yù)期是離線效果肯定會(huì)有提升,另外召回的多樣性也會(huì)有提升。這是因?yàn)橐郧皹颖局魂P(guān)注精排的頭部數(shù)據(jù),模型很有可能已經(jīng)記憶住了,不需要很強(qiáng)的個(gè)性化就能夠解決這個(gè)問(wèn)題。而引入了 Hard Negative 之后,它就需要對(duì)不同的請(qǐng)求做一些個(gè)性化的理解。從上圖右側(cè)的離線指標(biāo)上也可以看到,Recall 和在線效果都有所提升。其中廣告多樣性有巨幅提升,約 8%,這是我們非常想要看到的結(jié)果。

3、人工規(guī)則挖掘 Negative

圖片

通過(guò)加入 Hard Negative 整體取得了很大提升之后,加入 Medium Negative 應(yīng)該是順理成章的事情。因?yàn)檫@塊數(shù)據(jù)系統(tǒng)還沒(méi)上報(bào),所以我們想通過(guò)人工規(guī)則挖掘一些 Medium Negative。通過(guò)分析,我們發(fā)現(xiàn)召回和精排的整體打分是一致的,但是存在兩種極端的 case。第一種是召回很多,但是幾乎從不競(jìng)得的廣告。這些廣告存在的原因是因?yàn)樗鼈儧](méi)有曝光,甚至沒(méi)有進(jìn)入到精排,因此他們很難成為負(fù)樣本,模型就感知不到。第二種情況是召回的很少,但競(jìng)得率奇高無(wú)比,當(dāng)然這種情況實(shí)在太少了,所以我們忽略了這種情況。

對(duì)于第一種情況,如上圖左邊這個(gè)熱力圖,橫軸是競(jìng)得次數(shù)的分桶,縱軸是召回次數(shù)的分桶,都是從小到大。左下角圈起來(lái)的部分是召回很多,但是競(jìng)得很少的廣告,占比不是很多,但值得試一試。實(shí)踐發(fā)現(xiàn)離線在線效果只有微弱提升,并且人工挖掘樣本的效率實(shí)在太低了。因此,我們考慮能否通過(guò)模型自發(fā)現(xiàn)去解決這個(gè)問(wèn)題。

4、模型自發(fā)現(xiàn) Medium Negative

圖片

之所以會(huì)想到這一點(diǎn),是因?yàn)殡m然 Easy Negative 整體區(qū)分度很好,但是里面還是存在一些比較難區(qū)分的樣本,只是這些樣本的占比比較低而已。因此,如果我們讓每個(gè)正樣本都采樣海量的 Easy Negative 樣本,模型是不是就能夠自發(fā)性地學(xué)習(xí)到那些比較困難的負(fù)樣本呢?是不是就類似于 Medium Negative 呢?從這一個(gè)角度看,這類似于對(duì)比學(xué)習(xí)。

為了達(dá)到這個(gè)目的,我們有兩個(gè)方法。第一個(gè)方法就是直接往樣本里加 Easy Negative,但問(wèn)題是計(jì)算跟存儲(chǔ)的成本都會(huì)線性增長(zhǎng);第二個(gè)方法就是直接在模型里做 in batch 負(fù)采樣,這種方案沒(méi)有計(jì)算和存儲(chǔ)的成本,因此我們優(yōu)先考慮這個(gè)方案。

Loss 也有兩種方法,第一種是用 LTR Loss。但在我們的實(shí)現(xiàn)中,隨著每條 pairwise 樣本中樣本數(shù)的增加,LTR Loss 的計(jì)算量會(huì)呈指數(shù)級(jí)增長(zhǎng),所以我們想優(yōu)先考慮第二種方法:Pointwise Loss。這個(gè) Loss 的計(jì)算量隨著樣本數(shù)的增加呈線性增長(zhǎng)。同時(shí),由于 Loss 計(jì)算量整體在模型訓(xùn)練時(shí)占比較小,對(duì)整體耗時(shí)影響不大。所以我們最終選擇了 Pointwise Loss。

5、大規(guī)模多分類解決選型簡(jiǎn)介

圖片

確定了 Loss 的方案,具體應(yīng)該用哪種 Loss 呢?在繼續(xù)介紹之前,需要先講解一下大規(guī)模多分類的背景知識(shí)。

召回可以定義成一個(gè)超大規(guī)模多分類的問(wèn)題。它的負(fù)樣本就是成千上萬(wàn)的廣告,正樣本就是精排 Top K 的廣告。普通的多分類,其實(shí)就是做一個(gè) softmax,其分母就是所有負(fù)樣本的打分的累加。但對(duì)于大規(guī)模多分類來(lái)說(shuō),這樣做會(huì)使分母的計(jì)算量過(guò)大,幾乎是不可行的。針對(duì)此問(wèn)題,業(yè)界有兩種方法。

第一種方法是將多分類轉(zhuǎn)化成二分類,如上圖左側(cè)部分。轉(zhuǎn)化成二分類之后,其實(shí)是轉(zhuǎn)化成了 NCE 問(wèn)題。本質(zhì)上是把以前模型的預(yù)估值 F(x,y) 修正成 G(x,y),中間多了一個(gè) Log Q 的采樣概率修正系數(shù)。但這個(gè)值不好求,比較偷懶的方式,是直接讓 G(x,y) 近似等于 F(x,y),然后直接放到二分類 BCE Loss 里,這叫做 NEG,也就是 Negative Sampling。NCE 的好處是隨著負(fù)樣本的增加,從理論上能夠逼近大規(guī)模多分類的效果。而這個(gè) NEG 理論上是有偏差的。

第二種方法就是繼續(xù)保持多分類的方式。和第一種方法很相似,區(qū)別是要把 G(x,y) 放到 softmax 的 Loss 里,同時(shí)負(fù)樣本直接采樣。與 NCE 一樣,修正的 Sample Softmax 理論上能夠逼近大規(guī)模多分類的效果,而不修正 Sample Softmax 則是有偏的。但是,由于其操作簡(jiǎn)單,未修正的 Sample Softmax 類方法也會(huì)有一些公司使用并取得收益。

6、模型自發(fā)現(xiàn) Medium Negative

圖片

在確定使用 Pointwise Loss 方法后,我們先嘗試了比較簡(jiǎn)單的 Negative Sampling。樣本是 in batch 負(fù)采樣,Loss 是 BCE Loss,最后將原來(lái)的 BPR Loss 加上這個(gè) BCE Loss 做融合。通過(guò)離線實(shí)驗(yàn)發(fā)現(xiàn),如果只使用 In Batch Negative Sampling,效果是明顯下降的。但是如果融合 LTR 和 In Batch Negative Sampling,效果則有微弱提升。

圖片

我們覺(jué)得很疑惑,加了幾百個(gè)樣本,效果居然只是微弱提升,這是不符合預(yù)期的。因此我們繼續(xù)采用了剛剛提到的 Sample Softmax 方法,還是在 In Batch 內(nèi)負(fù)采樣,Loss 是不修正的 Sample Softmax Loss,如上圖右側(cè)公式所示,這有點(diǎn)像 infoNCE,因此我們也參考 infoNCE 引入了溫度系數(shù)的概念。效果如上圖左下側(cè)所示,如果只使用 In Batch Sample Softmax,那么效果跟舊的 LTR 基本持平。如果融合 LTR 和 In Batch Sample Softmax,效果則有大幅度的提升。進(jìn)一步調(diào)整溫度系數(shù),提升則更加明顯。使用調(diào)整過(guò)溫度系數(shù)的版本后,ARPU 提升了將近 2%,符合預(yù)期。不過(guò)這里要稍微注意下,隨著 In Batch 數(shù)量的增加,Medium 和 Hard 的效果會(huì)有一個(gè) Trade Off。

圖片

對(duì)于 Sample Softmax 效果優(yōu)于 NEG,我們是疑惑的,于是進(jìn)行了一些搜索,發(fā)現(xiàn)在不少論文和文章里,也都有提到這個(gè)現(xiàn)象,看起來(lái)并非個(gè)例。因此大家后續(xù)對(duì)大規(guī)模分類問(wèn)題,或許可以優(yōu)先考慮 Sample Softmax 類方法。

7、場(chǎng)景聯(lián)合訓(xùn)練獨(dú)立服務(wù)

圖片

最后講下聯(lián)合訓(xùn)練,這本質(zhì)上是個(gè)多場(chǎng)景的問(wèn)題。

在 OPPO 場(chǎng)景,由于媒體屬性、廣告主意愿等原因,廣告在不同媒體上的分布是有較大差異的。對(duì)此,我們有以下幾種方案選型。

第一種方法是完全獨(dú)立。每個(gè)媒體單獨(dú)建模、訓(xùn)練、預(yù)估。但是多個(gè)模型優(yōu)化和運(yùn)維的成本比較高,另外也沒(méi)辦法學(xué)習(xí)媒體之間的共性。

第二種方法是完全統(tǒng)一。主要是負(fù)樣本共用,聯(lián)合訓(xùn)練,在服務(wù)的時(shí)候保持只用一個(gè)模型,但是媒體之間的差異性很難被體現(xiàn)出來(lái)。

還有一種方法是聯(lián)合訓(xùn)練和獨(dú)立建模。不同媒體的樣本是獨(dú)立的,但訓(xùn)練時(shí)還是聯(lián)合訓(xùn)練。模型結(jié)構(gòu)如上圖左側(cè)所示,不同的媒體都有一個(gè)屬于自己的 ad tower,所有媒體共享 user tower,此時(shí)不同媒體的 ad embedding 是獨(dú)立的。這種方式既能保持媒體的共性,也能學(xué)到媒體的個(gè)性,并且也能夠統(tǒng)一地優(yōu)化和迭代。這種方式在我們的一些小場(chǎng)景上取得了收益,目前正計(jì)劃在大場(chǎng)景中推進(jìn)。

圖片

上面是關(guān)于樣本優(yōu)化的簡(jiǎn)單介紹??梢钥闯?,召回確實(shí)是樣本的藝術(shù),更具體的說(shuō),是負(fù)樣本的藝術(shù),我們很多工作都是圍繞著負(fù)樣本優(yōu)化來(lái)做的。但是樣本只能決定模型的上限,具體怎樣去逼近這個(gè)上限,還需要做一些模型的優(yōu)化。

五、模型優(yōu)化探索

下面來(lái)到模型優(yōu)化探索部分。主要包括兩部分,第一部分是關(guān)于雙塔交互的優(yōu)化,第二部分是關(guān)于泛化性的優(yōu)化。

1、雙塔交互優(yōu)化-整體

圖片

受計(jì)算復(fù)雜度約束,召回普遍使用雙塔結(jié)構(gòu)。但是雙塔結(jié)構(gòu)的缺點(diǎn)就是 user 和 item 交互太晚,導(dǎo)致信息損失比較大。針對(duì)此問(wèn)題,業(yè)界有一些探索工作,簡(jiǎn)單歸類如下。

第一類是雙塔的交互時(shí)刻不變,提升交互向量的信息量,比如 SENet 或者并聯(lián)雙塔。另外一個(gè)是將雙塔交互的時(shí)刻提前,比如 DAT、IntTower 和 MVKE。還有一種是模型不變,通過(guò)特征去交互,比如物理含義相同的特征,讓其共享 embedding,這也是一種隱式的交互。接下來(lái)我們會(huì)從這三類里面分別挑一個(gè)我們?cè)趯?shí)踐中取得收益的模型來(lái)具體介紹。

2、提升交互向量有效信息量-SENet

圖片

第一個(gè)是 SENet。SENet 最開(kāi)始主要應(yīng)用在圖像領(lǐng)域,它是通過(guò)對(duì)特征做一些個(gè)性化的加權(quán)(有點(diǎn)類似于特征 attention),突出重要特征壓制不重要特征,來(lái)緩解前文中提到的“交互向量信息損失過(guò)大”的問(wèn)題。其結(jié)果如上圖左側(cè)所示,SENet 在我們的場(chǎng)景中取得了明顯的收益。

更重要的是,我們發(fā)現(xiàn) SENet 的特征權(quán)重和特征重要性高度正相關(guān)。后續(xù)我們很多特征效果或者重要性的分析,都直接將 SENet 的特征權(quán)重作為參考。

3、雙塔交互時(shí)刻提前-DAT

圖片

第二個(gè)是美團(tuán)的 DAT,中文名為對(duì)偶增強(qiáng)的雙塔模型。它主要的優(yōu)化點(diǎn)是把向量交互的時(shí)刻提前。優(yōu)化內(nèi)容主要包含兩部分,第一個(gè)部分叫做 AMM,第二部分叫 CAL。

這里主要講下 AMM。美團(tuán)的雙塔由 query 塔和 item 塔組成。在 query 塔新增一個(gè)增強(qiáng)向量,即上圖綠色部分,期望跟 item 塔最后一層 embedding 盡可能相似。同理,在 item 塔也有一個(gè)增強(qiáng)向量,跟 query 塔最后一個(gè)輸出 embedding 盡可能相似。通過(guò)這種方式,讓雙塔交互增強(qiáng)。

實(shí)驗(yàn)發(fā)現(xiàn),加入 AMM 特征后,效果有明顯的提升。同時(shí),如果在 AMM 特征輸入時(shí),優(yōu)選下特征,其提升將更加明顯。這個(gè)優(yōu)選特征的規(guī)則是:用戶側(cè)用相對(duì)泛化的特征,而 item 側(cè)用更稀疏更具體的特征。我們猜測(cè)優(yōu)選特征效果更好的原因是用戶側(cè)的增強(qiáng)向量其實(shí)不需要那么強(qiáng)的個(gè)性化。

4、底層特征隱式交互

圖片

最后一個(gè)就是特征的隱式交互。在雙塔模型里的 user 塔和 item 塔往往存在一些物理含義相同的特征,共享這些特征的 embedding 比直接訓(xùn)練效果更好。在我們的場(chǎng)景里面也有這種特征,叫做語(yǔ)義標(biāo)簽特征。這種特征的挖掘方式如上圖左側(cè)所示,我們會(huì)提取廣告的語(yǔ)義信息,并且輸入到大模型里,打上一些標(biāo)簽。而這些廣告的標(biāo)簽會(huì)根據(jù)廣告與用戶的交互行為被賦予用戶,所以用戶和廣告身上都會(huì)有這些標(biāo)簽。我們?cè)谀P陀?xùn)練的時(shí)候,通過(guò)上圖左下側(cè)所示的方式,使 user 塔和 item 塔的語(yǔ)義標(biāo)簽共享 embedding table。實(shí)驗(yàn)發(fā)現(xiàn),這種方案的離線指標(biāo)有微弱提升。

5、泛化性優(yōu)化

圖片

主路召回作為召回的核心組成部分,承擔(dān)著解決“大部分問(wèn)題”的任務(wù)。但由于廣告、媒體、用戶、時(shí)間上的一些細(xì)分粒度往往有差異,導(dǎo)致學(xué)習(xí)這些差異的共性和個(gè)性比較困難。具體來(lái)說(shuō),從廣告的視角有新老廣告;從媒體的視角有不同類型的媒體;從用戶的視角有高活用戶和低活用戶;從時(shí)間的視角有日常、周末、節(jié)假日、雙十一。本質(zhì)上來(lái)說(shuō),這里需要解決的問(wèn)題是“混合分布下的差異化精準(zhǔn)建?!钡膯?wèn)題。

關(guān)于這個(gè)問(wèn)題,業(yè)界也有一些探索。有的是直接加強(qiáng)個(gè)性化的特征,比如 Youtube 的 BiasNet,就是直接用一個(gè) Bias Tower 穿透到最底層;還有多專家方案,比如騰訊的 MVKE 和 Google 的 CDN;還有動(dòng)態(tài)權(quán)重,比如快手的 POSO 和 PPNet;還有一些融合類的方法。接下來(lái)介紹我們?cè)趯?shí)踐中取得了一定收益的兩個(gè)方法,分別是 CDN 和 PPNet。

6、冷啟動(dòng)優(yōu)化-CDN

圖片

首先介紹一下使用 CDN 的背景。最開(kāi)始為了加速迭代,主路模型除了在主路召回上用,也在新廣告召回支路去做冷啟。這就要求主模型兼顧新廣告的排序效果。但是在主路模型的訓(xùn)練集里,新廣告的占比肯定是比較少的,同時(shí)新廣告的特征跟老廣告有明顯的差異,所以新廣告的一些信息和特征會(huì)被淹沒(méi),新廣告的效果得不到保證。因此我們參考了 2023 年 Google 提出的 CDN 模型,期望優(yōu)化新廣告效果。

CDN 結(jié)構(gòu)如上圖左側(cè)紅框所示,本質(zhì)上是把 item 特征拆成了記憶類特征和泛化類特征,然后通過(guò)兩個(gè) expert 去學(xué)習(xí),最后通過(guò)一個(gè) Gate 門控對(duì)這兩個(gè) expert 做加權(quán)融合。記憶類特征主要包括 item 的稀疏類特征,泛化類特征主要包括統(tǒng)計(jì)類特征。線上實(shí)驗(yàn)證明,新廣告冷啟效率有 10% 的增長(zhǎng),非??捎^。

7、多場(chǎng)景優(yōu)化-PPNet

圖片

下面介紹多場(chǎng)景優(yōu)化,除了上文提到的樣本層面的優(yōu)化,還有模型層面的優(yōu)化。

首先講下背景。OPPO 有很多場(chǎng)景類型,比如文字信息流、視頻流等等。在將這些場(chǎng)景聯(lián)合訓(xùn)練的時(shí)候,如何兼顧其共性和個(gè)性呢?

我們參考了快手的 PPNet,實(shí)現(xiàn)方式如上圖左側(cè)紅框所示。本質(zhì)是通過(guò)個(gè)性化門控網(wǎng)絡(luò),對(duì)原始的模型,做一個(gè)動(dòng)態(tài)的個(gè)性化加權(quán),得到一個(gè)千媒千面的模型。通過(guò)這種方式,我們發(fā)現(xiàn)效果是有提升的。

但是有一點(diǎn)需要注意,如果直接將媒體的 ID 輸入到 Gate 門控,提升是比較微弱的。如果通過(guò)專家知識(shí)對(duì)這些門控的輸入做一些聚合,那么 PPNet 就開(kāi)始顯現(xiàn)它的威力了。聚合的方法是把屬性相似,或用戶行為相似的媒體聚合。最后,如果對(duì)不同的媒體采用不同的 batch norm(即 DBN),模型的性能會(huì)進(jìn)一步提升。

六、展望

圖片

前文中介紹了今年 OPPO 召回的主要相關(guān)工作,接下來(lái)分享一些我們的展望。

首先,雖然當(dāng)前 ECPM 支路比較簡(jiǎn)單,但是 ECPM 支路還是能夠?qū)?LTR 主路起到補(bǔ)充作用,因此我們后續(xù)還會(huì)在 ECPM 支路上做一些工作。

其次,現(xiàn)在廣告推薦整體已經(jīng)走向了廣告商品化、創(chuàng)意智能化。在這個(gè)趨勢(shì)下,召回和排序的分工也會(huì)發(fā)生一些變化。當(dāng)然,召回輔助下游找到價(jià)值最高的廣告,這一個(gè)定位是不變的。

以上就是本次分享的全部?jī)?nèi)容,謝謝。

七、問(wèn)答環(huán)節(jié)

Q1:如果召回的算法太復(fù)雜的話,你們是怎么考慮的?

A1:我們不能要求召回算法復(fù)不復(fù)雜,因?yàn)檫@取決于你想解決的是什么類型的問(wèn)題。舉個(gè)例子,現(xiàn)在 OPPO 召回的定位是“單主路加多輔路”,主路要解決大部分的問(wèn)題,那主路算法可能就復(fù)雜些。有些傳統(tǒng)公司的召回是“多主路召回”,比如熱度召回、統(tǒng)計(jì)召回、興趣召回等等疊加,那每一個(gè)路召回可能都比較簡(jiǎn)單,算法也不需要太復(fù)雜。

Q2:讓召回去學(xué)精排,會(huì)不會(huì)導(dǎo)致召回更加局限性呢?

A2:如果把局限理解為 SSB 問(wèn)題,其實(shí)召回一直存在這個(gè)問(wèn)題。之前的 gap 是從召回的全量候選到曝光候選?,F(xiàn)在如果讓召回去學(xué)精排,那現(xiàn)在的 gap 就是從全量候選到精排的 Top 部分廣告。這種方式的 SSB 會(huì)緩解一些,SSB 問(wèn)題是要長(zhǎng)期去探索解決的。

Q3:離線評(píng)估指標(biāo) Recall 公式里的 N 和 K 是如何確定的?

A3:不同的場(chǎng)景中,N 和 K 的取值是不一樣的。

K 得根據(jù)具體的業(yè)務(wù)場(chǎng)景來(lái)定。比如在信息流,一般我們就看幾個(gè)廣告,那 K 可能取 1-3;在下載商店,一次性會(huì)展示很多 APP,那 K 就會(huì)很大,甚至取上百個(gè)。

N 的取值則與模型效果和 K 有關(guān),N 越大任務(wù)越簡(jiǎn)單。如果任務(wù)太簡(jiǎn)單,Recall 非常高,比如 0.99,那么任何優(yōu)化都很難離線體現(xiàn)出效果;任務(wù)太難,Recall 非常小,那很多優(yōu)化也可能無(wú)法體現(xiàn)出來(lái),就像讓小學(xué)生去參加高考,大家都 0 分。具體的 N 和 K 的組合,需要自行根據(jù)場(chǎng)景和模型調(diào)節(jié)。

Q4:在召回階段樣本設(shè)計(jì)時(shí),簡(jiǎn)單和困難樣本比例是怎么調(diào)控的?

A4:召回是在全量候選集里面找出用戶可能感興趣的廣告,這就決定了在樣本設(shè)計(jì)時(shí),簡(jiǎn)單樣本數(shù)量要遠(yuǎn)遠(yuǎn)大于困難樣本數(shù)量。

簡(jiǎn)單和困難樣本的比例,是通過(guò)實(shí)踐去確定的。比如 Facebook 的論文中提到,簡(jiǎn)單和困難樣本的比例值是 100 比 1。我們的場(chǎng)景沒(méi)有那么懸殊,但也差不多。

Q5:召回離線評(píng)估為什么用 AUC?你們的召回離線評(píng)估和線上效果是一致的嗎?

A5:在召回階段,AUC 類似一個(gè)護(hù)欄指標(biāo),是為了確保召回里的排序整體沒(méi)有大的分布問(wèn)題。在此基礎(chǔ)上,我們盡量提升 Recall。另外,我們大部分的離線指標(biāo)和在線指標(biāo)整體的趨勢(shì)是一致的。當(dāng)然,我們無(wú)法保證離線和在線提升的百分比是完全相同的。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2022-04-29 09:10:00

算法人工智能技術(shù)

2023-07-19 08:55:00

神經(jīng)網(wǎng)絡(luò)推薦系統(tǒng)

2022-03-17 12:00:48

異構(gòu)業(yè)務(wù)實(shí)踐

2024-12-05 12:01:09

2023-07-07 14:18:57

攜程實(shí)踐

2023-11-02 07:14:23

2013-01-08 12:51:15

移動(dòng)廣告聲音聲盟

2013-01-17 13:56:57

移動(dòng)廣告LoopMe

2017-05-18 11:43:41

Android模塊化軟件

2022-08-21 21:28:32

數(shù)據(jù)庫(kù)實(shí)踐

2024-09-10 08:42:37

2023-02-08 18:33:49

SRE探索業(yè)務(wù)

2023-02-03 18:31:35

訂單流量錄制

2024-11-06 08:13:28

2023-10-31 12:50:35

智能優(yōu)化探索

2021-12-08 10:35:04

開(kāi)源監(jiān)控Zabbix

2023-10-27 12:16:23

游戲發(fā)行平臺(tái)SOP

2024-10-15 08:14:51

2023-06-30 13:10:54

數(shù)據(jù)聚合網(wǎng)關(guān)

2024-02-29 09:17:43

數(shù)據(jù)中心
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)