自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

算法在 58 畫像平臺建設(shè)中的應(yīng)用

人工智能 算法 大數(shù)據(jù)
用戶畫像平臺是企業(yè)應(yīng)用大數(shù)據(jù)的根基,精準(zhǔn)營銷、精細(xì)化運營和個性化推薦都離不開用戶畫像的建設(shè)。精準(zhǔn)地刻畫用戶行為、興趣以及需求尤為重要。本文將探討算法在 58 用戶畫像平臺建設(shè)中的作用,包括畫像標(biāo)簽體系的建設(shè),個性化推薦、精細(xì)化運營等業(yè)務(wù)應(yīng)用。

一、58 畫像平臺建設(shè)背景

首先和大家分享下 58 畫像平臺的建設(shè)背景。

1. 傳統(tǒng)的畫像平臺

圖片

傳統(tǒng)的思路來看,建設(shè)用戶畫像平臺依賴數(shù)倉建模能力,整合多業(yè)務(wù)線數(shù)據(jù),構(gòu)建準(zhǔn)確的用戶畫像;還需要數(shù)據(jù)挖掘,理解用戶行為、興趣和需求,提供算法側(cè)的能力;最后,還需具備數(shù)據(jù)平臺能力,高效存儲、查詢和共享用戶畫像數(shù)據(jù),提供畫像服務(wù)。業(yè)務(wù)自建畫像平臺和中臺類型畫像平臺主要區(qū)別在于,業(yè)務(wù)自建畫像平臺服務(wù)單條業(yè)務(wù)線,按需定制;中臺平臺服務(wù)多條業(yè)務(wù)線,建模復(fù)雜,提供更為通用的能力。

2. 58 中臺畫像建設(shè)的背景

圖片

58 的用戶畫像平臺建設(shè)主要源于以下幾種業(yè)務(wù)需求:

  • 個性化推薦:業(yè)務(wù)方需要基于用戶畫像做千人千面的內(nèi)容分發(fā)。
  • 精細(xì)化運營:產(chǎn)品運營需要畫像平臺提供人群洞察、人群圈選等功能對不同人群做更精細(xì)的運營活動。
  • 用戶價值增長:粗放式流量增長已經(jīng)過去,如何利用畫像平臺做好存量用戶價值增長是相當(dāng)迫切的需求。

3. 萬象

圖片

在當(dāng)前業(yè)務(wù)需求和外部環(huán)境挑戰(zhàn)下,我們提出了 UA+CDP+MA 這一套用戶畫像平臺解決方案。通過 OneID 服務(wù)構(gòu)建用戶畫像基礎(chǔ)數(shù)據(jù),結(jié)合流量和人群洞察,利用算法智能生成人群,并匹配物料進(jìn)行精準(zhǔn)營銷。同時監(jiān)測效果并回收數(shù)據(jù),優(yōu)化策略迭代人群。為業(yè)務(wù)方提供智能化增長解決方案,實現(xiàn)精準(zhǔn)運營和業(yè)務(wù)增長。

二、算法在 58 畫像平臺建設(shè)中的作用

圖片

算法側(cè)在 58 用戶畫像平臺的建設(shè)主要包括兩個方面,一個是標(biāo)簽體系的建設(shè),另一個是平臺能力的構(gòu)建。

1. 標(biāo)簽體系的建設(shè)

萬象標(biāo)簽體系包含社會屬性、地理位置、行為習(xí)慣、偏好屬性、用戶分層等多個分類,一共有 1500 余個標(biāo)簽。我們根據(jù)生產(chǎn)方式分為兩種類型:

  • 事實類標(biāo)簽:數(shù)倉同學(xué)利用統(tǒng)計或者規(guī)則,通過 SQL 等開發(fā)生產(chǎn)。
  • 算法類標(biāo)簽:算法團(tuán)隊通過數(shù)據(jù)挖掘等手段加工生產(chǎn)。

2. 算法類標(biāo)簽舉例

圖片

算法類標(biāo)簽可根據(jù)數(shù)據(jù)源和粒度分類。如性別、年齡、業(yè)務(wù)傾向等標(biāo)簽,數(shù)據(jù)源一般為結(jié)構(gòu)化數(shù)據(jù),常作為分類任務(wù)處理,模型可選用 XGBoost、DeepFM 等。還有租房目的標(biāo)簽,需要從用戶瀏覽的帖子文本中識別用戶目的,這類標(biāo)簽數(shù)據(jù)源為非結(jié)構(gòu)化數(shù)據(jù),可以用文本分類等方式處理。在我們的內(nèi)容偏好標(biāo)簽中,如用戶在不同業(yè)務(wù)的帖子偏好 topN,則需要構(gòu)建離線的推薦流程生產(chǎn)這類標(biāo)簽。

3. 以內(nèi)容偏好標(biāo)簽為例解釋標(biāo)簽的流程

圖片

以內(nèi)容類偏好標(biāo)簽為例,生產(chǎn)該標(biāo)簽需建立離線推薦流程。面對百萬甚至更多的帖子,我們首先通過召回階段進(jìn)行初步篩選,采用熱門、規(guī)則、協(xié)同過濾等方法,如圖卷積神經(jīng)網(wǎng)絡(luò)(LightGCN)和雙塔(DSSM)模型等。然后,基于召回的帖子,利用 Pointwise 方式通過 CTR 模型進(jìn)行排序。最終產(chǎn)出用戶最感興趣的 Top N 帖子。在實際應(yīng)用中,以 push 場景為例,可以從 Top 1 帖子中提取關(guān)鍵屬性,生成個性化文案。同時,落地頁可以是 Top 1 帖子的詳情頁或 Top N 帖子的列表頁。

圖片

在生產(chǎn)內(nèi)容偏好類標(biāo)簽時,考慮到 58 同城業(yè)務(wù)的地域和類目特性,用戶在推薦中通常只對特定地域或類目的帖子感興趣。因此,在向量化召回(如使用 EGES 模型)時,可能會出現(xiàn)大量異地或非本類目的帖子。為解決這一問題,我們將城市信息以 16 進(jìn)制表示,將 0 替換為 -1,然后將此編碼直接拼接到之前生成的向量中,這樣做可以確保同城市或同類目的帖子在相似度計算中具有最大相似性,從而提高召回和推薦的準(zhǔn)確性。

在排序階段,利用多模態(tài)信息,包括文本內(nèi)容,以提升推薦的準(zhǔn)確性。例如帖子標(biāo)題作為文本特征,可以采用 BERT、M3E 等預(yù)訓(xùn)練模型進(jìn)行 embedding 表示。然而,由于帖子數(shù)量龐大,這對計算資源構(gòu)成了挑戰(zhàn)。為解決這一問題,我們采用了 Spark NLP,這是一個基于 Apache Spark Machine Learning 的自然語言處理庫。盡管原生庫中沒有中文的 BERT 模型,但通過一些轉(zhuǎn)換,我們成功地將其應(yīng)用于大規(guī)模離線推理。

圖片

在 58 同城用戶畫像平臺的功能建設(shè)中,算法同樣發(fā)揮著核心作用。以智能運營能力為例,我們利用流量地圖識別不同業(yè)務(wù)之間的相關(guān)性,為業(yè)務(wù)方提供運營建議或結(jié)論。業(yè)務(wù)方可以根據(jù)這些建議直接通過智能圈人功能生成運營人群包,并對接到相應(yīng)渠道進(jìn)行投放。投放效果可以通過平臺進(jìn)行監(jiān)測,并根據(jù)效果數(shù)據(jù)進(jìn)行迭代優(yōu)化,從而不斷提升運營效果。

圖片

算法是如何發(fā)揮作用的呢?接下來分幾個環(huán)節(jié)來介紹。首先是流量地圖這一塊。我們利用 OLAP 數(shù)據(jù)挖掘和數(shù)據(jù)可視化技術(shù),深入分析 58APP 用戶在不同業(yè)務(wù)之間的瀏覽情況。通過分析和加工這些數(shù)據(jù),可以展示出用戶在不同業(yè)務(wù)之間的流轉(zhuǎn)路徑,為運營團(tuán)隊提供直觀的用戶行為視圖。在這個過程中,算法不僅可以幫助我們識別出用戶的行為模式,還可以通過關(guān)聯(lián)分析等技術(shù),挖掘出不同業(yè)務(wù)之間的相關(guān)性。這些相關(guān)性為我們提供了寶貴的運營建議,支持運營團(tuán)隊進(jìn)行交叉運營。

圖片

在得到運營建議后,運營團(tuán)隊可以通過智能圈人功能來圈選目標(biāo)人群。為了實現(xiàn)這一目標(biāo),運營團(tuán)隊需要首先配置個性化運營目標(biāo),明確目標(biāo)是拉新、促活還是促轉(zhuǎn)等。接著,需要設(shè)定期望達(dá)到的效果,包括人群包的大小和預(yù)期的投放效果等。此外,運營團(tuán)隊還需要選擇適合的投放渠道,以確保目標(biāo)人群能夠接收到相關(guān)的運營活動信息。

圖片

生成人群包的過程對于運營團(tuán)隊來說是一個黑盒。為了解決這個問題,我們提供了更多關(guān)于算法原理和步驟的解釋和說明,以便運營團(tuán)隊更好地理解和應(yīng)用該技術(shù)。同時,我們提供了更多的可視化工具和界面,幫助運營團(tuán)隊直觀地查看和分析人群包的特征和效果。

在生成人群包的過程中,我們主要采用了 Look-alike 技術(shù)。在該技術(shù)的演進(jìn)上,我們經(jīng)歷了幾個階段,前期借鑒 Yahoo 的方案,將人群包的產(chǎn)出分為召回和排序模塊。召回模塊,首先構(gòu)建所有用戶的特征向量,然后采用 minHash 和局部敏感哈希技術(shù)進(jìn)行特征向量的壓縮,并通過類似聚類分桶的方法實現(xiàn)了近似于 k-NN 的檢索,快速計算種子用戶與候選人群之間的兩兩相似度,選取 topN 作為每個種子用戶的召回人群。在排序階段,首先使用 Information Value 進(jìn)行特征篩選,然后基于篩選后的特征計算分值,最后根據(jù)分值進(jìn)行排序,最終產(chǎn)出人群包。整個過程中,算法起到了關(guān)鍵作用,確保了人群包的準(zhǔn)確性和有效性。

圖片

除了基于相似度的方案,同樣基于機器學(xué)習(xí)的方式也有不錯的效果。在實際應(yīng)用中,用戶可以通過場景圈人或種子人群上傳兩種方式發(fā)起請求。區(qū)別在于種子人群由用戶上傳還是我們自動挖掘。在拿到種子人群,也就是正樣本后,我們需要選擇負(fù)樣本,可以暴力的全局隨機負(fù)采樣,也可以用 PU learning 或者 TSA 等算法完成負(fù)樣本的選取。接下來是特征選擇階段,分為兩種方案,一種是提前預(yù)制人工挑選的特征,經(jīng)過固定的特征工程,可以使用 DeepFM 等模型完成訓(xùn)練和 CTR 的預(yù)估,根據(jù) CTR 選擇 TopN 作為人群包;還有一種方案是我們使用全量的標(biāo)簽作為特征,通過 IV 值和相關(guān)性自動化挑選和剔除特征,然后使用 AutoML 框架完成特征工程、模型訓(xùn)練,最后對 58App 的人群池進(jìn)行推理,并根據(jù) TopN 產(chǎn)出人群包,對接到渠道進(jìn)行觸達(dá),最后回收投放效果數(shù)據(jù)來完成樣本選擇迭代。

上述方案有一些值得關(guān)注的點,首先是樣本的迭代,回收效果數(shù)據(jù)時,不僅需要對曝光數(shù)據(jù)進(jìn)行篩選,同時需要對未曝光數(shù)據(jù),也就是 Exposure Bias 做 Debias 處理。同時迭代后的效果需要離線評估驗證,保證迭代的效果。此外,特征方面也需要考慮穿越問題,特別是拉新場景,需要考慮特征選擇的時間因素。

圖片

隨著在運營場景中積累的數(shù)據(jù)越來越多,我們開始嘗試?yán)眠@些數(shù)據(jù)進(jìn)行離線實驗,以優(yōu)化我們的迭代方案。其中之一就是基于騰訊微信的 Look-alike 方式,它采用元學(xué)習(xí)的方法。具體來說,這種方法通過構(gòu)建一個泛化模型,在離線階段完成模型的構(gòu)建,然后在在線階段利用少量的數(shù)據(jù)集進(jìn)行定制化模型的訓(xùn)練,并進(jìn)行推理工作。這種方式能夠解決樣本量相對較少時,模型容易出現(xiàn)過擬合的問題。多場景多目標(biāo)的人群擴(kuò)散,也是我們下一步迭代的方向之一。

三、58 畫像平臺應(yīng)用案例

1. 個性化資源位投放

個性化資源位的投放,在 58App 資源位包含開屏、banner 位、浮窗、fees 流卡片等等,都有用到 58 用戶畫像平臺相應(yīng)的功能,比如用價運營通過畫像平臺的標(biāo)簽圈選能力去產(chǎn)出人群包為其推送特定的內(nèi)容,完成千人千面的精細(xì)化運營。

2. 個性化 push 推送

我們的畫像平臺與 58 的 push 平臺也完全打通,運營同學(xué)可以通過萬象圈選或者 Look-alike 等形式創(chuàng)建人群,配置個性化文案,通過 push 觸達(dá)用戶,達(dá)成運營目的。

3. 搜索推薦

搜索推薦是基于用戶畫像最常見的應(yīng)用。58 新車、二手車這兩個業(yè)務(wù)方?jīng)]有算法人員,但是又想做一些個性化的應(yīng)用,因此接入了前文中提到的內(nèi)容偏好類標(biāo)簽。首頁的新車推薦,相關(guān)推薦等資源位都用到了內(nèi)容偏好 TopN 標(biāo)簽。在二手車的搜索位置上,搜索框的提示語以及搜索發(fā)現(xiàn)頁的相關(guān)車系也用到了這一標(biāo)簽。相比于之前通過規(guī)則的方式,通過接入內(nèi)容偏好標(biāo)簽作為項目初期的解決方案,也取得了很好的效果。

四、展望與總結(jié)

當(dāng)前 58 的畫像平臺已經(jīng)具備了業(yè)界通用的畫像平臺能力,并且通過算法加持,實現(xiàn)了智能運營等能力。不僅提升了業(yè)務(wù)方運營效果,在為用戶提供個性化服務(wù)的同時也帶來了更好的用戶體驗。接下來,還將與業(yè)務(wù)方深度合作,探索更多的應(yīng)用場景,在合作的過程當(dāng)中進(jìn)行總結(jié)和提煉、優(yōu)化與創(chuàng)新,升級技術(shù)以應(yīng)對各種需求和挑戰(zhàn),我們期待為用戶和企業(yè)創(chuàng)造更大的價值。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2017-08-11 16:16:52

2019-09-02 15:49:06

大數(shù)據(jù)智慧城市大數(shù)據(jù)建設(shè)

2011-09-21 16:04:27

2018-11-05 15:24:20

數(shù)據(jù)分析智能能源生產(chǎn)端

2022-04-14 14:25:51

大數(shù)據(jù)智慧城市數(shù)據(jù)分析

2009-07-01 10:58:55

JSP網(wǎng)站建設(shè)

2011-09-02 09:20:02

信息化建設(shè)

2023-03-22 17:32:46

2017-01-18 08:41:22

大數(shù)據(jù)畫像建設(shè)

2019-11-25 15:51:14

區(qū)塊鏈智慧城市嵌入性

2019-12-09 10:12:57

智慧城市誤區(qū)物聯(lián)網(wǎng)

2011-06-29 15:06:00

SEO

2018-06-01 09:32:09

CIO 信息化建設(shè)

2022-09-05 07:39:46

備份CDP數(shù)據(jù)備份

2009-11-02 09:22:23

接入網(wǎng)技術(shù)

2023-02-06 14:09:47

AUTOID 10

2022-05-16 14:07:44

零信任審計零信任架構(gòu)

2022-08-01 11:30:27

數(shù)據(jù)建模

2010-06-12 17:24:47

NetBEUI協(xié)議

2024-01-29 15:49:49

點贊
收藏

51CTO技術(shù)棧公眾號