自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何基于數(shù)據(jù)科學(xué)進(jìn)行用戶興趣分群?愛(ài)奇藝算法驗(yàn)證和迭代思路公開(kāi)

大數(shù)據(jù) 新聞
數(shù)據(jù)科學(xué)家的能力主要由三方面:較強(qiáng)的數(shù)學(xué)功底和數(shù)字敏感程度、很強(qiáng)的問(wèn)題解決能力、很強(qiáng)的業(yè)務(wù)溝通能力。

愛(ài)奇藝商業(yè)智能部門(mén)總監(jiān)陸祁女士將介紹愛(ài)奇藝在用戶興趣分群上的探索和實(shí)踐,主要介紹如何基于數(shù)據(jù)科學(xué)進(jìn)行用戶興趣分群,如何基于事實(shí)數(shù)據(jù)生成用戶興趣標(biāo)簽,以及介紹算法驗(yàn)證和迭代的思路,最后介紹如何基于用戶聚類(lèi)的方法去做用戶興趣分群。 

全文將圍繞下面三點(diǎn)展開(kāi):

  • 數(shù)據(jù)科學(xué)VS用戶興趣分群
  • 基于事實(shí)生成的用戶興趣標(biāo)簽
  • 基于內(nèi)容聚類(lèi)的用戶興趣分群探索

01 數(shù)據(jù)科學(xué)VS用戶興趣分群

首先通過(guò)下圖介紹一下數(shù)據(jù)科學(xué)專(zhuān)家的能力范圍。

圖片

注:圖片來(lái)源于網(wǎng)絡(luò),侵權(quán)刪?

數(shù)據(jù)科學(xué)家的能力主要由三方面:較強(qiáng)的數(shù)學(xué)功底和數(shù)字敏感程度、很強(qiáng)的問(wèn)題解決能力(包括數(shù)據(jù)分析、數(shù)據(jù)建模和數(shù)據(jù)處理等能力)、很強(qiáng)的業(yè)務(wù)溝通能力。

圖片

雖然數(shù)據(jù)科學(xué)家面對(duì)的業(yè)務(wù)是比較個(gè)性化的,但是我們今天將提煉出一個(gè)較為通用且具有借鑒意義的課題進(jìn)行分享——用戶興趣分群,其本質(zhì)是通過(guò)大數(shù)據(jù)的挖掘和分析,反映出用戶對(duì)某個(gè)主題或事物不同程度的匹配價(jià)值和接受程度。其在互聯(lián)網(wǎng)的各行各業(yè)中是比較適用的,例如電商行業(yè)、服務(wù)行業(yè)、內(nèi)容行業(yè)等,也可以應(yīng)用到一些算法場(chǎng)景提高其準(zhǔn)確度和效果,例如廣告搜索推薦、運(yùn)營(yíng)策略等。

02 基于事實(shí)生成的用戶興趣標(biāo)簽

1. 用戶興趣權(quán)重標(biāo)簽如何設(shè)計(jì)?

圖片

為了解不同用戶的興趣,采用最典型的方式就是給用戶打標(biāo)?;诓煌瑯I(yè)務(wù)的認(rèn)知,所提煉出的維度是各異的,但提取的流程類(lèi)似,例如愛(ài)奇藝平臺(tái)這類(lèi)內(nèi)容行業(yè)通常按照以下幾步提取用戶興趣偏好標(biāo)簽:

  • 基于業(yè)務(wù)認(rèn)知研究主題:選取不同興趣的主題,例如視頻內(nèi)容、視頻類(lèi)型、相關(guān)明星、播放頻道、播放時(shí)間以及價(jià)格等。
  • 基于以上主題梳理用戶行為:用戶會(huì)通過(guò)一些觀影和互動(dòng)等行為表現(xiàn)出對(duì)某一主題的傾向性,例如明星偏好,則可能存在關(guān)注、發(fā)彈幕評(píng)論、觀看相關(guān)視頻等行為。
  • 選取合適的維度和計(jì)算方法量化用戶行為:對(duì)于用戶各種顯式和隱式行為,需要一套合理的指標(biāo)體系進(jìn)行量化。針對(duì)觀影行為,可以從觀影次數(shù)、觀影時(shí)長(zhǎng)等維度進(jìn)行量化。
  • 數(shù)據(jù)處理:在建立這個(gè)體系的過(guò)程中,對(duì)不同的指標(biāo)采用加權(quán)、降權(quán)、時(shí)間衰減、起始值等方法使量化結(jié)果更加合理科學(xué)。經(jīng)過(guò)數(shù)據(jù)權(quán)重等方法處理后,得到一個(gè)總和的權(quán)重,還需要將其進(jìn)行0—1的歸一化處理,如果有負(fù)向指標(biāo),可以做-1—1的置信度處理。

通過(guò)以上方法得到的結(jié)果,便可以反應(yīng)用戶的偏好傾向,得分越高表示該用戶對(duì)于該主題的偏好更加強(qiáng)烈。

2. 用戶興趣標(biāo)簽的驗(yàn)證與迭代

圖片

上面介紹了生成標(biāo)簽的流程方法。在使用該標(biāo)簽之前,我們還需要審視一下這個(gè)標(biāo)簽的適用性,例如上述提到的可比性問(wèn)題。將標(biāo)簽引入到不同業(yè)務(wù)之前需要進(jìn)行審視和驗(yàn)證。

圖片?

對(duì)于標(biāo)簽的驗(yàn)證,主要有兩種方法:?

  • 盲測(cè)用戶問(wèn)卷:收集用戶反饋,例如用戶對(duì)明星喜好進(jìn)行判斷,便可提供整個(gè)權(quán)重的校準(zhǔn)依據(jù),基于此檢驗(yàn)排序性,判斷標(biāo)簽合理性。
  • 線上不同場(chǎng)景ABTEST:上線權(quán)重標(biāo)簽前可在內(nèi)容過(guò)濾、排序等模型上進(jìn)行測(cè)試,利用實(shí)驗(yàn)對(duì)照組觀察能否帶來(lái)明顯提升或正向效果,利用ABTEST的結(jié)果修正權(quán)重設(shè)計(jì)。

圖片?

權(quán)重標(biāo)簽更多的是做用戶中長(zhǎng)期的偏好計(jì)算, 對(duì)于即時(shí)愛(ài)好的計(jì)算需要采用事實(shí)標(biāo)簽。權(quán)重標(biāo)簽也存在一些短板:

  • 權(quán)重解釋性:權(quán)重標(biāo)簽生成過(guò)程中,難免進(jìn)行一下復(fù)雜的數(shù)據(jù)處理,使得該標(biāo)簽對(duì)于業(yè)務(wù)方而言不夠簡(jiǎn)單明了。
  • 每天全量decay:有些數(shù)據(jù)會(huì)融合各種衰減計(jì)算,使計(jì)算復(fù)雜度更高。
  • 不適合實(shí)時(shí)場(chǎng)景:對(duì)于每天實(shí)時(shí)發(fā)生的行為數(shù)據(jù)難以及時(shí)更新到權(quán)重標(biāo)簽中去,這樣的數(shù)據(jù)標(biāo)簽存在滯后性。

對(duì)于一些個(gè)性化的場(chǎng)景,會(huì)考慮給業(yè)務(wù)方提供事實(shí)標(biāo)簽,增加屬性維度,方便其更靈活使用。

3. 用戶興趣結(jié)構(gòu)化事實(shí)標(biāo)簽

圖片?

上圖展示了事實(shí)標(biāo)簽,主要分為了顯式行為和隱式行為,基本可以通過(guò)這些行為去判斷用戶對(duì)某一內(nèi)容或主題的偏好程度。其中顯式行為可以直觀表現(xiàn)用戶的偏好,而隱式行為雖不能直觀表現(xiàn)用戶態(tài)度,但對(duì)于應(yīng)用場(chǎng)景而言是有意義的統(tǒng)計(jì)數(shù)據(jù)。

03 基于內(nèi)容聚類(lèi)的用戶興趣分群探索

我們通過(guò)以上方法對(duì)用戶進(jìn)行打標(biāo)之后,如何針對(duì)性的做一些內(nèi)容推送或者運(yùn)營(yíng)策略?

1. 用戶興趣圈層分類(lèi)方法

圖片

我們常用的對(duì)用戶進(jìn)行分組的思維通常是基于用戶屬性,根據(jù)人口統(tǒng)計(jì)學(xué)的思想分為少男/少女、男青年/女青年、中高齡等人群。這種分法對(duì)于內(nèi)容平臺(tái)不夠有針對(duì)性,因此可以采用第二種圈層方法——基于內(nèi)容屬性進(jìn)行興趣圈層。具有以下優(yōu)勢(shì):

  • 通過(guò)算法發(fā)現(xiàn)看似完全不同內(nèi)容之間意想不到的關(guān)聯(lián)性。
  • 對(duì)于內(nèi)容運(yùn)營(yíng),可為人工運(yùn)營(yíng)場(chǎng)景提供數(shù)據(jù)支持。
  • 對(duì)于內(nèi)容供給規(guī)劃方,可將純業(yè)務(wù)經(jīng)驗(yàn)驅(qū)動(dòng)轉(zhuǎn)變?yōu)榇髷?shù)據(jù)驅(qū)動(dòng)。

2. 圈層聚類(lèi)方法

圖片

對(duì)于圈層聚類(lèi),首先是對(duì)內(nèi)容進(jìn)行聚類(lèi),如果兩個(gè)內(nèi)容的受眾群體的重合度較高意味著內(nèi)容的相似度較高,可劃分為同類(lèi)內(nèi)容。利用用戶圈層聚類(lèi)系統(tǒng),可客觀、精準(zhǔn)定位目標(biāo)人群,具有以下優(yōu)勢(shì):

  • 客觀觀影行為:基于用戶真實(shí)播放行為為依據(jù),避免了打標(biāo)過(guò)程中人的先知經(jīng)驗(yàn)判斷,更加客觀。
  • 顆粒度可控:圈層劃分粒度可根據(jù)業(yè)務(wù)需求進(jìn)行選擇,例如規(guī)劃可以選擇粗粒度,運(yùn)營(yíng)方則可選擇更細(xì)的粒度。
  • 數(shù)據(jù)獲取便捷:可利用算法自動(dòng)聚類(lèi)圈人。

圖片?

通過(guò)經(jīng)典的相似度計(jì)算方法可以計(jì)算不同內(nèi)容專(zhuān)輯的用戶相似度,但在實(shí)際應(yīng)用中會(huì)碰到很多問(wèn)題,因此通過(guò)以下修正提升任意兩個(gè)內(nèi)容之間重合度的可比性:

  • 修正1:修正內(nèi)容體量差異、頻道規(guī)模差異對(duì)用戶重合度計(jì)算的影響。
  • 修正2:修正內(nèi)容上線時(shí)間早晚、上線時(shí)間間隔對(duì)用戶重合度計(jì)算的影響。

圖片

在上述優(yōu)化方法的基礎(chǔ)上,還可以采用層次聚類(lèi)等聚類(lèi)方法進(jìn)行更深層次的優(yōu)化。通過(guò)剪枝線的滑動(dòng),控制內(nèi)容聚合的顆粒度,通過(guò)計(jì)算兩兩內(nèi)容的用戶相似度,將用戶最相似的內(nèi)容先聚在一起,依次向上聚集。

圖片

以上是一個(gè)例子,分別采用了內(nèi)容聚類(lèi)方法和標(biāo)簽的方法進(jìn)行的分類(lèi)。左圖是對(duì)于某興趣圈層用戶聚類(lèi)得到的內(nèi)容,右圖是通過(guò)傳統(tǒng)標(biāo)簽打標(biāo)分類(lèi)得到??梢园l(fā)現(xiàn)左圖的綜合歸納的內(nèi)容和用戶特征是可以推測(cè)出用戶的核心訴求,即求追經(jīng)典、優(yōu)質(zhì)IP等,內(nèi)容形成一定價(jià)值體系,在娛樂(lè)同時(shí)可以向觀眾輸出觀點(diǎn)、產(chǎn)生火花碰撞。與右圖的純類(lèi)別分類(lèi)方法相比,更加符合用戶需求。

04 問(wèn)答

Q1:怎么衡量用戶標(biāo)簽的業(yè)務(wù)落地和收益?

A1:在愛(ài)奇藝團(tuán)隊(duì)中主要應(yīng)用在兩個(gè)方向,一個(gè)是人工運(yùn)營(yíng)和規(guī)劃上,一個(gè)是與算法結(jié)合的一些模型應(yīng)用上以及用戶畫(huà)像挖掘等方向。收益可以體現(xiàn)在利用線上ABTEST得到數(shù)據(jù)效果,以及人工運(yùn)營(yíng)的投放和活動(dòng)上。

Q2:用戶聚類(lèi)和推薦算法之間是個(gè)什么關(guān)系?

A2:用戶聚類(lèi)的結(jié)果會(huì)作為信號(hào)直接輸入到算法團(tuán)隊(duì),但在推薦層面,模型中其實(shí)已經(jīng)包含大量用戶行為和內(nèi)容選擇的信號(hào)輸入,原始數(shù)據(jù)中,已經(jīng)體現(xiàn)了這類(lèi)用戶行為的數(shù)據(jù)信息。這個(gè)內(nèi)容聚類(lèi)更多是從業(yè)務(wù)的角度,相對(duì)于打標(biāo)的方法幫助業(yè)務(wù)方更好理解其聚類(lèi)過(guò)程。

Q3:如何甄別用戶在某興趣圈層是否為核心人群或邊緣人群?

A3:如采用傳統(tǒng)權(quán)重標(biāo)簽的方法,可以直接通過(guò)權(quán)重就能表現(xiàn)標(biāo)簽的偏好程度。而對(duì)于內(nèi)容聚類(lèi)的層面,例如二次元,天然形成一堆相似內(nèi)容,運(yùn)營(yíng)便可以精準(zhǔn)投放到該類(lèi)內(nèi)容背后的用戶。

Q4:一些高熱度節(jié)目會(huì)不會(huì)對(duì)于用戶重疊度分析上帶來(lái)偏差?

A4:這個(gè)問(wèn)題就是上文提到的關(guān)于內(nèi)容體量的相似度修正,對(duì)于體量特別大和特別小的內(nèi)容需要計(jì)算兩兩內(nèi)容用戶重合度的基準(zhǔn)值(期望),去除內(nèi)容體量的影響。

今天的分享就到這里,謝謝大家。

責(zé)任編輯:張燕妮 來(lái)源: DataFunTalk
相關(guān)推薦

2023-06-05 07:36:30

數(shù)據(jù)湖大數(shù)據(jù)架構(gòu)

2015-07-22 12:53:55

羅生門(mén)式

2023-08-11 07:44:09

大數(shù)據(jù)數(shù)據(jù)分析

2012-07-18 09:29:14

愛(ài)奇藝Windows Pho

2022-06-10 15:37:24

愛(ài)奇藝App網(wǎng)絡(luò)

2021-01-08 13:42:28

愛(ài)奇藝機(jī)器學(xué)習(xí)深度學(xué)習(xí)

2015-07-23 14:50:54

2022-07-22 15:31:45

愛(ài)奇藝?視頻內(nèi)容延遲敏感

2014-04-01 15:41:42

愛(ài)奇藝Mesos

2016-12-23 14:03:40

華為愛(ài)奇藝

2018-12-27 13:11:04

愛(ài)奇藝APP優(yōu)化

2023-05-17 07:42:11

2014-11-11 16:07:11

2015-07-07 12:03:01

2014-08-19 15:32:11

愛(ài)奇藝百加視頻手機(jī)

2020-02-17 19:48:15

超長(zhǎng)假服務(wù)器殺手

2015-07-16 16:22:41

愛(ài)奇藝

2021-12-06 07:49:43

愛(ài)奇藝裁員互聯(lián)網(wǎng)

2013-05-09 09:16:03

愛(ài)奇藝

2021-04-27 15:23:55

Windows10操作系統(tǒng)微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)