自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何實(shí)現(xiàn)基于內(nèi)容和用戶畫(huà)像的個(gè)性化推薦

大數(shù)據(jù)
個(gè)性化推薦系統(tǒng)是一門(mén)由數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)綜合的學(xué)科,它必須能夠基于用戶之前的口味和喜好提供相關(guān)的精確的推薦,而且這種口味和喜歡的收集必須盡量少的需要用戶的勞動(dòng)。本文主要介紹了如何基于內(nèi)容和用呢畫(huà)像實(shí)現(xiàn)一個(gè)個(gè)性化推薦化系統(tǒng)。

基于內(nèi)容和用戶畫(huà)像的個(gè)性化推薦,有兩個(gè)實(shí)體:內(nèi)容和用戶。需要有一個(gè)聯(lián)系這兩者的東西,即為標(biāo)簽。內(nèi)容轉(zhuǎn)換為標(biāo)簽即為內(nèi)容特征化,用戶則稱為用戶特征化。

[[165092]]

因此,對(duì)于此種推薦,主要分為以下幾個(gè)關(guān)鍵部分:

  • 標(biāo)簽庫(kù)
  • 內(nèi)容特征化
  • 用戶特征化
  • 隱語(yǔ)義推薦

綜合上面講述的各個(gè)部分即可實(shí)現(xiàn)一個(gè)基于內(nèi)容和用戶畫(huà)像的個(gè)性化推薦系統(tǒng)。如下圖所示:

 

標(biāo)簽庫(kù)

標(biāo)簽是聯(lián)系用戶與物品、內(nèi)容以及物品、內(nèi)容之間的紐帶,也是反應(yīng)用戶興趣的重要數(shù)據(jù)源。標(biāo)簽庫(kù)的最終用途在于對(duì)用戶進(jìn)行行為、屬性標(biāo)記。是將其他實(shí)體轉(zhuǎn)換為計(jì)算機(jī)可以理解的語(yǔ)言關(guān)鍵的一步。

標(biāo)簽庫(kù)則是對(duì)標(biāo)簽進(jìn)行聚合的系統(tǒng),包括對(duì)標(biāo)簽的管理、更新等。

一般來(lái)說(shuō),標(biāo)簽是以層級(jí)的形式組織的??梢杂幸患?jí)維度、二級(jí)維度等。

標(biāo)簽的來(lái)源主要有:

  • 已有內(nèi)容的標(biāo)簽
  • 網(wǎng)絡(luò)抓取流行標(biāo)簽
  • 對(duì)運(yùn)營(yíng)的內(nèi)容進(jìn)行關(guān)鍵詞提取

對(duì)于內(nèi)容的關(guān)鍵詞提取,使用結(jié)巴分詞 + TFIDF即可。此外,也可以使用TextRank來(lái)提取內(nèi)容關(guān)鍵詞。

內(nèi)容特征化

內(nèi)容特征化即給內(nèi)容打標(biāo)簽。目前有兩種方式:

  • 人工打標(biāo)簽
  • 機(jī)器自動(dòng)打標(biāo)簽

針對(duì)機(jī)器自動(dòng)打標(biāo)簽,需要采取機(jī)器學(xué)習(xí)的相關(guān)算法來(lái)實(shí)現(xiàn),即針對(duì)一系列給定的標(biāo)簽,給內(nèi)容選取其中匹配度***的幾個(gè)標(biāo)簽。這不同于通常的分類(lèi)和聚類(lèi)算法。可以采取使用分詞 + Word2Vec來(lái)實(shí)現(xiàn),過(guò)程如下:

  • 將文本語(yǔ)料進(jìn)行分詞,以空格,tab隔開(kāi)都可以,使用結(jié)巴分詞。
  • 使用word2vec訓(xùn)練詞的相似度模型。
  • 使用tfidf提取內(nèi)容的關(guān)鍵詞A,B,C。
  • 遍歷每一個(gè)標(biāo)簽,計(jì)算關(guān)鍵詞與此標(biāo)簽的相似度之和。
  • 取出TopN相似度***的標(biāo)簽即為此內(nèi)容的標(biāo)簽。(N這里取3)

用戶特征化

用戶特征化即為用戶打標(biāo)簽。通過(guò)用戶的行為日志和一定的模型算法得到用戶的每個(gè)標(biāo)簽的權(quán)重。

  • 用戶對(duì)內(nèi)容的行為:點(diǎn)擊、不敢興趣、瀏覽
  • 對(duì)內(nèi)容發(fā)生的行為可以認(rèn)為對(duì)此內(nèi)容所帶的標(biāo)簽的行為
  • 用戶的興趣是時(shí)間衰減的,即離當(dāng)前時(shí)間越遠(yuǎn)的興趣比重越低。時(shí)間衰減函數(shù)使用1/[log(t)+1], t為事件發(fā)生的時(shí)間距離當(dāng)前時(shí)間的大小
  • 要考慮到熱門(mén)內(nèi)容會(huì)干預(yù)用戶的標(biāo)簽,需要對(duì)熱門(mén)內(nèi)容進(jìn)行降權(quán)。使用click/pv來(lái)降低熱門(mén)內(nèi)容的權(quán)重

隱語(yǔ)義推薦

有了內(nèi)容特征和用戶特征,可以使用隱語(yǔ)義模型進(jìn)行推薦。這里可以使用其簡(jiǎn)化形式,以達(dá)到實(shí)時(shí)計(jì)算的目的。

用戶對(duì)于某一個(gè)內(nèi)容的興趣度(可以認(rèn)為是CTR):

 

其中i=1…N是內(nèi)容具有的標(biāo)簽,m(ci)指的內(nèi)容c和標(biāo)簽i的關(guān)聯(lián)度(目前都為1),n(ui)指的是用戶u的標(biāo)簽i的權(quán)重值,q©指的是內(nèi)容c的質(zhì)量,暫時(shí)使用點(diǎn)擊率表示。

責(zé)任編輯:Ophira 來(lái)源: 后端技術(shù)雜談
相關(guān)推薦

2022-11-01 07:19:45

推薦系統(tǒng)非個(gè)性化

2020-06-28 07:00:00

推薦系統(tǒng)智能商務(wù)服務(wù)平臺(tái)

2009-07-13 15:33:24

桌面虛擬化虛擬化IT

2016-01-07 13:23:35

構(gòu)建實(shí)時(shí)推薦系統(tǒng)

2015-11-09 10:12:08

大數(shù)據(jù)個(gè)性化推薦

2023-07-26 07:51:30

游戲中心個(gè)性化

2019-09-06 08:29:33

Netflix架構(gòu)推薦系統(tǒng)

2016-02-19 10:16:48

母嬰個(gè)推電商

2011-01-20 10:19:21

PowerShell個(gè)性化

2018-04-26 11:30:29

OracleBronto產(chǎn)品推薦

2018-04-27 16:23:27

Oracle Bron個(gè)性化產(chǎn)品

2024-05-09 07:32:09

用戶畫(huà)像平臺(tái)大數(shù)據(jù)算法

2017-07-24 09:18:29

大數(shù)據(jù)設(shè)計(jì)UX

2016-03-16 10:22:28

Spark用戶畫(huà)像數(shù)據(jù)科學(xué)

2018-11-08 09:37:08

微博系統(tǒng)架構(gòu)

2022-09-06 17:43:02

??AISummit數(shù)據(jù)運(yùn)營(yíng)

2023-08-22 15:37:45

深度學(xué)習(xí)人工智能

2025-02-28 08:03:45

2018-05-14 12:48:04

大數(shù)據(jù)銷(xiāo)售企業(yè)

2025-03-19 08:36:55

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)