自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓機(jī)器讀懂用戶——大數(shù)據(jù)中的用戶畫(huà)像

企業(yè)動(dòng)態(tài)
用戶畫(huà)像的含義、作用、內(nèi)容、生產(chǎn)和管理。

用戶畫(huà)像的含義

用戶畫(huà)像(persona)的概念最早由交互設(shè)計(jì)之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真實(shí)用戶的虛擬代表,是建立在一系列屬性數(shù)據(jù)之上的目標(biāo)用戶模型。隨著互聯(lián)網(wǎng)的發(fā)展,現(xiàn)在我們說(shuō)的用戶畫(huà)像又包含了新的內(nèi)涵——通常用戶畫(huà)像是根據(jù)用戶人口學(xué)特征、網(wǎng)絡(luò)瀏覽內(nèi)容、網(wǎng)絡(luò)社交活動(dòng)和消費(fèi)行為等信息而抽象出的一個(gè)標(biāo)簽化的用戶模型。構(gòu)建用戶畫(huà)像的核心工作,主要是利用存儲(chǔ)在服務(wù)器上的海量日志和數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行分析和挖掘,給用戶貼“標(biāo)簽”,而“標(biāo)簽”是能表示用戶某一維度特征的標(biāo)識(shí)。具體的標(biāo)簽形式可以參考下圖某網(wǎng)站給其中一個(gè)用戶打的標(biāo)簽。

用戶畫(huà)像的作用

提取用戶畫(huà)像,需要處理海量的日志,花費(fèi)大量時(shí)間和人力。盡管是如此高成本的事情,大部分公司還是希望能給自己的用戶做一份足夠精準(zhǔn)的用戶畫(huà)像。

那么用戶畫(huà)像有什么作用,能幫助我們達(dá)到哪些目標(biāo)呢?

大體上可以總結(jié)為以下幾個(gè)方面:

1. 精準(zhǔn)營(yíng)銷(xiāo):精準(zhǔn)直郵、短信、App消息推送、個(gè)性化廣告等。

2. 用戶研究:指導(dǎo)產(chǎn)品優(yōu)化,甚至做到產(chǎn)品功能的私人定制等。

3. 個(gè)性服務(wù):個(gè)性化推薦、個(gè)性化搜索等。

4. 業(yè)務(wù)決策:排名統(tǒng)計(jì)、地域分析、行業(yè)趨勢(shì)、競(jìng)品分析等。

用戶畫(huà)像的內(nèi)容

用戶畫(huà)像包含的內(nèi)容并不完全固定,根據(jù)行業(yè)和產(chǎn)品的不同所關(guān)注的特征也有不同。對(duì)于大部分互聯(lián)網(wǎng)公司,用戶畫(huà)像都會(huì)包含人口屬性和行為特征。人口屬性主要指用戶的年齡、性別、所在的省份和城市、教育程度、婚姻情況、生育情況、工作所在的行業(yè)和職業(yè)等。行為特征主要包含活躍度、忠誠(chéng)度等指標(biāo)。

除了以上較通用的特征,不同類(lèi)型的網(wǎng)站提取的用戶畫(huà)像各有側(cè)重點(diǎn)。

以內(nèi)容為主的媒體或閱讀類(lèi)網(wǎng)站,還有搜索引擎或通用導(dǎo)航類(lèi)網(wǎng)站,往往會(huì)提取用戶對(duì)瀏覽內(nèi)容的興趣特征,比如體育類(lèi)、娛樂(lè)類(lèi)、美食類(lèi)、理財(cái)類(lèi)、旅游類(lèi)、房產(chǎn)類(lèi)、汽車(chē)類(lèi)等等。

社交網(wǎng)站的用戶畫(huà)像,也會(huì)提取用戶的社交網(wǎng)絡(luò),從中可以發(fā)現(xiàn)關(guān)系緊密的用戶群和在社群中起到意見(jiàn)領(lǐng)袖作用的明星節(jié)點(diǎn)。

電商購(gòu)物網(wǎng)站的用戶畫(huà)像,一般會(huì)提取用戶的網(wǎng)購(gòu)興趣和消費(fèi)能力等指標(biāo)。網(wǎng)購(gòu)興趣主要指用戶在網(wǎng)購(gòu)時(shí)的類(lèi)目偏好,比如服飾類(lèi)、箱包類(lèi)、居家類(lèi)、母嬰類(lèi)、洗護(hù)類(lèi)、飲食類(lèi)等。

消費(fèi)能力指用戶的購(gòu)買(mǎi)力,如果做得足夠細(xì)致,可以把用戶的實(shí)際消費(fèi)水平和在每個(gè)類(lèi)目的心理消費(fèi)水平區(qū)分開(kāi),分別建立特征緯度。

另外還可以加上用戶的環(huán)境屬性,比如當(dāng)前時(shí)間、訪問(wèn)地點(diǎn)LBS特征、當(dāng)?shù)靥鞖?、?jié)假日情況等。

當(dāng)然,對(duì)于特定的網(wǎng)站或App,肯定又有特殊關(guān)注的用戶緯度,就需要把這些維度做到更加細(xì)化,從而能給用戶提供更精準(zhǔn)的個(gè)性化服務(wù)和內(nèi)容。

用戶畫(huà)像的生產(chǎn)

用戶特征的提取即用戶畫(huà)像的生產(chǎn)過(guò)程,大致可以分為以下幾步:

1. 用戶建模,指確定提取的用戶特征維度,和需要使用到的數(shù)據(jù)源。

2. 數(shù)據(jù)收集,通過(guò)數(shù)據(jù)收集工具,如Flume或自己寫(xiě)的腳本程序,把需要使用的數(shù)據(jù)統(tǒng)一存放到Hadoop集群。

3. 數(shù)據(jù)清理,數(shù)據(jù)清理的過(guò)程通常位于Hadoop集群,也有可能與數(shù)據(jù)收集同時(shí)進(jìn)行,這一步的主要工作,是把收集到各種來(lái)源、雜亂無(wú)章的數(shù)據(jù)進(jìn)行字段提取,得到關(guān)注的目標(biāo)特征。

4. 模型訓(xùn)練,有些特征可能無(wú)法直接從數(shù)據(jù)清理得到,比如用戶感興趣的內(nèi)容或用戶的消費(fèi)水平,那么可以通過(guò)收集到的已知特征進(jìn)行學(xué)習(xí)和預(yù)測(cè)。

5. 屬性預(yù)測(cè),利用訓(xùn)練得到的模型和用戶的已知特征,預(yù)測(cè)用戶的未知特征。

6. 數(shù)據(jù)合并,把用戶通過(guò)各種數(shù)據(jù)源提取的特征進(jìn)行合并,并給出一定的可信度。

7. 數(shù)據(jù)分發(fā),對(duì)于合并后的結(jié)果數(shù)據(jù),分發(fā)到精準(zhǔn)營(yíng)銷(xiāo)、個(gè)性化推薦、CRM等各個(gè)平臺(tái),提供數(shù)據(jù)支持。

下面以用戶性別為例,具體介紹特征提取的過(guò)程:

1.提取用戶自己填寫(xiě)的資料,比如注冊(cè)時(shí)或者活動(dòng)中填寫(xiě)的性別資料,這些數(shù)據(jù)準(zhǔn)確率一般很高。

2. 提取用戶的稱謂,如文本中有提到的對(duì)方稱呼,例如:xxx先生/女士,這個(gè)數(shù)據(jù)也比較準(zhǔn)。

3. 根據(jù)用戶姓名預(yù)測(cè)用戶性別,這是一個(gè)二分類(lèi)問(wèn)題,可以提取用戶的名字部分(百家姓與性別沒(méi)有相關(guān)性),然后用樸素貝葉斯分類(lèi)器訓(xùn)練一個(gè)分類(lèi)器。過(guò)程中遇到了生僻字問(wèn)題,比如“甄嬛”的“嬛”,由于在名字中出現(xiàn)的少,因此分類(lèi)器無(wú)法進(jìn)行正確分類(lèi)??紤]到漢字都是由偏旁部首組成,且偏旁部首也常常具有特殊含義(很多與性別具有相關(guān)性,比如草字頭傾向女性,金字旁傾向男性),我們利用五筆輸入法分解單字,再把名字本身和五筆打法的字母一起放到LR分類(lèi)器進(jìn)行訓(xùn)練。比如,“嬛”字的打法:『 女V+罒L+一G+衣E = VLGE 』,這里的女字旁就很有女性傾向。

4. 另外還有一些特征可以利用,比如用戶訪問(wèn)過(guò)的網(wǎng)站,經(jīng)常訪問(wèn)一些美妝或女性服飾類(lèi)網(wǎng)站,是女性的可能性就高;訪問(wèn)體育軍事類(lèi)網(wǎng)站,是男性的可能性就高。還有用戶上網(wǎng)的時(shí)間段,經(jīng)常深夜上網(wǎng)的用戶男性的可能性就高。把這些特征加入到LR分類(lèi)器進(jìn)行訓(xùn)練,也能提高一定的數(shù)據(jù)覆蓋率。

數(shù)據(jù)管理系統(tǒng)

用戶畫(huà)像涉及到大量的數(shù)據(jù)處理和特征提取工作,往往需要用到多數(shù)據(jù)來(lái)源,且多人并行處理數(shù)據(jù)和生成特征。因此,需要一個(gè)數(shù)據(jù)管理系統(tǒng)來(lái)對(duì)數(shù)據(jù)統(tǒng)一進(jìn)行合并存儲(chǔ)和分發(fā)。我們的系統(tǒng)以約定的目錄結(jié)構(gòu)來(lái)組織數(shù)據(jù),基本目錄層級(jí)為:/user_tag/屬性/日期/來(lái)源_作者/。以性別特征為例,開(kāi)發(fā)者dev1從用戶姓名提取的性別數(shù)據(jù)存放路徑為 /user_tag/gender/20170101/name_dev1,開(kāi)發(fā)者dev2從用戶填寫(xiě)資料提取的性別數(shù)據(jù)存放路徑為 /user_tag/gender/20170102/raw_dev2。

從每種來(lái)源提取的數(shù)據(jù)可信度是不同的,所以各來(lái)源提取的數(shù)據(jù)必須給出一定的權(quán)重,約定一般為0-1之間的一個(gè)概率值,這樣系統(tǒng)在做數(shù)據(jù)的自動(dòng)合并時(shí),只需要做簡(jiǎn)單的加權(quán)求和,并歸一化輸出到集群,存儲(chǔ)到事先定義好的Hive表。接下來(lái)就是數(shù)據(jù)增量更新到HBase、ES、Spark集群等更多應(yīng)用服務(wù)集群。

應(yīng)用示例:個(gè)性化推薦

以電商網(wǎng)站的某種頁(yè)面的個(gè)性化推薦為例,考慮到特征的可解釋性、易擴(kuò)展和模型的計(jì)算性能,很多線上推薦系統(tǒng)采用LR(邏輯回歸)模型訓(xùn)練,這里也以LR模型舉例。很多推薦場(chǎng)景都會(huì)用到基于商品的協(xié)同過(guò)濾,而基于商品協(xié)同過(guò)濾的核心是一個(gè)商品相關(guān)性矩陣W,假設(shè)有n個(gè)商品,那么W就是一個(gè)n * n的矩陣,矩陣的元素wij代表商品Ii和Ij之間的相關(guān)系數(shù)。而根據(jù)用戶訪問(wèn)和購(gòu)買(mǎi)商品的行為特征,可以把用戶表示成一個(gè)n維的特征向量U=[ i1, i2, ..., in ]。于是U*W可以看成用戶對(duì)每個(gè)商品的感興趣程度V=[ v1, v2, ..., vn ],這里v1即是用戶對(duì)商品I1的感興趣程度,v1= i1*w11 + i2*w12 + in*w1n。如果把相關(guān)系數(shù)w11, w12, ..., w1n 看成要求的變量,那么就可以用LR模型,代入訓(xùn)練集用戶的行為向量U,進(jìn)行求解。這樣一個(gè)初步的LR模型就訓(xùn)練出來(lái)了,效果和基于商品的協(xié)同過(guò)濾類(lèi)似。

這時(shí)只用到了用戶的行為特征部分,而人口屬性、網(wǎng)購(gòu)偏好、內(nèi)容偏好、消費(fèi)能力和環(huán)境特征等其他上下文還沒(méi)有利用起來(lái)。把以上特征加入到LR模型,同時(shí)再加上目標(biāo)商品自身的屬性,如文本標(biāo)簽、所屬類(lèi)目、銷(xiāo)量等數(shù)據(jù),如下圖所示,進(jìn)一步優(yōu)化訓(xùn)練原來(lái)的LR模型。從而最大程度利用已經(jīng)提取的用戶畫(huà)像數(shù)據(jù),做到更精準(zhǔn)的個(gè)性化推薦。

點(diǎn)評(píng):

用戶畫(huà)像是當(dāng)前大數(shù)據(jù)領(lǐng)域的一種典型應(yīng)用,也普遍應(yīng)用在多款網(wǎng)易互聯(lián)網(wǎng)產(chǎn)品中。本文基于網(wǎng)易的實(shí)踐,深入淺出地解析了用戶畫(huà)像的原理和生產(chǎn)流程。

精確有效的用戶畫(huà)像,依賴于從大量的數(shù)據(jù)中提取正確的特征,這需要一個(gè)強(qiáng)大的數(shù)據(jù)管理系統(tǒng)作為支撐。網(wǎng)易大數(shù)據(jù)產(chǎn)品體系中包含的一站式大數(shù)據(jù)開(kāi)發(fā)與管理平臺(tái) – 網(wǎng)易猛犸,正是在網(wǎng)易內(nèi)部實(shí)踐中打磨形成的,能夠?yàn)橛脩舢?huà)像及后續(xù)的業(yè)務(wù)目標(biāo)實(shí)現(xiàn)提供數(shù)據(jù)傳輸、計(jì)算和作業(yè)流調(diào)度等基礎(chǔ)能力,有效降低大數(shù)據(jù)應(yīng)用的技術(shù)門(mén)檻。

責(zé)任編輯:Jane 來(lái)源: 51CTO
相關(guān)推薦

2017-11-21 13:46:30

大數(shù)據(jù)用戶畫(huà)像數(shù)據(jù)管理

2016-11-17 11:18:01

金融行業(yè)大數(shù)據(jù)用戶畫(huà)像

2021-03-09 10:06:34

大數(shù)據(jù)畫(huà)像數(shù)據(jù)采集

2021-07-29 11:37:32

SIKT模型數(shù)據(jù)

2015-04-22 13:20:21

企業(yè)網(wǎng)D1Net

2016-04-18 12:01:16

2021-07-13 19:19:57

大數(shù)據(jù)大數(shù)據(jù)殺熟

2017-04-28 11:15:26

大數(shù)據(jù)用戶畫(huà)像技術(shù)

2024-03-29 11:39:57

用戶畫(huà)像用戶分群用戶分層

2017-06-28 17:08:00

2017-02-09 11:05:11

大數(shù)據(jù)用戶畫(huà)像技術(shù)

2023-03-15 07:22:56

畫(huà)像平臺(tái)數(shù)據(jù)中臺(tái)

2022-10-31 11:35:48

用戶畫(huà)像底層模型

2018-06-06 14:17:44

聚類(lèi)分析算法大數(shù)據(jù)

2013-04-18 10:54:48

大數(shù)據(jù)APP大數(shù)據(jù)全球技術(shù)峰會(huì)

2018-04-26 14:59:29

移動(dòng)App

2016-03-16 10:22:28

Spark用戶畫(huà)像數(shù)據(jù)科學(xué)

2022-12-15 08:35:01

用戶畫(huà)像平臺(tái)

2024-02-27 13:07:49

用戶畫(huà)像數(shù)據(jù)分析HR

2013-02-27 10:56:39

大數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)