字節(jié)基于用戶畫像標簽的分析及業(yè)務場景應用
隨著企業(yè)數(shù)字化轉型的深入發(fā)展,對用戶深層理解的渴望日益迫切。在此背景下,本次分享精心剖析了用戶畫像標簽的精髓及其在多變業(yè)務場景中的關鍵作用。從基礎屬性標簽到策略上的標簽,不僅系統(tǒng)性地介紹了各類型標簽的構建與應用,還著重強調了在快節(jié)奏的數(shù)字化時代中,如何通過高效的異常值處理、時間衰減考量及數(shù)據(jù)區(qū)分度提升等手段,確保標簽的準確性和實用性。并且深入討論了如何長期評估和追蹤用戶畫像的內聚性和穩(wěn)定性,為數(shù)據(jù)產品經理提供了一把銳利的工具,助力其在激烈的市場競爭中準確把握用戶需求,不斷提升產品和策略的效能。
一、畫像標簽介紹
1、基礎屬性畫像標簽
基礎屬性類畫像標簽是用戶自身屬性的標簽,通常不與用戶在 APP 上的行為掛鉤,例如性別、年齡、操作系統(tǒng)、所在城市等。
其建立方式包括:
- 用戶填寫:注冊時提供的個人信息。
- 埋點采集:在 APP 上設置埋點收集用戶數(shù)據(jù)。
- 模型預測:對缺失或采集不到的數(shù)據(jù)使用模型進行預測和補充。
- 第三方數(shù)據(jù)源獲?。嘿徺I或獲取第三方數(shù)據(jù)源,或是大公司如騰訊、阿里等通過集團內部其他部門獲取信息。
基礎屬性畫像標簽的應用場景主要包括:
- 日常分析:用于大致了解用戶的屬性分布,以及新場景分析、業(yè)務發(fā)展、異動歸因下鉆等場景,例如通過標簽分析點擊率下滑原因,確定是否存在超預期的降幅。
- 建模用:作為復雜畫像的輸入特征,用于提高業(yè)務操作的精確度。例如搜索排序、用戶行為預測等場景。
2、業(yè)務向畫像標簽
與業(yè)務目標(或者說 KPI)強關聯(lián)的標簽,通?;谶@樣的標簽找到業(yè)務的目標人群。
可以根據(jù)與 KPI 的關聯(lián)分為兩大類:
- KPI 強關聯(lián)(以 MAU 為 KPI 時):高活/低活用戶(基于活躍天數(shù)),直接反映了用戶與 KPI 的關系,如月活躍用戶數(shù)、首次月活用戶、流失用戶、沉默用戶等。
- KPI 弱關聯(lián):高中低活躍用戶、場景活躍偏好用戶(TGI),通過復雜的計算和用戶行為的綜合評估得出,提供更細致的用戶分類。
建設方式包括:
- 基于 KPI 按照距離目標遠近定義用戶:直接根據(jù) KPI 的具體要求對用戶進行分類。
- 基于用戶行為進行復合計算:綜合考慮用戶在平臺上的多種行為進行用戶分類。
使用方式包括:
- 了解運營目標進度:利用畫像標簽進行深入分析,了解符合條件的用戶數(shù)量和接近 KPI 目標的用戶。以及通過標簽下鉆進行 KPI 的預估,并找到實現(xiàn)路徑的拆解,幫助預測達成 KPI 的可能性,特別是對難以運營的用戶群體進行更深入的分析。
- 錨定主要的目標人群,便于整體的差異化策略:利用不同的用戶群體標簽(如高活、中活、低活用戶或具有不同購買力的用戶)實施差異化運營策略。根據(jù)用戶特征在搜索結果中展示不同價格的商品,或根據(jù)用戶活躍偏好將他們引導至不同的場景。
3、策略向人群
針對特定策略建設?群標簽,通常能夠在 AB 實驗中拿到較好的收益。例如:
- 增益人群:紅包敏感的人群,發(fā)放紅包后 ARPPU 值提升高。
與權益干預相關的標簽,可以幫助我們識別那些在接受紅包或全域干預后會顯示出顯著提升的用戶群體。通過 AUUC 圖的分析,可以預測特定用戶群體干預前后的增量以及預期的投資回報率(ROI)。這種預測性的分析可以為策略決策提供堅實的數(shù)據(jù)支持。
- 復購人群:在特定類目、特定購買間隔下有高復購傾向的用戶。
針對電商場景的復購屬性用戶,會通過分析用戶購買某一類目的時間間隔分布,進行統(tǒng)計擬合,預計不同用戶的購買間隔。當用戶預計的購買間隔接近時,通過適當?shù)囊龑Ш透深A,可以有效提高用戶的復購率。這種策略不僅增加了用戶對平臺的粘性,還有助于搶占市場份額。
- 未來預測人群:通過模型預測用戶未來的行為/流失概率。
預測類的標簽基于用戶的歷史行為和其他戰(zhàn)略特征,預測用戶未來的行為模式,如流失或沉默的概率。利用這些信息,可以繪制熱力圖來表示不同預測分數(shù)區(qū)間內的用戶流失概率和數(shù)量。這種方法使我們能夠精確地識別出潛在的風險用戶群,并對他們實施針對性的運營策略,從而最大化 ROI 和 AB 實驗的增量效益。
策略向人群的建設方式包括:uplift 模型、復購周期預測、二分類模型等。
使用方式為:在特定策略(紅包/push 干預)下,進行干預的目標?群,實現(xiàn) ROI 的最大化。
二、畫像特征的處理與標簽的評估
1、標簽特征處理
這里主要介紹一些日常特征處理中容易被忽視的步驟。
(1)數(shù)據(jù)清洗
- 異常值檢測
這一步驟的重要性常被忽略,但其對提升標簽準確性至關重要。檢測方法已比較成熟,通常使用箱形圖和 AVF,前者主要用于數(shù)值型特征,后者主要用于類別型數(shù)據(jù)。 - 異常值填充
檢測得到的異常值處理方式,一種是丟棄包含異常值的記錄,另一種是使用 cap 分位點或 floor 分位點的值替代異常值(例如,用 97% 分位數(shù)代替異常大值)。 - 空值填充
根據(jù)指標的定義選擇最大值或最小值填充(如 Recency 類指標選擇最大值,F(xiàn)requency 類選擇最小值)。
(2)時間衰減處理
用戶標簽的生成同時參照 RFM 模型中提供的三個維度進行特征構建:
- Recency(近度):用戶最近一次登錄距今天數(shù)
- Frequency(頻率):用戶最近 90 天登錄天數(shù)
- Monetary(消費金額,這里引申為強度):用戶最近 90 天 APP 內停留時長
處理的目標是讓距今更近的行為對分數(shù)產生更大的影響。
Frequency 類的指標中有一些代表過去一段時間的累計行為,如過去 90 天的總登錄次數(shù),定義按照假如兩個用戶在這個指標上的數(shù)值相同那代表他們的活躍頻次是相同的。但需要考慮一個場景,如果用戶 A 只在最近 10 天登錄了 10 次,用戶 B 只在 80 天前登錄了 10 次,他們的 F 指標都是 10,可是用戶 A 的活躍度直觀來看應該更高。如果希望數(shù)值上體現(xiàn)這個差異的話,可以對每一天的數(shù)據(jù)乘以一個權重再進行求和,這個權重是一個隨著距今時間增加而衰減的函數(shù)。
為了在數(shù)值上體現(xiàn)這個差異,可以對每一天的數(shù)據(jù)乘以一個權重再進行求和,這個權重是一個隨著距今時間增加而衰減的函數(shù)。公式如下:
(3)平滑處理
在互聯(lián)網平臺中,用戶行為數(shù)據(jù)通常展現(xiàn)出顯著的頭部/長尾效應。即絕大多數(shù)用戶表現(xiàn)出相似的指標特征,而在數(shù)據(jù)的尾部則存在著很多行為多樣的用戶群體(數(shù)量小但分布廣)。此現(xiàn)象導致數(shù)據(jù)在區(qū)分不同用戶行為時的能力受限,特別是對于那些行為模式較為獨特的用戶群體。
因此需要進行平滑處理,其目標是提升數(shù)據(jù)區(qū)分度,以增強模型對用戶行為的識別能力。
具體的解決方案為,采用對數(shù)函數(shù)(log 函數(shù))對原始數(shù)據(jù)進行平滑處理。對數(shù)轉換能夠減少極端值的影響,使數(shù)據(jù)分布更加平緩,從而提高數(shù)據(jù)的區(qū)分度。通過對數(shù)平滑處理后,數(shù)據(jù)分布將更加均勻,能夠更有效地識別和區(qū)分不同用戶的行為模式。特別是對于長尾中的小眾用戶行為,能夠更準確地進行識別和分析。
在實施平滑處理時,需注意選擇合適的 log 函數(shù)以及處理方法,以確保數(shù)據(jù)轉換后能夠有效反映用戶行為的真實特征,并對模型的預測能力產生積極影響。
通過 log 函數(shù)對原數(shù)據(jù)進行處理,處理前后數(shù)據(jù)分布對比如下:
2、畫像結果評估
在確定了畫像標簽后,進行長期的評估或追蹤是至關重要的步驟。在特定命題下,可以直接通過 AUC、AUUC、召回等指標準確地評估。但是在非特定命題的情況下,可能無法通過這些指標簡單地評估標簽質量。日常使用中,通常有兩種評估標準,即內聚性和穩(wěn)定性。
(1)內聚性
- 目標:確保同一分層的用戶相互間比較相似,而不同分層的用戶存在較大的差異,實現(xiàn)高內聚、低耦合的聚類結果。
- 衡量指標:輪廓系數(shù)(Silhouette Coefficient),這個指標能同時衡量類內聚合度和類間分離度。指標越大,表明分層結果越好。
- 計算方法:對于每一個樣本,計算其輪廓系數(shù),然后對所有樣本求均值以評估總體的分層結果。這是一個相對指標,適合用于比較兩種分層結果的優(yōu)劣,而不是單一分層的質量絕對評估。
(2)穩(wěn)定性
- 穩(wěn)定的定義包括兩個方面:
分層標準的穩(wěn)定性:在引入新數(shù)據(jù)或用戶群體增加后,分層標準保持不變,表明分層標準的穩(wěn)定性。
分層結果的穩(wěn)定性:不同分層的用戶表現(xiàn)應該是穩(wěn)定的,例如,活躍用戶的次留率不存在過大的波動,表明分層結果的穩(wěn)定性。 - 穩(wěn)定性衡量指標:離散系數(shù)(Coefficient of Variation),即樣本的標準差除以均值。離散系數(shù)的值越大,代表波動越大、穩(wěn)定性越低。
離散系數(shù)是一個絕對數(shù)值,一般來說,離散系數(shù)在 5% 以下時,我們認為這個分層是穩(wěn)定的。參照穩(wěn)定性的含義,我們可以基于每個分層用戶的表現(xiàn)指標(如次留率)去計算,也可以用分層的邊界值計算(如活躍分的 75 分位數(shù))。
三、Q&A
Q1:不同活躍度的人群內聚指標是如何計算的?
A1:不同活躍度人群的內聚性計算基于比較核心關注的指標,例如用戶在平臺的活躍天數(shù)。具體計算方法是,首先為每個用戶分配高中低活躍的標簽。然后,計算高活用戶與其他高活用戶在活躍天數(shù)上的差異,同時計算高活用戶與中、低活用戶的活躍天數(shù)差異。理想情況下,同一活躍度分層內的用戶差異較小,而不同分層之間差異較大。通過這樣的計算,我們可以得到一個單一數(shù)值來評估內聚性,并用此判斷不同分層方式的優(yōu)劣。
Q2:高中低活這條線應該如何劃分?
A2:在劃分高中低活用戶時,我們可能會采用不同的方法。每種方法都可以計算內聚性和分層穩(wěn)定性。我們將選擇在內聚性或穩(wěn)定性上表現(xiàn)更好的分層方式。這意味著我們尋找能最佳區(qū)分不同用戶群體行為的分層標準。
Q3:時間衰減計算的復雜度是否較高?
A3:是的,時間衰減的計算復雜度相對較高。為了應對這一挑戰(zhàn),我們通常會選擇一些核心指標進行時間衰減處理,并將這些指標落表到數(shù)倉中。這樣可以避免對所有指標進行復雜的時間衰減處理。
Q4:基礎業(yè)務策略是從什么視角進行的?
A4:基礎業(yè)務策略的分類是從數(shù)據(jù)分析師的日常應用視角出發(fā)的。基礎標簽通常是用戶自身的屬性標簽,幫助我們進行初步的用戶認識。業(yè)務標簽是根據(jù)給定業(yè)務對用戶進行分層,而策略標簽則是針對特定策略設計的畫像標簽。
Q5:畫像結果的評估在哪些場景中應用?
A5:畫像結果的評估廣泛應用于設計長期使用的常用標簽,例如高中低活躍或購買力標簽。我們希望這些標簽在長期內穩(wěn)定且具有區(qū)分度。此外,在沒有真實標簽對照的情況下,如二分類模型或 Uplift 模型,我們無法直接用 AUC 衡量模型準確性。在這種情況下,我們會采用額外的方法來評估畫像標簽的質量。