你以為自己真的了解用戶畫像?其實貓膩可多了
背景:
劉路老師之前主要是做政府數(shù)據(jù)分析,目前主要服務企業(yè)。他認為政府和企業(yè)的數(shù)據(jù)分析沒有本質區(qū)別,都是有目的的進行收集、整理、加工和分析數(shù)據(jù),提煉有價值信息的過程,都是為決策提供依據(jù)。政府數(shù)據(jù)分析的工作目標為其職能服務,提高工作效率,保障工作成果,不以盈利為目的。而企業(yè)的數(shù)據(jù)分析無論是哪個部門,最終都會落在企業(yè)的營收上。企業(yè)數(shù)據(jù)在保證數(shù)據(jù)源基礎上,最主要是要“走出去”,去一線與客戶直接交流,了解并思考業(yè)務和需求,而不是一直待在“后方”。
紀實:
一、用戶畫像是什么?
“用戶畫像”并不是最近才出現(xiàn)的,只是近幾年談得比較多。對用戶進行畫像分析就是將用戶信息標簽化的過程,打標簽是為了幫助理解且方便計算機處理。除了分析數(shù)據(jù)源,“用戶畫像”最關鍵的是根據(jù)用戶行為及數(shù)據(jù),構建模型產(chǎn)出標簽、權重。簡單的說,就是要設計標簽體系,并規(guī)定符合該行為的人對應的標簽。如“性別”標簽,為什么會出現(xiàn)基本屬性“男”,而購物偏好性別計算顯示“女”?原因在于直接通過用戶填寫的信息獲取的是基本屬性,而“網(wǎng)絡行為性別”是建模計算出來的,經(jīng)常在網(wǎng)絡上購買女性喜愛的禮物會被系統(tǒng)判定成“女”,我們猜測這個人可能是暖男。
二、用戶畫像準確嗎?
現(xiàn)在做用戶畫像的公司有很多,雖然每家都有建模,但是數(shù)據(jù)源不一樣,模型也不一樣。就我了解的對于用戶消費偏好“電商”這個標簽,有的公司是根據(jù)用戶的購物記錄來分析的;有的公司拿不到購物記錄但是有瀏覽記錄,他們的算法是最近多少天瀏覽過多少次電商網(wǎng)站;還有的是根據(jù)用戶手機上相關APP的使用行為來判斷的。
而判斷用戶畫像的準確性,目前主要有兩種:
從個性化與垂直領域切入細分化市場,弊端在于其接觸到的用戶數(shù)量和層級有限,得到的是某領域的一方數(shù)據(jù),用戶畫像得到的是用戶某一形態(tài)下的單一畫像,其精準度和完善度也很難保證。
積累了各渠道多樣化的數(shù)據(jù)來進行用戶畫像,動輒覆蓋數(shù)億用戶,標簽維度幾千、幾萬,這樣的畫像也不見得好,全而不精。
而我現(xiàn)在做的以及建議的方式介乎兩者之間,標簽有基本屬性等通用維度,如果有具體行業(yè)的需求,比如汽車行業(yè)的用戶,我們會在庫里面把他的用戶找一批出來進行畫像,再以此找到目標群體。至于準確性,我們會有正負樣本來交叉驗證,依據(jù)人物畫像進行營銷活動后,會拿多次反饋數(shù)據(jù)來驗證量化畫像的結果。
三、數(shù)據(jù)源如何保證真實可靠?
數(shù)據(jù)源要真實全面,但不是數(shù)據(jù)越多越好,不能期望對收集到的所有數(shù)據(jù)進行分析,或者希望所有標簽都能由數(shù)據(jù)算出來。用戶畫像的數(shù)據(jù)源根據(jù)每家公司的業(yè)務和資源情況,獲取的數(shù)量、質量與范圍都不一樣。就像我上面提到的,同一個消費偏好“電商”的標簽,每家的數(shù)據(jù)和算法就不一樣。
要保證數(shù)據(jù)源的真實性,首先對所收集整理數(shù)據(jù)的真實性和可信度進行嚴格的監(jiān)測和細致的過濾。比如有的直播網(wǎng)站的某場直播的觀眾人數(shù)竟然比全中國人口數(shù)還多,那顯然就是不靠譜的。然后是嚴格鑒別數(shù)據(jù)的出處和來源,正確識別并剔除掉虛假甚至惡意數(shù)據(jù)信息,真正收集整理出真實有用的數(shù)據(jù)信息。比如電影評分,不少影片是有水軍來刷分的,這部分ID的數(shù)據(jù)就應該識別并剔除掉。
另外有人會問到水軍及僵尸粉,我們公司產(chǎn)品“粉絲鏡”里有水軍識別模型,通過用戶行為和賬號信息等綜合來判斷。之前我給某部電影做過傳播分析,他們花錢在微博上推廣,數(shù)據(jù)看上去很美,轉發(fā)和評論超多,而且還有大V加入造勢,后來我分析傳播鏈條,發(fā)現(xiàn)絕大部分都是一級轉發(fā),沒有帶動任何后續(xù)傳播,且大部分賬號都是沒頭像的、名字規(guī)律的小號。數(shù)據(jù)可視化后,水軍傳播圖就是一個個整整齊齊的等腰三角形,而自然的熱帖傳播圖應該是不規(guī)律的長尾彗星狀,有經(jīng)驗的人一眼就能看出差異。
(購買水軍及僵尸粉產(chǎn)品示意圖)
(正常情況推廣示意圖)
在識別水軍和僵尸粉的算法上,一方面是比對賬號的注冊信息、發(fā)帖內容,另外一方面是用戶行為,如作息時間、操作行為等。如果有幾百個賬號每天都是同一時間上線下線,發(fā)的內容雷同,然后互相之間互動簡單,差不多就可以判斷是同一批機器托管的賬號。除了判斷是否水軍及僵尸粉,我們還可以根據(jù)社交關系和行為模型,把相似賬號順藤摸瓜給找出來。我做過一個思潮分析的項目,剛開始本來只是簡單分析現(xiàn)階段有哪些意識流派,每派的觀點及意見***。后來發(fā)現(xiàn)自媒體平臺上經(jīng)常有不同流派的罵戰(zhàn),而且反應迅速、精力充沛、有組織有紀律,進一步分析后發(fā)現(xiàn)大部分賬號都是偽裝得比較巧妙的機器人賬號,看來他們不光是思維的碰撞,還有技術的較量。至于境內外不同團體不同國家不同使命的機器人賬號也是有的,在他們面前,這些買買僵尸粉,刷刷評分的水軍就是小兒科了。
四、用戶畫像的數(shù)據(jù)分析如何評估?如何影響決策?
因為每家的數(shù)據(jù)分析方法都不一樣,用戶畫像本身是工作中的一個輔助工具,所以做單純的評估其實沒有太大意義。
至于哪幾個要素決定***的營銷決策,這個要看具體場景。我們服務過很多精準營銷的客戶,有的偏重“地域”,有的偏重“年齡”,還有的偏重“消費能力”。比如剛才我提到的兩個性別標簽,用戶可能會隨意填寫性別,但是購物偏好性別對商家來說更重要。而對于征信來說,驗證基本性別屬性是否一致就更為重要。
如何***化發(fā)揮用戶畫像分析結果對決策產(chǎn)生的影響?這是最重要的問題。這幾年目前號稱能做用戶畫像的公司很多,魚龍混雜,數(shù)據(jù)質量和技術能力參差不齊。我聽過不少客戶說,花了一大筆錢建設用戶畫像系統(tǒng)結果用不起來,或者花錢買了份用戶畫像的報告,看上去像那么回事與自己想的也差不多,看完也就看完了,對工作好像也沒啥幫助。這樣的情況越來越多,讓不少客戶開始覺得用戶畫像沒啥用,甚至懷疑大數(shù)據(jù)是不是看上去很美就是講故事的?
我能理解客戶的心情,如果我們去和客戶談數(shù)據(jù)多全,技術多厲害,分析模型多準確,他們不是很感興趣,更關心這個用戶畫像對自己的業(yè)務幫助有多大。以前沒用戶畫像的時候,他們是自己和下游對接業(yè)務。有了用戶畫像后,相當于中間多了個環(huán)節(jié),怎樣和下游把用戶畫像用起來能更好地服務于決策,不是所有客戶都懂,所以光理解客戶的業(yè)務還不夠,還要幫他用起來,才能更大地發(fā)揮用戶畫像的價值。
五、用戶畫像的發(fā)展將面臨什么問題?
用戶畫像是數(shù)據(jù)分析的一個應用,這幾年其實用戶畫像已經(jīng)被炒得很火了,我并不認為它還會持續(xù)成為方向和趨勢,對于企業(yè)來說用戶分析一直有,不過現(xiàn)在是用大數(shù)據(jù)的技術手段來分析,起了個“用戶畫像”的名字。但數(shù)據(jù)分析會越來越重要,將來的趨勢可能在機器學習模型領域。
用戶畫像的數(shù)據(jù)準不準,算法是不是正確,我覺得這些都不是問題,主要困難還是如何結合業(yè)務的應用。如培訓機構的用戶畫像,用戶畫像顯示目標用戶是6到18歲,對球類運動感興趣,家住中高檔小區(qū)的人群??蛻敉耆J同這個結果,但是如何找到這些人?這就要求除了提供分析以外,還要能精準觸達他的目標用戶,讓他看到用戶畫像相對于之前盲目投放廣告的成本比例。所以除了做用戶畫像,還要有配套的應用及平臺將其價值發(fā)揮出來,我們現(xiàn)在整合了各類媒體資源、電話短信等觸達方式,還開發(fā)了精準投放模型等來***化發(fā)揮用戶畫像的價值。技術最終還是要服務于業(yè)務的,業(yè)務如果能廣泛開展,也能促進技術的進步。