技術(shù)紅顏告訴你大數(shù)據(jù)分析的真諦:別只盯著我的錢!
原創(chuàng)很多人都知道, iPhone3是iPhone撬動中國市場的核心。彼時的iPhone市場占有率還不足1%,而今天,中國手機市場似乎再沒有誰能撼動蘋果的地位。來自兩個群體的強大力量推動了這種格局的形成,一是我們熟知的“年輕果粉”,另外一個更加重要的群體被稱為“技術(shù)紅顏”,iPhone的演進潮流與這個群體有極其密切的關(guān)系。
技術(shù)紅顏引發(fā)的iPhone旋風(fēng)
“技術(shù)紅顏”是誰?從2009年開始,北京大學(xué)新媒體研究院副院長劉德寰與他的同事們開始了一項主題為“手機人”的研究。在定性研究的過程中,他們發(fā)現(xiàn)了一個極為特殊的小群體,這個群體小到往往不被注意。她們只占全部人口數(shù)量的0.67%,由年齡在35歲到45歲的職業(yè)女性組成。她們普遍學(xué)歷高、收入高、職位高,喜歡追逐時尚潮流,怕落伍,買技術(shù)最全面最先進的手機,但卻只使用其中10%的功能。這個群體被劉德寰等人稱為“技術(shù)紅顏”。
“技術(shù)紅顏”帶動了潮流的變化,引發(fā)蘋果旋風(fēng),其影響力遠遠超過“年輕果粉”。因為她們將偏中年、偏成熟的女性引入時尚大潮當(dāng)中,并形成了更大的族群,一種全新的經(jīng)濟模式被帶動——“熟女經(jīng)濟”。無論是微博整移動化的發(fā)展,移動內(nèi)容的付費、網(wǎng)購, 都不乏技術(shù)紅顏的“興風(fēng)作浪”。
大數(shù)據(jù)時代已經(jīng)到來,每個企業(yè)都開始忙著數(shù)據(jù)挖掘,忙著數(shù)據(jù)分析,忙著構(gòu)建各種算法模型。但為什么你無法引發(fā)技術(shù)紅顏式的蝴蝶效應(yīng)?為什么你眼中對用戶的“精準(zhǔn)推薦”,成了Ta備感厭煩的“精準(zhǔn)騷擾”?
日前在友盟主辦的“全域大數(shù)據(jù)峰會”上,劉德寰院長一語中的:
“你沒盯著我的人,老盯著我兜里的錢。我兜里又沒多少錢還緊著盯,我不煩你煩誰。”
我們的用戶推薦到底在哪兒出現(xiàn)了問題?
推薦算法困境
- 標(biāo)簽推薦的困境
目前最常見的推薦機制為“相似鄰居推薦”,這是一種基于純行為的標(biāo)簽推薦:當(dāng)進行海量數(shù)據(jù)的收集和分析后,如果發(fā)現(xiàn)行為A、行為B總體共現(xiàn)次數(shù)多,系統(tǒng)就會向有行為A的人推薦B。比如在網(wǎng)購時,如果你的朋友喜歡,那么系統(tǒng)就會認(rèn)為你也喜歡,就會把朋友買過的衣服推薦給你。
但其實,我們在日常生活中最討厭的事情之一就是——撞衫!!
- 關(guān)系推薦的困境
再以微博推薦機制為例,其邏輯基本如下:
我與A非好友,但我的好友中有不少人與A是好友,即我和A有不少共同的好友,好么系統(tǒng)便會A也推薦給我(共同好友);我關(guān)注的人中有不少關(guān)注了B,那么系統(tǒng)推測我也可能會喜歡B,從而變會把B也推薦給我(間接關(guān)注人)。
但大多數(shù)時候,我們可能會這樣覺得,“這位和我有毛關(guān)系?”
- 行為賦值的困境
再說說音樂分類分類,大家常常會進行這樣的行為賦值:
“單曲循環(huán)=5,分享=4,收藏=3,主動播放=2,聽完=1,跳過=-2,拉黑=-5”
這些分值分別代表什么意思?對行為量化到什么程度?你又真的清楚這些行為的原因嗎?如果簡單的認(rèn)為將某個行為變成數(shù)值后就可以著手分析的話,面臨的真正難題不是計算,而是如何明確地判斷這些行為,并進行用戶匹配。行為的背后到底是什么,需要精細的考量。
我們都知道這些機制有問題,那最好的解決辦法是什么?——從用戶真正關(guān)注的內(nèi)容入手。應(yīng)該通過增加對用戶內(nèi)容的搜索,尋找到用戶與用戶之間共同的興趣、偏好和價值。比如分析用戶在微博中發(fā)表、轉(zhuǎn)發(fā)的內(nèi)容,找到不同用戶共同的關(guān)注點、興趣點、價值觀、生活方式,這才是真正有價值的實現(xiàn)路徑。
看到這里,一定不乏憤世小青年發(fā)出咆哮:
“你的系統(tǒng)能實時全盤掃描海量用戶的海量微博內(nèi)容?知道這得多少臺機器嗎?千萬臺!
”U can U up.No can No BB!“
所以,我們只能退而求其次,選擇這些看起來邏輯很清楚,實際上效率要弱得多的算法機制。但這背后的問題是,我們現(xiàn)在利用的數(shù)據(jù)絕大部分是稀疏的,算法經(jīng)常停止于局部最優(yōu),結(jié)果極其不穩(wěn)定,并存在大量的過度擬合,經(jīng)常把噪音當(dāng)成信號。最重要的是算法的構(gòu)建絕對不是基于人性,而是基于商業(yè)。
真的沒辦法了嗎?其實,無論是大數(shù)據(jù)還是小數(shù)據(jù),運算的原則都是一致的。讓我們來看看那些真正有效的運算原則。
有效運算的七大原則
穩(wěn)定性原則。運算精準(zhǔn)的前提是穩(wěn)定。面對不穩(wěn)定的用戶、不穩(wěn)定的行為,不穩(wěn)定的情感等干擾,必須要找到行之有效的辦法去解決。
人性原則:人與物品的區(qū)別是人是有情感的,人有態(tài)度、人情緒、有對情境的考量、有動機……人的所有行為隨著環(huán)境的變化瞬息萬變。人性的不穩(wěn)定,怎么能在大數(shù)據(jù)的運算當(dāng)中呈現(xiàn)出來,這是一個問題。
數(shù)據(jù)全面性原則:數(shù)據(jù)全面是有效分析的基礎(chǔ),數(shù)據(jù)缺失多錯誤率一定高。現(xiàn)在數(shù)據(jù)分析當(dāng)中面臨最常見的問題是低價值數(shù)據(jù)稠密,高價值數(shù)據(jù)稀疏。我們的對象是人,定要基于人的邏輯考慮,產(chǎn)生人可以認(rèn)識的分析結(jié)果。數(shù)據(jù)的維度應(yīng)該基于人能力所及的范圍,而非機器。
分類原則:做過調(diào)查的人都知道,做抽樣的時候永遠應(yīng)該先分層。在分析用戶之前,我們也一定要先分群。個體永遠是復(fù)雜的,復(fù)雜性對復(fù)雜現(xiàn)象只能添亂。所以不要把人回歸到個體的維度,而是放在群體里討論。這是一個降維的過程,也降低了問題的復(fù)雜性。
變量多元指向原則:不要以為變量都只有一種展現(xiàn)方式,所以不要拿比例表做所謂用戶畫像。一個變量就是一個含義。以“代溝”為例,它的形成可能關(guān)乎年齡、學(xué)歷、家庭生命周期、社會現(xiàn)象等等,一個變量是可以對應(yīng)N個維度的。
變量復(fù)雜性原則:變量的呈現(xiàn)并不是簡單的、分離的現(xiàn)象,而是混后、疊加、再分類后的行為組合。這非常類似于深度學(xué)習(xí)的層級。
效率原則:效率一定是和人的行為匹配的。如果在沒有進行準(zhǔn)確匹配的前提下進行推送,人們只會將大量的推送服務(wù)視為騷擾。
理論有了,實現(xiàn)路徑在哪里?劉德寰提出兩個假說。
有效大數(shù)據(jù)運算的兩大路徑假說
- 假說一:基于人,尋找“常人”和“常模”
數(shù)據(jù)運算的本質(zhì)是找尋常人”穩(wěn)定的人“,分析的本質(zhì)是建構(gòu)”常模“,常模建立之后才能對象于個人。
任何一個人的行為都沒有規(guī)律,但是人的生活行為方式是都極其規(guī)律的。因此在進行數(shù)據(jù)運算時,對生活方式的探究價值要遠遠大于對行為打標(biāo)簽。生活方式對應(yīng)的就是“常人”。
人的態(tài)度、行為、情緒、場景都是不同的,似乎找不到規(guī)律可言。但人是生活在群體當(dāng)中的,群的行為是用戶特征的綜合,代表的是一種穩(wěn)定的生活方式與態(tài)度,是可以感知和評判的,其變化是也有規(guī)律可循的。正確的做法是對某一個群體的行為分析來建立常模,要注意的是,這不同于數(shù)據(jù)挖掘算法中的”分類‘。這種分析這不是行為的疊加,是一種生活方式的展現(xiàn), 一個人可以從屬N個群。文章開頭提到的“技術(shù)紅顏”就是典型的例子。
- 假說二:基于物,尋找N維空間與人的認(rèn)識能力
這個假說的前提是每個非人的事物都有一個確定的N維空間,而且N可以從人的認(rèn)識能力角度定義。每一個不同的物品,N維空間不一定一樣,但都是相似的,體現(xiàn)的只是數(shù)量的變化。
TESCO的運算邏輯是抽樣實驗+分析+大數(shù)據(jù)推送,隨時實驗,購物籃組合,它把每一個產(chǎn)品都用20個維度打標(biāo)簽,收集了海量的顧客數(shù)據(jù),通過對每位顧客海量數(shù)據(jù)的分析,對每位顧客的使用程度和相關(guān)風(fēng)險都有一個極為準(zhǔn)確的評估。推薦這件事情就變得簡單多了。
其實,運算當(dāng)中可以融入社科的所有思想,現(xiàn)有很多程序員只關(guān)注自己的領(lǐng)域,對其它的行業(yè)一點不了解,您說說,做出的分析能靠譜嗎?
大數(shù)據(jù)運算的邏輯本身是要反推人性。因此數(shù)據(jù)科學(xué)要將社會學(xué)、經(jīng)濟學(xué)、法學(xué)、政治學(xué)、傳播學(xué)等所有學(xué)科已有的知識,穩(wěn)定到計算當(dāng)中。相信那種運算規(guī)則不僅效率高,而且簡單。