我好像看到了假的數(shù)據(jù)分析?
作為一個(gè)小頭目,經(jīng)常會(huì)讀到來(lái)自各種團(tuán)隊(duì)的數(shù)據(jù)分析報(bào)告,看似基于理性和事實(shí)的雄辯,然而有可能是有意或無(wú)意的詭辯。搞得我經(jīng)常像傻白甜的美少女面對(duì)追求的少男一樣,面對(duì)這些嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)分析也不得不多長(zhǎng)幾個(gè)心眼。
1. 可視化的誤導(dǎo)
一般來(lái)說(shuō),畫出圖表就容易讓人肅然起敬,至少架勢(shì)是足的,然而其中卻容易出現(xiàn)詭計(jì)。
下圖的作者為了表達(dá)中國(guó)城鎮(zhèn)化率的增加以及家庭小型化趨勢(shì)對(duì)房?jī)r(jià)的支撐作用,擺出了兩個(gè)柱狀圖,然而為了表達(dá)這兩個(gè)指標(biāo)的強(qiáng)烈趨勢(shì),Y軸都不是從0開始,于是在視覺(jué)上更容易讓人有沖擊力,然而卻含有誤導(dǎo)性。(不過(guò)被誤導(dǎo)也就罷了,一二線這個(gè)趨勢(shì),早幾年買房也不是壞事兒)
下圖的作者為了表達(dá)軟件開發(fā)類不等級(jí)別之間的工資巨大差異,居然把***值、平均值和***值疊加在一起進(jìn)行呈現(xiàn)。效果是出來(lái)了,但邏輯和節(jié)操卻大珠小珠落玉盤。
2. 使用孤證或者不靠譜的絕對(duì)值
“林子大了什么鳥都有”,這句俗語(yǔ)特別適合于使用孤證或者不靠譜絕對(duì)值來(lái)證明自己價(jià)值的數(shù)據(jù)分析,這是大公司里經(jīng)常出現(xiàn)的一些場(chǎng)景,因?yàn)榇蠊井a(chǎn)品經(jīng)理偏愛(ài)依賴巨大流量來(lái)嘗試一些新功能。
比如最近某產(chǎn)品推出類社區(qū)的產(chǎn)品功能,大家都質(zhì)疑其與主方向毫無(wú)關(guān)系。產(chǎn)品經(jīng)理立即跳出來(lái)反駁,使用該功能的n個(gè)用戶已經(jīng)找到了工作(找工作是該產(chǎn)品的核心功能之一)。然而每天上千萬(wàn)用戶在產(chǎn)品里晃來(lái)晃去,做出啥事兒都不稀奇,舉出孤證有意思嗎?這時(shí)候想起知乎名言:脫離劑量,談?wù)撌澄锒拘?,都是耍流氓?/p>
所以為了印象深刻,參考“奶子大了什么鳥都有”,這句俗語(yǔ)可以考慮改成“數(shù)字大了什么鳥都有”。
3. 推理邏輯混亂
許多數(shù)據(jù)分析雖然帶有翔實(shí)的數(shù)據(jù),但是邏輯推理極其混亂。
前段時(shí)間遇到某產(chǎn)品在一級(jí)入口上線新功能X,然而卻有可能和位于二級(jí)入口的原有功能Y沖突,X搶奪了使用Y的用戶。
如同大家都了解的,大公司里面做產(chǎn)品,經(jīng)常發(fā)生的事情就是左兜掏右兜,把用戶像趕鴨子一樣趕來(lái)趕去;不過(guò)總有一個(gè)兜的人因?yàn)閿?shù)據(jù)大增要得到嘉獎(jiǎng)。這里面最直觀的例子就是:不少公司的小程序用戶大增而受表?yè)P(yáng),不過(guò)主App的數(shù)據(jù)跌了。
當(dāng)挑戰(zhàn)這個(gè)產(chǎn)品經(jīng)理的時(shí)候,他經(jīng)過(guò)一天的數(shù)據(jù)分析后得意宣稱:擔(dān)心是多余的,因?yàn)閿?shù)據(jù)顯示,使用X功能的用戶有60%使用了Y功能。
畫外音:那么使用X而不用Y的40%用戶在干嘛呢?算不算Y功能的流失?
4. 扶不上墻的小規(guī)模測(cè)試
產(chǎn)品經(jīng)理為了工作的嚴(yán)謹(jǐn)性,經(jīng)常利用小規(guī)模測(cè)試甚至是AB測(cè)試來(lái)觀察新功能。然而一個(gè)詭異的現(xiàn)象卻是,小規(guī)模測(cè)試效果不錯(cuò)的功能,全量之后卻差強(qiáng)人意。這往往可能是因?yàn)槿悠钤斐傻?,因?yàn)榍髣傩那?,產(chǎn)品經(jīng)理在取樣時(shí)很容易有意或無(wú)意得形成取樣偏差。這里面常見的兩個(gè)偏差是幸存者偏差和辛普森偏差。
幸存者偏差。前一段我們公司搞用戶開放日,與應(yīng)邀前來(lái)的用戶做Focus Group(用戶焦點(diǎn)訪談)。結(jié)果在訪談中用戶對(duì)我們產(chǎn)品簡(jiǎn)直是滿意無(wú)比,大大出乎我們意料。除去用戶保持紳士風(fēng)或淑女風(fēng)不敢當(dāng)面懟我們之外,更主要的原因是邀約是通過(guò)我們App上面的推廣,來(lái)的用戶都不是被我們傷碎了心的人,所以好感爆棚。如果基于這些用戶去做新功能的小規(guī)模測(cè)試,一定會(huì)出現(xiàn)偏差。
辛普森偏差。下圖是從網(wǎng)上摘取的一個(gè)關(guān)于腎結(jié)石治療方案的AB測(cè)試。單個(gè)病例看,A方案都優(yōu)于B方案;然而,總體看,結(jié)論反轉(zhuǎn)。這么詫異的結(jié)論主要是來(lái)源于樣本的不同:大小結(jié)石病例在A和B中的構(gòu)成比例相差較大,從而形成兩個(gè)完全不同的樣本,從而造成這樣的結(jié)果反轉(zhuǎn)。
5. 亂配因果關(guān)系
據(jù)說(shuō)世界上比曖昧關(guān)系更難證明的關(guān)系是因果關(guān)系,也比曖昧關(guān)系更加容易搞錯(cuò)而陷入泥潭。這里舉自己犯過(guò)的錯(cuò)誤再恰當(dāng)不過(guò)了(生活中的數(shù)據(jù)犀利哥之五:找錯(cuò)因果關(guān)系 - 知乎專欄)。
在面對(duì)冷門問(wèn)答(百度指數(shù)詩(shī)歌這個(gè)詞為什么在每年十一月二十多號(hào)的時(shí)候出現(xiàn)急速增加的趨勢(shì),這幾天有什么重要的日子嘛? - 百度指數(shù) - 知乎)時(shí),自鳴得意得使用百度指數(shù)相關(guān)功能,發(fā)現(xiàn)“詩(shī)歌”和“感恩節(jié)”之前的強(qiáng)相關(guān)性,于是又找到各種理由來(lái)相信他們之間的因果關(guān)系。
雖然總覺(jué)得哪里有點(diǎn)不對(duì),為了騙贊還是忍不住發(fā)了。結(jié)果被人打臉,更為可能的因果關(guān)系是:被人教版語(yǔ)文課本折磨的六年級(jí)小學(xué)生,趕上綜合性學(xué)習(xí)活動(dòng)“輕叩詩(shī)歌的大門”,課本的進(jìn)度正在這個(gè)時(shí)間點(diǎn)左右,于是大量小學(xué)生搜索“詩(shī)歌”來(lái)完成作業(yè)。
這樣錯(cuò)配因果關(guān)系的案例在生活中不少,大家可以留意收集。不過(guò)有個(gè)很有趣的國(guó)外網(wǎng)站(15 Insane Things That Correlate With Each Other)已經(jīng)這么做來(lái)搞笑了,專門列出來(lái)看似邏輯相關(guān)但是其實(shí)因果關(guān)系錯(cuò)亂的例子。發(fā)出來(lái)與大家共享,以便行文自嘲。
(1)尼古拉斯凱奇在電影中的出鏡和淹死在游泳池里的人數(shù),高度相關(guān)。
(2)被床單纏死的人數(shù)和人均奶酪消耗量,高度相關(guān)。
(3)美國(guó)在科技及空間領(lǐng)域的投入和絞死及各種窒息的花樣作死的人數(shù),高度相關(guān)。
【本文為51CTO專欄作者“數(shù)據(jù)冰山”的原創(chuàng)稿件,轉(zhuǎn)載請(qǐng)通過(guò)作者微信公眾號(hào)(shujubingshan)獲取聯(lián)系】