人人都說(shuō)“數(shù)據(jù)直覺(jué)”很重要,但它到底是個(gè)啥?又該如何培養(yǎng)?
大數(shù)據(jù)文摘出品
來(lái)源:數(shù)據(jù)科學(xué)家Ryan T. Harter博客
編譯:張大筆茹
上周,一位同事讓我解釋下“數(shù)據(jù)直覺(jué)”的含義,我突然發(fā)現(xiàn)雖然自己一直在強(qiáng)調(diào)數(shù)據(jù)直覺(jué),卻從來(lái)沒(méi)有真正的定義過(guò)它。
數(shù)據(jù)直覺(jué)能力是我面試新數(shù)據(jù)科學(xué)家所關(guān)注的三項(xiàng)技能之一(其他兩項(xiàng)是統(tǒng)計(jì)和技術(shù)能力)。其實(shí)我只是在2020年前9個(gè)月建立了Mozilla的數(shù)據(jù)直覺(jué)概念,現(xiàn)在卻突然驚訝地發(fā)現(xiàn)無(wú)法為自己要培養(yǎng)的東西做出解釋。
所以現(xiàn)在來(lái)補(bǔ)充一下!以下為數(shù)據(jù)直覺(jué)的定義:
數(shù)據(jù)直覺(jué)是對(duì)誤導(dǎo)性的數(shù)據(jù)和分析的敏感度。 |
換句話說(shuō),如果某人具有很強(qiáng)的數(shù)據(jù)直覺(jué),他就很難被數(shù)據(jù)誤導(dǎo),你也可以認(rèn)為是對(duì)黑暗數(shù)據(jù)藝術(shù)的防御能力。
那具體在實(shí)踐中表現(xiàn)在哪些方面呢?
數(shù)據(jù)嗅覺(jué)
具有強(qiáng)烈數(shù)據(jù)直覺(jué)的人可以迅速聞到“數(shù)據(jù)味道”(與“代碼氣味”相近)。這種數(shù)據(jù)問(wèn)題不一定會(huì)影響分析,但結(jié)果肯定會(huì)令人質(zhì)疑。例如:
- 分析結(jié)果顯示一項(xiàng)看似隨意的指標(biāo):4天內(nèi)的保留率提高了0.5%!4天保留時(shí)間從何而來(lái)?我們通常不是跟蹤7天的保留時(shí)間嗎?這是值得注意的一點(diǎn)。
- 分析報(bào)告的結(jié)果:此功能將保留率提高了10%!但是,過(guò)去不是一直在努力將保留率提高0.5%嗎?而且保留率已經(jīng)不是90%嗎?那么要如何獲得并增加10%?
這些都是極端的例子。通常情況下,問(wèn)題只會(huì)更加微妙,有數(shù)據(jù)直覺(jué)的人會(huì)覺(jué)得結(jié)果怪怪的(這就是為什么將其稱為“直覺(jué)”)。
顯然,數(shù)據(jù)直覺(jué)與產(chǎn)品直覺(jué)是有關(guān)的,盡管這倆屬于不同的技能。產(chǎn)品的直覺(jué)可以使結(jié)果與實(shí)際情況相符,并且可以更輕松地識(shí)別分析中的特殊要求。要知道保留率提高10%是荒謬的,我們需要知道的是用戶已經(jīng)保留得很好了(90%的保留率)。
方法問(wèn)題
強(qiáng)大的數(shù)據(jù)直覺(jué)還可以發(fā)現(xiàn)分析設(shè)計(jì)的問(wèn)題。例如:作者是如何收集數(shù)據(jù)的?樣本有代表性嗎?是否需要進(jìn)行實(shí)驗(yàn)來(lái)論證因果關(guān)系?
舉個(gè)例子:一項(xiàng)分析報(bào)告表示,創(chuàng)建Firefox帳戶的用戶比未創(chuàng)建Firefox的用戶保留率高10%。默認(rèn)情況下,許多人將其解釋為,如果我們花一些時(shí)間來(lái)幫助用戶開(kāi)設(shè)帳戶,則保留率會(huì)增加。有數(shù)據(jù)直覺(jué)的人們會(huì)認(rèn)識(shí)到這個(gè)結(jié)果只是相關(guān)關(guān)系(并非因果關(guān)系)。
經(jīng)常使用該產(chǎn)品的用戶可能會(huì)停留更長(zhǎng)的時(shí)間。開(kāi)立賬戶的用戶都是活躍用戶,因此保留率更高。頻繁使用Firefox的用戶是更活躍的用戶,保留率會(huì)更好。
我認(rèn)為這種直覺(jué)不僅是很好地理解統(tǒng)計(jì)數(shù)據(jù)。強(qiáng)大的統(tǒng)計(jì)背景可以在閱讀白皮書(shū)的方法部分時(shí)發(fā)現(xiàn)問(wèn)題,可以讓我對(duì)新聞?lì)^條中聽(tīng)到的結(jié)果有多信任,更可以幫助我確定結(jié)果是否足夠真實(shí)。
不僅僅是懷疑主義
我?guī)缀鯇?shù)據(jù)直覺(jué)定義為一種懷疑態(tài)度,但這是一個(gè)不好的描述。懷疑主義過(guò)于強(qiáng)調(diào)結(jié)果了。
直覺(jué)不僅僅是懷疑。它會(huì)將新數(shù)據(jù)納入現(xiàn)有知識(shí)體系的一部分。大多數(shù)時(shí)候這意味著確定新的傳入數(shù)據(jù)不一致,需要更多調(diào)查才能信任。其他時(shí)候則意味著需要比現(xiàn)有知識(shí)體系更具權(quán)威性的新數(shù)據(jù)來(lái)改變我們的觀點(diǎn)。
你是怎么想的?
我想聽(tīng)聽(tīng)你的想法!之所以公開(kāi)發(fā)布此定義,部分原因是我想用坎寧安定律,即:獲得正確答案的最佳方法是發(fā)布錯(cuò)誤答案!
這個(gè)數(shù)據(jù)直覺(jué)的定義能引起你的共鳴嗎?
【本文是51CTO專欄機(jī)構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號(hào)“大數(shù)據(jù)文摘( id: BigDataDigest)”】