四種類(lèi)型的數(shù)據(jù)分析模式

在這篇博文中,我們聚焦于在數(shù)據(jù)科學(xué)領(lǐng)域所遇到的四種類(lèi)型的數(shù)據(jù)分析模式:描述型、診斷型、預(yù)測(cè)型和指導(dǎo)型。
當(dāng)我與剛涉足數(shù)據(jù)科學(xué)領(lǐng)域的年輕分析師們交談時(shí),通常,我會(huì)問(wèn)他們認(rèn)為什么是數(shù)據(jù)科學(xué)家最重要的能力。他們的答案相當(dāng)多樣化。
我想告訴他們的是,他們最重要的能力將是能夠把數(shù)據(jù)轉(zhuǎn)化為對(duì)非專(zhuān)業(yè)人士而言清楚而有意義的見(jiàn)解。瑞典統(tǒng)計(jì)學(xué)家Hans Rosling在這方面很有名。這種能力往往被忽略。下面Hans Rosling的這個(gè)TedTalk談到了這些。
分析能輔助開(kāi)發(fā)有價(jià)值的見(jiàn)解,很有必要用一些工具來(lái)讓人們了解分析所起的作用。其中一種工具是分析四維圖。
簡(jiǎn)單地來(lái)說(shuō),分析可被劃分為4個(gè)重要的類(lèi)別。下面我將詳細(xì)解釋這四個(gè)類(lèi)別。
1. 描述型:發(fā)生了什么?
這是最常見(jiàn)的一種。在業(yè)務(wù)中,它向分析師們提供業(yè)務(wù)的重要衡量標(biāo)準(zhǔn)的概覽。
一個(gè)例子是每月的利潤(rùn)和損失賬單。類(lèi)似地,分析師可以獲得大批客戶(hù)的數(shù)據(jù)。了解客戶(hù)(如,30%的客戶(hù)是自雇型)的地理信息也可認(rèn)為是“描述型分析”。充分利用可視化工具能增強(qiáng)描述型分析所帶來(lái)的信息。
2. 診斷型:為什么會(huì)發(fā)生?
這是描述型分析的下一步難題。通過(guò)評(píng)估描述型數(shù)據(jù),診斷分析工具使得分析師們能夠深入分析問(wèn)題的核心原因。
設(shè)計(jì)良好的商業(yè)信息dashboard整合了時(shí)間序列數(shù)據(jù)(譬如,在多個(gè)聯(lián)系時(shí)間點(diǎn)上的數(shù)據(jù))的讀入、特征的過(guò)濾和鉆入功能,能夠用于這類(lèi)分析。
3. 預(yù)測(cè)型:可能發(fā)生什么?
預(yù)測(cè)型分析主要是進(jìn)行預(yù)測(cè)。某事件在將來(lái)發(fā)生的可能性,預(yù)測(cè)一個(gè)可量化的值,或者是估計(jì)事情可能發(fā)生的某個(gè)時(shí)間點(diǎn),這些都可以通過(guò)預(yù)測(cè)模型完成。
預(yù)測(cè)模型通常運(yùn)用各種可變數(shù)據(jù)來(lái)作出預(yù)測(cè)。數(shù)據(jù)成員的多樣化與可能預(yù)測(cè)的目標(biāo)是相關(guān)聯(lián)的(如,人的年齡越大,越可能發(fā)生心臟病,我們可以說(shuō)年齡與心臟病風(fēng)險(xiǎn)是線(xiàn)性相關(guān)的)。隨后,這些數(shù)據(jù)被放在一起,產(chǎn)生分?jǐn)?shù)或預(yù)測(cè)。
在一個(gè)充滿(mǎn)不確定性因素的世界里,能夠預(yù)測(cè)允許人們作出更好的決定。預(yù)測(cè)模型在很多領(lǐng)域都被用到。
4. 指導(dǎo)型:我需要做什么?
在價(jià)值和復(fù)雜度上,下一步就是指導(dǎo)性模型。指導(dǎo)性模型基于發(fā)生了什么、為什么會(huì)發(fā)生以及一系列“可能發(fā)生什么”的分析,幫助用戶(hù)確定要采取的最好的措施。很顯然,指導(dǎo)性分析不是一個(gè)單獨(dú)的行為,實(shí)際上它是其他很多行為的主導(dǎo)。
交通應(yīng)用是一個(gè)很好的例子,它幫助人們選擇最好的回家路線(xiàn),考慮到了每條路線(xiàn)的距離、在每條路上的速度、以及很關(guān)鍵的目前的交通限制。
另一個(gè)例子是生成考試時(shí)間表,不讓任何學(xué)生的時(shí)間表發(fā)生沖突。