數(shù)據(jù)科學(xué)中數(shù)據(jù)收集的終極指南
在當(dāng)今世界,數(shù)據(jù)對(duì)任何一家企業(yè)的成功都起著關(guān)鍵作用。企業(yè)的目標(biāo)受眾、競爭對(duì)手產(chǎn)生的數(shù)據(jù)、工作領(lǐng)域的信息以及企業(yè)自己收集的數(shù)據(jù)可能會(huì)幫助找到更多客戶、分析業(yè)務(wù)決策、重新優(yōu)化業(yè)務(wù)模型或進(jìn)入到其他市場(chǎng)。數(shù)據(jù)將幫助企業(yè)定義其可以解決的問題,并提供更好的服務(wù),準(zhǔn)確地了解客戶的需求。
根據(jù)麥肯錫全球研究所發(fā)布的研究報(bào)告,與傳統(tǒng)企業(yè)相比,數(shù)據(jù)驅(qū)動(dòng)的企業(yè)獲得客戶的可能性是23倍,留住客戶的可能性是6倍,盈利的可能性是19倍。
近年來,全球數(shù)據(jù)量大幅增長。90%的數(shù)據(jù)是在過去兩年中產(chǎn)生的。IDC的研究表明,到2025年,大數(shù)據(jù)將達(dá)到約1ZB。根據(jù)最近發(fā)布的一份研究報(bào)告,全球每天產(chǎn)生的數(shù)據(jù)量約為2.5萬億字節(jié)。
但是數(shù)據(jù)本身沒有任何意義,除非它是根據(jù)企業(yè)的業(yè)務(wù)想要實(shí)現(xiàn)的目標(biāo)或想要解決的問題進(jìn)行收集和分析的。這就是數(shù)據(jù)科學(xué)面臨挑戰(zhàn)的地方。
本文將重點(diǎn)介紹處理數(shù)據(jù)的第一步,也可能是最重要的一步——數(shù)據(jù)收集。定義企業(yè)需要哪些數(shù)據(jù)以及如何收集這些數(shù)據(jù)至關(guān)重要,因?yàn)槠髽I(yè)所有進(jìn)一步操作都將基于這些數(shù)據(jù)。收集錯(cuò)誤的數(shù)據(jù)意味著其他所有工作都將徒勞無功,因?yàn)樗粫?huì)帶來正確的見解或?yàn)槠髽I(yè)提供所需的信息。
先從數(shù)據(jù)科學(xué)的簡要概述開始,因?yàn)閺臄?shù)據(jù)中提取有洞察力的信息是其核心。
什么是數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)發(fā)現(xiàn)并揭示了趨勢(shì),揭示了企業(yè)可用于更好決策、創(chuàng)造創(chuàng)新產(chǎn)品和服務(wù)以滿足客戶需求的見解。
數(shù)據(jù)科學(xué)結(jié)合了不同的領(lǐng)域,如統(tǒng)計(jì)學(xué)、科學(xué)方法、人工智能和數(shù)據(jù)分析。數(shù)據(jù)科學(xué)家獲得從互聯(lián)網(wǎng)、智能手機(jī)、客戶和其他服務(wù)收集的數(shù)據(jù)分析的各種知識(shí)和技能,以提供見解。
數(shù)據(jù)科學(xué)家從數(shù)據(jù)庫中收集相關(guān)數(shù)據(jù),然后清理、處理、分析以及指定有用的數(shù)據(jù)。下一個(gè)任務(wù)是找到能夠引導(dǎo)企業(yè)獲得豐富見解的模式。
因此,數(shù)據(jù)科學(xué)家負(fù)責(zé)收集數(shù)據(jù)、制定分析策略、可視化數(shù)據(jù),并使用Python和R等編程語言使用數(shù)據(jù)構(gòu)建模型。他們將模型部署到應(yīng)用程序中。
在進(jìn)一步的數(shù)據(jù)操作之前,先專注于數(shù)據(jù)收集。
數(shù)據(jù)科學(xué)中的數(shù)據(jù)收集
數(shù)據(jù)收集是在特定的成熟技術(shù)的幫助下,在測(cè)量和分析不同類型信息的同時(shí)收集數(shù)據(jù)。收集的數(shù)據(jù)類型取決于需要解決的問題。這是任何一個(gè)數(shù)據(jù)科學(xué)家開展項(xiàng)目的起點(diǎn),因?yàn)榭傆幸恍〇|西可以修復(fù)或改進(jìn)。
數(shù)據(jù)收集有多種方法,具體取決于要獲取的數(shù)據(jù)類型。其中一些包括使用技術(shù)收集,而另一些則通過人工收集的:
- 在應(yīng)用程序和網(wǎng)站中內(nèi)置數(shù)據(jù)收集工具;
- 用于從車輛或機(jī)械等設(shè)備收集數(shù)據(jù)的傳感器;
- 跟蹤社交媒體、博客、評(píng)論、論壇和其他渠道上的活動(dòng),幫助企業(yè)了解有關(guān)客戶的更多信息;
- 在線完成的調(diào)查和問卷調(diào)查;
- 焦點(diǎn)小組、訪談、研究性學(xué)習(xí)時(shí)的直接觀察。
但在開始使用任何數(shù)據(jù)收集方法之前,需要完成一些重要的步驟。
數(shù)據(jù)收集過程的路線圖
(1) 問自己一個(gè)準(zhǔn)確的問題
定義需要解決的一個(gè)問題是數(shù)據(jù)收集過程路線圖的第一步。在開始整個(gè)過程之前,應(yīng)該制定明確的目標(biāo)。例如企業(yè)是一個(gè)在線服裝銷售平臺(tái),但是客戶較少。因此,其目標(biāo)將是吸引更多人訪問網(wǎng)站,并增加銷售額。
現(xiàn)在有多種改進(jìn)方法,例如通過吸引老年客戶或來自特定地區(qū)的人員來擴(kuò)大目標(biāo)受眾。這就是企業(yè)采用大數(shù)據(jù)的原因和著力之處,以找出其客戶是誰,以及什么可以引起其他客戶的注意。
或者,可以通過實(shí)施更多技術(shù)解決方案或簡單地改善交付流程來改善他們的購物體驗(yàn)。
眾所周知的是,數(shù)據(jù)收集在于質(zhì)量不在于數(shù)量,質(zhì)量決定對(duì)最終目標(biāo)的理解:收集數(shù)據(jù)的目的是什么,以及它應(yīng)該如何為解決確切的問題提供幫助。
(2) 指定數(shù)據(jù)類型
根據(jù)企業(yè)的目標(biāo),下一步將是定義哪種數(shù)據(jù)對(duì)其更有利。它可以是定量的或定性的。第一個(gè)包含數(shù)字,而第二個(gè)更復(fù)雜,可能會(huì)因客戶反饋到?jīng)Q策過程而異。
需要記住的是,并不需要所有的數(shù)據(jù),因?yàn)樾枰卮鹨粋€(gè)準(zhǔn)確的問題。指定其需要的數(shù)據(jù)類型將幫助處理數(shù)據(jù)。
(3) 概述消息來源
根據(jù)需要的數(shù)據(jù),應(yīng)該決定可以在哪里收集數(shù)據(jù):在企業(yè)內(nèi)部、第三方或外部來源。
這種趨勢(shì)表明,使用外部數(shù)據(jù)可以獲得更好的結(jié)果,因?yàn)樗梢宰屍髽I(yè)跟蹤競爭對(duì)手,并為其提供更廣闊的前景。選擇這條道路在法律法規(guī)和道德標(biāo)準(zhǔn)方面似乎更為復(fù)雜。但是,如果想更廣泛地了解情況,這是值得的:該領(lǐng)域已經(jīng)做了什么,競爭對(duì)手面臨什么問題,以及企業(yè)如何改進(jìn)其服務(wù)以使他們做得更好。
此外還要牢記道德問題,企業(yè)必須確保其客戶了解從他們那里收集的數(shù)據(jù)。否則,可能會(huì)卷入數(shù)據(jù)丑聞,就像Facebook公司和劍橋分析公司遭遇的數(shù)據(jù)泄露事件一樣。其次,企業(yè)的法律團(tuán)隊(duì)?wèi)?yīng)跟蹤他們的數(shù)據(jù)收集方法是否遵守使用第三方數(shù)據(jù)源的法律。
企業(yè)還可以聯(lián)系政府機(jī)構(gòu)或開始調(diào)查,這是收集數(shù)據(jù)科學(xué)數(shù)據(jù)的標(biāo)準(zhǔn)工具。
最后但同樣重要的是,企業(yè)可以根據(jù)現(xiàn)有數(shù)據(jù)創(chuàng)建用戶角色。了解客戶的行為和需求可以開發(fā)強(qiáng)大的洞察力來推動(dòng)其下一個(gè)商業(yè)理念。當(dāng)無法從其他來源獲取更多數(shù)據(jù)時(shí),通常使用這一工具。
(4) 定義時(shí)間范圍
這不僅僅是關(guān)于企業(yè)需要什么數(shù)據(jù);當(dāng)數(shù)據(jù)最有益時(shí),衡量時(shí)間線也很重要。例如,需要指定客戶在其網(wǎng)站上的行為或確定他們?cè)谔囟〞r(shí)期內(nèi)的地理位置和搜索歷史。
雖然用戶一直在生成數(shù)據(jù),但企業(yè)有責(zé)任確定數(shù)據(jù)何時(shí)對(duì)其有效。
(5) 不要忘記數(shù)據(jù)存儲(chǔ)
在收集數(shù)據(jù)之前,企業(yè)應(yīng)該定義如何存儲(chǔ)數(shù)據(jù)。許多工具將幫助其收集和組織結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要由數(shù)字和數(shù)值組成,而非結(jié)構(gòu)化數(shù)據(jù)更為復(fù)雜,包括傳感器、文本文件、音頻和視頻文件等。找到合適的數(shù)據(jù)管理工具對(duì)于進(jìn)一步處理和管理至關(guān)重要。
(6) 收集數(shù)據(jù)
最后,企業(yè)可以進(jìn)行實(shí)際的數(shù)據(jù)收集??紤]可能發(fā)生的要求和隱私問題以及安全問題。然后進(jìn)行重復(fù)。
數(shù)據(jù)收集遵循每個(gè)步驟,這是升級(jí)業(yè)務(wù)的無限過程。隨著新工具和技術(shù)幾乎每天都在出現(xiàn),企業(yè)客戶的行為可能會(huì)發(fā)生變化,可能會(huì)出現(xiàn)新的渠道,并且會(huì)出現(xiàn)新的問題。因此,企業(yè)可能將不得不重復(fù)這些步驟,以獲取有關(guān)客戶或業(yè)務(wù)處理領(lǐng)域的更多信息,改進(jìn)解決方案并開發(fā)新的解決方案,為此還需要了解數(shù)據(jù)收集之后的步驟。