自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

五個數(shù)據(jù)準(zhǔn)備錯誤,請像躲瘟疫一樣避開

大數(shù)據(jù) 數(shù)據(jù)分析
本文將帶你了解某些常見的數(shù)據(jù)準(zhǔn)備錯誤,如錯誤的見解和策略、復(fù)雜模型的迭代以及分析模型的功能紊亂,這些錯誤都會讓你付出巨大的代價、產(chǎn)生沉重的后果。

開講前我們先玩?zhèn)€猜謎游戲:

問題:猜一公司名字

線索1:這家公司與亞馬遜、蘋果和谷歌并稱為全球四大科技公司。

線索2:這家公司創(chuàng)始于2004年。

線索3:截至2018年,該公司全球收入達(dá)558億美元。

猜出這家公司應(yīng)該是小菜一碟!(不過,我沒有禮物給你)

答案:Facebook。

除了上述這些廣為人知的信息,我還想帶你看看幾年前的Facebook,分享一些額外的小插曲。

2004年,馬克·扎克伯格和四個哈佛大學(xué)的朋友共同創(chuàng)立了Facebook。兩年過后,團隊一直在竭盡全力地發(fā)展公司。2006年,扎克伯格聘請了首位數(shù)據(jù)科學(xué)家——杰夫·哈默巴赫,他是一位大學(xué)剛畢業(yè)的數(shù)學(xué)狂人。他在Facebook獲得了一個令人尊敬的職位——研究科學(xué)家,主要負(fù)責(zé)研究人們?nèi)绾问褂蒙缃痪W(wǎng)絡(luò)服務(wù)。

在一次采訪中,杰夫分享了在Facebook還沒有相關(guān)工具時,他處理數(shù)據(jù)和構(gòu)建新一類分析技術(shù)的經(jīng)驗。從Facebook離職后,他將自己所精通的數(shù)據(jù)科學(xué)拓展至其它領(lǐng)域,通過分析大型的生物數(shù)據(jù)集為癌癥治療提供更好的方案。

所有像杰夫這樣的數(shù)據(jù)科學(xué)家,最終都把大量時間花在數(shù)據(jù)準(zhǔn)備上,而不是把時間和技術(shù)知識只用到建模、計算和訓(xùn)練上。

[[282775]]

為什么錯誤的數(shù)據(jù)會讓你的分析城堡搖搖欲墜?

數(shù)據(jù)準(zhǔn)備是一項乏味的工作。它需要花費大量的時間與精力,同時需要無誤地進行創(chuàng)造性的探索。數(shù)據(jù)科學(xué)正朝著將數(shù)據(jù)應(yīng)用于改善基礎(chǔ)設(shè)施、交通、環(huán)境、醫(yī)療和許多其他重要領(lǐng)域的方向發(fā)展,以獲得更好更高質(zhì)量的生活。

接下來,本文將帶你了解某些常見的數(shù)據(jù)準(zhǔn)備錯誤,如錯誤的見解和策略、復(fù)雜模型的迭代以及分析模型的功能紊亂,這些錯誤都會讓你付出巨大的代價、產(chǎn)生沉重的后果。

五個需要避免的數(shù)據(jù)準(zhǔn)備大忌

1. 失去用例的情境-為什么偏離很危險

IT部門擁有的技術(shù)專長使數(shù)據(jù)準(zhǔn)備的操作和實施成為可能。雖然IT部門和業(yè)務(wù)部門之間的這種控制的結(jié)合使業(yè)務(wù)知識與技術(shù)專業(yè)知識有機融合,但完全由IT部門負(fù)責(zé)的數(shù)據(jù)準(zhǔn)備工作卻有一個小小的弊端。

小心!五個數(shù)據(jù)準(zhǔn)備錯誤,請像躲瘟疫一樣避開

單純由IT部門進行數(shù)據(jù)準(zhǔn)備會缺少對于用例的商業(yè)理解,因此在進程中會失去情境。

若不考慮情境,公司則會花費大量金錢、時間和精力來準(zhǔn)備數(shù)據(jù),從而造成迭代周期重復(fù)和預(yù)期之外的輸出級別。準(zhǔn)確得知需求并對其有深入了解,這有助于企業(yè)將分析結(jié)果最大化,減少不必要的損失。

2. 忽略質(zhì)量規(guī)則-臟數(shù)據(jù)等同于錯誤見解

準(zhǔn)備數(shù)據(jù)時,對信息質(zhì)量的關(guān)注至關(guān)重要。數(shù)據(jù)質(zhì)量在B2B領(lǐng)域中頗受關(guān)注,許多數(shù)據(jù)質(zhì)量問題亟待解決。那些數(shù)據(jù)可能是過時的、有缺失的、易出錯的、不完整的等等?,F(xiàn)在,如果數(shù)據(jù)質(zhì)量低下,結(jié)論觀點與分析也會很差。例如,假設(shè)我們正在為電子郵件營銷活動準(zhǔn)備營銷數(shù)據(jù)。

假設(shè)一個重要的數(shù)據(jù)點,聯(lián)系人的地理位置缺失(數(shù)據(jù)不完整的情況)?,F(xiàn)在,當(dāng)數(shù)據(jù)在沒有糾正錯誤或增添信息的情況下,若其被進一步處理,會對輸出產(chǎn)生巨大影響。這種情況下,只有添加聯(lián)系人地理位置的相關(guān)數(shù)據(jù),才能進一步增強并個性化營銷活動消息。

3. 黃金法則:不要浪費數(shù)據(jù)科學(xué)家的時間,請聘請一個團隊

數(shù)據(jù)科學(xué)家在分析、數(shù)據(jù)建模和設(shè)計程序方面的超強能力會為項目增添巨大價值。但從另一方面來看,數(shù)據(jù)工程師也會忙于提供干凈、可用且經(jīng)過良好處理的數(shù)據(jù),這個過程通常被稱為數(shù)據(jù)準(zhǔn)備或數(shù)據(jù)整理。

小心!五個數(shù)據(jù)準(zhǔn)備錯誤,請像躲瘟疫一樣避開

數(shù)據(jù)科學(xué)家80%的時間都花在數(shù)據(jù)準(zhǔn)備上。他們作為將數(shù)據(jù)轉(zhuǎn)化為觀點的靈魂人物,還有誰能夠替代他們呢?

作為數(shù)據(jù)管理員,數(shù)據(jù)科學(xué)家應(yīng)有時間和空間把他們的知識用于更復(fù)雜的工作。但殘酷而普遍的現(xiàn)實恰恰相反。這種做法的不利結(jié)果是,數(shù)據(jù)科學(xué)家一天中花在實際工作上的時間越來越少,也就延長了他們獲得真知灼見和項目成果的時間。

這一問題如何解決呢?成百上千的數(shù)據(jù)準(zhǔn)備服務(wù)供應(yīng)商可以幫助處理進程,讓數(shù)據(jù)科學(xué)家利用時間做他們該做的事情。

4. 如今是自動化時代,古老的手動方法需要逐步被淘汰

近期一項研究分享了有關(guān)公司數(shù)據(jù)準(zhǔn)備工具的相關(guān)發(fā)現(xiàn),結(jié)果令人震驚。電子表格應(yīng)用程序高達(dá)75%,這表明,當(dāng)前從數(shù)據(jù)中獲得的分析范圍和結(jié)論是受到了限制的,因為電子表格無法像自動化工具那樣幫助數(shù)據(jù)轉(zhuǎn)換和分析。復(fù)雜的自動化工具可以處理更多的數(shù)據(jù),而電子表格基本無法支持?jǐn)?shù)據(jù)準(zhǔn)備功能。

小心!五個數(shù)據(jù)準(zhǔn)備錯誤,請像躲瘟疫一樣避開

由人工智能驅(qū)動的自動化數(shù)據(jù)準(zhǔn)備過程將實現(xiàn)高質(zhì)高效。數(shù)據(jù)準(zhǔn)備不僅僅是數(shù)據(jù)的集成,還要將其轉(zhuǎn)換為可分析的格式。自動化有助于數(shù)據(jù)質(zhì)量問題的精準(zhǔn)識別、數(shù)據(jù)的豐富、安全性的確保與數(shù)據(jù)沿襲。自動化應(yīng)該取代電子表格來執(zhí)行此類高級任務(wù)。

《機器學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備》一文將幫助你理解數(shù)據(jù)準(zhǔn)備過程中不同步驟的本質(zhì)。

小心!五個數(shù)據(jù)準(zhǔn)備錯誤,請像躲瘟疫一樣避開

5. 為什么需要用放大鏡深入挖掘數(shù)據(jù)——命名慣例與人口規(guī)模問題

命名慣例必須設(shè)置得簡單,因為在準(zhǔn)備過程中要處理大量的數(shù)據(jù)。保持簡單明了,便于分析人員理解。這些可以為整個組織全局設(shè)置,也可以專門為項目設(shè)置。

一個建模數(shù)據(jù)集至少應(yīng)有1000條記錄,至少保存三年,以保證排除范圍或數(shù)據(jù)波動后得出的顯著對比結(jié)果。更大的人口規(guī)模提供了更廣泛和更深入的結(jié)論觀點。

所以,你還有什么借口呢?

數(shù)據(jù)準(zhǔn)備絕非一帆風(fēng)順。

無論是Facebook、亞馬遜還是谷歌的數(shù)據(jù)科學(xué)家,沒有堅實的基礎(chǔ),就無法建立自己夢想的分析城堡。對于一名數(shù)據(jù)科學(xué)家來說,他在一塊巨大的白板上頭腦風(fēng)暴,討論Linux集群和大量c代碼,然而準(zhǔn)備數(shù)據(jù)時發(fā)生的一個小小的錯誤就足以徹底消耗掉一切創(chuàng)新想法。

BARC的BI調(diào)查團隊最近進行了一項研究,內(nèi)容涉及當(dāng)今數(shù)據(jù)準(zhǔn)備的應(yīng)用方式,需克服的挑戰(zhàn),以及使用的組織框架。其中有個有趣的發(fā)現(xiàn),即公司在準(zhǔn)備輸出中有著糟糕結(jié)果的數(shù)據(jù)時所面臨的問題類型。這些原因可能就是這些錯誤首次出現(xiàn)的原因。

小心!五個數(shù)據(jù)準(zhǔn)備錯誤,請像躲瘟疫一樣避開

要避免這場致命禍患,運氣或是不確定的修復(fù)方法沒啥用。你所需要的是一套正確的預(yù)防措施,來徹底杜絕此類情況的發(fā)生;你所需的是援助之手以及準(zhǔn)備準(zhǔn)確數(shù)據(jù)集時的適量專業(yè)知識。

這才是你所需要和應(yīng)該準(zhǔn)備的。

 

責(zé)任編輯:趙寧寧 來源: 讀芯術(shù)
相關(guān)推薦

2013-08-22 10:17:51

Google大數(shù)據(jù)業(yè)務(wù)價值

2023-04-05 14:19:07

FlinkRedisNoSQL

2013-12-17 09:02:03

Python調(diào)試

2022-12-21 15:56:23

代碼文檔工具

2023-05-23 13:59:41

RustPython程序

2013-12-31 09:19:23

Python調(diào)試

2017-11-06 14:18:03

2013-07-26 10:15:29

云計算大數(shù)據(jù)Hadoop

2023-09-04 14:28:33

FlarumDiscourse開源

2011-01-18 10:45:16

喬布斯

2012-06-08 13:47:32

Wndows 8Vista

2015-02-05 13:27:02

移動開發(fā)模塊SDK

2015-03-16 12:50:44

2021-05-20 08:37:32

multiprocesPython線程

2021-12-28 11:23:36

SQLServerExcel數(shù)據(jù)分析

2020-12-07 10:10:22

企業(yè)文化客戶體驗

2023-11-30 08:34:29

批量消息消息隊列

2012-06-14 09:48:11

OpenStackLinux

2015-04-09 11:27:34

2011-10-24 13:07:00

點贊
收藏

51CTO技術(shù)棧公眾號