看看就知道,術(shù)語不一定很神秘!
譯文【51CTO.com快譯】
拿來橫跨商業(yè)界和技術(shù)界的一大潮流,加上無數(shù)希望大發(fā)其財?shù)膹S商和顧問,你得到的是什么?一大堆定義不明確的流行語。
在大數(shù)據(jù)行業(yè),周圍的炒作催生出了全新的術(shù)語。需要一點闡明?不妨閱讀這份小型術(shù)語表,它們著重介紹了你應(yīng)該了解的一些主要的數(shù)據(jù)類型。
1. 快數(shù)據(jù)
大數(shù)據(jù)行業(yè)最耀眼的術(shù)語就是“快數(shù)據(jù)”(fast data),這個術(shù)語越來越頻繁地出現(xiàn)在我們面前。它是指“效用隨著時間而下降的數(shù)據(jù)”,Ovum公司的首席分析師托尼·貝爾(Tony Baer)說,他早在2012年杜撰了這個詞。
快數(shù)據(jù)是指需要實時獲取并分析的Twitter消息內(nèi)容和流數(shù)據(jù),能夠支持即時決策和響應(yīng)。資本市場交易公司可能依賴快數(shù)據(jù)來進行算法交易或高頻交易。
企業(yè)策略集團的高級分析師尼克·魯達(Nik Rouda)說:“快數(shù)據(jù)可能指幾個方面:快速攝取、快速流式傳輸、快速準備、快速分析、用戶快速響應(yīng)。它主要是一種營銷宣傳,但是從諸多方面表明了需要性能。”
貝爾表示,帶寬增加、商用硬件、內(nèi)存價格下降和實時分析,這些因素共同促成了快數(shù)據(jù)的興起。
2. 慢數(shù)據(jù)
與快數(shù)據(jù)相對的是“慢數(shù)據(jù)”(slow data),即以相對緩慢的步伐慢慢滲入的數(shù)據(jù),因而需要不太頻繁的分析。貝爾以監(jiān)視海洋潮汐的設(shè)備為例――對于大多數(shù)用途而言,不需要實時更新。
通常而言,這種數(shù)據(jù)更適合捕獲到數(shù)據(jù)湖中以及隨后的批處理。
3. 小數(shù)據(jù)
“小數(shù)據(jù)”(small data)是指“裝在一臺筆記本電腦上的任何數(shù)據(jù)”,分析咨詢公司KDnuggets的總裁格雷戈里·皮亞泰特斯基-夏皮羅(Gregory Piatetsky-Shapiro)說。
實際上,這個術(shù)語承認了這一事實:“許多分析工作仍在筆記本電腦上針對幾個數(shù)據(jù)源中的某一個來未執(zhí)行,使用輕量級應(yīng)用程序,有時甚至僅僅是Excel,”魯達如是說。
4. 中等數(shù)據(jù)
至于“中等數(shù)據(jù)”(medium data),它介于兩者之間。
貝爾表示,你在談?wù)摂?shù)PB的數(shù)據(jù)時,那是大數(shù)據(jù),你可能會使用Hadoop和MapReduce之類的技術(shù)來分析它。但是,“大多數(shù)分析問題并不涉及PB級數(shù)量,”他補充道。如果分析的數(shù)據(jù)處于中間規(guī)模,那它就是中等數(shù)據(jù),你可能會使用Apache Spark。
5. 暗數(shù)據(jù)
“暗數(shù)據(jù)”(dark data)通常是指被忽視、未充分利用的數(shù)據(jù)。
魯達解釋:“人們不知道暗數(shù)據(jù)的存在,不知道如何訪問它,不被允許訪問,或者利用暗數(shù)據(jù)的系統(tǒng)還沒有建立起來。”他表示,暗數(shù)據(jù)“往往”出現(xiàn)在數(shù)據(jù)庫、數(shù)據(jù)倉庫和數(shù)據(jù)湖。
這種受限制或記錄不翔實的數(shù)據(jù)池常常被稱為“暗網(wǎng)”(dark web)。貝爾表示,揭示暗數(shù)據(jù)通常是數(shù)據(jù)發(fā)現(xiàn)服務(wù)的范疇,常常要用到機器學(xué)習(xí)算法。
6. 臟數(shù)據(jù)
最后但并非最不重要的是,“臟數(shù)據(jù)”遠不如聽起來那么有趣。相反,它就是被清理之前的數(shù)據(jù)集。
貝爾說:“事實上,數(shù)據(jù)在你清理之前是臟的。除非你對數(shù)據(jù)執(zhí)行了一番操作,否則數(shù)據(jù)不會干凈。”
魯達特別指出,這些操作包括數(shù)據(jù)準備、數(shù)據(jù)充實和數(shù)據(jù)轉(zhuǎn)換。“否則,就有可能出現(xiàn)錯誤的答案。”
再補充一點…...
使用數(shù)據(jù)來拓展公司業(yè)務(wù)需要的絕不僅僅是了解術(shù)語。
弗雷斯特研究公司的副總裁布賴恩·霍普金斯(Brian Hopkins)說:“已變得隨時可用的所有數(shù)據(jù)與我們能夠用來獲取洞察力之間存在著差距。”
霍普金斯表示,消除這個差距可能需要使用Hadoop,也可能借助簡單的自助式工具來完成。無論哪種方式,需要把數(shù)據(jù)結(jié)合起來,有意義的行動才會隨之出現(xiàn)。
他說:“廠商和分析師擅長制造新的流行語。”“我給CIO們的建議是,高度關(guān)注將會改變貴公司業(yè)務(wù)的結(jié)果”,而不是深陷術(shù)語當(dāng)中無法自拔。
原文標題:6 'data' buzzwords you need to understand,作者:Katherine Noyes
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】