關于大數(shù)據(jù),你應該知道的75個專業(yè)術語
近日,Ramesh Dontha 在 DataConomy 上連發(fā)兩篇文章,扼要而全面地介紹了關于大數(shù)據(jù)的 75 個核心術語,這不僅是大數(shù)據(jù)初學者很好的入門資料,對于高階從業(yè)人員也可以起到查漏補缺的作用。本文分為上篇(25 個術語)和下篇(50 個術語)。機器之心對文章進行了編譯。
上篇(25 個術語)
如果你剛接觸大數(shù)據(jù),你可能會覺得這個領域很難以理解,無從下手。不過,你可以從下面這份包含了 25 個大數(shù)據(jù)術語的清單入手,那么我們開始吧。
算法(Algorithm):算法可以理解成一種數(shù)學公式或用于進行數(shù)據(jù)分析的統(tǒng)計學過程。那么,「算法」又是何以與大數(shù)據(jù)扯上關系的呢?要知道,盡管算法這個詞是一個統(tǒng)稱,但是在這個流行大數(shù)據(jù)分析的時代,算法也經常被提及且變得越發(fā)流行。
分析(Analytics):讓我們試想一個很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內資金轉賬情況的郵件,如果這個時候你拿著這張單子,開始認真研究你在食品、衣物、娛樂等方面消費情況的百分比會怎樣?你正在進行分析工作,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來年自己的消費情況作出決定)中挖掘有用的信息。那么,如果你以類似的方法在推特和臉書上對整個城市人們發(fā)的帖子進行處理會如何呢?在這種情況下,我們就可以稱之為大數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,就是對大量數(shù)據(jù)進行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現(xiàn)在我們來對它們分別進行梳理。
描述性分析法(Descriptive Analytics):如果你只說出自己去年信用卡消費情況為:食品方面 25%、衣物方面 35%、娛樂方面 20%、剩下 20% 為雜項開支,那么這種分析方法被稱為描述性分析法。當然,你也可以找出更多細節(jié)。
預測性分析法(Predictive Analytics):如果你對過去 5 年信用卡消費的歷史進行了分析,發(fā)現(xiàn)每年的消費情況基本上呈現(xiàn)一個連續(xù)變化的趨勢,那么在這種情況下你就可以高概率預測出:來年的消費狀態(tài)應該和以往是類似的。這不是說我們在預測未來,而是應該理解為,我們在「用概率預測」可能發(fā)生什么事情。在大數(shù)據(jù)的預測分析中,數(shù)據(jù)科學家可能會使用先進的技術,如機器學習,和先進的統(tǒng)計學處理方法(這部分后面我們會談到)來預測天氣情況、經濟變化等等。
規(guī)范性分析(Prescriptive Analytics):這里我們還是用信用卡轉賬的例子來理解。假如你想找出自己的哪類消費(如食品、娛樂、衣物等等)可以對整體消費產生巨大影響,那么基于預測性分析(Predictive Analytics)的規(guī)范性分析法通過引入「動態(tài)指標(action)」(如減少食品或衣物或娛樂)以及對由此產生的結果進行分析來規(guī)定一個可以降低你整體開銷的最佳消費項。你可以將它延伸到大數(shù)據(jù)領域,并想象一個負責人是如何通過觀察他面前多種動態(tài)指標的影響,進而作出所謂由「數(shù)據(jù)驅動」的決策的。
批處理(Batch processing):盡管批量數(shù)據(jù)處理從大型機(mainframe)時代就已經存在了,但是在處理大量數(shù)據(jù)的大數(shù)據(jù)時代面前,批處理獲得了更重要的意義。批量數(shù)據(jù)處理是一種處理大量數(shù)據(jù)(如在一段時間內收集到的一堆交易數(shù)據(jù))的有效方法。分布式計算(Hadoop),后面會討論,就是一種專門處理批量數(shù)據(jù)的方法。
Cassandra:是一個很流行的開源數(shù)據(jù)管理系統(tǒng),由 Apache Software Foundation 開發(fā)并運營。Apache 掌握了很多大數(shù)據(jù)處理技術,Cassandra 就是他們專門設計用于在分布式服務器之間處理大量數(shù)據(jù)的系統(tǒng)。
云計算(Cloud computing):雖然云計算這個詞現(xiàn)在已經家喻戶曉,這里大可不必贅述,但是為了全篇內容完整性的考慮,筆者還是在這里加入了云計算詞條。本質上講,軟件或數(shù)據(jù)在遠程服務器上進行處理,并且這些資源可以在網絡上任何地方被訪問,那么它就可被稱為云計算。
集群計算(Cluster computing):這是一個來描述使用多個服務器豐富資源的一個集群(cluster)的計算的形象化術語。更技術層面的理解是,在集群處理的語境下,我們可能會討論節(jié)點(node)、集群管理層(cluster management layer)、負載平衡(load balancing)和并行處理(parallel processing)等等。
暗數(shù)據(jù)(Dark data):這是一個生造詞,在筆者看來,它是用來嚇唬人,讓高級管理聽上去晦澀難懂的。基本而言,所謂暗數(shù)據(jù)指的是,那些公司積累和處理的實際上完全用不到的所有數(shù)據(jù),從這個意義上來說我們稱它們?yōu)椤赴怠沟臄?shù)據(jù),它們有可能根本不會被分析。這些數(shù)據(jù)可以是社交網絡中的信息,電話中心的記錄,會議記錄等等。很多估計認為所有公司的數(shù)據(jù)中有 60% 到 90% 不等可能是暗數(shù)據(jù),但實際上沒人知道。
數(shù)據(jù)湖(Data lake):當筆者第一次聽到這個詞時,真的以為這是個愚人節(jié)笑話。但是它真的是一個術語。所以一個數(shù)據(jù)湖(data lake)即一個以大量原始格式保存了公司級別的數(shù)據(jù)知識庫。這里我們介紹一下數(shù)據(jù)倉庫(Data warehouse)。數(shù)據(jù)倉庫是一個與這里提到的數(shù)據(jù)湖類似的概念,但不同的是,它保存的是經過清理和并且其它資源整合后的結構化數(shù)據(jù)。數(shù)據(jù)倉庫經常被用于通用數(shù)據(jù)(但不一定如此)。一般認為,一個數(shù)據(jù)湖可以讓人更方便地接觸到那些你真正需要的數(shù)據(jù),此外,你也可以更方便地處理、有效地使用它們。
數(shù)據(jù)挖掘(Data mining):數(shù)據(jù)挖掘關乎如下過程,從一大群數(shù)據(jù)中以復雜的模式識別技巧找出有意義的模式,并且得到相關洞見。它與前文所述的「分析」息息相關,在數(shù)據(jù)挖掘中,你將會先對數(shù)據(jù)進行挖掘,然后對這些得到的結果進行分析。為了得到有意義的模式(pattern),數(shù)據(jù)挖掘人員會使用到統(tǒng)計學(一種經典的舊方法)、機器學習算法和人工智能。
數(shù)據(jù)科學家:數(shù)據(jù)科學家是時下非常性感的一門行業(yè)。它指那些可以通過提取原始數(shù)據(jù)(這就是我們前面所謂的數(shù)據(jù)湖)進而理解、處理并得出洞見的這樣一批人。部分數(shù)據(jù)科學家必備的技能可以說只有超人才有:分析能力、統(tǒng)計學、計算機科學、創(chuàng)造力、講故事能力以及理解商業(yè)背景的能力。難怪這幫人工資很高。
分布式文件系統(tǒng)(Distributed File System):大數(shù)據(jù)數(shù)量太大,不能存儲在一個單獨的系統(tǒng)中,分布式文件系統(tǒng)是一個能夠把大量數(shù)據(jù)存儲在多個存儲設備上的文件系統(tǒng),它能夠減少存儲大量數(shù)據(jù)的成本和復雜度。
ETL:ETL 代表提取、轉換和加載。它指的是這一個過程:「提取」原始數(shù)據(jù),通過清洗/豐富的手段,把數(shù)據(jù)「轉換」為「適合使用」的形式,并且將其「加載」到合適的庫中供系統(tǒng)使用。即使 ETL 源自數(shù)據(jù)倉庫,但是這個過程在獲取數(shù)據(jù)的時候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。
Hadoop:當人們思考大數(shù)據(jù)的時候,他們會立即想到 Hadoop。Hadoop 是一個開源軟件架構(logo 是一頭可愛的大象),它由 Hadoop 分布式文件系統(tǒng)(HDFS)構成,它允許使用分布式硬件對大數(shù)據(jù)進行存儲、抽象和分析。如果你真的想讓某人對這個東西印象深刻,你可以跟他說 YARN(Yet Another Resource Scheduler),顧名思義,就是另一個資源調度器。我確實被提出這些名字的人深深震撼了。提出 Hadoop 的 Apache 基金會,還負責 Pig、Hive 以及 Spark(這都是一些軟件的名字)。你沒有被這些名字驚艷到嗎?
內存計算(In-memory computing):通常認為,任何不涉及到 I/O 訪問的計算都會更快一些。內存計算就是這樣的技術,它把所有的工作數(shù)據(jù)集都移動到集群的集體內存中,避免了在計算過程中向磁盤寫入中間結果。Apache Spark 就是一個內存計算的系統(tǒng),它相對 Mapreduce 這類 I/O 綁定的系統(tǒng)具有很大的優(yōu)勢。
物聯(lián)網(IoT):最新的流行語就是物聯(lián)網(IoT)。IoT 是嵌入式對象中(如傳感器、可穿戴設備、車、冰箱等等)的計算設備通過英特網的互聯(lián),它們能夠收發(fā)數(shù)據(jù)。物聯(lián)網生成了海量的數(shù)據(jù),帶來了很多大數(shù)據(jù)分析的機遇。
機器學習(Machine Learning):機器學習是基于喂入的數(shù)據(jù)去設計能夠學習、調整和提升的系統(tǒng)的一種方法。使用設定的預測和統(tǒng)計算法,它們持續(xù)地逼近「正確的」行為和想法,隨著更多的數(shù)據(jù)被輸入到系統(tǒng),它們能夠進一步提升。
MapReduce:MapReduce 可能有點難以理解,我試著解釋一下吧。MapReduceMapReduce 是一個編程模型,最好的理解就是要注意到 Map 和 Reduce 是兩個不同的過程。在 MapReduce 中,程序模型首先將大數(shù)據(jù)集分割成一些小塊(這些小塊拿技術術語來講叫做「元組」,但是我描述的時候會盡量避免晦澀的技術術語),然后這些小塊會被分發(fā)給不同位置上的不同計算機(也就是說之前描述過的集群),這在 Map 過程是必須的。然后模型會收集每個計算結果,并且將它們「reduce」成一個部分。MapReduce 的數(shù)據(jù)處理模型和 Hadoop 分布式文件系統(tǒng)是分不開的。
非關系型數(shù)據(jù)庫(NoSQL):這個詞聽起來幾乎就是「SQL,結構化查詢語言」的反義詞,SQL 是傳統(tǒng)的關系型數(shù)據(jù)管理系統(tǒng)(RDBMS)必需的,但是 NOSQL 實際上指的是「不止 SQL」。NoSQL 實際上指的是那些被設計來處理沒有結構(或者沒有「schema」,綱要)的大量數(shù)據(jù)的數(shù)據(jù)庫管理系統(tǒng)。NoSQL 適合大數(shù)據(jù)系統(tǒng),因為大規(guī)模的非結構化數(shù)據(jù)庫需要 NoSQL 的這種靈活性和分布式優(yōu)先的特點。
R 語言:這還有人能給一個編程語言起一個更加糟糕的名字嗎?R 語言就是這樣的語言。不過,R 語言是一個在統(tǒng)計工作中工作得很好的語言。如果你不知道 R 語言,別說你是數(shù)據(jù)科學家。因為 R 語言是數(shù)據(jù)科學中最流行的編程語言之一。
Spark(Apache Spark):Apache Spark 是一個快速的內存數(shù)據(jù)處理引擎,它能夠有效地執(zhí)行那些需要迭代訪問數(shù)據(jù)庫的流處理、機器學習以及 SQL 負載。Spark 通常會比我們前面討論過的 MapReduce 快好多。
流處理(Stream processing):流處理被設計來用于持續(xù)地進行流數(shù)據(jù)的處理。與流分析技術(指的是能夠持續(xù)地計算數(shù)值和統(tǒng)計分析的能力)結合起來,流處理方法特別能夠針對大規(guī)模數(shù)據(jù)的實時處理。
結構化 vs 非結構化數(shù)據(jù)(Structured v Unstructured Data):這是大數(shù)據(jù)中的對比之一。結構化數(shù)據(jù)基本上是那些能夠被放在關系型數(shù)據(jù)庫中的任何數(shù)據(jù),以這種方式組織的數(shù)據(jù)可以與其他數(shù)據(jù)通過表格來關聯(lián)。非結構化數(shù)據(jù)是指任何不能夠被放在關系型數(shù)據(jù)庫中的數(shù)據(jù),例如郵件信息、社交媒體上的狀態(tài),以及人類語音等等。
二、下篇(50 個術語)
這篇文章是上篇文章的延續(xù),由于上篇反響熱烈,我決定多介紹 50 個相關術語。下面來對上篇文章涵蓋的術語做個簡短的回顧:算法,分析,描述性分析,預處理分析,預測分析,批處理,Cassandra(一個大規(guī)模分布式數(shù)據(jù)存儲系統(tǒng)),云計算,集群計算,暗數(shù)據(jù),數(shù)據(jù)湖,數(shù)據(jù)挖掘,數(shù)據(jù)科學家,分布式文件系統(tǒng),ETL,Hadoop(一個開發(fā)和運行處理大規(guī)模數(shù)據(jù)的軟件平臺),內存計算,物聯(lián)網,機器學習,Mapreduce(hadoop 的核心組件之一),NoSQL(非關系型的數(shù)據(jù)庫),R,Spark(計算引擎),流處理,結構化 vs 非結構化數(shù)據(jù)。
我們接下來繼續(xù)了解另外 50 個大數(shù)據(jù)術語。
Apache:軟件基金會(ASF)提供了許多大數(shù)據(jù)的開源項目,目前有 350 多個。解釋完這些項目需要耗費大量時間,所以我只挑選解釋了一些流行術語。
Apache Kafka:命名于捷克作家卡夫卡,用于構建實時數(shù)據(jù)管道和流媒體應用。它如此流行的原因在于能夠以容錯的方式存儲、管理和處理數(shù)據(jù)流,據(jù)說還非?!缚焖佟埂hb于社交網絡環(huán)境大量涉及數(shù)據(jù)流的處理,卡夫卡目前非常受歡迎。
Apache Mahout:Mahout 提供了一個用于機器學習和數(shù)據(jù)挖掘的預制算法庫,也可用作創(chuàng)建更多算法的環(huán)境。換句話說,機器學習極客的最佳環(huán)境。
Apache Oozie:在任何編程環(huán)境中,你都需要一些工作流系統(tǒng)通過預定義的方式和定義的依賴關系,安排和運行工作。Oozie 為 pig、MapReduce 以及 Hive 等語言編寫的大數(shù)據(jù)工作所提供正是這個。
Apache Drill, Apache Impala, Apache Spark SQL:這三個開源項目都提供快速和交互式的 SQL,如與 Apache Hadoop 數(shù)據(jù)的交互。如果你已經知道 SQL 并處理以大數(shù)據(jù)格式存儲的數(shù)據(jù)(即 HBase 或 HDFS),這些功能將非常有用。抱歉,這里說的有點奇怪。
Apache Hive:知道 SQL 嗎?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 讀取、寫入和管理駐留在分布式存儲中的大型數(shù)據(jù)集。
Apache Pig:Pig 是在大型分布式數(shù)據(jù)集上創(chuàng)建、查詢、執(zhí)行例程的平臺。所使用的腳本語言叫做 Pig Latin(我絕對不是瞎說,相信我)。據(jù)說 Pig 很容易理解和學習。但是我很懷疑有多少是可以學習的?
Apache Sqoop:一個用于將數(shù)據(jù)從 Hadoop 轉移到非 Hadoop 數(shù)據(jù)存儲(如數(shù)據(jù)倉庫和關系數(shù)據(jù)庫)的工具。
Apache Storm:一個免費開源的實時分布式計算系統(tǒng)。它使得使用 Hadoop 進行批處理的同時可以更容易地處理非結構化數(shù)據(jù)。
人工智能(AI):為什么 AI 出現(xiàn)在這里?你可能會問,這不是一個單獨的領域嗎?所有這些技術發(fā)展趨勢緊密相連,所以我們最好靜下心來繼續(xù)學習,對吧?AI 以軟硬件結合的方式開發(fā)智能機器和軟件,這種硬件和軟件的結合能夠感知環(huán)境并在需要時采取必要的行動,不斷從這些行動中學習。是不是聽起來很像機器學習?跟我一起「困惑」吧。
行為分析(Behavioral Analytics):你有沒有想過谷歌是如何為你需要的產品/服務提供廣告的?行為分析側重于理解消費者和應用程序所做的事情,以及如何與為什么它們以某種方式起作用。這涉及了解我們的上網模式,社交媒體互動行為,以及我們的網上購物活動(購物車等),連接這些無關的數(shù)據(jù)點,并試圖預測結果。舉一個例子,在我找到一家酒店并清空購物車后,我收到了度假村假期線路的電話。我還要說多點嗎?
Brontobytes:1 后面 27 個零,這是未來數(shù)字世界存儲單位的大小。而我們在這里,來談談 Terabyte、Petabyte、Exabyte、Zetabyte、Yottabyte 和 Brontobyte。你一定要讀這篇文章才能深入了解這些術語。
商業(yè)智能(Business Intelligence):我將重用 Gartner 對 BI 的定義,因為它解釋的很好。商業(yè)智能是一個總稱,包括應用程序、基礎設施、工具以及最佳實踐,它可以訪問和分析信息,從而改善和優(yōu)化決策及績效。
生物測定學(Biometrics):這是一項 James Bondish 技術與分析技術相結合的通過人體的一種或多種物理特征來識別人的技術,如面部識別,虹膜識別,指紋識別等。
點擊流分析(Clickstream analytics):用于分析用戶在網絡上瀏覽時的在線點擊數(shù)據(jù)。有沒有想過即使在切換網站時,為什么某些谷歌廣告還是陰魂不散?因為谷歌大佬知道你在點擊什么。
聚類分析(Cluster Analysis):是一個試圖識別數(shù)據(jù)結構的探索性分析,也稱為分割分析或分類分析。更具體地說,它試圖確定案例的同質組(homogenous groups),即觀察、參與者、受訪者。如果分組以前未知,則使用聚類分析來識別案例組。因為它是探索性的,確實對依賴變量和獨立變量進行了區(qū)分。SPSS 提供的不同的聚類分析方法可以處理二進制、標稱、序數(shù)和規(guī)模(區(qū)間或比率)數(shù)據(jù)。
比較分析(Comparative Analytics):因為大數(shù)據(jù)的關鍵就在于分析,所以本文中我將深入講解分析的意義。顧名思義,比較分析是使用諸如模式分析、過濾和決策樹分析等統(tǒng)計技術來比較多個進程、數(shù)據(jù)集或其他對象。我知道它涉及的技術越來越少,但是我仍無法完全避免使用術語。比較分析可用于醫(yī)療保健領域,通過比較大量的醫(yī)療記錄、文件、圖像等,給出更有效和更準確的醫(yī)療診斷。
關聯(lián)分析(Connection Analytics):你一定看到了像圖表一樣的蜘蛛網將人與主題連接起來,從而確定特定主題的影響者。關聯(lián)分析分析可以幫助發(fā)現(xiàn)人們、產品、網絡之中的系統(tǒng),甚至是數(shù)據(jù)與多個網絡結合之間的相關連接和影響。
數(shù)據(jù)分析師(Data Analyst):數(shù)據(jù)分析師是一個非常重要和受歡迎的工作,除了準備報告之外,它還負責收集、編輯和分析數(shù)據(jù)。我會寫一篇更詳細的關于數(shù)據(jù)分析師的文章。
數(shù)據(jù)清洗(Data Cleansing):顧名思義,數(shù)據(jù)清洗涉及到檢測并更正或者刪除數(shù)據(jù)庫中不準確的數(shù)據(jù)或記錄,然后記住「臟數(shù)據(jù)」。借助于自動化或者人工工具和算法,數(shù)據(jù)分析師能夠更正并進一步豐富數(shù)據(jù),以提高數(shù)據(jù)質量。請記住,臟數(shù)據(jù)會導致錯誤的分析和糟糕的決策。
數(shù)據(jù)即服務(DaaS):我們有軟件即服務(SaaS), 平臺即服務(PaaS),現(xiàn)在我們又有 DaaS,它的意思是:數(shù)據(jù)即服務。通過給用戶提供按需訪問的云端數(shù)據(jù),DaaS 提供商能夠幫助我們快速地得到高質量的數(shù)據(jù)。
數(shù)據(jù)虛擬化(Data virtualization):這是一種數(shù)據(jù)管理方法,它允許某個應用在不知道技術細節(jié)(如數(shù)據(jù)存放在何處,以什么格式)的情況下能夠抽取并操作數(shù)據(jù)。例如,社交網絡利用這個方法來存儲我們的照片。
臟數(shù)據(jù)(Dirty Data):既然大數(shù)據(jù)這么吸引人,那么人們也開始給數(shù)據(jù)加上其他的形容詞來形成新的術語,例如黑數(shù)據(jù)(dark data)、臟數(shù)據(jù)(dirty data)、小數(shù)據(jù)(small data),以及現(xiàn)在的智能數(shù)據(jù)(smart data)。臟數(shù)據(jù)就是不干凈的數(shù)據(jù),換言之,就是不準確的、重復的以及不一致的數(shù)據(jù)。顯然,你不會想著和臟數(shù)據(jù)攪在一起。所以,盡快地修正它。
模糊邏輯(Fuzzy logic):我們有多少次對一件事情是確定的,例如 100% 正確?很稀少!我們的大腦將數(shù)據(jù)聚合成部分的事實,這些事實進一步被抽象為某種能夠決定我們決策的閾值。模糊邏輯是一種這樣的計算方式,與像布爾代數(shù)等等中的「0」和「1」相反,它旨在通過漸漸消除部分事實來模仿人腦。
游戲化(Gamification):在一個典型的游戲中,你會有一個類似于分數(shù)一樣的元素與別人競爭,并且還有明確的游戲規(guī)則。大數(shù)據(jù)中的游戲化就是使用這些概念來收集、分析數(shù)據(jù)或者激發(fā)玩家。
圖數(shù)據(jù)庫(Graph Databases):圖數(shù)據(jù)使用節(jié)點和邊這樣的概念來代表人和業(yè)務以及他們之間的關系,以挖掘社交媒體中的數(shù)據(jù)。是否曾經驚嘆過亞馬遜在你買一件產品的時候告訴你的關于別人在買什么的信息?對,這就是圖數(shù)據(jù)庫。
Hadoop 用戶體驗(Hadoop User Experience /Hue):Hue 是一個能夠讓使用 Apache Hadoop 變得更加容易的開源接口。它是一款基于 web 的應用;它有一款分布式文件系統(tǒng)的文件瀏覽器;它有用于 MapReduce 的任務設計;它有能夠調度工作流的框架 Oozie;它有一個 shell、一個 Impala、一個 Hive UI 以及一組 Hadoop API。
高性能分析應用(HANA):這是 SAP 公司為大數(shù)據(jù)傳輸和分析設計的一個軟硬件內存平臺。
HBase: 一個分布式的面向列的數(shù)據(jù)庫。它使用 HDFS 作為其底層存儲,既支持利用 MapReduce 進行的批量計算,也支持利用事物交互的批量計算。
負載均衡(Load balancing):為了實現(xiàn)最佳的結果和對系統(tǒng)的利用,將負載分發(fā)給多個計算機或者服務器。
元數(shù)據(jù)(Metadata):元數(shù)據(jù)就是能夠描述其他數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)總結了數(shù)據(jù)的基本信息,這使得查找和使用特定的數(shù)據(jù)實例變得更加容易。例如,作者、數(shù)據(jù)的創(chuàng)建日期、修改日期以及大小,這幾項是基本的文檔元數(shù)據(jù)。除了文檔文件之外,元數(shù)據(jù)還被用于圖像、視頻、電子表格和網頁。
MongoDB:MongoDB 是一個面向文本數(shù)據(jù)模型的跨平臺開源數(shù)據(jù)庫,而不是傳統(tǒng)的基于表格的關系數(shù)據(jù)庫。這種數(shù)據(jù)庫結構的主要設計目的是讓結構化數(shù)據(jù)和非結構化數(shù)據(jù)在特定類型應用的整合更快、更容易。
Mashup:幸運的是,這個術語和我們在日常生活中使用的「mashup」一詞有著相近的含義,就是混搭的意思。實質上,mashup 是一個將不同的數(shù)據(jù)集合并到一個單獨應用中的方法(例如:將房地產數(shù)據(jù)與地理位置數(shù)據(jù)、人口數(shù)據(jù)結合起來)。這確實能夠讓可視化變得很酷。
多維數(shù)據(jù)庫(Multi-Dimensional Databases):這是一個為了數(shù)據(jù)在線分析處理(OLAP)和數(shù)據(jù)倉庫優(yōu)化而來的數(shù)據(jù)庫。如果你不知道數(shù)據(jù)倉庫是什么,我可以解釋一下,數(shù)據(jù)倉庫不是別的什么東西,它只是對多個數(shù)據(jù)源的數(shù)據(jù)做了集中存儲。
多值數(shù)據(jù)庫(MultiValue Databases):多值數(shù)據(jù)庫是一種非關系型數(shù)據(jù)庫,它能夠直接理解三維數(shù)據(jù),這對直接操作 HTML 和 XML 字符串是很好的。
自然語言處理(Natural Language Processing):自然語言處理是被設計來讓計算機更加準確地理解人類日常語言的軟件算法,能夠讓人類更加自然、更加有效地和計算機交互。
神經網絡(Neural Network):根據(jù)這個描述
(http://neuralnetworksanddeeplearning.com/),神經網絡是一個受生物學啟發(fā)的非常漂亮的編程范式,它能夠讓計算機從觀察到的數(shù)據(jù)中學習。已經好久沒有一個人會說一個編程范式很漂亮了。實際上,神經網絡就是受現(xiàn)實生活中腦生物學啟發(fā)的模型....... 與神經網絡緊密關聯(lián)的一個術語就是深度學習。深度學習是神經網絡中一系列學習技術的集合。
模式識別(Pattern Recognition):當算法需要在大規(guī)模數(shù)據(jù)集或者在不同的數(shù)據(jù)集上確定回歸或者規(guī)律的時候,就出現(xiàn)了模式識別。它與機器學習和數(shù)據(jù)挖掘緊密相連,甚至被認為是后兩者的代名詞。這種可見性可以幫助研究者發(fā)現(xiàn)一些深刻的規(guī)律或者得到一些可能被認為很荒謬的結論。
射頻識別(Radio Frequency Identification/RFID):射頻識別是一類使用非接觸性無線射頻電磁場來傳輸數(shù)據(jù)的傳感器。隨著物聯(lián)網的發(fā)展,RFID 標簽能夠被嵌入到任何可能的「東西里面」,這能夠生成很多需要被分析的數(shù)據(jù)。歡迎來到數(shù)據(jù)世界。
軟件即服務(SaaS):軟件即服務讓服務提供商把應用托管在互聯(lián)網上。SaaS 提供商在云端提供服務。
半結構化數(shù)據(jù)(Semi-structured data):半結構化數(shù)據(jù)指的是那些沒有以傳統(tǒng)的方法進行格式化的數(shù)據(jù),例如那些與傳統(tǒng)數(shù)據(jù)庫相關的數(shù)據(jù)域或者常用的數(shù)據(jù)模型。半結構化數(shù)據(jù)也不是完全原始的數(shù)據(jù)或者完全非結構化的數(shù)據(jù),它可能會包含一些數(shù)據(jù)表、標簽或者其他的結構元素。半結構化數(shù)據(jù)的例子有圖、表、XML 文檔以及電子郵件。半結構化數(shù)據(jù)在萬維網上十分流行,在面向對象數(shù)據(jù)庫中經常能夠被找到。
情感分析(Sentiment Analysis):情感分析涉及到了對消費者在社交媒體、顧客代表電話訪談和調查中存在的多種類型的交互和文檔中所表達的情感、情緒和意見的捕捉、追蹤和分析。文本分析和自然語言處理是情感分析過程中的典型技術。情感分析的目標就是要辨別或評價針對一個公司、產品、服務、人或者時間所持有的態(tài)度或者情感。
空間分析(Spatial analysis):空間分析指的是對空間數(shù)據(jù)作出分析,以識別或者理解分布在幾何空間中的數(shù)據(jù)的模式和規(guī)律,這類數(shù)據(jù)有幾何數(shù)據(jù)和拓撲數(shù)據(jù)。
流處理(Stream processing):流處理被設計用來對「流數(shù)據(jù)」進行實時的「連續(xù)」查詢和處理。為了對大量的流數(shù)據(jù)以很快的速度持續(xù)地進行實時的數(shù)值計算和統(tǒng)計分析,社交網絡上的流數(shù)據(jù)對流處理的需求很明確。
智能數(shù)據(jù)(Smart Data):是經過一些算法處理之后有用并且可操作的數(shù)據(jù)。
Terabyte:這是一個相對大的數(shù)字數(shù)據(jù)單位,1TB 等于 1000GB。據(jù)估計,10TB 能夠容納美國國會圖書館的所有印刷品,而 1TB 則能夠容納整個百科全書 Encyclopedia Brittanica。
可視化(Visualization):有了合理的可視化之后,原始數(shù)據(jù)就能夠使用了。當然這里的可視化并不止簡單的圖表。而是能夠包含數(shù)據(jù)的很多變量的同時還具有可讀性和可理解性的復雜圖表。
Yottabytes:接近 1000 Zettabytes,或者 2500 萬億張 DVD?,F(xiàn)在所有的數(shù)字存儲大概是 1 Yottabyte,而且這個數(shù)字每 18 個月會翻一番。
Zettabytes:接近 1000 Exabytes,或者 10 億 Terabytes。
原文鏈接:http://dataconomy.com/2017/02/25-big-data-terms/
http://dataconomy.com/2017/07/75-big-data-terms-everyone-know/
【本文是51CTO專欄機構“機器之心”的原創(chuàng)譯文,微信公眾號“機器之心( id: almosthuman2014)”】