人們應該知道的大數(shù)據(jù)術(shù)語

作者：佚名 2017-10-25 14:59:18

大數(shù)據(jù)帶來了許多新的術(shù)語,但一些術(shù)語往往不太好理解。以下是人們應該了解的大數(shù)據(jù)術(shù)語列表。包括非結(jié)構(gòu)化數(shù)據(jù)等25個大數(shù)據(jù)的術(shù)語，現(xiàn)在再了解一下50個大數(shù)據(jù)術(shù)語。

大數(shù)據(jù)帶來了許多新的術(shù)語,但一些術(shù)語往往不太好理解。以下是人們應該了解的大數(shù)據(jù)術(shù)語列表：

以下進行一個簡短的回顧，以前曾經(jīng)介紹了算法，分析，描述性分析，預處理分析，預測分析，批處理，Cassandra，云計算，集群計算，暗數(shù)據(jù)，數(shù)據(jù)湖，數(shù)據(jù)挖掘，數(shù)據(jù)科學家，分布式文件系統(tǒng)，ETL，Hadoop，內(nèi)存計算，物聯(lián)網(wǎng)，機器學習，Mapreduce，NoSQL，R，Spark，流處理，結(jié)構(gòu)化。非結(jié)構(gòu)化數(shù)據(jù)等25個大數(shù)據(jù)的術(shù)語，現(xiàn)在再了解一下50個大數(shù)據(jù)術(shù)語。

[[207608]]

Apache軟件基金會(ASF)：提供了許多大數(shù)據(jù)的開源項目，目前有350多個項目。是專門為支持開源軟件項目而辦的一個非盈利性組織。在它所支持的Apache項目與子項目中，所發(fā)行的軟件產(chǎn)品都遵循Apache許可證。

Apache Kafka：以著名的捷克作家命名的Apache Kafka用于構(gòu)建實時數(shù)據(jù)流管道和流媒體應用程序。為什么這么受歡迎?因為它能夠以容錯的方式存儲，管理和處理數(shù)據(jù)流，并且十分快速。鑒于社交網(wǎng)絡環(huán)境處理數(shù)據(jù)流，Kafka目前非常受歡迎。

ApacheMahout：Mahout提供了一個用于機器學習和數(shù)據(jù)挖掘的預制算法庫，也是創(chuàng)建更多算法的環(huán)境。換句話說，是一個機器學習的天堂環(huán)境。

ApacheOozie：在任何編程環(huán)境中，需要一些工作流程系統(tǒng)來以預定義的方式和定義的依賴關(guān)系來安排和運行工作。Oozie提供的大數(shù)據(jù)工作以Apachepig，MapReduce和Hive等語言編寫。

Apache Drill，Apache Impala，Apache Spark SQL：所有這些都提供了快速和交互式的SQL，如與ApacheHadoop數(shù)據(jù)的交互。如果你已經(jīng)知道SQL，并處理以大數(shù)據(jù)格式(即HBase或HDFS)存儲的數(shù)據(jù)，這些功能將非常有用。

ApacheHive：知道SQL?然后采用Hive握手。Hive便于使用SQL讀取，寫入和管理駐留在分布式存儲中的大型數(shù)據(jù)集。

ApachePig：Pig是在大型分布式數(shù)據(jù)集上創(chuàng)建查詢執(zhí)行例程的平臺。所使用的腳本語言叫做PigLatin。據(jù)說Pig很容易理解和學習。但問題是有多少人能從Pig學到什么?

Apach eSqoop：用于將數(shù)據(jù)從Hadoop移動到非Hadoop數(shù)據(jù)存儲(如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)的工具。

Apache Storm：一個免費的開源實時分布式計算系統(tǒng)。它使得使用Hadoop進行批處理的瞬時處理可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。

人工智能(AI)：人們可能會問，為什么在這里會有人工智能?人工智能不是一個單獨的領(lǐng)域，所有這些趨勢技術(shù)都是如此相關(guān)，人工智能開發(fā)智能機器和軟件的方式，使得硬件和軟件的這種組合能夠感知環(huán)境，在需要時采取必要的措施，并繼續(xù)學習這些操作。

行為分析：有沒有想過谷歌如何為人們需要的產(chǎn)品/服務提供廣告?行為分析側(cè)重于理解消費者和應用程序所做的事情，以及如何以及為什么它們以某種方式起作用。它是關(guān)于了解人們的網(wǎng)上沖浪模式，社交媒體互動，電子商務行動(購物車等)，并連接這些無關(guān)的數(shù)據(jù)點，并試圖預測結(jié)果。

Brontobytes：10的27次冪，這是數(shù)字宇宙的大小。在這里，可以了解TB字節(jié)，PB字節(jié)，EB字節(jié)，ZB字節(jié)，YB字節(jié)，以及Brontobyte。人們今后會更多地了解這些術(shù)語。

商業(yè)智能(BI)：在這里引用調(diào)研機構(gòu)Gartner對商業(yè)智能的定義。商業(yè)智能(BI)是一個總括的術(shù)語，其中包括應用程序，基礎(chǔ)設施和工具以及***實踐，可以訪問和分析信息，以改善和優(yōu)化決策和績效。

生物特征：這就是JamesBondish技術(shù)與分析技術(shù)相結(jié)合，通過一個或多個物理特征識別人，如面部識別，虹膜識別，指紋識別等。

點擊流分析：用于分析用戶在網(wǎng)絡上瀏覽的在線點擊。曾經(jīng)想過為什么某些Google廣告還會繼續(xù)關(guān)注你，即使切換網(wǎng)站等?因為知道你在點擊什么。

聚類分析：試圖識別數(shù)據(jù)中的結(jié)構(gòu)的探索性分析。聚類分析也稱為分割分析或分類分析。更具體地說，它試圖確定同一組案例，即觀察者，參與者，回答者。如果分組不是先前已知的，則使用聚類分析來識別病例組。因為它是探索性的，它確定了依賴變量和獨立變量之間的區(qū)別。SPSS提供的不同的聚類分析方法可以處理二進制，名義，順序和比例(間隔或比率)數(shù)據(jù)。

比較分析：大數(shù)據(jù)的核心在分析中。顧名思義，比較分析是使用諸如模式分析，過濾和決策樹分析之類的統(tǒng)計技術(shù)來比較多個進程，數(shù)據(jù)集或其他對象。人們知道它的技術(shù)性很差，但不能完全避開這個術(shù)語。比較分析可用于醫(yī)療保健，比較大量的醫(yī)療記錄，文件，圖像等更有效和更準確的醫(yī)療診斷。

連接分析：你一定已經(jīng)看到這些像蜘蛛網(wǎng)一樣的網(wǎng)絡圖表連接主題等，以識別某些主題的影響者。連接分析是有助于發(fā)現(xiàn)網(wǎng)絡中人員，產(chǎn)品和系統(tǒng)之間的這些相互關(guān)聯(lián)的連接和影響，甚至組合來自多個網(wǎng)絡的數(shù)據(jù)的分析。

數(shù)據(jù)分析師：數(shù)據(jù)分析師是一個非常重要和受歡迎的工作職位，除了準備報告之外，它還負責收集，操縱和分析數(shù)據(jù)。

數(shù)據(jù)清理：這有點不言自明，它涉及從數(shù)據(jù)庫中檢測和糾正或刪除不準確的數(shù)據(jù)或記錄。還記得“臟數(shù)據(jù)”嗎?那么，使用人工和自動化工具和算法的組合，數(shù)據(jù)分析人員可以糾正和豐富數(shù)據(jù)以提高其質(zhì)量。記住，骯臟的數(shù)據(jù)會導致錯誤的分析和錯誤的決策。

DaaS：你有SaaS，PaaS和DaaS為代表的數(shù)據(jù)即服務嗎?通過向客戶提供按需訪問云托管數(shù)據(jù)，DaaS提供商可以幫助快速獲取高質(zhì)量的數(shù)據(jù)。

數(shù)據(jù)虛擬化：這是數(shù)據(jù)管理的一種方法，允許應用程序檢索和操作數(shù)據(jù)，而不需要其存儲位置及其格式等的技術(shù)細節(jié)。例如，社交網(wǎng)絡將人們的照片存儲在他們的網(wǎng)絡中。

臟數(shù)據(jù)：現(xiàn)在，大數(shù)據(jù)變得很流行，人們開始在數(shù)據(jù)中添加形容詞，產(chǎn)生新的術(shù)語，如暗數(shù)據(jù)、臟數(shù)據(jù)、小數(shù)據(jù)，現(xiàn)在是智能數(shù)據(jù)。骯臟的數(shù)據(jù)就是不干凈的數(shù)據(jù)，換句話說，是不準確、重復的，以及不一致的數(shù)據(jù)。顯然，企業(yè)不希望與臟數(shù)據(jù)關(guān)聯(lián)。

模糊邏輯：人們對100%這樣的事物有多少把握?非常罕見。人類的大腦將數(shù)據(jù)聚合成部分真理，然后再抽象成某種閾值，來決定我們的反應。模糊邏輯是一種通過模仿部分真理來模仿人腦的運算，而不是像布爾代數(shù)的其余部分那樣的“0”和“1”這樣的絕對真理。模糊邏輯在自然語言處理中得到了廣泛的應用，并已發(fā)展成為其他與數(shù)據(jù)相關(guān)的學科。

游戲化：在一個典型的游戲中，有人們喜歡的得分要素，與他人競爭，某些游戲規(guī)則等元素。大數(shù)據(jù)中的游戲化是使用這些概念來收集數(shù)據(jù)或分析數(shù)據(jù)或通常激勵用戶。

圖形數(shù)據(jù)庫：圖形數(shù)據(jù)庫使用的概念，如節(jié)點和邊界代表人員/企業(yè)和他們的相互關(guān)系，從社交媒體挖掘數(shù)據(jù)。曾經(jīng)想過，亞馬遜如何告訴你在購買產(chǎn)品時，別人買了什么?是的，圖形數(shù)據(jù)庫!

Hadoop用戶體驗(Hue)：Hue是一個開放源代碼界面，使Apache Hadoop變得更加容易。它是一個基于Web的應用程序，并且具有用于HDFS的文件瀏覽器，MapReduce的作業(yè)設計器，用于制作協(xié)調(diào)器和工作流程的Oozie應用程序，Shell，Impala和HiveUI以及一組HadoopAPI。

HANA：高性能分析應用程序，來自SAP的軟件/硬件內(nèi)存中平臺，專為大量數(shù)據(jù)交易和分析而設計。

HBase：一個分布式，面向列的數(shù)據(jù)庫。它使用HDFS作為其底層存儲，并支持使用MapReduce和事務交互的批量計算。

負載平衡：跨多臺計算機或服務器分布工作負載，以實現(xiàn)系統(tǒng)的***結(jié)果和利用率。

元數(shù)據(jù)：元數(shù)據(jù)是描述其他數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)總結(jié)了有關(guān)數(shù)據(jù)的基本信息，可以使查找和處理特定數(shù)據(jù)實例更容易。例如，作者，創(chuàng)建日期和日期修改以及文件大小是非?；镜奈臋n元數(shù)據(jù)。除文檔文件外，元數(shù)據(jù)也用于圖像，視頻，電子表格和網(wǎng)頁。

Mongo DB：一個跨平臺的開源數(shù)據(jù)庫，它使用面向文檔的數(shù)據(jù)模型，而不是傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)。這種類型的數(shù)據(jù)庫結(jié)構(gòu)旨在使結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在某些類型的應用程序中更加容易和快速地集成。

Mashup：幸運的是，這個術(shù)語對于我們在日常生活中了解mashup的定義類似。基本上，Mashup是將不同數(shù)據(jù)集合并為單個應用程序的一種方法(示例：將房地產(chǎn)清單與人口統(tǒng)計數(shù)據(jù)或地理數(shù)據(jù)相結(jié)合)。這是一個非常好的可視化。

多維數(shù)據(jù)庫：針對數(shù)據(jù)在線分析處理(OLAP)應用程序和數(shù)據(jù)倉庫進行優(yōu)化的數(shù)據(jù)庫。它只不過是數(shù)據(jù)多個數(shù)據(jù)源的中央存儲庫。

多值數(shù)據(jù)庫：它們是一種直接了解三維數(shù)據(jù)的NoSQL和多維數(shù)據(jù)庫。它們直接用于直接操作HTML和XML字符串。

自然語言處理：為使計算機更精確地理解日常人類語言而設計的軟件算法，使人們能夠更自然、更有效地與之交互。

神經(jīng)網(wǎng)絡：神經(jīng)網(wǎng)絡是一個美麗的生物學啟發(fā)的編程范例，使計算機能夠從觀測數(shù)據(jù)中學習。有人稱編程范例很美，本質(zhì)上，人工神經(jīng)網(wǎng)絡是由現(xiàn)實生活中大腦的生物學啟發(fā)的模型。與這種神經(jīng)網(wǎng)絡密切相關(guān)的是深度學習。深入學習則是一套功能強大的神經(jīng)網(wǎng)絡學習技術(shù)。

模式識別：當一個算法在大數(shù)據(jù)集或不同的數(shù)據(jù)集中定位遞歸或規(guī)律時，就會出現(xiàn)模式識別。它緊密相連，甚至被認為是機器學習和數(shù)據(jù)挖掘的代名詞。這種可見性可以幫助研究人員發(fā)現(xiàn)見解或得出結(jié)論，否則會被掩蓋。

RFID-射頻識別：一種使用無線非接觸式射頻電磁場傳輸數(shù)據(jù)的傳感器。隨著物聯(lián)網(wǎng)革命，RFID標簽可以嵌入到每一個可能的“東西”中，以產(chǎn)生需要分析的巨大數(shù)據(jù)量。

SaaS：軟件即服務，使供應商能夠托管應用程序并通過互聯(lián)網(wǎng)使其可用。SaaS提供商通過云計算提供服務。

半結(jié)構(gòu)化數(shù)據(jù)：半結(jié)構(gòu)化數(shù)據(jù)是指以常規(guī)方式未被捕獲或格式化的數(shù)據(jù)，例如與傳統(tǒng)數(shù)據(jù)庫字段或公共數(shù)據(jù)模型相關(guān)聯(lián)的數(shù)據(jù)。它也不是原始的或完全非結(jié)構(gòu)化的，并且可能包含一些數(shù)據(jù)表，標簽或其他結(jié)構(gòu)元素。圖形和表格，XML文檔和電子郵件是半結(jié)構(gòu)化數(shù)據(jù)的示例，它在萬維網(wǎng)上是非常普遍的，通常在面向?qū)ο蟮臄?shù)據(jù)庫中。

情緒分析：情緒分析涉及捕捉和跟蹤消費者在各種交互或文件(包括社交媒體，客戶服務代表呼叫，調(diào)查等)中表達的意見，情緒或感受。文本分析和自然語言處理是情緒分析過程中的典型活動。目標是確定或評估對公司，產(chǎn)品，服務，人員或事件表達的情緒或態(tài)度。

空間分析：指分析地理數(shù)據(jù)或拓撲數(shù)據(jù)的空間數(shù)據(jù)，以識別和理解分布在地理空間中的數(shù)據(jù)內(nèi)的模式和規(guī)律。

流處理：流處理旨在通過“連續(xù)”查詢對實時和流數(shù)據(jù)進行操作。隨著從社交網(wǎng)絡不斷流出的數(shù)據(jù)，流處理和流分析的確需要在這些流中不間斷地計算數(shù)學或統(tǒng)計分析，以便實時處理大量的數(shù)據(jù)。

智能數(shù)據(jù)：智能數(shù)據(jù)據(jù)稱是在通過算法進行的一些過濾之后，其數(shù)據(jù)是有用的和可操作的。

TB字節(jié)：一個相對較大的數(shù)字數(shù)據(jù)單元，一T字節(jié)(TB)等于1000GB字節(jié)。據(jù)估計，10T字節(jié)可以容納美國國會圖書館的全部印刷品，而1T字節(jié)可以容納1000份百科全書。

可視化：通過正確的可視化，原始數(shù)據(jù)可以投入使用。當然可視化并不意味著普通的圖形或餅圖。它們是指可以包含許多數(shù)據(jù)變量的復雜圖形，同時仍然可以理解和可讀

Yabyabytes：約1000ZB，或2500億張的DVD容量。如今的整個數(shù)字宇宙是1 Yabyabytes，這將每18個月翻一番。

Zettabytes：大約1000EB字節(jié)或10億TB字節(jié)。

責任編輯：未麗燕來源：機房360

大數(shù)據(jù)術(shù)語物聯(lián)網(wǎng)

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人們應該知道的大數(shù)據(jù)術(shù)語