人們應該知道的大數(shù)據(jù)術(shù)語
大數(shù)據(jù)帶來了許多新的術(shù)語,但一些術(shù)語往往不太好理解。以下是人們應該了解的大數(shù)據(jù)術(shù)語列表:
以下進行一個簡短的回顧,以前曾經(jīng)介紹了算法,分析,描述性分析,預處理分析,預測分析,批處理,Cassandra,云計算,集群計算,暗數(shù)據(jù),數(shù)據(jù)湖,數(shù)據(jù)挖掘,數(shù)據(jù)科學家,分布式文件系統(tǒng),ETL,Hadoop,內(nèi)存計算,物聯(lián)網(wǎng),機器學習,Mapreduce,NoSQL,R,Spark,流處理,結(jié)構(gòu)化。非結(jié)構(gòu)化數(shù)據(jù)等25個大數(shù)據(jù)的術(shù)語,現(xiàn)在再了解一下50個大數(shù)據(jù)術(shù)語。
Apache軟件基金會(ASF):提供了許多大數(shù)據(jù)的開源項目,目前有350多個項目。是專門為支持開源軟件項目而辦的一個非盈利性組織。在它所支持的Apache項目與子項目中,所發(fā)行的軟件產(chǎn)品都遵循Apache許可證。
Apache Kafka:以著名的捷克作家命名的Apache Kafka用于構(gòu)建實時數(shù)據(jù)流管道和流媒體應用程序。為什么這么受歡迎?因為它能夠以容錯的方式存儲,管理和處理數(shù)據(jù)流,并且十分快速。鑒于社交網(wǎng)絡環(huán)境處理數(shù)據(jù)流,Kafka目前非常受歡迎。
ApacheMahout:Mahout提供了一個用于機器學習和數(shù)據(jù)挖掘的預制算法庫,也是創(chuàng)建更多算法的環(huán)境。換句話說,是一個機器學習的天堂環(huán)境。
ApacheOozie:在任何編程環(huán)境中,需要一些工作流程系統(tǒng)來以預定義的方式和定義的依賴關(guān)系來安排和運行工作。Oozie提供的大數(shù)據(jù)工作以Apachepig,MapReduce和Hive等語言編寫。
Apache Drill,Apache Impala,Apache Spark SQL:所有這些都提供了快速和交互式的SQL,如與ApacheHadoop數(shù)據(jù)的交互。如果你已經(jīng)知道SQL,并處理以大數(shù)據(jù)格式(即HBase或HDFS)存儲的數(shù)據(jù),這些功能將非常有用。
ApacheHive:知道SQL?然后采用Hive握手。Hive便于使用SQL讀取,寫入和管理駐留在分布式存儲中的大型數(shù)據(jù)集。
ApachePig:Pig是在大型分布式數(shù)據(jù)集上創(chuàng)建查詢執(zhí)行例程的平臺。所使用的腳本語言叫做PigLatin。據(jù)說Pig很容易理解和學習。但問題是有多少人能從Pig學到什么?
Apach eSqoop:用于將數(shù)據(jù)從Hadoop移動到非Hadoop數(shù)據(jù)存儲(如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)的工具。
Apache Storm:一個免費的開源實時分布式計算系統(tǒng)。它使得使用Hadoop進行批處理的瞬時處理可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。
人工智能(AI):人們可能會問,為什么在這里會有人工智能?人工智能不是一個單獨的領(lǐng)域,所有這些趨勢技術(shù)都是如此相關(guān),人工智能開發(fā)智能機器和軟件的方式,使得硬件和軟件的這種組合能夠感知環(huán)境,在需要時采取必要的措施,并繼續(xù)學習這些操作。
行為分析:有沒有想過谷歌如何為人們需要的產(chǎn)品/服務提供廣告?行為分析側(cè)重于理解消費者和應用程序所做的事情,以及如何以及為什么它們以某種方式起作用。它是關(guān)于了解人們的網(wǎng)上沖浪模式,社交媒體互動,電子商務行動(購物車等),并連接這些無關(guān)的數(shù)據(jù)點,并試圖預測結(jié)果。
Brontobytes:10的27次冪,這是數(shù)字宇宙的大小。在這里,可以了解TB字節(jié),PB字節(jié),EB字節(jié),ZB字節(jié),YB字節(jié),以及Brontobyte。人們今后會更多地了解這些術(shù)語。
商業(yè)智能(BI):在這里引用調(diào)研機構(gòu)Gartner對商業(yè)智能的定義。商業(yè)智能(BI)是一個總括的術(shù)語,其中包括應用程序,基礎(chǔ)設施和工具以及***實踐,可以訪問和分析信息,以改善和優(yōu)化決策和績效。
生物特征:這就是JamesBondish技術(shù)與分析技術(shù)相結(jié)合,通過一個或多個物理特征識別人,如面部識別,虹膜識別,指紋識別等。
點擊流分析:用于分析用戶在網(wǎng)絡上瀏覽的在線點擊。曾經(jīng)想過為什么某些Google廣告還會繼續(xù)關(guān)注你,即使切換網(wǎng)站等?因為知道你在點擊什么。
聚類分析:試圖識別數(shù)據(jù)中的結(jié)構(gòu)的探索性分析。聚類分析也稱為分割分析或分類分析。更具體地說,它試圖確定同一組案例,即觀察者,參與者,回答者。如果分組不是先前已知的,則使用聚類分析來識別病例組。因為它是探索性的,它確定了依賴變量和獨立變量之間的區(qū)別。SPSS提供的不同的聚類分析方法可以處理二進制,名義,順序和比例(間隔或比率)數(shù)據(jù)。
比較分析:大數(shù)據(jù)的核心在分析中。顧名思義,比較分析是使用諸如模式分析,過濾和決策樹分析之類的統(tǒng)計技術(shù)來比較多個進程,數(shù)據(jù)集或其他對象。人們知道它的技術(shù)性很差,但不能完全避開這個術(shù)語。比較分析可用于醫(yī)療保健,比較大量的醫(yī)療記錄,文件,圖像等更有效和更準確的醫(yī)療診斷。
連接分析:你一定已經(jīng)看到這些像蜘蛛網(wǎng)一樣的網(wǎng)絡圖表連接主題等,以識別某些主題的影響者。連接分析是有助于發(fā)現(xiàn)網(wǎng)絡中人員,產(chǎn)品和系統(tǒng)之間的這些相互關(guān)聯(lián)的連接和影響,甚至組合來自多個網(wǎng)絡的數(shù)據(jù)的分析。
數(shù)據(jù)分析師:數(shù)據(jù)分析師是一個非常重要和受歡迎的工作職位,除了準備報告之外,它還負責收集,操縱和分析數(shù)據(jù)。
數(shù)據(jù)清理:這有點不言自明,它涉及從數(shù)據(jù)庫中檢測和糾正或刪除不準確的數(shù)據(jù)或記錄。還記得“臟數(shù)據(jù)”嗎?那么,使用人工和自動化工具和算法的組合,數(shù)據(jù)分析人員可以糾正和豐富數(shù)據(jù)以提高其質(zhì)量。記住,骯臟的數(shù)據(jù)會導致錯誤的分析和錯誤的決策。
DaaS:你有SaaS,PaaS和DaaS為代表的數(shù)據(jù)即服務嗎?通過向客戶提供按需訪問云托管數(shù)據(jù),DaaS提供商可以幫助快速獲取高質(zhì)量的數(shù)據(jù)。
數(shù)據(jù)虛擬化:這是數(shù)據(jù)管理的一種方法,允許應用程序檢索和操作數(shù)據(jù),而不需要其存儲位置及其格式等的技術(shù)細節(jié)。例如,社交網(wǎng)絡將人們的照片存儲在他們的網(wǎng)絡中。
臟數(shù)據(jù):現(xiàn)在,大數(shù)據(jù)變得很流行,人們開始在數(shù)據(jù)中添加形容詞,產(chǎn)生新的術(shù)語,如暗數(shù)據(jù)、臟數(shù)據(jù)、小數(shù)據(jù),現(xiàn)在是智能數(shù)據(jù)。骯臟的數(shù)據(jù)就是不干凈的數(shù)據(jù),換句話說,是不準確、重復的,以及不一致的數(shù)據(jù)。顯然,企業(yè)不希望與臟數(shù)據(jù)關(guān)聯(lián)。
模糊邏輯:人們對100%這樣的事物有多少把握?非常罕見。人類的大腦將數(shù)據(jù)聚合成部分真理,然后再抽象成某種閾值,來決定我們的反應。模糊邏輯是一種通過模仿部分真理來模仿人腦的運算,而不是像布爾代數(shù)的其余部分那樣的“0”和“1”這樣的絕對真理。模糊邏輯在自然語言處理中得到了廣泛的應用,并已發(fā)展成為其他與數(shù)據(jù)相關(guān)的學科。
游戲化:在一個典型的游戲中,有人們喜歡的得分要素,與他人競爭,某些游戲規(guī)則等元素。大數(shù)據(jù)中的游戲化是使用這些概念來收集數(shù)據(jù)或分析數(shù)據(jù)或通常激勵用戶。
圖形數(shù)據(jù)庫:圖形數(shù)據(jù)庫使用的概念,如節(jié)點和邊界代表人員/企業(yè)和他們的相互關(guān)系,從社交媒體挖掘數(shù)據(jù)。曾經(jīng)想過,亞馬遜如何告訴你在購買產(chǎn)品時,別人買了什么?是的,圖形數(shù)據(jù)庫!
Hadoop用戶體驗(Hue):Hue是一個開放源代碼界面,使Apache Hadoop變得更加容易。它是一個基于Web的應用程序,并且具有用于HDFS的文件瀏覽器,MapReduce的作業(yè)設計器,用于制作協(xié)調(diào)器和工作流程的Oozie應用程序,Shell,Impala和HiveUI以及一組HadoopAPI。
HANA:高性能分析應用程序,來自SAP的軟件/硬件內(nèi)存中平臺,專為大量數(shù)據(jù)交易和分析而設計。
HBase:一個分布式,面向列的數(shù)據(jù)庫。它使用HDFS作為其底層存儲,并支持使用MapReduce和事務交互的批量計算。
負載平衡:跨多臺計算機或服務器分布工作負載,以實現(xiàn)系統(tǒng)的***結(jié)果和利用率。
元數(shù)據(jù):元數(shù)據(jù)是描述其他數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)總結(jié)了有關(guān)數(shù)據(jù)的基本信息,可以使查找和處理特定數(shù)據(jù)實例更容易。例如,作者,創(chuàng)建日期和日期修改以及文件大小是非?;镜奈臋n元數(shù)據(jù)。除文檔文件外,元數(shù)據(jù)也用于圖像,視頻,電子表格和網(wǎng)頁。
Mongo DB:一個跨平臺的開源數(shù)據(jù)庫,它使用面向文檔的數(shù)據(jù)模型,而不是傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)。這種類型的數(shù)據(jù)庫結(jié)構(gòu)旨在使結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在某些類型的應用程序中更加容易和快速地集成。
Mashup:幸運的是,這個術(shù)語對于我們在日常生活中了解mashup的定義類似。基本上,Mashup是將不同數(shù)據(jù)集合并為單個應用程序的一種方法(示例:將房地產(chǎn)清單與人口統(tǒng)計數(shù)據(jù)或地理數(shù)據(jù)相結(jié)合)。這是一個非常好的可視化。
多維數(shù)據(jù)庫:針對數(shù)據(jù)在線分析處理(OLAP)應用程序和數(shù)據(jù)倉庫進行優(yōu)化的數(shù)據(jù)庫。它只不過是數(shù)據(jù)多個數(shù)據(jù)源的中央存儲庫。
多值數(shù)據(jù)庫:它們是一種直接了解三維數(shù)據(jù)的NoSQL和多維數(shù)據(jù)庫。它們直接用于直接操作HTML和XML字符串。
自然語言處理:為使計算機更精確地理解日常人類語言而設計的軟件算法,使人們能夠更自然、更有效地與之交互。
神經(jīng)網(wǎng)絡:神經(jīng)網(wǎng)絡是一個美麗的生物學啟發(fā)的編程范例,使計算機能夠從觀測數(shù)據(jù)中學習。有人稱編程范例很美,本質(zhì)上,人工神經(jīng)網(wǎng)絡是由現(xiàn)實生活中大腦的生物學啟發(fā)的模型。與這種神經(jīng)網(wǎng)絡密切相關(guān)的是深度學習。深入學習則是一套功能強大的神經(jīng)網(wǎng)絡學習技術(shù)。
模式識別:當一個算法在大數(shù)據(jù)集或不同的數(shù)據(jù)集中定位遞歸或規(guī)律時,就會出現(xiàn)模式識別。它緊密相連,甚至被認為是機器學習和數(shù)據(jù)挖掘的代名詞。這種可見性可以幫助研究人員發(fā)現(xiàn)見解或得出結(jié)論,否則會被掩蓋。
RFID-射頻識別:一種使用無線非接觸式射頻電磁場傳輸數(shù)據(jù)的傳感器。隨著物聯(lián)網(wǎng)革命,RFID標簽可以嵌入到每一個可能的“東西”中,以產(chǎn)生需要分析的巨大數(shù)據(jù)量。
SaaS:軟件即服務,使供應商能夠托管應用程序并通過互聯(lián)網(wǎng)使其可用。SaaS提供商通過云計算提供服務。
半結(jié)構(gòu)化數(shù)據(jù):半結(jié)構(gòu)化數(shù)據(jù)是指以常規(guī)方式未被捕獲或格式化的數(shù)據(jù),例如與傳統(tǒng)數(shù)據(jù)庫字段或公共數(shù)據(jù)模型相關(guān)聯(lián)的數(shù)據(jù)。它也不是原始的或完全非結(jié)構(gòu)化的,并且可能包含一些數(shù)據(jù)表,標簽或其他結(jié)構(gòu)元素。圖形和表格,XML文檔和電子郵件是半結(jié)構(gòu)化數(shù)據(jù)的示例,它在萬維網(wǎng)上是非常普遍的,通常在面向?qū)ο蟮臄?shù)據(jù)庫中。
情緒分析:情緒分析涉及捕捉和跟蹤消費者在各種交互或文件(包括社交媒體,客戶服務代表呼叫,調(diào)查等)中表達的意見,情緒或感受。文本分析和自然語言處理是情緒分析過程中的典型活動。目標是確定或評估對公司,產(chǎn)品,服務,人員或事件表達的情緒或態(tài)度。
空間分析:指分析地理數(shù)據(jù)或拓撲數(shù)據(jù)的空間數(shù)據(jù),以識別和理解分布在地理空間中的數(shù)據(jù)內(nèi)的模式和規(guī)律。
流處理:流處理旨在通過“連續(xù)”查詢對實時和流數(shù)據(jù)進行操作。隨著從社交網(wǎng)絡不斷流出的數(shù)據(jù),流處理和流分析的確需要在這些流中不間斷地計算數(shù)學或統(tǒng)計分析,以便實時處理大量的數(shù)據(jù)。
智能數(shù)據(jù):智能數(shù)據(jù)據(jù)稱是在通過算法進行的一些過濾之后,其數(shù)據(jù)是有用的和可操作的。
TB字節(jié):一個相對較大的數(shù)字數(shù)據(jù)單元,一T字節(jié)(TB)等于1000GB字節(jié)。據(jù)估計,10T字節(jié)可以容納美國國會圖書館的全部印刷品,而1T字節(jié)可以容納1000份百科全書。
可視化:通過正確的可視化,原始數(shù)據(jù)可以投入使用。當然可視化并不意味著普通的圖形或餅圖。它們是指可以包含許多數(shù)據(jù)變量的復雜圖形,同時仍然可以理解和可讀
Yabyabytes:約1000ZB,或2500億張的DVD容量。如今的整個數(shù)字宇宙是1 Yabyabytes,這將每18個月翻一番。
Zettabytes:大約1000EB字節(jié)或10億TB字節(jié)。