自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人們應該知道的大數(shù)據(jù)術(shù)語

大數(shù)據(jù)
大數(shù)據(jù)帶來了許多新的術(shù)語,但一些術(shù)語往往不太好理解。以下是人們應該了解的大數(shù)據(jù)術(shù)語列表。包括非結(jié)構(gòu)化數(shù)據(jù)等25個大數(shù)據(jù)的術(shù)語,現(xiàn)在再了解一下50個大數(shù)據(jù)術(shù)語。

大數(shù)據(jù)帶來了許多新的術(shù)語,但一些術(shù)語往往不太好理解。以下是人們應該了解的大數(shù)據(jù)術(shù)語列表:

以下進行一個簡短的回顧,以前曾經(jīng)介紹了算法,分析,描述性分析,預處理分析,預測分析,批處理,Cassandra,云計算,集群計算,暗數(shù)據(jù),數(shù)據(jù)湖,數(shù)據(jù)挖掘,數(shù)據(jù)科學家,分布式文件系統(tǒng),ETL,Hadoop,內(nèi)存計算,物聯(lián)網(wǎng),機器學習,Mapreduce,NoSQL,R,Spark,流處理,結(jié)構(gòu)化。非結(jié)構(gòu)化數(shù)據(jù)等25個大數(shù)據(jù)的術(shù)語,現(xiàn)在再了解一下50個大數(shù)據(jù)術(shù)語。

[[207608]]

Apache軟件基金會(ASF):提供了許多大數(shù)據(jù)的開源項目,目前有350多個項目。是專門為支持開源軟件項目而辦的一個非盈利性組織。在它所支持的Apache項目與子項目中,所發(fā)行的軟件產(chǎn)品都遵循Apache許可證。

Apache Kafka:以著名的捷克作家命名的Apache Kafka用于構(gòu)建實時數(shù)據(jù)流管道和流媒體應用程序。為什么這么受歡迎?因為它能夠以容錯的方式存儲,管理和處理數(shù)據(jù)流,并且十分快速。鑒于社交網(wǎng)絡環(huán)境處理數(shù)據(jù)流,Kafka目前非常受歡迎。

ApacheMahout:Mahout提供了一個用于機器學習和數(shù)據(jù)挖掘的預制算法庫,也是創(chuàng)建更多算法的環(huán)境。換句話說,是一個機器學習的天堂環(huán)境。

ApacheOozie:在任何編程環(huán)境中,需要一些工作流程系統(tǒng)來以預定義的方式和定義的依賴關(guān)系來安排和運行工作。Oozie提供的大數(shù)據(jù)工作以Apachepig,MapReduce和Hive等語言編寫。

Apache Drill,Apache Impala,Apache Spark SQL:所有這些都提供了快速和交互式的SQL,如與ApacheHadoop數(shù)據(jù)的交互。如果你已經(jīng)知道SQL,并處理以大數(shù)據(jù)格式(即HBase或HDFS)存儲的數(shù)據(jù),這些功能將非常有用。

ApacheHive:知道SQL?然后采用Hive握手。Hive便于使用SQL讀取,寫入和管理駐留在分布式存儲中的大型數(shù)據(jù)集。

ApachePig:Pig是在大型分布式數(shù)據(jù)集上創(chuàng)建查詢執(zhí)行例程的平臺。所使用的腳本語言叫做PigLatin。據(jù)說Pig很容易理解和學習。但問題是有多少人能從Pig學到什么?

Apach eSqoop:用于將數(shù)據(jù)從Hadoop移動到非Hadoop數(shù)據(jù)存儲(如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)的工具。

Apache Storm:一個免費的開源實時分布式計算系統(tǒng)。它使得使用Hadoop進行批處理的瞬時處理可以更容易地處理非結(jié)構(gòu)化數(shù)據(jù)。

人工智能(AI):人們可能會問,為什么在這里會有人工智能?人工智能不是一個單獨的領(lǐng)域,所有這些趨勢技術(shù)都是如此相關(guān),人工智能開發(fā)智能機器和軟件的方式,使得硬件和軟件的這種組合能夠感知環(huán)境,在需要時采取必要的措施,并繼續(xù)學習這些操作。

行為分析:有沒有想過谷歌如何為人們需要的產(chǎn)品/服務提供廣告?行為分析側(cè)重于理解消費者和應用程序所做的事情,以及如何以及為什么它們以某種方式起作用。它是關(guān)于了解人們的網(wǎng)上沖浪模式,社交媒體互動,電子商務行動(購物車等),并連接這些無關(guān)的數(shù)據(jù)點,并試圖預測結(jié)果。

Brontobytes:10的27次冪,這是數(shù)字宇宙的大小。在這里,可以了解TB字節(jié),PB字節(jié),EB字節(jié),ZB字節(jié),YB字節(jié),以及Brontobyte。人們今后會更多地了解這些術(shù)語。

商業(yè)智能(BI):在這里引用調(diào)研機構(gòu)Gartner對商業(yè)智能的定義。商業(yè)智能(BI)是一個總括的術(shù)語,其中包括應用程序,基礎(chǔ)設施和工具以及***實踐,可以訪問和分析信息,以改善和優(yōu)化決策和績效。

生物特征:這就是JamesBondish技術(shù)與分析技術(shù)相結(jié)合,通過一個或多個物理特征識別人,如面部識別,虹膜識別,指紋識別等。

點擊流分析:用于分析用戶在網(wǎng)絡上瀏覽的在線點擊。曾經(jīng)想過為什么某些Google廣告還會繼續(xù)關(guān)注你,即使切換網(wǎng)站等?因為知道你在點擊什么。

聚類分析:試圖識別數(shù)據(jù)中的結(jié)構(gòu)的探索性分析。聚類分析也稱為分割分析或分類分析。更具體地說,它試圖確定同一組案例,即觀察者,參與者,回答者。如果分組不是先前已知的,則使用聚類分析來識別病例組。因為它是探索性的,它確定了依賴變量和獨立變量之間的區(qū)別。SPSS提供的不同的聚類分析方法可以處理二進制,名義,順序和比例(間隔或比率)數(shù)據(jù)。

比較分析:大數(shù)據(jù)的核心在分析中。顧名思義,比較分析是使用諸如模式分析,過濾和決策樹分析之類的統(tǒng)計技術(shù)來比較多個進程,數(shù)據(jù)集或其他對象。人們知道它的技術(shù)性很差,但不能完全避開這個術(shù)語。比較分析可用于醫(yī)療保健,比較大量的醫(yī)療記錄,文件,圖像等更有效和更準確的醫(yī)療診斷。

連接分析:你一定已經(jīng)看到這些像蜘蛛網(wǎng)一樣的網(wǎng)絡圖表連接主題等,以識別某些主題的影響者。連接分析是有助于發(fā)現(xiàn)網(wǎng)絡中人員,產(chǎn)品和系統(tǒng)之間的這些相互關(guān)聯(lián)的連接和影響,甚至組合來自多個網(wǎng)絡的數(shù)據(jù)的分析。

數(shù)據(jù)分析師:數(shù)據(jù)分析師是一個非常重要和受歡迎的工作職位,除了準備報告之外,它還負責收集,操縱和分析數(shù)據(jù)。

數(shù)據(jù)清理:這有點不言自明,它涉及從數(shù)據(jù)庫中檢測和糾正或刪除不準確的數(shù)據(jù)或記錄。還記得“臟數(shù)據(jù)”嗎?那么,使用人工和自動化工具和算法的組合,數(shù)據(jù)分析人員可以糾正和豐富數(shù)據(jù)以提高其質(zhì)量。記住,骯臟的數(shù)據(jù)會導致錯誤的分析和錯誤的決策。

DaaS:你有SaaS,PaaS和DaaS為代表的數(shù)據(jù)即服務嗎?通過向客戶提供按需訪問云托管數(shù)據(jù),DaaS提供商可以幫助快速獲取高質(zhì)量的數(shù)據(jù)。

數(shù)據(jù)虛擬化:這是數(shù)據(jù)管理的一種方法,允許應用程序檢索和操作數(shù)據(jù),而不需要其存儲位置及其格式等的技術(shù)細節(jié)。例如,社交網(wǎng)絡將人們的照片存儲在他們的網(wǎng)絡中。

臟數(shù)據(jù):現(xiàn)在,大數(shù)據(jù)變得很流行,人們開始在數(shù)據(jù)中添加形容詞,產(chǎn)生新的術(shù)語,如暗數(shù)據(jù)、臟數(shù)據(jù)、小數(shù)據(jù),現(xiàn)在是智能數(shù)據(jù)。骯臟的數(shù)據(jù)就是不干凈的數(shù)據(jù),換句話說,是不準確、重復的,以及不一致的數(shù)據(jù)。顯然,企業(yè)不希望與臟數(shù)據(jù)關(guān)聯(lián)。

模糊邏輯:人們對100%這樣的事物有多少把握?非常罕見。人類的大腦將數(shù)據(jù)聚合成部分真理,然后再抽象成某種閾值,來決定我們的反應。模糊邏輯是一種通過模仿部分真理來模仿人腦的運算,而不是像布爾代數(shù)的其余部分那樣的“0”和“1”這樣的絕對真理。模糊邏輯在自然語言處理中得到了廣泛的應用,并已發(fā)展成為其他與數(shù)據(jù)相關(guān)的學科。

游戲化:在一個典型的游戲中,有人們喜歡的得分要素,與他人競爭,某些游戲規(guī)則等元素。大數(shù)據(jù)中的游戲化是使用這些概念來收集數(shù)據(jù)或分析數(shù)據(jù)或通常激勵用戶。

圖形數(shù)據(jù)庫:圖形數(shù)據(jù)庫使用的概念,如節(jié)點和邊界代表人員/企業(yè)和他們的相互關(guān)系,從社交媒體挖掘數(shù)據(jù)。曾經(jīng)想過,亞馬遜如何告訴你在購買產(chǎn)品時,別人買了什么?是的,圖形數(shù)據(jù)庫!

Hadoop用戶體驗(Hue):Hue是一個開放源代碼界面,使Apache Hadoop變得更加容易。它是一個基于Web的應用程序,并且具有用于HDFS的文件瀏覽器,MapReduce的作業(yè)設計器,用于制作協(xié)調(diào)器和工作流程的Oozie應用程序,Shell,Impala和HiveUI以及一組HadoopAPI。

HANA:高性能分析應用程序,來自SAP的軟件/硬件內(nèi)存中平臺,專為大量數(shù)據(jù)交易和分析而設計。

HBase:一個分布式,面向列的數(shù)據(jù)庫。它使用HDFS作為其底層存儲,并支持使用MapReduce和事務交互的批量計算。

負載平衡:跨多臺計算機或服務器分布工作負載,以實現(xiàn)系統(tǒng)的***結(jié)果和利用率。

元數(shù)據(jù):元數(shù)據(jù)是描述其他數(shù)據(jù)的數(shù)據(jù)。元數(shù)據(jù)總結(jié)了有關(guān)數(shù)據(jù)的基本信息,可以使查找和處理特定數(shù)據(jù)實例更容易。例如,作者,創(chuàng)建日期和日期修改以及文件大小是非?;镜奈臋n元數(shù)據(jù)。除文檔文件外,元數(shù)據(jù)也用于圖像,視頻,電子表格和網(wǎng)頁。

Mongo DB:一個跨平臺的開源數(shù)據(jù)庫,它使用面向文檔的數(shù)據(jù)模型,而不是傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫的表結(jié)構(gòu)。這種類型的數(shù)據(jù)庫結(jié)構(gòu)旨在使結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在某些類型的應用程序中更加容易和快速地集成。

Mashup:幸運的是,這個術(shù)語對于我們在日常生活中了解mashup的定義類似。基本上,Mashup是將不同數(shù)據(jù)集合并為單個應用程序的一種方法(示例:將房地產(chǎn)清單與人口統(tǒng)計數(shù)據(jù)或地理數(shù)據(jù)相結(jié)合)。這是一個非常好的可視化。

多維數(shù)據(jù)庫:針對數(shù)據(jù)在線分析處理(OLAP)應用程序和數(shù)據(jù)倉庫進行優(yōu)化的數(shù)據(jù)庫。它只不過是數(shù)據(jù)多個數(shù)據(jù)源的中央存儲庫。

多值數(shù)據(jù)庫:它們是一種直接了解三維數(shù)據(jù)的NoSQL和多維數(shù)據(jù)庫。它們直接用于直接操作HTML和XML字符串。

自然語言處理:為使計算機更精確地理解日常人類語言而設計的軟件算法,使人們能夠更自然、更有效地與之交互。

神經(jīng)網(wǎng)絡:神經(jīng)網(wǎng)絡是一個美麗的生物學啟發(fā)的編程范例,使計算機能夠從觀測數(shù)據(jù)中學習。有人稱編程范例很美,本質(zhì)上,人工神經(jīng)網(wǎng)絡是由現(xiàn)實生活中大腦的生物學啟發(fā)的模型。與這種神經(jīng)網(wǎng)絡密切相關(guān)的是深度學習。深入學習則是一套功能強大的神經(jīng)網(wǎng)絡學習技術(shù)。

模式識別:當一個算法在大數(shù)據(jù)集或不同的數(shù)據(jù)集中定位遞歸或規(guī)律時,就會出現(xiàn)模式識別。它緊密相連,甚至被認為是機器學習和數(shù)據(jù)挖掘的代名詞。這種可見性可以幫助研究人員發(fā)現(xiàn)見解或得出結(jié)論,否則會被掩蓋。

RFID-射頻識別:一種使用無線非接觸式射頻電磁場傳輸數(shù)據(jù)的傳感器。隨著物聯(lián)網(wǎng)革命,RFID標簽可以嵌入到每一個可能的“東西”中,以產(chǎn)生需要分析的巨大數(shù)據(jù)量。

SaaS:軟件即服務,使供應商能夠托管應用程序并通過互聯(lián)網(wǎng)使其可用。SaaS提供商通過云計算提供服務。

半結(jié)構(gòu)化數(shù)據(jù):半結(jié)構(gòu)化數(shù)據(jù)是指以常規(guī)方式未被捕獲或格式化的數(shù)據(jù),例如與傳統(tǒng)數(shù)據(jù)庫字段或公共數(shù)據(jù)模型相關(guān)聯(lián)的數(shù)據(jù)。它也不是原始的或完全非結(jié)構(gòu)化的,并且可能包含一些數(shù)據(jù)表,標簽或其他結(jié)構(gòu)元素。圖形和表格,XML文檔和電子郵件是半結(jié)構(gòu)化數(shù)據(jù)的示例,它在萬維網(wǎng)上是非常普遍的,通常在面向?qū)ο蟮臄?shù)據(jù)庫中。

情緒分析:情緒分析涉及捕捉和跟蹤消費者在各種交互或文件(包括社交媒體,客戶服務代表呼叫,調(diào)查等)中表達的意見,情緒或感受。文本分析和自然語言處理是情緒分析過程中的典型活動。目標是確定或評估對公司,產(chǎn)品,服務,人員或事件表達的情緒或態(tài)度。

空間分析:指分析地理數(shù)據(jù)或拓撲數(shù)據(jù)的空間數(shù)據(jù),以識別和理解分布在地理空間中的數(shù)據(jù)內(nèi)的模式和規(guī)律。

流處理:流處理旨在通過“連續(xù)”查詢對實時和流數(shù)據(jù)進行操作。隨著從社交網(wǎng)絡不斷流出的數(shù)據(jù),流處理和流分析的確需要在這些流中不間斷地計算數(shù)學或統(tǒng)計分析,以便實時處理大量的數(shù)據(jù)。

智能數(shù)據(jù):智能數(shù)據(jù)據(jù)稱是在通過算法進行的一些過濾之后,其數(shù)據(jù)是有用的和可操作的。

TB字節(jié):一個相對較大的數(shù)字數(shù)據(jù)單元,一T字節(jié)(TB)等于1000GB字節(jié)。據(jù)估計,10T字節(jié)可以容納美國國會圖書館的全部印刷品,而1T字節(jié)可以容納1000份百科全書。

可視化:通過正確的可視化,原始數(shù)據(jù)可以投入使用。當然可視化并不意味著普通的圖形或餅圖。它們是指可以包含許多數(shù)據(jù)變量的復雜圖形,同時仍然可以理解和可讀

Yabyabytes:約1000ZB,或2500億張的DVD容量。如今的整個數(shù)字宇宙是1 Yabyabytes,這將每18個月翻一番。

Zettabytes:大約1000EB字節(jié)或10億TB字節(jié)。

責任編輯:未麗燕 來源: 機房360
相關(guān)推薦

2017-08-04 16:55:35

術(shù)語大數(shù)據(jù)

2017-08-03 09:55:47

大數(shù)據(jù)術(shù)語大數(shù)據(jù)術(shù)語

2017-07-20 01:59:19

大數(shù)據(jù)算法數(shù)據(jù)

2012-12-10 13:56:20

大數(shù)據(jù)IT云計算

2023-11-06 07:11:14

2017-11-06 14:35:54

大數(shù)據(jù)數(shù)據(jù)預測

2022-04-18 12:42:44

Linux

2016-07-05 15:49:39

大數(shù)據(jù)動向

2019-12-02 10:42:24

數(shù)據(jù)中心安全IT

2022-11-02 11:02:52

數(shù)據(jù)中心數(shù)據(jù)中心架構(gòu)

2022-08-03 10:27:53

數(shù)據(jù)大數(shù)據(jù)

2019-02-20 23:06:56

大數(shù)據(jù)數(shù)據(jù)語言

2013-05-23 09:21:56

2021-07-31 23:13:29

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2015-08-27 09:12:58

大數(shù)據(jù)

2021-08-03 14:31:11

大數(shù)據(jù)氣象科技

2020-03-30 10:25:41

大數(shù)據(jù)語言大數(shù)據(jù)應用

2018-01-02 09:31:12

大數(shù)據(jù)數(shù)據(jù)互聯(lián)網(wǎng)

2016-07-21 10:37:53

云計算

2020-08-24 10:54:47

智能電網(wǎng)大數(shù)據(jù)數(shù)據(jù)分析
點贊
收藏

51CTO技術(shù)棧公眾號