自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="xwzhc"><track id="xwzhc"></track></legend>

<blockquote id="xwzhc"><p id="xwzhc"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

大數(shù)據(jù)熱門詞匯齊報到

作者：布加迪編譯 2013-01-08 09:36:00

新聞系統(tǒng)

如今，大數(shù)據(jù)正在成為主流，它從科學(xué)和高科技公司的專用技術(shù)轉(zhuǎn)變?yōu)槠髽I(yè)IT應(yīng)用程序的專用技術(shù)。大數(shù)據(jù)作為IT工具的主流，對IT領(lǐng)域有重大的影響。許多人一聽到"大數(shù)據(jù)"，覺得是指"大量數(shù)據(jù)"，而大數(shù)據(jù)的涵義絕不僅僅涉及數(shù)據(jù)量的多寡。下面有幾個大數(shù)據(jù)熱門詞匯齊報到，一起看看吧！

　　【51CTO外電頭條】可以說，大數(shù)據(jù)是如今IT行業(yè)最熱門的趨勢之一，它催生出了處理大數(shù)據(jù)的一批全新技術(shù)。而新技術(shù)帶來了新的熱門詞匯：首字母縮略詞、專業(yè)術(shù)語和產(chǎn)品名稱等。連"大數(shù)據(jù)"這個短語本身都讓人犯暈。許多人一聽到"大數(shù)據(jù)"，覺得是指"大量數(shù)據(jù)"，而大數(shù)據(jù)的涵義絕不僅僅涉及數(shù)據(jù)量的多寡。

　　下面是我們認(rèn)為你要熟悉的幾個熱門詞匯，按字母順序排列。

ACID

　　ACID的全稱是原子性、一致性、隔離性和持久性，這其實(shí)是一組需求或?qū)傩裕喝绻@四個方面都得到遵守，就能在處理過程中確保數(shù)據(jù)庫事務(wù)的數(shù)據(jù)完整性。雖然ACID問世已有一段時日，但是事務(wù)數(shù)據(jù)量的急劇增長把更多的注意力投向在處理大數(shù)據(jù)時需要滿足ACID的規(guī)定。

　　大數(shù)據(jù)三要素

　　如今的IT系統(tǒng)在生成數(shù)量、速度和種類都很"龐大"的數(shù)據(jù)。

　　數(shù)量：IDC公司估計，今年全球信息總量將達(dá)到2.7澤字節(jié)（這相當(dāng)于27億太字節(jié)），而且每兩年就翻一番。

　　速度：讓IT管理人員們頭痛的不僅僅是數(shù)據(jù)數(shù)量，還有數(shù)據(jù)從金融系統(tǒng)、零售系統(tǒng)、網(wǎng)站、傳感器、無線射頻識別（RFID）芯片以及Facebook和推特等社交網(wǎng)絡(luò)源源而來的速度越來越快。

　　種類：如果回到5年前或可能10年前，IT人員處理的主要是字母數(shù)字?jǐn)?shù)據(jù)，它們很容易存儲在關(guān)系數(shù)據(jù)庫中整齊排列的行和列中?，F(xiàn)在不再是這樣了。如今，推特和Facebook上的帖子、各種文檔及網(wǎng)頁內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)都是大數(shù)據(jù)組合的一部分。

　　列式（或列型）數(shù)據(jù)庫

　　一些新一代數(shù)據(jù)庫（如開源Cassandra和惠普的Vertica數(shù)據(jù)庫）被設(shè)計成了按列存儲數(shù)據(jù)，而不是像傳統(tǒng)的SQL數(shù)據(jù)庫那樣按行存儲數(shù)據(jù)。這種設(shè)計提供了更快的磁盤訪問速度，提高了處理大數(shù)據(jù)時的性能。對數(shù)據(jù)密集型業(yè)務(wù)分析應(yīng)用系統(tǒng)而言，列式數(shù)據(jù)庫尤其受到歡迎。

　　數(shù)據(jù)倉庫

　　數(shù)據(jù)倉庫這個概念存在至今已有大概25年了，具體指將數(shù)據(jù)從多個操作IT系統(tǒng)復(fù)制到面向業(yè)務(wù)分析應(yīng)用系統(tǒng)的輔助離線數(shù)據(jù)庫

　　但是隨著數(shù)據(jù)量急劇增長，數(shù)據(jù)倉庫系統(tǒng)正在迅速改變。它們需要存儲更多的數(shù)據(jù)以及更多種類的數(shù)據(jù)，因而數(shù)據(jù)倉庫管理成為一大難題。10年或20年前，數(shù)據(jù)可能每周或每月復(fù)制到數(shù)據(jù)倉庫系統(tǒng)中；而如今，數(shù)據(jù)倉庫的更新要頻繁得多，有的甚至實(shí)時更新。

ETL

　　將數(shù)據(jù)從一個數(shù)據(jù)庫（比如支持銀行應(yīng)用事務(wù)處理系統(tǒng)的數(shù)據(jù)庫）轉(zhuǎn)移到另一個數(shù)據(jù)庫（比如用于業(yè)務(wù)分析的數(shù)據(jù)倉庫系統(tǒng)）時，就要用到提取、轉(zhuǎn)換和加載（ETL）軟件。數(shù)據(jù)從一個數(shù)據(jù)庫傳送到另一個數(shù)據(jù)庫時，常常需要對數(shù)據(jù)進(jìn)行重新格式化和清理操作。

　　由于數(shù)據(jù)量急劇增長，數(shù)據(jù)處理速度大大加快，對ETL工具的性能要求也大大提高了。

　　Flume

　　Flume是屬于Apache Hadoop大家族（其他技術(shù)包括HBase、Hive、Oozie、Pig和Whirr）的一項(xiàng)技術(shù)，這種框架用于為Hadoop填充數(shù)據(jù)。該技術(shù)使用散布于應(yīng)用服務(wù)器、Web服務(wù)器、移動設(shè)備及其他系統(tǒng)上的軟件代理，收集數(shù)據(jù)，并將數(shù)據(jù)傳送到Hadoop系統(tǒng)。

　　比如說，公司可以使用在Web服務(wù)器上運(yùn)行的Apache Flume，收集來自推特帖子的數(shù)據(jù)，以便分析。

　　地理空間分析

　　推動大數(shù)據(jù)潮流的一個趨勢是，由如今的IT系統(tǒng)生成和收集的地理空間數(shù)據(jù)越來越多。常言道，一幅圖片的信息量抵得上1000個單詞；所以難怪越來越多的地圖、圖表、照片及其他基于地理位置的內(nèi)容是導(dǎo)致如今大數(shù)據(jù)呈爆炸式增長的主要動因。

　　地理空間分析是一種特殊形式的數(shù)據(jù)可視化（參閱下面的"可視化"條目），在地理地圖上覆蓋數(shù)據(jù)，以幫助用戶更清楚地理解大數(shù)據(jù)分析的結(jié)果。

　　Hadoop

　　Hadoop是一種開源平臺，用于開發(fā)分布式、數(shù)據(jù)密集型的應(yīng)用程序。它由Apache軟件基金會控制。

　　Hadoop的發(fā)明者是雅虎公司的開發(fā)者道格o卡廷（Doug Cutting），他在谷歌實(shí)驗(yàn)室的MapReduce概念這個基礎(chǔ)上開發(fā)出了Hadoop，以他兒子的玩具象命名。

　　另外，HBase是一種非關(guān)系數(shù)據(jù)庫，它是作為Hadoop項(xiàng)目的一部分開發(fā)而成的。Hadoop分布式文件系統(tǒng)（HDFS）是Hadoop的一個關(guān)鍵組成部分。Hive則是建立在Hadoop基礎(chǔ)上的數(shù)據(jù)倉庫系統(tǒng)。

　　內(nèi)存中數(shù)據(jù)庫

　　計算機(jī)在處理事務(wù)或執(zhí)行查詢時，一般從磁盤驅(qū)動器獲取數(shù)據(jù)。但是當(dāng)IT系統(tǒng)處理大數(shù)據(jù)時，這個過程可能實(shí)在太慢。

　　內(nèi)存中數(shù)據(jù)庫系統(tǒng)利用計算機(jī)的主內(nèi)存來存儲經(jīng)常使用的數(shù)據(jù)，因而大大縮短了處理時間。內(nèi)存中數(shù)據(jù)庫產(chǎn)品包括SAP HANA和甲骨文Times Ten內(nèi)存中數(shù)據(jù)庫。

Java

　　Java是一種編程語言，由現(xiàn)隸屬甲骨文公司的Sun開發(fā)，于1995年發(fā)布。Hadoop和其他許多大數(shù)據(jù)技術(shù)都是使用Java開發(fā)而成的，它仍是大數(shù)據(jù)領(lǐng)域一種主要的開發(fā)技術(shù)。

　　Kafka

　　Kafka是一種高吞吐量的分布式消息傳送系統(tǒng)，最初是在LinkedIn開發(fā)而成，用于管理該服務(wù)網(wǎng)站的活動流（關(guān)于網(wǎng)站使用情況的數(shù)據(jù)）和操作數(shù)據(jù)處理流水線（關(guān)于服務(wù)器組件的性能）。

　　Kafka在處理大量流式數(shù)據(jù)時很有效，而流式數(shù)據(jù)是許多大數(shù)據(jù)計算環(huán)境的一個關(guān)鍵問題。由推特開發(fā)的Storm是另一種大行其道的流處理技術(shù)。

　　Apache軟件基金會已將Kafka列為一個開源項(xiàng)目。所以，別以為這是有缺陷的軟件。

　　延遲時間

　　延遲時間是指數(shù)據(jù)從一個點(diǎn)傳送到另一個點(diǎn)過程中的延遲，或者是某個系統(tǒng)（如應(yīng)用程序）響應(yīng)另一個系統(tǒng)的延遲數(shù)量。

　　雖然延遲時間不是什么新術(shù)語，但是隨著數(shù)據(jù)量不斷增長，IT系統(tǒng)竭力跟上步伐，如今你更常聽到這個術(shù)語。簡單地說，"低延遲"是好事，"高延遲"是壞事。

　　映射/化簡

　　映射/化簡（Map/Reduce）這種方法是指把一個復(fù)雜的問題分解成多個較小的部分，然后將它們分發(fā)到多臺計算機(jī)上，最后把它們重新組裝成一個答案。

　　谷歌的搜索系統(tǒng)用到了映射/化簡概念，這家公司有一個品牌名為MapReduce的框架。

　　谷歌在2004年發(fā)布的一份白皮書描述了它使用映射/化簡的情況。Hadoop之父道格o卡廷充分認(rèn)識到了其潛力，開發(fā)出了同樣借用映射/化簡概念的第一個版本的Hadoop。

　　NoSQL數(shù)據(jù)庫

　　大多數(shù)主流的數(shù)據(jù)庫（如甲骨文數(shù)據(jù)庫和微軟SQL Server）基于關(guān)系型體系結(jié)構(gòu)，使用結(jié)構(gòu)化查詢語言（SQL）用于開發(fā)和數(shù)據(jù)管理。

　　但是名為"NoSQL"（有些人現(xiàn)在稱NoSQL表示"不是只有SQL"）的新一代數(shù)據(jù)庫系統(tǒng)基于支持者們認(rèn)為更適合處理大數(shù)據(jù)的體系結(jié)構(gòu)。

　　一些NoSQL數(shù)據(jù)庫是為提高可擴(kuò)展性和靈活性設(shè)計的，另一些NoSQL數(shù)據(jù)庫在處理文檔及其他非結(jié)構(gòu)化數(shù)據(jù)方面比較有效。典型的NoSQL數(shù)據(jù)庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB，而甲骨文等一些知名開發(fā)商已推出了各自的NoSQL產(chǎn)品。

　　Oozie

　　Apache Oozie是一種開源工作流引擎，用于幫助管理面向Hadoop的處理工作。使用Oozie，一系列工作可以用多種語言（如Pig和MapReduce）來加以定義，然后彼此關(guān)聯(lián)起來。比如說，一旦從操作應(yīng)用程序收集數(shù)據(jù)的作業(yè)已完成，程序員就可以啟動數(shù)據(jù)分析查詢?nèi)蝿?wù)。

　　Pig

　　Pig是Apache軟件基金會的另一個項(xiàng)目，這個平臺用于分析龐大的數(shù)據(jù)集。就其本質(zhì)而言，Pig是一種編程語言，可用于開發(fā)在Hadoop上運(yùn)行的并行計算查詢。

　　定量數(shù)據(jù)分析

　　定量數(shù)據(jù)分析是指使用復(fù)雜的數(shù)學(xué)或統(tǒng)計模型，解釋金融和商業(yè)行為，或者甚至預(yù)測未來的行為。

　　由于如今收集的數(shù)據(jù)量急劇增加，定量數(shù)據(jù)分析已變得更加復(fù)雜。但是如果公司知道如何利用海量數(shù)據(jù)，獲得更好的可視性，深入了解公司業(yè)務(wù)，并且洞察市場發(fā)展趨勢，那么更多的數(shù)據(jù)也有望在數(shù)據(jù)分析方面帶來更多的機(jī)會。

　　一個問題是，擁有這種分析技能的人才嚴(yán)重匱乏。知名咨詢公司麥肯錫表示，光美國就需要150萬名擁有大數(shù)據(jù)分析技能的分析員和管理員。

　　關(guān)系數(shù)據(jù)庫

　　關(guān)系數(shù)據(jù)庫管理系統(tǒng)（RDBM）是如今使用最廣泛的一種數(shù)據(jù)庫，包括IBM的DB2、微軟的SQL Server和甲骨文數(shù)據(jù)庫。從銀行應(yīng)用系統(tǒng)、零售店的銷售點(diǎn)系統(tǒng)到庫存管理應(yīng)用軟件，大多數(shù)的企業(yè)事務(wù)處理系統(tǒng)都在RDBM上運(yùn)行。

　　但有些人認(rèn)為，關(guān)系數(shù)據(jù)庫可能跟不上如今數(shù)據(jù)量和種類都呈爆炸式增長的形勢。比如說，RDBM當(dāng)初在設(shè)計時著眼于處理字母數(shù)字?jǐn)?shù)據(jù)，處理非結(jié)構(gòu)化數(shù)據(jù)時不是同樣有效。

　　分片

　　隨著數(shù)據(jù)庫變得越來越龐大，處理起來也變得越來越困難。分片（sharding）是一種數(shù)據(jù)庫分區(qū)技術(shù)，把數(shù)據(jù)庫分成了更小、更容易管理的部分。具體來說，數(shù)據(jù)庫被橫向分區(qū)，以便單獨(dú)管理數(shù)據(jù)庫表中的不同行。

　　分片方法讓龐大數(shù)據(jù)庫的片段可以分布在多臺服務(wù)器上，從而提高數(shù)據(jù)庫的整體運(yùn)行速度和性能。

　　另外，Sqoop是一種開源工具，用于將來自非Hadoop來源（如關(guān)系數(shù)據(jù)庫）的數(shù)據(jù)轉(zhuǎn)移到Hadoop環(huán)境。

　　文本分析

　　導(dǎo)致大數(shù)據(jù)問題的因素之一是，從推特和Facebook等社交媒體網(wǎng)站、外部新聞源，甚至公司內(nèi)部收集而來以便分析的文本數(shù)量越來越多。由于文本是非結(jié)構(gòu)化數(shù)據(jù)（不像通常存儲在關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)），主流的業(yè)務(wù)分析工具面對文本時常常束手無策。

　　文本分析采用了一系列方法（關(guān)鍵字搜索、統(tǒng)計分析法和語言研究法等），從基于文本的數(shù)據(jù)中獲得洞察力。

　　非結(jié)構(gòu)化數(shù)據(jù)

　　就在不久前，大部分?jǐn)?shù)據(jù)還是結(jié)構(gòu)化數(shù)據(jù)，這種字母數(shù)字信息（如來自銷售交易的財務(wù)數(shù)據(jù)）很容易存儲在關(guān)系數(shù)據(jù)庫中，并由商業(yè)智能工具來分析。

　　但是如今共計2.7澤字節(jié)的存儲數(shù)據(jù)中很大一部分是非結(jié)構(gòu)化數(shù)據(jù)，比如基于文本的文檔、推特消息、發(fā)布在Flickr上的照片、發(fā)布在YouTube上的視頻，等等。（頗有意思的是，每分鐘有長達(dá)35個小時的視頻內(nèi)容上傳到Y(jié)ouTube。）處理、存儲和分析所有這些凌亂的非結(jié)構(gòu)化數(shù)據(jù)常常是如今的IT系統(tǒng)面臨的難題。

　　可視化

　　隨著數(shù)據(jù)量的增長，人們使用靜態(tài)的圖表和圖形來理解數(shù)據(jù)越來越困難了。這就導(dǎo)致開發(fā)新一代的數(shù)據(jù)可視化和分析工具，能夠以新的方式呈現(xiàn)數(shù)據(jù)，從而幫助人們理解海量信息。

　　這些工具包括：標(biāo)以色碼的熱圖，三維圖形，顯示一段時間內(nèi)變化的動畫可視化，以及在地理地圖上覆蓋數(shù)據(jù)的地理空間呈現(xiàn)。今天的先進(jìn)數(shù)據(jù)可視化工具還具有更強(qiáng)的互動性，比如允許用戶放大某個數(shù)據(jù)子集，進(jìn)行更仔細(xì)的檢查。

　　Whirr

　　Apache Whirr是一組Java類庫，用于運(yùn)行大數(shù)據(jù)云服務(wù)。更確切地說，它可以加快在亞馬遜彈性計算云（EC2）和Rackspace等虛擬基礎(chǔ)設(shè)施上開發(fā)Hadoop集群的過程。

　　XML

　　可擴(kuò)展標(biāo)記語言（XML）用來傳輸和存儲數(shù)據(jù)（別與HTML混為一談，后者用來顯示數(shù)據(jù)）。借助XML，程序員們就可以創(chuàng)建通用的數(shù)據(jù)格式，并通過互聯(lián)網(wǎng)共享信息和格式。

　　由于XML文檔可能非常龐大、復(fù)雜，它們往往被認(rèn)為導(dǎo)致IT部門面臨大數(shù)據(jù)挑戰(zhàn)。

　　堯字節(jié)

　　堯字節(jié)（yottabyte）是一種數(shù)據(jù)存儲度量指標(biāo)，相當(dāng)于1000澤字節(jié)。據(jù)知名調(diào)研機(jī)構(gòu)IDC公司估計，今年全球存儲的數(shù)據(jù)總量預(yù)計將達(dá)到2.7澤字節(jié)，比2011年增長48%。所以，我們離達(dá)到堯字節(jié)這個大關(guān)還有很長一段路，不過從目前大數(shù)據(jù)的增長速度來看，那一天的到來可能比我們想象的要快。

　　順便說一下，1澤字節(jié)相當(dāng)于1021字節(jié)的數(shù)據(jù)。它相當(dāng)于1000艾字節(jié)（EB）、100萬拍字節(jié)（PB）和10億太字節(jié)（TB）。

　　ZooKeeper

　　ZooKeeper是由Apache軟件基金會創(chuàng)建的一項(xiàng)服務(wù)，旨在幫助Hadoop用戶管理和協(xié)調(diào)跨分布式網(wǎng)絡(luò)的Hadoop節(jié)點(diǎn)。

　　ZooKeeper與HBase緊密集成，而HBase是與Hadoop有關(guān)的數(shù)據(jù)庫。ZooKeeper是一項(xiàng)集中式服務(wù)，用于維護(hù)配置信息、命名服務(wù)、分布式同步及其他群組服務(wù)。IT管理人員用它來實(shí)現(xiàn)可靠的消息傳遞機(jī)制、同步流程執(zhí)行及實(shí)施冗余服務(wù)。

原文鏈接：

http://www.crn.com/slide-shows/data-center/240142568/big-data-buzzwords-from-a-to-z.htm?pgno=1

責(zé)任編輯：黃丹來源： 51CTO.com

大數(shù)據(jù)大數(shù)據(jù)熱門詞匯

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="agljw"></sub>

<cite id="agljw"><track id="agljw"></track></cite>

<center id="agljw"><code id="agljw"></code></center>