大數(shù)據(jù)熱門詞匯齊報到
譯文【51CTO外電頭條】可以說,大數(shù)據(jù)是如今IT行業(yè)最熱門的趨勢之一,它催生出了處理大數(shù)據(jù)的一批全新技術(shù)。而新技術(shù)帶來了新的熱門詞匯:首字母縮略詞、專業(yè)術(shù)語和產(chǎn)品名稱等。連"大數(shù)據(jù)"這個短語本身都讓人犯暈。許多人一聽到"大數(shù)據(jù)",覺得是指"大量數(shù)據(jù)",而大數(shù)據(jù)的涵義絕不僅僅涉及數(shù)據(jù)量的多寡。
下面是我們認(rèn)為你要熟悉的幾個熱門詞匯,按字母順序排列。
ACID
ACID的全稱是原子性、一致性、隔離性和持久性,這其實(shí)是一組需求或?qū)傩裕喝绻@四個方面都得到遵守,就能在處理過程中確保數(shù)據(jù)庫事務(wù)的數(shù)據(jù)完整性。雖然ACID問世已有一段時日,但是事務(wù)數(shù)據(jù)量的急劇增長把更多的注意力投向在處理大數(shù)據(jù)時需要滿足ACID的規(guī)定。
大數(shù)據(jù)三要素
如今的IT系統(tǒng)在生成數(shù)量、速度和種類都很"龐大"的數(shù)據(jù)。
數(shù)量:IDC公司估計,今年全球信息總量將達(dá)到2.7澤字節(jié)(這相當(dāng)于27億太字節(jié)),而且每兩年就翻一番。
速度:讓IT管理人員們頭痛的不僅僅是數(shù)據(jù)數(shù)量,還有數(shù)據(jù)從金融系統(tǒng)、零售系統(tǒng)、網(wǎng)站、傳感器、無線射頻識別(RFID)芯片以及Facebook和推特等社交網(wǎng)絡(luò)源源而來的速度越來越快。
種類:如果回到5年前或可能10年前,IT人員處理的主要是字母數(shù)字?jǐn)?shù)據(jù),它們很容易存儲在關(guān)系數(shù)據(jù)庫中整齊排列的行和列中?,F(xiàn)在不再是這樣了。如今,推特和Facebook上的帖子、各種文檔及網(wǎng)頁內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)都是大數(shù)據(jù)組合的一部分。
列式(或列型)數(shù)據(jù)庫
一些新一代數(shù)據(jù)庫(如開源Cassandra和惠普的Vertica數(shù)據(jù)庫)被設(shè)計成了按列存儲數(shù)據(jù),而不是像傳統(tǒng)的SQL數(shù)據(jù)庫那樣按行存儲數(shù)據(jù)。這種設(shè)計提供了更快的磁盤訪問速度,提高了處理大數(shù)據(jù)時的性能。對數(shù)據(jù)密集型業(yè)務(wù)分析應(yīng)用系統(tǒng)而言,列式數(shù)據(jù)庫尤其受到歡迎。
數(shù)據(jù)倉庫
數(shù)據(jù)倉庫這個概念存在至今已有大概25年了,具體指將數(shù)據(jù)從多個操作IT系統(tǒng)復(fù)制到面向業(yè)務(wù)分析應(yīng)用系統(tǒng)的輔助離線數(shù)據(jù)庫
但是隨著數(shù)據(jù)量急劇增長,數(shù)據(jù)倉庫系統(tǒng)正在迅速改變。它們需要存儲更多的數(shù)據(jù)以及更多種類的數(shù)據(jù),因而數(shù)據(jù)倉庫管理成為一大難題。10年或20年前,數(shù)據(jù)可能每周或每月復(fù)制到數(shù)據(jù)倉庫系統(tǒng)中;而如今,數(shù)據(jù)倉庫的更新要頻繁得多,有的甚至實(shí)時更新。
ETL
將數(shù)據(jù)從一個數(shù)據(jù)庫(比如支持銀行應(yīng)用事務(wù)處理系統(tǒng)的數(shù)據(jù)庫)轉(zhuǎn)移到另一個數(shù)據(jù)庫(比如用于業(yè)務(wù)分析的數(shù)據(jù)倉庫系統(tǒng))時,就要用到提取、轉(zhuǎn)換和加載(ETL)軟件。數(shù)據(jù)從一個數(shù)據(jù)庫傳送到另一個數(shù)據(jù)庫時,常常需要對數(shù)據(jù)進(jìn)行重新格式化和清理操作。
由于數(shù)據(jù)量急劇增長,數(shù)據(jù)處理速度大大加快,對ETL工具的性能要求也大大提高了。
Flume
Flume是屬于Apache Hadoop大家族(其他技術(shù)包括HBase、Hive、Oozie、Pig和Whirr)的一項(xiàng)技術(shù),這種框架用于為Hadoop填充數(shù)據(jù)。該技術(shù)使用散布于應(yīng)用服務(wù)器、Web服務(wù)器、移動設(shè)備及其他系統(tǒng)上的軟件代理,收集數(shù)據(jù),并將數(shù)據(jù)傳送到Hadoop系統(tǒng)。
比如說,公司可以使用在Web服務(wù)器上運(yùn)行的Apache Flume,收集來自推特帖子的數(shù)據(jù),以便分析。
地理空間分析
推動大數(shù)據(jù)潮流的一個趨勢是,由如今的IT系統(tǒng)生成和收集的地理空間數(shù)據(jù)越來越多。常言道,一幅圖片的信息量抵得上1000個單詞;所以難怪越來越多的地圖、圖表、照片及其他基于地理位置的內(nèi)容是導(dǎo)致如今大數(shù)據(jù)呈爆炸式增長的主要動因。
地理空間分析是一種特殊形式的數(shù)據(jù)可視化(參閱下面的"可視化"條目),在地理地圖上覆蓋數(shù)據(jù),以幫助用戶更清楚地理解大數(shù)據(jù)分析的結(jié)果。
Hadoop
Hadoop是一種開源平臺,用于開發(fā)分布式、數(shù)據(jù)密集型的應(yīng)用程序。它由Apache軟件基金會控制。
Hadoop的發(fā)明者是雅虎公司的開發(fā)者道格o卡廷(Doug Cutting),他在谷歌實(shí)驗(yàn)室的MapReduce概念這個基礎(chǔ)上開發(fā)出了Hadoop,以他兒子的玩具象命名。
另外,HBase是一種非關(guān)系數(shù)據(jù)庫,它是作為Hadoop項(xiàng)目的一部分開發(fā)而成的。Hadoop分布式文件系統(tǒng)(HDFS)是Hadoop的一個關(guān)鍵組成部分。Hive則是建立在Hadoop基礎(chǔ)上的數(shù)據(jù)倉庫系統(tǒng)。
內(nèi)存中數(shù)據(jù)庫
計算機(jī)在處理事務(wù)或執(zhí)行查詢時,一般從磁盤驅(qū)動器獲取數(shù)據(jù)。但是當(dāng)IT系統(tǒng)處理大數(shù)據(jù)時,這個過程可能實(shí)在太慢。
內(nèi)存中數(shù)據(jù)庫系統(tǒng)利用計算機(jī)的主內(nèi)存來存儲經(jīng)常使用的數(shù)據(jù),因而大大縮短了處理時間。內(nèi)存中數(shù)據(jù)庫產(chǎn)品包括SAP HANA和甲骨文Times Ten內(nèi)存中數(shù)據(jù)庫。
Java
Java是一種編程語言,由現(xiàn)隸屬甲骨文公司的Sun開發(fā),于1995年發(fā)布。Hadoop和其他許多大數(shù)據(jù)技術(shù)都是使用Java開發(fā)而成的,它仍是大數(shù)據(jù)領(lǐng)域一種主要的開發(fā)技術(shù)。
Kafka
Kafka是一種高吞吐量的分布式消息傳送系統(tǒng),最初是在LinkedIn開發(fā)而成,用于管理該服務(wù)網(wǎng)站的活動流(關(guān)于網(wǎng)站使用情況的數(shù)據(jù))和操作數(shù)據(jù)處理流水線(關(guān)于服務(wù)器組件的性能)。
Kafka在處理大量流式數(shù)據(jù)時很有效,而流式數(shù)據(jù)是許多大數(shù)據(jù)計算環(huán)境的一個關(guān)鍵問題。由推特開發(fā)的Storm是另一種大行其道的流處理技術(shù)。
Apache軟件基金會已將Kafka列為一個開源項(xiàng)目。所以,別以為這是有缺陷的軟件。
延遲時間
延遲時間是指數(shù)據(jù)從一個點(diǎn)傳送到另一個點(diǎn)過程中的延遲,或者是某個系統(tǒng)(如應(yīng)用程序)響應(yīng)另一個系統(tǒng)的延遲數(shù)量。
雖然延遲時間不是什么新術(shù)語,但是隨著數(shù)據(jù)量不斷增長,IT系統(tǒng)竭力跟上步伐,如今你更常聽到這個術(shù)語。簡單地說,"低延遲"是好事,"高延遲"是壞事。
映射/化簡
映射/化簡(Map/Reduce)這種方法是指把一個復(fù)雜的問題分解成多個較小的部分,然后將它們分發(fā)到多臺計算機(jī)上,最后把它們重新組裝成一個答案。
谷歌的搜索系統(tǒng)用到了映射/化簡概念,這家公司有一個品牌名為MapReduce的框架。
谷歌在2004年發(fā)布的一份白皮書描述了它使用映射/化簡的情況。Hadoop之父道格o卡廷充分認(rèn)識到了其潛力,開發(fā)出了同樣借用映射/化簡概念的第一個版本的Hadoop。
NoSQL數(shù)據(jù)庫
大多數(shù)主流的數(shù)據(jù)庫(如甲骨文數(shù)據(jù)庫和微軟SQL Server)基于關(guān)系型體系結(jié)構(gòu),使用結(jié)構(gòu)化查詢語言(SQL)用于開發(fā)和數(shù)據(jù)管理。
但是名為"NoSQL"(有些人現(xiàn)在稱NoSQL表示"不是只有SQL")的新一代數(shù)據(jù)庫系統(tǒng)基于支持者們認(rèn)為更適合處理大數(shù)據(jù)的體系結(jié)構(gòu)。
一些NoSQL數(shù)據(jù)庫是為提高可擴(kuò)展性和靈活性設(shè)計的,另一些NoSQL數(shù)據(jù)庫在處理文檔及其他非結(jié)構(gòu)化數(shù)據(jù)方面比較有效。典型的NoSQL數(shù)據(jù)庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發(fā)商已推出了各自的NoSQL產(chǎn)品。
Oozie
Apache Oozie是一種開源工作流引擎,用于幫助管理面向Hadoop的處理工作。使用Oozie,一系列工作可以用多種語言(如Pig和MapReduce)來加以定義,然后彼此關(guān)聯(lián)起來。比如說,一旦從操作應(yīng)用程序收集數(shù)據(jù)的作業(yè)已完成,程序員就可以啟動數(shù)據(jù)分析查詢?nèi)蝿?wù)。
Pig
Pig是Apache軟件基金會的另一個項(xiàng)目,這個平臺用于分析龐大的數(shù)據(jù)集。就其本質(zhì)而言,Pig是一種編程語言,可用于開發(fā)在Hadoop上運(yùn)行的并行計算查詢。
定量數(shù)據(jù)分析
定量數(shù)據(jù)分析是指使用復(fù)雜的數(shù)學(xué)或統(tǒng)計模型,解釋金融和商業(yè)行為,或者甚至預(yù)測未來的行為。
由于如今收集的數(shù)據(jù)量急劇增加,定量數(shù)據(jù)分析已變得更加復(fù)雜。但是如果公司知道如何利用海量數(shù)據(jù),獲得更好的可視性,深入了解公司業(yè)務(wù),并且洞察市場發(fā)展趨勢,那么更多的數(shù)據(jù)也有望在數(shù)據(jù)分析方面帶來更多的機(jī)會。
一個問題是,擁有這種分析技能的人才嚴(yán)重匱乏。知名咨詢公司麥肯錫表示,光美國就需要150萬名擁有大數(shù)據(jù)分析技能的分析員和管理員。
關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBM)是如今使用最廣泛的一種數(shù)據(jù)庫,包括IBM的DB2、微軟的SQL Server和甲骨文數(shù)據(jù)庫。從銀行應(yīng)用系統(tǒng)、零售店的銷售點(diǎn)系統(tǒng)到庫存管理應(yīng)用軟件,大多數(shù)的企業(yè)事務(wù)處理系統(tǒng)都在RDBM上運(yùn)行。
但有些人認(rèn)為,關(guān)系數(shù)據(jù)庫可能跟不上如今數(shù)據(jù)量和種類都呈爆炸式增長的形勢。比如說,RDBM當(dāng)初在設(shè)計時著眼于處理字母數(shù)字?jǐn)?shù)據(jù),處理非結(jié)構(gòu)化數(shù)據(jù)時不是同樣有效。
分片
隨著數(shù)據(jù)庫變得越來越龐大,處理起來也變得越來越困難。分片(sharding)是一種數(shù)據(jù)庫分區(qū)技術(shù),把數(shù)據(jù)庫分成了更小、更容易管理的部分。具體來說,數(shù)據(jù)庫被橫向分區(qū),以便單獨(dú)管理數(shù)據(jù)庫表中的不同行。
分片方法讓龐大數(shù)據(jù)庫的片段可以分布在多臺服務(wù)器上,從而提高數(shù)據(jù)庫的整體運(yùn)行速度和性能。
另外,Sqoop是一種開源工具,用于將來自非Hadoop來源(如關(guān)系數(shù)據(jù)庫)的數(shù)據(jù)轉(zhuǎn)移到Hadoop環(huán)境。
文本分析
導(dǎo)致大數(shù)據(jù)問題的因素之一是,從推特和Facebook等社交媒體網(wǎng)站、外部新聞源,甚至公司內(nèi)部收集而來以便分析的文本數(shù)量越來越多。由于文本是非結(jié)構(gòu)化數(shù)據(jù)(不像通常存儲在關(guān)系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)),主流的業(yè)務(wù)分析工具面對文本時常常束手無策。
文本分析采用了一系列方法(關(guān)鍵字搜索、統(tǒng)計分析法和語言研究法等),從基于文本的數(shù)據(jù)中獲得洞察力。
非結(jié)構(gòu)化數(shù)據(jù)
就在不久前,大部分?jǐn)?shù)據(jù)還是結(jié)構(gòu)化數(shù)據(jù),這種字母數(shù)字信息(如來自銷售交易的財務(wù)數(shù)據(jù))很容易存儲在關(guān)系數(shù)據(jù)庫中,并由商業(yè)智能工具來分析。
但是如今共計2.7澤字節(jié)的存儲數(shù)據(jù)中很大一部分是非結(jié)構(gòu)化數(shù)據(jù),比如基于文本的文檔、推特消息、發(fā)布在Flickr上的照片、發(fā)布在YouTube上的視頻,等等。(頗有意思的是,每分鐘有長達(dá)35個小時的視頻內(nèi)容上傳到Y(jié)ouTube。)處理、存儲和分析所有這些凌亂的非結(jié)構(gòu)化數(shù)據(jù)常常是如今的IT系統(tǒng)面臨的難題。
可視化
隨著數(shù)據(jù)量的增長,人們使用靜態(tài)的圖表和圖形來理解數(shù)據(jù)越來越困難了。這就導(dǎo)致開發(fā)新一代的數(shù)據(jù)可視化和分析工具,能夠以新的方式呈現(xiàn)數(shù)據(jù),從而幫助人們理解海量信息。
這些工具包括:標(biāo)以色碼的熱圖,三維圖形,顯示一段時間內(nèi)變化的動畫可視化,以及在地理地圖上覆蓋數(shù)據(jù)的地理空間呈現(xiàn)。今天的先進(jìn)數(shù)據(jù)可視化工具還具有更強(qiáng)的互動性,比如允許用戶放大某個數(shù)據(jù)子集,進(jìn)行更仔細(xì)的檢查。
Whirr
Apache Whirr是一組Java類庫,用于運(yùn)行大數(shù)據(jù)云服務(wù)。更確切地說,它可以加快在亞馬遜彈性計算云(EC2)和Rackspace等虛擬基礎(chǔ)設(shè)施上開發(fā)Hadoop集群的過程。
XML
可擴(kuò)展標(biāo)記語言(XML)用來傳輸和存儲數(shù)據(jù)(別與HTML混為一談,后者用來顯示數(shù)據(jù))。借助XML,程序員們就可以創(chuàng)建通用的數(shù)據(jù)格式,并通過互聯(lián)網(wǎng)共享信息和格式。
由于XML文檔可能非常龐大、復(fù)雜,它們往往被認(rèn)為導(dǎo)致IT部門面臨大數(shù)據(jù)挑戰(zhàn)。
堯字節(jié)
堯字節(jié)(yottabyte)是一種數(shù)據(jù)存儲度量指標(biāo),相當(dāng)于1000澤字節(jié)。據(jù)知名調(diào)研機(jī)構(gòu)IDC公司估計,今年全球存儲的數(shù)據(jù)總量預(yù)計將達(dá)到2.7澤字節(jié),比2011年增長48%。所以,我們離達(dá)到堯字節(jié)這個大關(guān)還有很長一段路,不過從目前大數(shù)據(jù)的增長速度來看,那一天的到來可能比我們想象的要快。
順便說一下,1澤字節(jié)相當(dāng)于1021字節(jié)的數(shù)據(jù)。它相當(dāng)于1000艾字節(jié)(EB)、100萬拍字節(jié)(PB)和10億太字節(jié)(TB)。
ZooKeeper
ZooKeeper是由Apache軟件基金會創(chuàng)建的一項(xiàng)服務(wù),旨在幫助Hadoop用戶管理和協(xié)調(diào)跨分布式網(wǎng)絡(luò)的Hadoop節(jié)點(diǎn)。
ZooKeeper與HBase緊密集成,而HBase是與Hadoop有關(guān)的數(shù)據(jù)庫。ZooKeeper是一項(xiàng)集中式服務(wù),用于維護(hù)配置信息、命名服務(wù)、分布式同步及其他群組服務(wù)。IT管理人員用它來實(shí)現(xiàn)可靠的消息傳遞機(jī)制、同步流程執(zhí)行及實(shí)施冗余服務(wù)。
原文鏈接:
http://www.crn.com/slide-shows/data-center/240142568/big-data-buzzwords-from-a-to-z.htm?pgno=1