現(xiàn)在是大數(shù)據(jù)處理的最佳時機?
毫無疑問,大數(shù)據(jù)管理現(xiàn)在已經(jīng)成為企業(yè)開發(fā)社區(qū)中的一大熱門話題。但為什么大數(shù)據(jù)的討論成為一種現(xiàn)象會為這么晚?為什么過去大數(shù)據(jù)的處理沒有成為企業(yè)工具集的一部分,是不是現(xiàn)在的信息技術生態(tài)系統(tǒng)使得大數(shù)據(jù)解決方案變得如此的明智。
大數(shù)數(shù)據(jù)管理如此流行的一個關鍵原因是,無需言明,多數(shù)組織不得不對處理日益增長的數(shù)據(jù)進行管理。從互聯(lián)網(wǎng)搜索引擎,到龐大信息量的檢索,再到基因科學或大氣科學的研究項目,人們關注并嘗試的數(shù)據(jù)量變得越來越龐大。曾經(jīng)兆字節(jié)數(shù)據(jù)的處理就是很驚人的期望,但與現(xiàn)在組織面臨的千萬兆字節(jié)相比,就變得蒼白無力了。
處理能力是關鍵。一方面它要有能力存儲巨大量的數(shù)據(jù);另一方面它要能夠進行處理。畢竟,如果它不能挖掘出來,但用什么來存儲數(shù)據(jù)?談到數(shù)據(jù)挖掘,我們講的心比挖掘煤礦還快的速度處理數(shù)據(jù)。如果我們不能在合理的時間內(nèi),從數(shù)據(jù)中找到有意義信息,那么它就是無用的。
現(xiàn)在,管理大數(shù)據(jù)非??尚校驗樘幚砟芰梢载摀闷?。過去,財富500強公司需要稀釋他們的股份和發(fā)行更多普通股,為了能夠購買多元處理器,這樣就能夠存儲兆兆字節(jié)的數(shù)據(jù)。但是現(xiàn)在一個小學生,用他的零用錢就可以買到等價處理能力的處理器。
另外,確實沒有和過去一樣的需求,需要出去從像Oracle和IBM那樣的公司中,購買大的硬件和令人印象深刻的工作站。而一個明智的IT部分可以從網(wǎng)上輕而易舉的購買到上百個主板和多核處理器,并以歷***從臺灣直接裝運過來。改道開源軟件可以用來把各種各樣的主板、處理器編成組,而國產(chǎn)的處理能力可以以千兆位字節(jié)吞噬掉非結(jié)構(gòu)化的數(shù)據(jù)。
伴隨著處理能力,免費軟件也有能力強化了大數(shù)據(jù)運動。HBase之類的工具可以用把大數(shù)據(jù)存儲在單一數(shù)據(jù)庫表中,或海量數(shù)據(jù)庫表中,海量數(shù)據(jù)庫表可以擴展出數(shù)十億的行和數(shù)以百萬的列。從那里,如果你有興趣挖掘你HBase數(shù)據(jù),Hadoop可以幫助你處理那些海量數(shù)據(jù)集,并理解其不斷積累的信息。
“如果想得到特殊的東西,你可以訪問,你可以訪問HBase領域的數(shù)據(jù);但如果想獲得關于分析的一些數(shù)據(jù),比如說,你希望在數(shù)十億的記錄中,找到出某個星球的平均年齡,那么你可以使用Hadoop。”Java之父,James Gosling說。“它最終會非??焖俨⑶曳浅8咝А?rdquo;
累積的大量數(shù)據(jù)池、處理能力的負擔能力和專業(yè)化軟件的可用性,這三大理由不僅使“大數(shù)據(jù)”成為互聯(lián)網(wǎng)的一個敏銳話題,也成為了管理信息的一個可行方法。結(jié)合了廉價的處理能力,并且能夠免費的下載,通過像Hadoop和HBase這樣的開源軟件解決方案,企業(yè)架構(gòu)師們有更新,更有效的工具來處理在大數(shù)據(jù)了。隨著越來越多的公司從一系列不同的出入中,收集了更多的信息,使得大數(shù)據(jù)處理能力達到***的***。