云計(jì)算將在大數(shù)據(jù)領(lǐng)域扮演什么角色?
譯文[51CTO.com快譯]大數(shù)據(jù)處理和所有權(quán)導(dǎo)致存儲(chǔ)行業(yè)現(xiàn)狀發(fā)生轉(zhuǎn)變。本文介紹了存儲(chǔ)實(shí)踐方面最重大的變化。
企業(yè)存儲(chǔ)環(huán)境主要是圍繞記錄系統(tǒng)構(gòu)建起來(lái)的,側(cè)重于這些問(wèn)題:為數(shù)據(jù)記錄長(zhǎng)度固定的文件購(gòu)買哪些類型的存儲(chǔ)介質(zhì)和管理系統(tǒng),所存儲(chǔ)數(shù)據(jù)的性質(zhì)是實(shí)時(shí)數(shù)據(jù)、準(zhǔn)實(shí)時(shí)數(shù)據(jù),還是只是偶爾需要訪問(wèn)或完全可以用數(shù)據(jù)歸檔保存起來(lái)的批量填充的數(shù)據(jù)等。
自從大數(shù)據(jù)進(jìn)入企業(yè)數(shù)據(jù)中心和業(yè)務(wù)部門,一切改變了――單個(gè)的大數(shù)據(jù)文件可以用數(shù)TB、甚至數(shù)PB來(lái)衡量。Hadoop等分析平臺(tái)上的大數(shù)據(jù)并行處理與事務(wù)數(shù)據(jù)的按順序處理有著明顯區(qū)別。不出所料,存儲(chǔ)方面要考慮的因素隨之變化。
這種變化在數(shù)據(jù)分析和高性能計(jì)算領(lǐng)域體現(xiàn)得最為明顯。這個(gè)領(lǐng)域以Hadoop應(yīng)用程序?yàn)橹?,它們借助算法分析方法并行處理?shù)PB級(jí)數(shù)據(jù),用于數(shù)據(jù)科學(xué)及其他復(fù)雜查詢。就高性能應(yīng)用程序而言,很難考慮像虛擬化存儲(chǔ)或基于云的存儲(chǔ)這些概念,因?yàn)槟阒挥型ㄟ^(guò)數(shù)據(jù)中心的物理處理器和存儲(chǔ)平臺(tái),才能直接處理并存儲(chǔ)數(shù)據(jù)和查詢結(jié)果。
因此,這種工作具有的計(jì)算密集性和存儲(chǔ)密集性使數(shù)據(jù)中心管理人員(包括存儲(chǔ)專業(yè)人員)不再像過(guò)去十年那樣,迫切尋求的虛擬化或云計(jì)算。作為大數(shù)據(jù)對(duì)象存儲(chǔ)特點(diǎn)的單一數(shù)據(jù)集的龐大性也是如此,它們使用元數(shù)據(jù)標(biāo)簽來(lái)描述非傳統(tǒng)數(shù)據(jù)圖像,比如照片、視頻、音頻記錄和文檔圖像等。
此外,大數(shù)據(jù)項(xiàng)目的所有權(quán)也改變了存儲(chǔ)計(jì)算。如果公司里面的業(yè)務(wù)部門在運(yùn)行大數(shù)據(jù)項(xiàng)目,其目標(biāo)就會(huì)轉(zhuǎn)向零散的分布式物理存儲(chǔ)架構(gòu),這些分布式物理存儲(chǔ)是網(wǎng)絡(luò)附加存儲(chǔ)(NAS),可以在工作負(fù)載需要時(shí),向外擴(kuò)展到多個(gè)存儲(chǔ)設(shè)備。分布式向外擴(kuò)展型NAS是基于云的存儲(chǔ)或虛擬存儲(chǔ)之外的一種選擇,它與這些流行的IT趨勢(shì)形成了鮮明對(duì)照。
鑒于這些發(fā)展動(dòng)向,云計(jì)算在大數(shù)據(jù)領(lǐng)域可以扮演什么角色呢?
答案是冷存儲(chǔ)(cold storage),這個(gè)領(lǐng)域仍沒有得到企業(yè)界的充分利用。冷存儲(chǔ)是極其便宜、速度很慢、駐留在磁盤的數(shù)據(jù),存儲(chǔ)起來(lái)放到歸檔上,妥善保存起來(lái)。在日常的IT中,這些數(shù)據(jù)很少有機(jī)會(huì)需要用到,所以如果你把它轉(zhuǎn)移到異地?cái)?shù)據(jù)存儲(chǔ)庫(kù)很方便,不必讓它在你的數(shù)據(jù)中心或運(yùn)營(yíng)系統(tǒng)中占用空間。如果該數(shù)據(jù)存儲(chǔ)庫(kù)在云端,你就能夠從數(shù)據(jù)中心遠(yuǎn)程訪問(wèn)它,沒必要大老遠(yuǎn)跑到異地拿起磁盤或磁帶。
云計(jì)算和虛擬存儲(chǔ)在數(shù)據(jù)集市也存在發(fā)展前景?,F(xiàn)在許多公司使用數(shù)據(jù)集市為不同的部門運(yùn)行批量查詢。數(shù)據(jù)集市中所用的數(shù)據(jù)大多是批量創(chuàng)建,基本是過(guò)去用來(lái)查詢的傳統(tǒng)數(shù)據(jù)。不同之處在于,用戶現(xiàn)在擁有比過(guò)去更多的分析報(bào)告創(chuàng)建工具和選項(xiàng)用于查詢,而且數(shù)據(jù)管理員更能夠生成從不同來(lái)源聚合的數(shù)據(jù)。在這種批量環(huán)境下,磁盤存儲(chǔ)解決方案用起來(lái)就跟過(guò)去一樣有效。
存儲(chǔ)管理員需要應(yīng)對(duì)大數(shù)據(jù)帶來(lái)的變化,尤其是如何應(yīng)對(duì)眾多極其龐大的大數(shù)據(jù)文件。這就需要專門的磁盤和處理,在大多數(shù)情況下,還需要與云計(jì)算和虛擬化項(xiàng)目背道而馳的本地存儲(chǔ)。在另一方面,商用冷存儲(chǔ)解決方案可能會(huì)最終消除這個(gè)困境:很少使用的數(shù)據(jù)駐留在機(jī)房的過(guò)時(shí)磁盤和磁帶驅(qū)動(dòng)器上,無(wú)人照管。
原文標(biāo)題:Big data projects shake up the storage status quo
[51CTO.com獨(dú)家譯稿,合作站點(diǎn)轉(zhuǎn)載注明來(lái)源]