如何查找隱藏在云存儲(chǔ)中的數(shù)據(jù)
最近的一項(xiàng)調(diào)查顯示,隨著云端對(duì)象庫(kù)成為事實(shí)上的數(shù)據(jù)湖,企業(yè)在查找和統(tǒng)計(jì)堆積的所有數(shù)據(jù)時(shí),處于艱難的境地。

對(duì)于擁有大量空曠空間的人們來(lái)說(shuō),其存放的物品總是凌亂散布,而這可能是人類(lèi)的本性。而目前也有這樣一個(gè)趨勢(shì),即對(duì)于越來(lái)越多的企業(yè)來(lái)說(shuō),云對(duì)象存儲(chǔ)正在成為事實(shí)上的數(shù)據(jù)湖。好消息是,云對(duì)象存儲(chǔ)成本相對(duì)更低,并且具有高度可擴(kuò)展性,而且越來(lái)越易于訪(fǎng)問(wèn)。例如,大多數(shù)云Hadoop服務(wù)交換Hadoop分布式文件系統(tǒng)(HDFS)的對(duì)象存儲(chǔ),并且越來(lái)越多的云計(jì)算提供商正在提供服務(wù),提供臨時(shí)查詢(xún)或?qū)⒃茖?duì)象存儲(chǔ)視為數(shù)據(jù)倉(cāng)庫(kù)的擴(kuò)展表。
依賴(lài)云存儲(chǔ)作為默認(rèn)目標(biāo)或數(shù)據(jù)湖的另一個(gè)方面是需要協(xié)調(diào)通用目標(biāo)中數(shù)據(jù)的積累,需要對(duì)數(shù)據(jù)隱私或數(shù)據(jù)保護(hù)更負(fù)責(zé),尤其對(duì)于GDPR等規(guī)則生效的情況。
Chaos Sumo公司計(jì)劃在今年夏天推出SaaS提供商的搜索層以添加云存儲(chǔ)(現(xiàn)在稱(chēng)為Amazon S3),該公司剛剛發(fā)布了一項(xiàng)調(diào)查,顯示云計(jì)算采用者感受到的一些痛點(diǎn)。
無(wú)可否認(rèn),這個(gè)調(diào)查規(guī)模并不大,只有120名受訪(fǎng)者,主要針對(duì)的是數(shù)據(jù)操作專(zhuān)業(yè)人員,該示例很可能偏向已經(jīng)接受云計(jì)算的組織。例如,72%的人表示他們目前使用某種形式的云對(duì)象存儲(chǔ)。對(duì)于那些使用亞馬遜S3的人來(lái)說(shuō),40%的受訪(fǎng)者表示他們預(yù)計(jì)明年他們使用S3存儲(chǔ)的比例至少會(huì)增長(zhǎng)50%。
對(duì)于企業(yè)來(lái)說(shuō),主要用于備份、存儲(chǔ)和歸檔。但是28%的人已經(jīng)在使用數(shù)據(jù)湖的對(duì)象存儲(chǔ),而另外18%的人計(jì)劃在未來(lái)的12-18個(gè)月內(nèi)實(shí)施。毫不奇怪,對(duì)于這個(gè)以AWS為主的樣本,如今在使用Amazon Athena報(bào)告的類(lèi)似比例(23%)。大約一半的受訪(fǎng)者表示,已使用Amazon Redshift數(shù)據(jù)倉(cāng)庫(kù),Spectrum現(xiàn)在可以將S3視為擴(kuò)展表。
Athena等工具的創(chuàng)新開(kāi)放了對(duì)系統(tǒng)中數(shù)據(jù)的交互式訪(fǎng)問(wèn),而不是對(duì)存儲(chǔ)進(jìn)行優(yōu)化,而不需要ETL(盡管數(shù)據(jù)必須采用某種形式的半結(jié)構(gòu)化存儲(chǔ),如CSV、JSON、Parquet或其他格式)。

但正如圖表所顯示的那樣,隨著數(shù)據(jù)在對(duì)象存儲(chǔ)中的涌現(xiàn),越來(lái)越多的少數(shù)人擔(dān)心問(wèn)責(zé)制問(wèn)題。這正是Hadoop等平臺(tái)的商業(yè)銷(xiāo)售優(yōu)勢(shì),以及用于分析和數(shù)據(jù)準(zhǔn)備的打包工具,這些平臺(tái)具有某種形式的數(shù)據(jù)沿襲,安全性和訪(fǎng)問(wèn)控制作為其存在的理由。云對(duì)象存儲(chǔ)在涉及治理或周邊安全時(shí)是赤裸裸的——傳統(tǒng)上是數(shù)據(jù)平臺(tái)、云主機(jī)或消耗數(shù)據(jù)的分析工具的工作。
因此,四分之一的受訪(fǎng)者擔(dān)心他們將不得不移動(dòng)數(shù)據(jù)來(lái)分析數(shù)據(jù),而數(shù)量較少但具有統(tǒng)計(jì)學(xué)意義的少數(shù)群體則對(duì)查找數(shù)據(jù)、合規(guī)性和安全性表示擔(dān)憂(yōu)。他們花費(fèi)大量時(shí)間清理和準(zhǔn)備數(shù)據(jù),超過(guò)一半的受訪(fǎng)者表示花費(fèi)每周至少6小時(shí),其中近40%的受訪(fǎng)者表示每周花費(fèi)超過(guò)11小時(shí)來(lái)完成任務(wù)。
值得注意的是,只有7%的受訪(fǎng)者表示目前很容易分析當(dāng)今在對(duì)象存儲(chǔ)中的數(shù)據(jù)。這就是調(diào)查贊助商Chaos Sumo公司的商業(yè)用途。該公司計(jì)劃引入它所謂的“數(shù)據(jù)結(jié)構(gòu)”,將于今年夏天將S3數(shù)據(jù)打開(kāi)到Elastic search,供現(xiàn)有SaaS提供商使用OEM。預(yù)計(jì)S3將成為更多分析平臺(tái)和工具的良好去處。對(duì)于Chaos Sumo來(lái)說(shuō),將搜索作為SaaS提供商的實(shí)用工具來(lái)增加這些數(shù)據(jù)的可見(jiàn)性可以更好地應(yīng)用云存儲(chǔ)。