簡化數(shù)據(jù)湖可為組織節(jié)省時間和資源
咨詢和托管服務(wù)提供商Onica公司首席解決方案架構(gòu)師Mark McQuade學(xué)習(xí)和拓寬了他對從Docker和Kubernetes到人工智能和深度學(xué)習(xí)的各種知識。McQuade分享了對數(shù)據(jù)池的看法。
為什么組織使用數(shù)據(jù)湖?
數(shù)據(jù)湖用例的范圍從數(shù)據(jù)科學(xué)家開發(fā)的機器學(xué)習(xí)算法到構(gòu)建統(tǒng)計可視化,以及使用生成的見解來指導(dǎo)業(yè)務(wù)決策。
為什么數(shù)據(jù)湖如此復(fù)雜?
隨著數(shù)據(jù)每五年增長10倍,數(shù)據(jù)平臺需要擴展1000倍才能滿足未來15年的存儲和處理要求。采用數(shù)據(jù)湖可以減輕這種負擔(dān),但是由于數(shù)據(jù)清理、數(shù)據(jù)準備和安全配置的復(fù)雜性,建立數(shù)據(jù)湖的過程涉及一系列步驟,這些步驟可能變得非常繁瑣,將持續(xù)數(shù)月之久。此外,在數(shù)據(jù)湖的整個生命周期中,還涉及其他人工步驟,例如管理和監(jiān)視ETL(提取、轉(zhuǎn)換、加載)作業(yè),基于數(shù)據(jù)更改更新元數(shù)據(jù),維護清理腳本等。
建立數(shù)據(jù)湖需要多長時間?
建立一個完善的數(shù)據(jù)湖可能既困難又耗時,這個過程可能需要三到六個月的時間。使用AWS Lake Formation可以簡化以往花費大量人力構(gòu)建數(shù)據(jù)湖的工作,并且可以將構(gòu)建數(shù)據(jù)湖的時間減少到數(shù)周,不必那么復(fù)雜或花費那么長時間。
簡化數(shù)據(jù)湖有什么好處?
組織簡化數(shù)據(jù)湖可以節(jié)省大量的時間和減少麻煩。通過完善組織對數(shù)據(jù)湖的維護,可以減少保持一切正常運行所需的內(nèi)部專業(yè)知識和資源,使IT團隊能夠?qū)W⒂诟o迫的項目,從而從長遠來看節(jié)省了組織成本。
數(shù)據(jù)還可以幫助組織預(yù)測客戶行為,自動化流程以提高效率,除了自動化客戶服務(wù)之外,還可以通過速度和可用性增強產(chǎn)品供應(yīng)。這些用例要求數(shù)據(jù)是安全的和實時可用的,隨著越來越多的人訪問數(shù)據(jù),重要的是數(shù)據(jù)平臺是靈活和可擴展的。AWS Lake Formation可以解決所有上述問題。
組織如何簡化數(shù)據(jù)湖?
建議使用AWS Lake Formation,它可以消減很多人工工作,并且可以將構(gòu)建數(shù)據(jù)湖的時間減少到數(shù)周,它還允許組織以三種方式簡化數(shù)據(jù)湖:
- 使用藍圖來攝取數(shù)據(jù):能夠以大容量或增量負荷攝取數(shù)據(jù)。如果選擇增量加載以進行攝取,則可以指定要增量加載的表和列,并設(shè)置一些書簽鍵,并根據(jù)自己的偏好指定鍵排序順序。設(shè)置完所有這些參數(shù)后,就可以監(jiān)視增量導(dǎo)入,以檢查攝取是否成功。
- 授予權(quán)限以安全地共享數(shù)據(jù):在攝取數(shù)據(jù)之后,可以為用戶分配對保存數(shù)據(jù)庫中數(shù)據(jù)表的訪問權(quán)限。這些權(quán)限可能特定于每個用戶,具有可單獨選擇的選項,例如創(chuàng)建、選擇、插入、更改或刪除數(shù)據(jù)。
- 運行查詢:提取數(shù)據(jù)并定義安全權(quán)限之后,可以使用Amazon服務(wù)(例如Amazon Athena)運行查詢,這些服務(wù)利用數(shù)據(jù)湖中表中的數(shù)據(jù)。與人工工作相比,使用AWS Lake Formation來創(chuàng)建和管理數(shù)據(jù)湖是一個更簡單、直觀并且更快的過程。
組織是否還有其他方法可以降低其不采用這些特定步驟或Amazon的數(shù)據(jù)湖的復(fù)雜性?
雖然這三種超大規(guī)模方案都提供了管理數(shù)據(jù)湖的方法,但對于組織而言,在采用新技術(shù)之前先問自己要解決的問題始終很重要。盡管簡化數(shù)據(jù)湖對于某些組織而言可能是關(guān)鍵,但可能存在只能用另一種解決方案解決的情況。
組織在簡化其數(shù)據(jù)湖時絕對不應(yīng)該做哪些事情?
組織需要避免內(nèi)部部署工作,并堅持使用無服務(wù)器數(shù)據(jù)湖。無服務(wù)器的數(shù)據(jù)湖可以使IT團隊有效地進行擴展,而內(nèi)部部署則需要頻繁的軟件升級和對物理硬件的關(guān)注。
建立數(shù)據(jù)湖時,可能會花費大量時間和精力,組織可能會想辦法走捷徑,但是當涉及到數(shù)據(jù)和將為組織的數(shù)據(jù)提供強大動力的數(shù)據(jù)平臺時,需要避免這種走捷徑的舉動。
組織如何才能確保在構(gòu)建數(shù)據(jù)湖時考慮到未來因素?
確保組織的數(shù)據(jù)平臺是為長期成功而不僅僅是為了滿足當前需求而構(gòu)建的。例如,組織可能此時對機器學(xué)習(xí)不感興趣,但是在接下來的兩到三年內(nèi),很可能希望對數(shù)據(jù)進行一些預(yù)測。組織確保擁有一個健壯、可擴展且安全的數(shù)據(jù)平臺也是一個好習(xí)慣,這將使組織的業(yè)務(wù)和數(shù)據(jù)在未來幾年內(nèi)都能正常運行。