自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

成功實(shí)施數(shù)據(jù)湖的關(guān)鍵因素

大數(shù)據(jù) 數(shù)據(jù)湖
數(shù)據(jù)湖的實(shí)現(xiàn)需要很多關(guān)鍵因素,其中涉及從技術(shù)到治理,組織需要評(píng)估其實(shí)施策略中最重要的因素。

數(shù)據(jù)湖的實(shí)現(xiàn)需要很多關(guān)鍵因素,其中涉及從技術(shù)到治理,組織需要評(píng)估其實(shí)施策略中最重要的因素。

除了數(shù)據(jù)湖增長(zhǎng)背后的業(yè)務(wù)驅(qū)動(dòng)因素之外,價(jià)格不斷下降的云服務(wù)提供大量存儲(chǔ)和處理的能力,這正在使數(shù)據(jù)湖平臺(tái)對(duì)各種規(guī)模的組織越來越有吸引力。

數(shù)據(jù)湖的實(shí)施繼續(xù)吸引著IT行業(yè)的關(guān)注。調(diào)研機(jī)構(gòu)Research and Markets公司最近的一份分析報(bào)告預(yù)測(cè),數(shù)據(jù)湖市場(chǎng)將以26%的復(fù)合年增長(zhǎng)率增長(zhǎng),到2024年將達(dá)到201億美元。

[[335665]]

如果組織正在考慮實(shí)施數(shù)據(jù)湖,則應(yīng)考慮以下幾點(diǎn):

什么是數(shù)據(jù)湖?

定義和更好地理解數(shù)據(jù)湖的一種簡(jiǎn)單方法是將它們與數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行比較。盡管數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖都用于存儲(chǔ)大量數(shù)據(jù),但是它們之間存在很大差異。

組織可以通過多種方式使用數(shù)據(jù)湖信息,并且數(shù)據(jù)源不需要預(yù)定義就可以被攝入數(shù)據(jù)湖。分析師可以通過探索、試驗(yàn)和評(píng)估數(shù)據(jù)湖信息,以識(shí)別其優(yōu)勢(shì)和用例。與此同時(shí),數(shù)據(jù)倉(cāng)庫(kù)為預(yù)定目的攝取和存儲(chǔ)數(shù)據(jù)。

數(shù)據(jù)倉(cāng)庫(kù)專家經(jīng)常實(shí)施高級(jí)別的分析,以評(píng)估和識(shí)別輸入源。但是,實(shí)施數(shù)據(jù)湖的策略是從幾乎所有生成信息的系統(tǒng)中提取和分析數(shù)據(jù)。

數(shù)據(jù)倉(cāng)庫(kù)使用預(yù)定義的架構(gòu)來攝取數(shù)據(jù)。在數(shù)據(jù)湖中,分析人員在提取過程完成后應(yīng)用架構(gòu)。數(shù)據(jù)湖以原始格式存儲(chǔ)數(shù)據(jù)。因此,數(shù)據(jù)攝取是一個(gè)相當(dāng)簡(jiǎn)單的過程。在數(shù)據(jù)倉(cāng)庫(kù)中,在提取數(shù)據(jù)時(shí)會(huì)對(duì)其進(jìn)行大量處理,以確保數(shù)據(jù)符合架構(gòu)及其預(yù)定義的目的。

數(shù)據(jù)湖專門研究結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的提取。它們還提供了除批處理負(fù)載外還易于攝取流數(shù)據(jù)的機(jī)制。盡管數(shù)據(jù)倉(cāng)庫(kù)可以接受許多不同形式的數(shù)據(jù),但它們通常使用批量加載來提取結(jié)構(gòu)化數(shù)據(jù)。

如何開始實(shí)施

數(shù)據(jù)湖實(shí)施的第一步是通過供應(yīng)商網(wǎng)站和其他資源來了解有關(guān)數(shù)據(jù)湖架構(gòu)、平臺(tái)、產(chǎn)品和工作流程的更多信息。

與任何產(chǎn)品評(píng)估一樣,企業(yè)需要對(duì)競(jìng)爭(zhēng)產(chǎn)品進(jìn)行徹底的分析。以下是評(píng)估標(biāo)準(zhǔn)的列表,可幫助組織進(jìn)行分析:

  • 技術(shù)。盡管Apache Hadoop及其支持產(chǎn)品套件一直是許多組織的首選,但替代方案卻越來越多。許多將Hadoop用于其數(shù)據(jù)湖產(chǎn)品的供應(yīng)商提供了自己的自定義產(chǎn)品和邊緣產(chǎn)品,以簡(jiǎn)化管理和分析。如今有很多平臺(tái)可用,其中包括Amazon Data Lake解決方案、微軟 Azure Data Lake、谷歌Data Lake、Datafake Snowflake和Oracle Data Lake。
  • 安全和訪問控制。數(shù)據(jù)湖包含有關(guān)業(yè)務(wù)的信息寶庫(kù)。像所有組織的數(shù)據(jù)存儲(chǔ)一樣,需要保護(hù)數(shù)據(jù)湖以防止未經(jīng)授權(quán)的訪問。
  • 數(shù)據(jù)提取。平臺(tái)是否可以輕松快速地提取結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)?它能夠有效地吸收數(shù)據(jù)流、微批量處理和大批處理數(shù)據(jù)負(fù)載嗎?
  • 元數(shù)據(jù)管理。大數(shù)據(jù)專家使用元數(shù)據(jù)來搜索、識(shí)別和更好地理解數(shù)據(jù)湖中的數(shù)據(jù)集。
  • 數(shù)據(jù)處理、性能和可擴(kuò)展性。該平臺(tái)為用戶提供了哪些工具和流程來與數(shù)據(jù)進(jìn)行交互?它如何實(shí)現(xiàn)數(shù)據(jù)瀏覽?它在日常操作過程中執(zhí)行什么后臺(tái)程序?這些流程的速度有多快,它們會(huì)擴(kuò)展以滿足組織的工作量要求嗎?
  • 管理和監(jiān)控。該平臺(tái)是否為系統(tǒng)管理和監(jiān)視提供了強(qiáng)大的用戶界面(UI)?它提供哪些工作負(fù)載管理功能?
  • 數(shù)據(jù)治理。該平臺(tái)是否提供確保數(shù)據(jù)一致和可靠的機(jī)制?它是否提供創(chuàng)建沙箱環(huán)境的能力,使用戶可以在不影響數(shù)據(jù)湖內(nèi)容的情況下進(jìn)行數(shù)據(jù)實(shí)驗(yàn)?
  • 數(shù)據(jù)分析和可訪問性。該平臺(tái)提供什么機(jī)制來分析數(shù)據(jù)?它可以讓組織輕松整合機(jī)器學(xué)習(xí)嗎?它為消費(fèi)者提供哪些數(shù)據(jù)分析功能?可以輕松集成第三方分析工具嗎?
  • 成本核算策略。供應(yīng)商將如何向企業(yè)收費(fèi)?

數(shù)據(jù)湖實(shí)施

在選擇平臺(tái)之后,下一步是構(gòu)建組織基礎(chǔ)設(shè)施、流程和過程,以加載、管理和分析數(shù)據(jù)湖中的數(shù)據(jù)。

以下是數(shù)據(jù)湖植入策略中的關(guān)鍵步驟:

  • 確定有效支持平臺(tái)和分析數(shù)據(jù)所需的專業(yè)知識(shí)。像許多復(fù)雜的技術(shù)一樣,數(shù)據(jù)湖具有陡峭的學(xué)習(xí)曲線。企業(yè)需要雇用經(jīng)驗(yàn)豐富的人才并培訓(xùn)內(nèi)部人員,并且需要使用數(shù)據(jù)湖實(shí)施來定義新的組織角色和報(bào)告結(jié)構(gòu)。
  • 為了執(zhí)行經(jīng)過深思熟慮的數(shù)據(jù)湖實(shí)施戰(zhàn)略和設(shè)計(jì),組織需要制定一個(gè)傳統(tǒng)的項(xiàng)目計(jì)劃,其中包括目標(biāo)、里程碑和分配的行動(dòng)項(xiàng)目。組織需要確定將用來評(píng)估數(shù)據(jù)湖項(xiàng)目的成功的標(biāo)準(zhǔn),需要設(shè)計(jì)系統(tǒng)以促進(jìn)自助式數(shù)據(jù)分析,還應(yīng)該為數(shù)據(jù)存儲(chǔ)和歸檔制定數(shù)據(jù)分類標(biāo)準(zhǔn)。
  • 實(shí)際上,組織生成的任何數(shù)據(jù)都是數(shù)據(jù)湖提取的潛在來源。挑戰(zhàn)成為優(yōu)先事項(xiàng)之一。一個(gè)更好的方法是評(píng)估生成數(shù)據(jù)的來源,并從高層次確定其對(duì)組織的重要性。
  • 組織應(yīng)該確定當(dāng)前是否正在分析信息以及正在發(fā)生的分析級(jí)別。高度分析的數(shù)據(jù)盡管仍然是潛在的攝取來源,但其重要性可能低于系統(tǒng)中未被評(píng)估的數(shù)據(jù)。
  • 制定、實(shí)施和實(shí)施數(shù)據(jù)治理策略,以確保數(shù)據(jù)安全、完整、一致、準(zhǔn)確。
  • 為數(shù)據(jù)探索、實(shí)驗(yàn)和分析制定標(biāo)準(zhǔn)。數(shù)據(jù)科學(xué)家應(yīng)該遵循一個(gè)標(biāo)準(zhǔn)化但靈活的過程來評(píng)估數(shù)據(jù)并確定將為業(yè)務(wù)帶來最大價(jià)值的用例。這些數(shù)據(jù)的潛在目標(biāo)是其他商業(yè)智能平臺(tái)以及新的和現(xiàn)有的業(yè)務(wù)應(yīng)用程序。

 

責(zé)任編輯:趙寧寧 來源: 企業(yè)網(wǎng)D1Net
相關(guān)推薦

2019-11-12 14:05:39

云計(jì)算數(shù)據(jù)IT

2023-03-23 15:04:30

數(shù)字化轉(zhuǎn)型架構(gòu)

2017-01-11 14:58:50

大數(shù)據(jù)分析模型數(shù)據(jù)分析

2017-01-03 08:36:15

大數(shù)據(jù)關(guān)鍵模型

2011-04-07 09:07:00

外包項(xiàng)目

2019-10-18 18:59:46

公共云云計(jì)算云原生

2020-11-26 10:02:53

物聯(lián)網(wǎng)

2022-02-22 14:31:40

人工智能商業(yè)智能技術(shù)

2017-11-30 11:43:00

大數(shù)據(jù)存儲(chǔ)因素

2022-08-31 11:05:38

多云混合云云計(jì)算

2024-07-31 16:09:04

2022-08-31 14:20:59

云計(jì)算混合云公共云

2023-04-28 15:27:26

數(shù)字化轉(zhuǎn)型數(shù)字經(jīng)濟(jì)企業(yè)管理

2017-10-12 10:35:01

私有云公有云云計(jì)算

2019-11-27 10:33:17

云計(jì)算公共云IT

2018-09-19 16:11:07

數(shù)據(jù)創(chuàng)新關(guān)鍵

2014-09-19 10:25:41

開源

2013-05-28 16:52:03

2020-04-20 11:09:30

DevOps實(shí)踐因素
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)