自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于云的理想數(shù)據(jù)湖框架

大數(shù)據(jù) 數(shù)據(jù)湖
借助正確的工具和最佳實(shí)踐,組織可以使用其所有數(shù)據(jù),使更多的用戶可以訪問它,并推動(dòng)做出更好的業(yè)務(wù)決策。

我們知道,有了合適的技術(shù),我們可以做得比僅僅跟上更新要好得多,并且如果我們還可以確保靈活的開發(fā)并能更輕松地保護(hù)我們的數(shù)據(jù),在需要時(shí)訪問,處理和分析數(shù)據(jù)的過程,那么我們會(huì)做得更好。借助正確的工具和最佳實(shí)踐,組織可以使用其所有數(shù)據(jù),使更多的用戶可以訪問它,并推動(dòng)做出更好的業(yè)務(wù)決策。

新技術(shù)的創(chuàng)新可以改善可用性,簡(jiǎn)單性,成本和性能方面的現(xiàn)代基于云的數(shù)據(jù)湖,數(shù)據(jù)倉(cāng)庫(kù)和分析能力,這些能力應(yīng)能夠獨(dú)立擴(kuò)展計(jì)算和存儲(chǔ),從而滿足當(dāng)前和未來的需求。它不應(yīng)干擾任何正在進(jìn)行的工作負(fù)載,降低性能或由于后臺(tái)運(yùn)行備份進(jìn)程而導(dǎo)致服務(wù)不可用。而且它應(yīng)該便宜,可以通過巧妙的方式來保存我們的數(shù)據(jù),而不必將其復(fù)制和移動(dòng)到其他地方。

現(xiàn)代數(shù)據(jù)湖是現(xiàn)代企業(yè)的基礎(chǔ)。如果設(shè)置正確,則數(shù)據(jù)湖將吸引人們自然而然地將想法吸引到那里,并在確保系統(tǒng)的耐用性,靈活性和可用性方面獲得有用的見解。

技術(shù)是任何現(xiàn)代數(shù)據(jù)湖的最基本需求-如今,如今,諸如Databricks,Microsoft Azure,AWS云之類的許多技術(shù)正在提供許多服務(wù)來支持大數(shù)據(jù),這既是實(shí)現(xiàn)強(qiáng)大洞察力的特定方法,也是一種思想。更快,更好的決策,甚至跨多個(gè)行業(yè)的業(yè)務(wù)轉(zhuǎn)型。

數(shù)據(jù)湖的支柱包括可擴(kuò)展和持久的數(shù)據(jù)存儲(chǔ),收集和組織數(shù)據(jù)的機(jī)制以及處理和分析數(shù)據(jù)以及共享發(fā)現(xiàn)的工具。因此,我們專注于任何現(xiàn)代數(shù)據(jù)湖中應(yīng)包含的關(guān)鍵技術(shù),以支持大數(shù)據(jù)意味著任何類型的數(shù)據(jù)。

  • 云具有無限的資源-基于云的服務(wù)特別適合數(shù)據(jù)湖,因?yàn)樗鼮槲覀兲峁┝藷o限的資源,這意味著云基礎(chǔ)架構(gòu)可在幾分鐘或幾秒鐘內(nèi)按需提供幾乎無限的資源,而無需擔(dān)心任何事情。組織只需為使用的資源付費(fèi),從而可以在不影響性能的情況下動(dòng)態(tài)支持任何規(guī)模的用戶和工作負(fù)載。
  • 節(jié)省資金,專注于數(shù)據(jù)的云技術(shù)—基于云的服務(wù)可為任何組織提供云構(gòu)建的解決方案,從而避免了硬件,軟件和其他基礎(chǔ)架構(gòu)的昂貴,前期投資以及維護(hù),更新和保護(hù)的成本本地系統(tǒng)。
  • 云技術(shù)附帶了自然集成點(diǎn):據(jù)估計(jì),您要分析的數(shù)據(jù)中有多達(dá)80%來自業(yè)務(wù)應(yīng)用程序數(shù)據(jù),運(yùn)營(yíng)數(shù)據(jù)存儲(chǔ),點(diǎn)擊流數(shù)據(jù),社交媒體平臺(tái),物聯(lián)網(wǎng)事物和實(shí)時(shí)流數(shù)據(jù)。與構(gòu)建內(nèi)部數(shù)據(jù)中心相比,將這些數(shù)據(jù)集成到云中要容易得多,而且成本更低。
  • 使用noSQL內(nèi)置-它描述了一種技術(shù),該技術(shù)可以存儲(chǔ)和分析更新形式的數(shù)據(jù),例如從計(jì)算機(jī)和社交媒體生成的數(shù)據(jù),以豐富和擴(kuò)展組織的數(shù)據(jù)分析。眾所周知,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)無法很好地容納這些數(shù)據(jù)類型。因此,近年來出現(xiàn)了更新的系統(tǒng)來處理這些半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)形式,例如JSON,Avro和XML。
  • 支持現(xiàn)有技能和專業(yè)知識(shí)-Data Lake支持有效存儲(chǔ)和處理任何類型的數(shù)據(jù),數(shù)據(jù)管理,數(shù)據(jù)轉(zhuǎn)換,集成,可視化,商業(yè)智能和分析工具所需的功能,可以輕松地與SQL數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行通信。標(biāo)準(zhǔn)SQL根深蒂固的角色也意味著大量人具有SQL技能。它使其他編程語言能夠提取和分析數(shù)據(jù)。

應(yīng)該清楚地認(rèn)識(shí)到云在成本,規(guī)模,性能,易用性和安全性方面的內(nèi)在優(yōu)勢(shì),因?yàn)樗鼈儗?duì)整體數(shù)據(jù)湖計(jì)劃和成果的影響。彈性云數(shù)據(jù)湖具有兩個(gè)主要優(yōu)勢(shì):

  • 容量規(guī)劃和管理的復(fù)雜性和成本–系統(tǒng)的規(guī)模,平衡和調(diào)整系統(tǒng)應(yīng)內(nèi)置于系統(tǒng)中,并由其自動(dòng)化,并由我們的訂購(gòu)成本承擔(dān)。
  • 快速動(dòng)態(tài)配置存儲(chǔ)和計(jì)算資源以滿足高峰和穩(wěn)定使用期間不斷變化的工作負(fù)載的需求也是如此。容量是我們?cè)谛枰獣r(shí)所需的一切。

選擇最佳的基于云的數(shù)據(jù)湖生態(tài)系統(tǒng)-理想的云數(shù)據(jù)湖解決方案兼具兩全其美的能力-靈活地集成關(guān)系和非關(guān)系數(shù)據(jù)以及識(shí)別服務(wù),從而為企業(yè)和企業(yè)用戶提供所需的架構(gòu)方法并切實(shí)可行,數(shù)據(jù)科學(xué)家也是如此。最好的基于云的數(shù)據(jù)湖生態(tài)系統(tǒng)產(chǎn)品完美地說明了這些要點(diǎn)。這些包括:

  • 存儲(chǔ)— Data Lake存儲(chǔ)必須能夠容納大量結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。盡管Hadoop的HDFS可以支持,但基于云的對(duì)象存儲(chǔ)可能是更好的選擇,不僅可以在節(jié)點(diǎn)之間分布數(shù)據(jù)冗余。AWS提供了用于可靠,安全且可擴(kuò)展的對(duì)象存儲(chǔ)的Amazon Simple Storage Service(S3)和Amazon Glacier,后者具有相似的特性,可以以最低的管理開銷實(shí)現(xiàn)極低成本的長(zhǎng)期歸檔和備份。
  • 計(jì)算—在數(shù)據(jù)湖中,您可以通過使用不同的計(jì)算資源輕松地應(yīng)用不同的分析算法。例如,流分析將需要高吞吐量,而批處理可能會(huì)占用大量處理器。Apache Spark可能需要大量?jī)?nèi)存,而AI在GPU上可能效果最好。與其他云提供商以及本地Hadoop相比,基于云的理想數(shù)據(jù)湖服務(wù)具有顯著的靈活性,后者將存儲(chǔ)直接綁定到每個(gè)節(jié)點(diǎn)中的計(jì)算。
  • 分析—數(shù)據(jù)湖的美德在于它如何針對(duì)許多不同的用例,以多種不同的方式分析同一數(shù)據(jù)。理想的基于云的數(shù)據(jù)湖生態(tài)系統(tǒng)無需將數(shù)據(jù)遷移到不同的操作環(huán)境,也不需要隨之而來的開銷,成本,工作量或延遲。
  • 數(shù)據(jù)庫(kù)-并非所有的數(shù)據(jù)湖數(shù)據(jù)都是非結(jié)構(gòu)化的。通常,在事務(wù)和分析處理方面擁有更緊密的組織是很有意義的。同樣,這提供了滿足許多數(shù)據(jù)湖應(yīng)用程序需求的多功能性。
  • 實(shí)時(shí)流處理-并非所有數(shù)據(jù)都簡(jiǎn)單地存儲(chǔ)在數(shù)據(jù)湖中并在以后進(jìn)行分析。通常,需要收集,存儲(chǔ),處理甚至分析運(yùn)動(dòng)中的實(shí)時(shí)數(shù)據(jù)。一個(gè)理想的基于云的數(shù)據(jù)湖生態(tài)系統(tǒng),可提供強(qiáng)大的服務(wù)來收集,存儲(chǔ)和分析流數(shù)據(jù),并能夠構(gòu)建滿足特殊需求的自定義流數(shù)據(jù)應(yīng)用程序。
  • 人工智能-這是任何理想的基于云的數(shù)據(jù)湖生態(tài)系統(tǒng)中最有用的功能。人工智能和機(jī)器學(xué)習(xí)越來越成為構(gòu)建智能應(yīng)用程序的流行工具,例如預(yù)測(cè)分析和深度學(xué)習(xí)。
  • 安全服務(wù)-如圖所示,安全,隱私和治理是將敏感數(shù)據(jù)信任到云數(shù)據(jù)湖的基本要素。
  • 數(shù)據(jù)管理服務(wù)-由于數(shù)據(jù)在不同的平臺(tái)中使用,因此ETL是一項(xiàng)重要功能,可確保正確地移動(dòng)和理解數(shù)據(jù)。理想的基于云的數(shù)據(jù)湖生態(tài)系統(tǒng)必須具有ETL引擎,以輕松理解數(shù)據(jù)源,準(zhǔn)備數(shù)據(jù)并將其可靠地加載到數(shù)據(jù)存儲(chǔ)中。
  • 應(yīng)用程序服務(wù)—盡管數(shù)據(jù)湖本身可以是無價(jià)的資源,但當(dāng)與更高級(jí)別的應(yīng)用程序集成時(shí),它確實(shí)會(huì)變得活躍起來。理想的基于云的數(shù)據(jù)湖生態(tài)系統(tǒng)具有功能全面的實(shí)用程序,可用于IoT用例,移動(dòng)應(yīng)用程序以及對(duì)其他任何對(duì)象的API調(diào)用。

數(shù)據(jù)湖的基本前提是對(duì)各種分析和面向分析的應(yīng)用程序和用戶具有適應(yīng)性,并且所有其他企業(yè)需求都有安全性,訪問控制以及合規(guī)性框架和實(shí)用程序等服務(wù)滿足。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2014-10-21 10:33:51

數(shù)據(jù)保護(hù)云存儲(chǔ)單點(diǎn)故障

2015-06-24 09:25:51

應(yīng)用框架

2009-09-03 16:52:44

Java Web開發(fā)框

2020-10-27 07:08:06

2021-06-07 10:45:16

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖

2022-06-09 17:37:27

數(shù)據(jù)湖云原生

2022-10-14 14:20:20

云原生數(shù)據(jù)倉(cāng)庫(kù)

2020-12-15 13:03:21

數(shù)據(jù)分析

2023-12-25 07:35:40

數(shù)據(jù)集成FlinkK8s

2020-08-04 14:20:20

數(shù)據(jù)湖Hadoop數(shù)據(jù)倉(cāng)庫(kù)

2023-07-12 12:02:06

WOT大數(shù)據(jù)流式數(shù)據(jù)湖

2021-06-04 07:24:14

Flink CDC數(shù)據(jù)

2021-02-22 10:20:06

云計(jì)算分析數(shù)字化轉(zhuǎn)型

2021-08-18 09:00:00

云原生混合云無服務(wù)器

2020-09-15 12:56:00

數(shù)據(jù)湖架構(gòu)

2023-04-18 07:49:06

2020-10-23 22:43:05

阿里云企業(yè)級(jí)數(shù)據(jù)湖

2024-11-13 08:43:47

2021-01-15 11:40:38

混合數(shù)據(jù)湖數(shù)據(jù)湖數(shù)據(jù)

2023-02-13 14:01:32

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)