自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么云原生數(shù)據(jù)湖值得關注?

原創(chuàng) 精選
大數(shù)據(jù) 數(shù)據(jù)湖
預計中國云原生數(shù)據(jù)湖市場未來會以39.7%的復合增長率快速發(fā)展,云原生數(shù)據(jù)湖未來的發(fā)展前景值得我們期待和關注。

最近幾年,"數(shù)據(jù)湖"正在被越來越多人提起,盡管各方對數(shù)據(jù)湖的定義并不統(tǒng)一,但這不妨礙企業(yè)紛紛下水實踐,比如亞馬遜、阿里、騰訊、華為等,都在探索建設數(shù)據(jù)湖。為何眾多企業(yè)在"數(shù)據(jù)湖是什么"上還沒有達成共識的情況下,就開始著手進軍數(shù)據(jù)湖領域呢?一個可能的原因是,數(shù)據(jù)湖將代表大數(shù)據(jù)和AI時代融合存儲和計算的全新體系,特別是數(shù)據(jù)湖和云原生結合以后,這一趨勢更加明顯。要想理解這一點,還要從數(shù)據(jù)湖的發(fā)展說起。

數(shù)據(jù)湖的崛起?

2010年Pentaho公司的創(chuàng)始人兼首席技術官詹姆斯·狄克遜(James Dixon)首次提出數(shù)據(jù)湖的概念。詹姆斯·狄克遜把數(shù)據(jù)湖中的數(shù)據(jù)比作原生態(tài)的水——它是未經(jīng)處理的,保留原始結構的。

數(shù)據(jù)湖中的水從源頭流入湖中,各種用戶都可以來湖里獲取、蒸餾提純這些水(數(shù)據(jù))。于是,早期業(yè)界和用戶多把數(shù)據(jù)湖定義為一個集中式的儲存原始格式數(shù)據(jù)的系統(tǒng),可存儲任意規(guī)模的結構化、半結構化、非結構化及二進制的數(shù)據(jù)。

隨著大數(shù)據(jù)技術的融合發(fā)展,數(shù)據(jù)湖的邊界不斷擴展,內(nèi)涵不斷變化,逐步演變成為集多源異構數(shù)據(jù)統(tǒng)一儲存、多范式計算分析及統(tǒng)一管理調(diào)用的大數(shù)據(jù)綜合解決方案。

這就讓數(shù)據(jù)湖與數(shù)據(jù)倉庫有了很大的不同。

數(shù)據(jù)倉庫誕生于數(shù)據(jù)庫時代,它的核心思路是把數(shù)據(jù)庫眾多數(shù)據(jù)進行一定格式轉(zhuǎn)換后,定時地復制到另一個庫里做列式存儲,從而滿足企業(yè)查詢和數(shù)據(jù)分析的需求。

在過去,很多企業(yè)的數(shù)據(jù)以ERP、CRM數(shù)據(jù)為主,數(shù)據(jù)規(guī)模往往是TB級,企業(yè)通常在本地采用數(shù)據(jù)倉庫解決方案來存儲和分析數(shù)據(jù)。但數(shù)據(jù)倉庫這種方式模型范式固定,底層數(shù)據(jù)無法做到多樣變化。

隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量暴增,非結構化數(shù)據(jù)越來越多,企業(yè)業(yè)務變化越來越快,數(shù)字化轉(zhuǎn)型成為IT行業(yè)的熱點,數(shù)據(jù)需要更深度的價值挖掘,因此需要確保數(shù)據(jù)中保留的原始信息不丟失,應對未來不斷變化的需求。

傳統(tǒng)的數(shù)據(jù)倉庫無法滿足大數(shù)據(jù)時代企業(yè)對于實時、交互式分析等方面的需求,而數(shù)據(jù)湖擇了"前松后緊"的設計思路,初始化階段放棄嚴格的模式,后置schme,從而獲得更強的靈活性,同時通過統(tǒng)一存儲和計算優(yōu)化來保證數(shù)據(jù)的一致性和性能,這就讓數(shù)據(jù)湖開始在大數(shù)據(jù)領域逐漸受到關注。

發(fā)展至今,數(shù)據(jù)湖已經(jīng)不再局限于某個技術、某個軟件產(chǎn)品,而是涵蓋數(shù)據(jù)湖存儲、數(shù)據(jù)湖計算、數(shù)據(jù)湖AI的多元化數(shù)據(jù)架構,滿足企業(yè)級用戶的生產(chǎn)管理需求。

為何數(shù)據(jù)湖與云原生是最佳組合

隨著以Oracle為代表的數(shù)據(jù)庫中間件越來越難以滿足企業(yè)業(yè)務迅速變化帶來的數(shù)據(jù)處理需求,IT業(yè)界不斷地產(chǎn)生新的計算引擎,比如,企業(yè)開始紛紛自建開源Hadoop數(shù)據(jù)湖架構,原始數(shù)據(jù)統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主,存儲和計算一體。

但這種架構的缺點是需要企業(yè)自己運維和管理整套集群,成本高且集群穩(wěn)定性較差。在這種情況下,云上托管Hadoop數(shù)據(jù)湖架構(即EMR開源數(shù)據(jù)湖)應運而生。底層物理服務器和開源軟件版本由云廠商提供和管理,數(shù)據(jù)仍統(tǒng)一存放在HDFS系統(tǒng)上,引擎以Hadoop和Spark開源生態(tài)為主。這個架構通過云上IaaS層提升了機器層面的彈性和穩(wěn)定性,使企業(yè)的整體運維成本有所下降,但企業(yè)仍然需要對HDFS系統(tǒng)以及服務運行狀態(tài)進行管理和治理,即應用層的運維工作。

因為存儲和計算耦合在一起,穩(wěn)定性不是最優(yōu),兩種資源無法獨立擴展,使用成本也不是最優(yōu)。同時,受到開源軟件本身能力的限制,傳統(tǒng)數(shù)據(jù)湖技術無法滿足企業(yè)用戶在數(shù)據(jù)規(guī)模、存儲成本、查詢性能以及彈性計算架構升級等方面的需求,也無法達到數(shù)據(jù)湖架構的理想目標。

云計算可以讓數(shù)據(jù)湖發(fā)揮出最大的價值與作用。云計算擁有極為靈活、彈性和可擴展的計算存儲資源,使得數(shù)據(jù)的存儲、分析和應用變得無比容易;而數(shù)據(jù)湖最大的價值在于將企業(yè)內(nèi)各種格式的數(shù)據(jù)統(tǒng)一匯聚,在一份數(shù)據(jù)之上進行多種分析,高性價比且高效地挖掘數(shù)據(jù)價值,特別是數(shù)據(jù)湖的設計思路與云計算天然契合,因此自2010年數(shù)據(jù)湖概念被提出以來,云服務商是數(shù)據(jù)湖概念走向落地的重要推手。

隨著云原生時代到來,當數(shù)據(jù)湖以云原生(當提到云原生時,很多人的第一反應是Serverless、容器化這些概念,其實近些年來,云原生的概念逐步泛化,涵蓋了很多產(chǎn)品服務,從某種程度上講,云原生是一種分布式系統(tǒng)的設計范式,這種范式具備彈性、安全、穩(wěn)定等特征)的方式部署時,其強大的性能優(yōu)勢可以被最大化釋放。

一方面,數(shù)據(jù)湖上云后可以享受云本身帶來的性能提升,如高可用(相較于自建IDC,云環(huán)境擁有更多的資源冗余,一節(jié)點發(fā)生故障可以無縫切換到其他節(jié)點,確保業(yè)務的連續(xù)性)、彈性(云計算具備動態(tài)擴充性與可負擔性,可以解決海量業(yè)務帶來的吞吐和IO性能瓶頸,滿足大數(shù)據(jù)分析所需資源的龐大規(guī)模與突發(fā)性質(zhì)的需求)、敏捷(云讓企業(yè)從重復、復雜的底層IT工作中釋放出來,同時其模塊化、松耦合的敏捷架構有利于數(shù)據(jù)產(chǎn)品的快速迭代、部署、運維與創(chuàng)新)。

另一方面,數(shù)據(jù)湖在云原生的環(huán)境中可以做更多性能優(yōu)化的工作,如豐富的上下文帶來的分析加速,流失處理和批式處理的融合帶來的實時數(shù)據(jù)價值釋放,一站式數(shù)據(jù)管理方案帶來的安全和質(zhì)量改善等。這就讓企業(yè)得以有效利用公有云的基礎設施,數(shù)據(jù)湖平臺也有了更多的技術選擇,比如云上純托管的存儲系統(tǒng)逐步取代HDFS,成為數(shù)據(jù)湖的存儲基礎設施,并且引擎豐富度也不斷擴展。總之,云特有的"池化、彈性、敏捷"等特性,讓數(shù)據(jù)層與應用層的很多設想得以實現(xiàn),擁抱云原生成為數(shù)據(jù)湖乃至大數(shù)據(jù)的必然選擇。

展望云原生數(shù)據(jù)湖的未來

如果對云原生數(shù)據(jù)湖做一個概括的話,云原生數(shù)據(jù)湖是大數(shù)據(jù)計算平臺借助云計算理論發(fā)展出來的新技術產(chǎn)品,其支持異構數(shù)據(jù)靈活存儲、計算資源彈性伸縮,能夠幫助企業(yè)應對當前數(shù)據(jù)結構愈發(fā)復雜、數(shù)據(jù)處理時效性要求不斷變高的業(yè)務環(huán)境

也就是說,云原生數(shù)據(jù)湖只是一種架構原理,其具體實現(xiàn)的方式多種多樣,基于EMR可以做云原生數(shù)據(jù)湖,基于Flink也可以做云原生數(shù)據(jù)湖。

不過需要說明的是,雖然中國數(shù)據(jù)湖技術正在逐年發(fā)展與突破,公有云廠商及其他廠商紛紛在嘗試,但目前在數(shù)據(jù)感知收集及歸類清洗方面存在壁壘和難度,數(shù)據(jù)湖建模經(jīng)驗不足??偟膩碚f,我國數(shù)據(jù)湖市場整體發(fā)展處于初期階段,技術路線不統(tǒng)一,業(yè)內(nèi)產(chǎn)品能力良莠不齊。

從應用現(xiàn)狀來看,數(shù)據(jù)湖在國內(nèi)的落地還存在許多痛點。

產(chǎn)品層面,數(shù)據(jù)湖的數(shù)據(jù)治理能力和全鏈路能力仍需要進一步加強。

就數(shù)據(jù)治理而言,數(shù)據(jù)治理要求在目錄中包含數(shù)據(jù)的分類、規(guī)則,如果企業(yè)對于數(shù)據(jù)湖的掌控能力不足,會導致數(shù)據(jù)湖目錄及整體架構設計不良,湖內(nèi)數(shù)據(jù)未得到充分歸檔或維護,容易形成數(shù)據(jù)沼澤。因缺少上下文元數(shù)據(jù)關聯(lián),數(shù)據(jù)沼澤無法進行數(shù)據(jù)檢索,致使用戶無法有效分析和利用數(shù)據(jù)。

就全鏈路能力而言,現(xiàn)階段國內(nèi)可以提供全鏈路云原生數(shù)據(jù)湖服務的供應商較少,大多廠商僅提供數(shù)據(jù)湖組件的支持,因此下游需求企業(yè)只能采購多家供應商來滿足自身從數(shù)據(jù)采集治理到分析可視化的需求。

應用層面,云原生數(shù)據(jù)湖的行業(yè)認知和人才培養(yǎng)較為薄弱。人才方面,目前大數(shù)據(jù)、AI技術棧的發(fā)展日新月異,企業(yè)缺乏專業(yè)人才。從企業(yè)內(nèi)部來看,管理者對數(shù)據(jù)治理一知半解,若在沒有深入梳理企業(yè)業(yè)務現(xiàn)狀及需求的情況下盲目搭建數(shù)據(jù)湖,追求大而全的概念,可能導致數(shù)據(jù)湖的落地效果不佳。行業(yè)認知方面,盡管數(shù)據(jù)的價值屬性已經(jīng)獲得業(yè)界的廣泛共識,但是選擇觀望的企業(yè)仍舊占絕大多數(shù),數(shù)據(jù)湖在認知和推廣上仍面臨多方面的挑戰(zhàn)。

另外,隨著企業(yè)數(shù)字化轉(zhuǎn)型進入深水區(qū),數(shù)據(jù)已經(jīng)成為企業(yè)的核心生產(chǎn)要素,而數(shù)據(jù)湖的最大風險之一就是安全性和訪問控制。大量數(shù)據(jù)在沒有任何監(jiān)管的情況入湖泊,一旦某些數(shù)據(jù)包含其他數(shù)據(jù)沒有的隱私和法規(guī)要求,將可能發(fā)生數(shù)據(jù)泄露和遺失,帶來不可估量的后果。

當然,任何一個行業(yè)在發(fā)展初期都會存在這樣那樣的問題,有不完善的地方恰恰意味著這個行業(yè)還有發(fā)展的空間。根據(jù)艾瑞咨詢的分析,由于國家政策利好,比如國家接連出臺《促進大數(shù)據(jù)發(fā)展行動綱要》《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實施方案》等文件推動大數(shù)據(jù)產(chǎn)業(yè)走向成熟,以及互聯(lián)網(wǎng)技術高速發(fā)展的驅(qū)動、企業(yè)數(shù)字化轉(zhuǎn)型加速等因素,預計中國云原生數(shù)據(jù)湖市場未來會以39.7%的復合增長率快速發(fā)展。

所以,云原生數(shù)據(jù)湖未來的發(fā)展前景值得我們期待和關注。

參考資料:https://www.iresearch.com.cn/Detail/report?id=3972&isfree=0

責任編輯:閆懷德 來源: 51CTO
相關推薦

2018-10-06 19:10:26

技術項目云計算

2020-04-22 08:40:04

開源云原生容器

2020-09-15 12:56:00

數(shù)據(jù)湖架構

2020-10-27 07:08:06

2022-03-10 09:28:24

Kubernete云原生

2018-09-10 12:47:36

Kubernetes云計算云原生技術

2022-08-31 15:40:13

云原生數(shù)據(jù)

2020-02-25 17:04:05

數(shù)據(jù)庫云原生分布式

2021-10-29 10:12:34

云原生勒索軟件網(wǎng)絡攻擊

2022-10-14 14:20:20

云原生數(shù)據(jù)倉庫

2021-04-14 14:07:36

云計算云原生SaaS

2024-02-19 18:36:31

通感一體低空經(jīng)濟5G-A

2021-03-30 22:34:35

云計算云原生SaaS

2020-08-04 14:20:20

數(shù)據(jù)湖Hadoop數(shù)據(jù)倉庫

2019-08-27 16:48:07

云原生云計算微服務

2021-08-18 09:00:00

云原生混合云無服務器

2022-09-01 15:23:21

云原生

2023-12-21 11:44:11

數(shù)據(jù)湖數(shù)據(jù)管理數(shù)據(jù)存儲庫

2010-05-11 09:30:02

云計算廠商

2020-03-06 10:01:39

云計算云原生工具
點贊
收藏

51CTO技術棧公眾號