Cloudera:定位混合數(shù)據(jù)公司,滿足現(xiàn)代數(shù)據(jù)架構(gòu)需求
原創(chuàng)大數(shù)據(jù)時代已來,人們對大數(shù)據(jù)對經(jīng)濟社會起到的推動作用已經(jīng)有了清晰的認知,數(shù)據(jù)的獲取、分析、分享、技術(shù)人員等要素決定著大數(shù)據(jù)的應(yīng)用是否順暢,這些要素也組成了大數(shù)據(jù)生態(tài)系統(tǒng)。
當今,業(yè)界如何看待未來的數(shù)據(jù)生態(tài)系統(tǒng)架構(gòu)呢?三種技術(shù)框架和方法論成為了大數(shù)據(jù)領(lǐng)域熱度最高的詞匯:Data Mesh、Data Fabric、Data Lakehouse。
未來數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)想
“數(shù)據(jù)網(wǎng)格”Data Mesh的想法是數(shù)據(jù)與產(chǎn)品思維的融合,其中的產(chǎn)品是指企業(yè)內(nèi)部數(shù)據(jù)對外提供服務(wù)的方式。數(shù)據(jù)網(wǎng)格是一種范式轉(zhuǎn)變,其中數(shù)據(jù)由業(yè)務(wù)中的不同域擁有和管理,數(shù)據(jù)由最了解數(shù)據(jù)的域擁有,隨時可供企業(yè)內(nèi)的任何其他域使用。數(shù)據(jù)網(wǎng)格范式基于四項原則:域主權(quán),即去中心化;數(shù)據(jù)為產(chǎn)品;自助式數(shù)據(jù)平臺;聯(lián)合計算治理。
Gartner認為數(shù)據(jù)編織(Data Fabric)是一種跨平臺的數(shù)據(jù)整合方式,它不僅可以集合所有業(yè)務(wù)用戶的信息,還具有靈活且彈性的特點,使得人們可以隨時隨地使用任何數(shù)據(jù)。作為一種新興的數(shù)據(jù)管理和處理方法,數(shù)據(jù)編織改進了數(shù)據(jù)倉庫和數(shù)據(jù)湖的概念,引入了一個新的架構(gòu)(網(wǎng)絡(luò)狀),使整個企業(yè)能夠統(tǒng)一利用數(shù)據(jù)。數(shù)據(jù)編織使用基于網(wǎng)絡(luò)的架構(gòu)而不是點對點的連接來處理數(shù)據(jù),實現(xiàn)了從數(shù)據(jù)源層面到分析、洞察力生成、協(xié)調(diào)和應(yīng)用的一體化數(shù)據(jù)結(jié)構(gòu)。
Gartner提出,隨著數(shù)據(jù)變的越來越復雜,數(shù)據(jù)業(yè)務(wù)的加速發(fā)展,Data Fabric的終極目標是為了數(shù)據(jù)的集成和訪問提供一種更靈活的,無縫的自動化方式。Data Fabric能夠連接服務(wù),讓數(shù)據(jù)有靈活的集成方式,與其他系統(tǒng)進行構(gòu)建。
Data Fabric提供自助服務(wù),允許業(yè)務(wù)用戶輕松發(fā)現(xiàn)數(shù)據(jù)資產(chǎn),訪問數(shù)據(jù),實現(xiàn)主動人工智能,自下而上推廣人工智能的方式,通過主動的原數(shù)據(jù)構(gòu)建,讓生命周期的每一個環(huán)節(jié)實現(xiàn)智能的數(shù)據(jù)治理。
湖倉一體(Data Lakehouse)是一種新型的開放式架構(gòu),打通了數(shù)據(jù)倉庫和數(shù)據(jù)湖,將數(shù)據(jù)倉庫的高性能及管理能力與數(shù)據(jù)湖的靈活性融合了起來,底層支持多種數(shù)據(jù)類型并存,能實現(xiàn)數(shù)據(jù)間的相互共享,上層可以通過統(tǒng)一封裝的接口進行訪問,可同時支持實時查詢和分析,為企業(yè)進行數(shù)據(jù)治理帶來了更多的便利性。湖倉一體,又稱為數(shù)據(jù)湖倉,解決了數(shù)據(jù)倉庫缺乏數(shù)據(jù)靈活性、實施和維護成本高的問題,又解決了數(shù)據(jù)湖商業(yè)智能和數(shù)據(jù)分析用例性能不佳和缺乏數(shù)據(jù)可靠性、安全性的痛點。
在企業(yè)內(nèi)部,不同的角色會關(guān)注不同的方法論。CEO/CIO/CDO會關(guān)注如何在管理成本和維護人員規(guī)模的同時進行擴展,因此更關(guān)心數(shù)據(jù)網(wǎng)格的方法論。CTO/CSO的焦點則是如何做,用什么樣的技術(shù)方案來保持一致性并構(gòu)建標準模式,因而更加關(guān)注數(shù)據(jù)編織。對于領(lǐng)域從業(yè)者,則更為關(guān)注可以視為方法論的湖倉一體,他們將此看做工具,尋求在具體項目上的優(yōu)化。
Gartner 提出,“未來的數(shù)據(jù)生態(tài)系統(tǒng)應(yīng)該利用分布式數(shù)據(jù)管理組件 - 可以在多個云和/或本地運行 - 但應(yīng)被視為具有高度自動化的緊密的整體。集成、元數(shù)據(jù)和治理功能將各個組件粘合在一起?!?/p>
Cloudera的混合數(shù)據(jù)定位
Cloudera定位于混合數(shù)據(jù)公司。提供適用于數(shù)據(jù)編織、數(shù)據(jù)湖庫、數(shù)據(jù)網(wǎng)格和未來數(shù)據(jù)生態(tài)系統(tǒng)架構(gòu)要求的混合數(shù)據(jù)平臺,允許客戶在多個公共和私有云以及本地訪問和分析數(shù)據(jù),使企業(yè)能夠做出由數(shù)據(jù)驅(qū)動的明智決策,幫助企業(yè)建立由數(shù)據(jù)驅(qū)動的未來。
在平臺能力方面,Cloudera的產(chǎn)品技術(shù)適應(yīng)Data Lakehouse、Data Fabric、Data Mesh。在多云和本地部署上,都可以做到管理和分析。Cloudera的分析代碼在一次編寫之后,可以跨平臺,在不同云、本地和私有云平臺上運行,對于業(yè)務(wù)人員來說,可以在復雜環(huán)境中讓代碼方便的移植。
Cloudera通過SDX (共享數(shù)據(jù)體驗)來提供集中的數(shù)據(jù)管控和處理。SDX能夠真正幫助客戶在新的形勢下跨云,包括云原生、不同的存儲中,做到數(shù)據(jù)統(tǒng)一的安全管控和治理。
Cloudera數(shù)據(jù)平臺 - 支持現(xiàn)代數(shù)據(jù)架構(gòu)
說到Cloudera的優(yōu)勢,Cloudera大中華區(qū)技術(shù)總監(jiān)劉隸放指出, Cloudera會幫助客戶建立數(shù)據(jù)驅(qū)動的文化,如果客戶有Data Mesh跨域管理需求,Cloudera能從產(chǎn)品平臺上能支持企業(yè)做數(shù)據(jù)驅(qū)動的轉(zhuǎn)型。在此基礎(chǔ)上,Cloudera可以從降本增效方面,幫助客戶在最佳的形態(tài)下執(zhí)行自己的數(shù)據(jù)分析需求,支持跨云和多云,包括本地私有云的部署。Cloudera也與大量合作伙伴做了開放性認證,可以支持開放的標準和互操作性,以最快的速度拉動企業(yè)的增長。
Cloudera大中華區(qū)技術(shù)總監(jiān)劉隸放
劉隸放表示,從Cloudera的角度來看,未來數(shù)據(jù)平臺會把邊緣計算作為一個重要的方面。從算力的角度來說,沒有必要把在邊緣就可以處理的問題拿到本地,有些機器學習的處理模型在邊緣就會處理掉。當然,對客戶端等數(shù)據(jù)要進行脫敏和過濾等預處理和預判斷,保障數(shù)據(jù)的安全性。未來的數(shù)據(jù)平臺是云化和跨云的,無論客戶選擇何種部署,Cloudera都會尊重客戶的選擇。