Cloudera 持續(xù)創(chuàng)新 助力企業(yè)以數據驅動未來
原創(chuàng)在大數據領域,無人不知隨著 2019年 Cloudera 與 Hortonworks 的合并,兩家公司也進行了能力整合,并且合并了兩家公司的代表產品CDH和HDP,推出新的數據平臺 CDP (Cloudera Data Platform)。據 Cloudera 大中華區(qū)區(qū)域副總裁王剛透露,目前,83% 的中國客戶已經完成或者部分完成 CDP 的升級?!翱蛻舻年P鍵任務對于 CDP 平臺還是相對比較依賴的,因此客戶的付費意愿也比較強,也是源于客戶認可 CDP 平臺的價值,認可 CDP 的產品路線圖,從而選擇升級?!?/p>
如今,數據量越來越大,產生的速度也越來越快,企業(yè)希望可以實時進行數據分析,快速為業(yè)務做出輔助決策。為此,Cloudera 也從產品功能方面進行創(chuàng)新,幫助企業(yè)客戶可以在多個公有云、私有云以及本地數據中心訪問和分析數據,使企業(yè)能夠做出由數據驅動的明智決策,幫助企業(yè)建立由數據驅動的未來。
Cloudera 大中華區(qū)區(qū)域副總裁王剛
動態(tài)數據處理讓數據管道更強大
眾所周知,數據分為兩類,一類是靜態(tài)數據(Data at Rest),指駐留在存儲設備上的數據,這些文件沒有打開,也沒有傳輸到任何地方。另一類是動態(tài)數據(Data in motion),是指在兩臺設備之間移動的數據。
數據的價值隨著時間的流逝而降低,所以企業(yè)希望可以實時訪問數據,并進行加工處理,而不是緩存后再進行批處理。因此,Cloudera推出動態(tài)數據管理產品Cloudera Data-in-Motion,通過 DataFlow & Stream Processing 讓數據管道變得更加強大。DataFlow 通過 Apache NiFi 支持的云原生服務,可以連接位于任何地方的任何數據源,處理并交付到任何目的地。Cloudera Stream Processing (CSP) 通過提供分析流數據復雜模式的能力,并獲得可行動的情報,使客戶能夠將流轉化為數據產品。CSP 由 Apache Flink 和 Kafka 提供支持,提供完整的企業(yè)級流管理和有狀態(tài)處理解決方案。
Cloudera 大中華區(qū)技術總監(jiān)劉隸放詳細介紹了 Cloudera Data-in-Motion 的開源三大組件,并強調了基于開源組件進行了企業(yè)級產品的管理和支持增強。
Cloudera 大中華區(qū)技術總監(jiān)劉隸放
一是 Apache Nifi,支撐數據的接入到接出,并且針對一些特定的要求完成了標準接口,保證數據在流轉過程中,特別是在復雜的多對多或多對一的情況下進行數據流轉的長期支持。讓開發(fā)人員可以連接任何地方,任何數據源,任何結構類型的數據,處理加工并交付到任何地方。
二是 Apache Kafka,Cloudera 在 Kafka 開源標準產品組件之上進行了能力增強。包括Streams Messaging Manager 用于監(jiān)控/操作集群、Streams Replication Manager 用于高可用性/災難恢復部署、Schema Registry 用于集中模式管理,以及Kafka Connect 用于簡潔的數據移動和變更數據捕獲,巡航控制用于智能重新平衡和自我修復。
三是 Apache Flink,支持低延遲流處理能力,使用戶能夠通過 REST 端點使用行業(yè)標準 SQL 和 API 編寫流應用程序,從而簡化開發(fā)步驟,并且支持多云和混合云模式。
此外,借助 Cloudera SDX 的 Apache Ranger & Apache Atlas 工具,可以保障企業(yè)的數據流安全可控,監(jiān)控和得到有效治理。
據了解,Cloudera Data-in-Motion 動態(tài)數據管理產品具有三大優(yōu)勢,一是可以獲得更快的速度,包括數據攝取、數據處理、全量數據分析洞察等方面的速度都可以得到有效提升;二是該平臺可以打破數據攝取的豎井,簡化開發(fā)、測試和部署,降低運營復雜性;最后,一個解決方案就可以消除數據移動的復制,讓團隊工作效率更高。
三大新產品,滿足企業(yè)多種數據需求
為了滿足企業(yè)多種數據需求,Cloudera 基于 推出三個新的產品,包括私有云數據服務PVC DS、湖倉一體的關鍵組成部分 Iceberg,以及對象存儲組件 Ozone。
PVC DS(Private Cloud Data Service)是一個私有云數據服務,基于 K8s 的對外服務組件,可以實現數據加工、數據倉庫和機器學習的處理,并且通過統一的安全管理讓企業(yè)的權限管理變得更加簡單。此外,K8s 具有伸縮性特點,并且可以實現集群之間的絕對隔離,保障了業(yè)務的可用性和安全性。
Iceberg 是開放的湖倉一體架構的關鍵組成部分,集成并統一了數據倉庫和數據湖的功能,單一平臺即可支持當數據倉庫擴展到一定程度時,SQL 調優(yōu)就很難處理,此外,數據倉庫無法支撐更高的機器查詢需求。因此,Cloudera 基于 Iceberg 進行了企業(yè)級的支持和數據安全性的保障,包括安全體系的搭建,安全用戶的檢查以及事后溯源等工作,并且提供了各種各樣豐富的功能,例如時間行程、快照隔離、模式演化、隱藏分區(qū)等。
隨著客戶系統數據的快速增長,傳統存儲組件存在大量存儲問題,例如小文件存儲、數據總量等問題。為此,Cloudera 提供了新的對象存儲組件 Ozone,解決了 HDFS 相對于小文件的規(guī)模限制,并且支持原生
劉隸放表示,未來 Cloudera 會專注在三個方面。首先是私有云和公有云層面對云原生服務的支持;二是在湖倉一體方面,在引入 Iceberg 后,會持續(xù)進行投入,從而引領社區(qū)發(fā)展;三是在存儲方面,在 CDP 平臺支持更多小文件、更大的數據量存儲。