自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RisingWave x 特征工程:解鎖實時特征新范式

數(shù)據(jù)庫
RisingWave 是一款具有創(chuàng)新性的開源流處理系統(tǒng),在實時數(shù)據(jù)處理領(lǐng)域展現(xiàn)出獨特優(yōu)勢。其開源項目背景源于對革新流處理和數(shù)據(jù)庫管理的追求,于 2021 年初創(chuàng)立,并在 2022 年 4 月以 Apache2.0 協(xié)議在 GitHub 開源。經(jīng)過三年打磨,已在全球多領(lǐng)域落地應(yīng)用。

本文將介紹 RisingWave 在實時特征工程中的應(yīng)用。RisingWave 是一款開源的流式數(shù)據(jù)庫,具有易用、健壯、上下游生態(tài)系統(tǒng)開放、性價比高等特點,支持 SQL 和 UDF 擴展,其架構(gòu)包含接入層、計算層和存儲引擎,支持多種數(shù)據(jù)源和下游系統(tǒng),通過物化視圖等實現(xiàn)增量實時計算。在實時特征工程中,它能夠助力數(shù)據(jù)攝入、數(shù)據(jù)清洗、特征構(gòu)建、樣本拼接和特征查詢等環(huán)節(jié),提供高效的狀態(tài)管理和 UDF 支持。此外,RisingWave 2.0 帶來了如 Premium 版本、云版本增強、對流批統(tǒng)一的改進等新特性。通過閱讀本文,讀者可深入了解 RisingWave 在實時數(shù)據(jù)處理領(lǐng)域的優(yōu)勢與應(yīng)用。

一、RisingWave 介紹

1. 項目背景與基本信息

RisingWave 是一款具有創(chuàng)新性的開源流處理系統(tǒng),在實時數(shù)據(jù)處理領(lǐng)域展現(xiàn)出獨特優(yōu)勢。其開源項目背景源于對革新流處理和數(shù)據(jù)庫管理的追求,于 2021 年初創(chuàng)立,并在 2022 年 4 月以 Apache2.0 協(xié)議在 GitHub 開源。經(jīng)過三年打磨,已在全球多領(lǐng)域落地應(yīng)用。

RisingWave是基于Rust的自研項目,采用存算分離架構(gòu),交互接口與 PostgreSQL 協(xié)議兼容,并可通過 UDF 拓展。其包含接入層、計算層與存儲層三層架構(gòu),由 meta 節(jié)點協(xié)調(diào),計算節(jié)點執(zhí)行流作業(yè)并帶有多級緩存,狀態(tài)持久化至基于對象存儲的存儲引擎。產(chǎn)品使命為解決易用性問題,降低實時應(yīng)用開發(fā)、運維與運行成本,無論對實時計算新手還是資深從業(yè)者,都致力于提供便捷、穩(wěn)定且高效的流處理方案。目前,應(yīng)用領(lǐng)域涵蓋互聯(lián)網(wǎng)、金融、能源、供應(yīng)鏈等多個行業(yè),在實時監(jiān)控告警、流表實時打?qū)挕⒁?guī)則引擎、實時數(shù)據(jù)市場等場景均有應(yīng)用。截至當前,全球日活集群已超 1700 個。

2. RisingWave 特點

(1)易用性

RisingWave 通過 SQL 作為交互接口,兼容 PostgreSQL 協(xié)議,用戶通過簡單的 SQL 即可實現(xiàn)復(fù)雜的實時需求,同時支持通過不同語言的 UDF 進行拓展。另外,RisingWave 不僅僅是流式計算引擎,而且?guī)в凶匝械拇鎯σ?,除了支持有狀態(tài)的復(fù)雜流計算外,實時分析的結(jié)果可以以物化視圖的方式通過 SQL 在 RisingWave 中查詢,我們稱其為 Serving。同時 RisingWave 流算子的內(nèi)部狀態(tài)都抽象成了關(guān)系型表,也可以通過 SQL 查詢,大大提升了流計算的可觀測性。

圖片

(2)健壯性

RisingWave 定位為數(shù)據(jù)庫,所以健壯穩(wěn)定是首要要求。實時性方面,可以達到亞秒級新鮮度,并實現(xiàn)了 Exactly Once。支持強一致持久化 checkpoint,當出現(xiàn)故障時可以立即從上一 checkpoint 恢復(fù)?;诖嫠惴蛛x的架構(gòu),可以實現(xiàn) zero downtime 的彈性伸縮和快速恢復(fù)。同時,RisingWave 支持 20+ 路多流 join 和復(fù)雜流式變換,并且支持長時間窗口大狀態(tài)的流處理。

圖片

(3)開放的上下游生態(tài)系統(tǒng)

RisingWave 作為流處理系統(tǒng),具備開放且多元的上下游生態(tài)系統(tǒng)。在上游 Source 方面,它支持多種常見的消息隊列(如 Kafka 等)、各類數(shù)據(jù)庫的變更數(shù)據(jù)捕獲(CDC),涵蓋 MySQL、PostgreSQL、Oracle 等關(guān)系型數(shù)據(jù)庫以及 MongoDB 等非關(guān)系型數(shù)據(jù)庫,并且支持如 Debezium 等多種 CDC 格式,同時也接納如數(shù)據(jù)湖、文件系統(tǒng)內(nèi)文件等批式數(shù)據(jù)源。而在下游 Sink,不僅支持消息隊列,還支持 ClickHouse、StarRocks 等分析型數(shù)據(jù)庫以及 Elasticsearch、Redis 等非關(guān)系型數(shù)據(jù)庫,此外還實現(xiàn)了實時入湖功能。這種開放的生態(tài)系統(tǒng),極大地拓展了 RisingWave 在不同數(shù)據(jù)場景下的應(yīng)用范圍,使其能更好地融入多樣化的數(shù)據(jù)處理鏈路中。

圖片

(4)高性價比

實時計算相比于離線計算通常成本更高,而 RisingWave 通過多種優(yōu)化,實現(xiàn)了高性價比。首先,使用低成本的對象存儲作為存儲后端,我們自研了基于 LSM 的存儲引擎降低存儲成本。RisingWave 支持多種對象存儲,比如 S3、Azure Blob 等,也可以自己部署 MinIO、HDFS、DFS。采用存算分離架構(gòu),計算和存儲可以獨立擴縮容。計算節(jié)點采用多級緩存,可以根據(jù)需求調(diào)整,并且支持 serverless compaction。

圖片

3. RisingWave 架構(gòu)

RisingWave 的架構(gòu)主要分為三層。最上層是接入層(Frontend),它負責解析和優(yōu)化用戶請求,并生成執(zhí)行計劃,這些計劃會被分布式調(diào)度到第二層 —— 計算層(Compute)執(zhí)行。在流作業(yè)中,有狀態(tài)的算子其狀態(tài)會持久化到基于對象存儲(ObjectStore)的存儲引擎中。在這些組件之上,有一個 Meta 節(jié)點負責協(xié)調(diào),起到控制器的作用。整體架構(gòu)體現(xiàn)了 RisingWave 在流處理方面的高效設(shè)計,同時兼顧了存儲和協(xié)調(diào)功能。

圖片


二、RisingWave 在實時特征工程中的應(yīng)用

1. 特征工程步驟與鏈路

實時特征工程包含 Training 鏈路和 Inference 鏈路。Training 鏈路包括從上游數(shù)據(jù)源攝入數(shù)據(jù)、清洗選擇、特征構(gòu)建、樣本拼接和實時模型訓(xùn)練。Inference 鏈路包括攝入數(shù)據(jù)構(gòu)建行為特征、查詢 Feature Store 特征拼接和向 Model 喂入特征完成 Inference。

圖片

實時特征工程在架構(gòu)上存在挑戰(zhàn)。引入的組件越多,運維越困難,工程師需熟悉多個系統(tǒng)。同時,組件增多會使穩(wěn)定性難以保障,一個組件故障就可能影響整體。此外,影響實時性的因素變多,且上線周期變長,工程師需學(xué)習(xí)不同接口與組件交互,數(shù)據(jù)分散也導(dǎo)致回測困難。

2. RisingWave 的助力

RisingWave 在實時特征工程方面有諸多助力。它能用 SQL + UDF 構(gòu)建 Streaming Pipeline,提供統(tǒng)一的數(shù)據(jù)源存儲,支持 Serving 查詢,并具備實時流式 Sink 功能,能夠有效簡化和優(yōu)化實時特征工程的流程,提升效率。

圖片

接下來具體看一下鏈路中的每個步驟。

(1)數(shù)據(jù)攝入

在數(shù)據(jù)攝入環(huán)節(jié),RisingWave 中可以使用 source connector 輕松接入多種數(shù)據(jù)源。

圖片

1)Source 相關(guān)助力
  • 多樣化數(shù)據(jù)源支持
    消息隊列(MQ):支持 Kafka、Pulsar、MQTT 等。
    變更數(shù)據(jù)捕獲(CDC):支持 MySQL、PostgreSQL、TiDB、MongoDB 等數(shù)據(jù)庫的 CDC。
    批處理數(shù)據(jù)源:支持 File System、Object Store、Iceberg 等。
  • 消息編碼支持
    支持 AVRO、JSON、PROTOBUF、CSV、BYTES 等編碼格式。
  • 消息隊列支持指定消費位置指定
  • 支持從 Schema Registry 自動獲取上游 Schema

圖片

2)Table 相關(guān)助力
  • 數(shù)據(jù)源支持廣泛
    Table 可以消費所有 Source 支持的數(shù)據(jù)源,能夠?qū)⒏鞣N來源的數(shù)據(jù)進行整合。
  • 物化數(shù)據(jù)支持
    將 Source 的數(shù)據(jù)物化到表,支持主鍵,便于數(shù)據(jù)的管理和查詢。
  • 上游 CDC 支持
    支持常見的 OLTP 數(shù)據(jù)庫(如 MySQL、PostgreSQL、Oracle、TiDB 等)和 NoSQL 數(shù)據(jù)庫(如 MongoDB)的 CDC。
  • DML 支持
    支持增刪改查(DML)操作,方便對數(shù)據(jù)進行處理和維護。
  • 消息格式支持
    支持多種消息格式,如 PLAIN、DEBEZIUM、CANAL、MAXWELL、UPSERT 等,便于與不同系統(tǒng)進行數(shù)據(jù)交互。

圖片

通過這些功能,RisingWave 在數(shù)據(jù)攝入環(huán)節(jié)能夠靈活、高效地處理各種數(shù)據(jù)源的數(shù)據(jù),并提供方便的數(shù)據(jù)管理和操作功能。

(2)數(shù)據(jù)選擇和清洗

在 RisingWave 中,豐富的 SQL 函數(shù)可以幫助用戶輕松定義數(shù)據(jù)選擇和清洗的邏輯,同時通過物化視圖(Materialized View)構(gòu)建特征工程的 Streaming Pipeline。

1)基于 SQL 進行數(shù)據(jù)選擇和清洗
  • 離散化(Categorization)
    可以使用 SQL 語句將數(shù)據(jù)離散化到多個桶中。例如,根據(jù)一定的條件將數(shù)據(jù)劃分到不同的類別。
  • 異常值處理(Filtering)
    通過 WHERE 條件來處理異常值。例如,篩選出符合特定范圍的數(shù)據(jù),排除異常數(shù)據(jù)。
  • 去重(Distinct On)
    使用 DISTINCT ON 語句可以對指定列的數(shù)據(jù)進行去重操作,只保留一條記錄。
  • 缺失值處理(Coalescing)
    利用 SQL 函數(shù)(如 LAG)來填補缺失值,使缺失值變?yōu)樯弦粋€有效值。

圖片

2)基于物化視圖構(gòu)建 Pipeline

物化視圖是一個增量實時維護流處理結(jié)果的抽象。當上游數(shù)據(jù)到來時,物化視圖會自動、實時、同步地增量維護流處理的結(jié)果。

  • 支持 MV - on - MV 構(gòu)建層級化的流處理管道,可以堆疊物化視圖來構(gòu)建多層級的流處理流程。
  • 物化視圖支持豐富的 SQL 語法,包括 JOIN、窗口函數(shù)、子查詢、分組等,還支持高級的流處理特性如 watermark,以及半結(jié)構(gòu)化數(shù)據(jù)的處理函數(shù)。
  • 物化視圖的結(jié)果是實時可查詢的,用戶可以通過 SQL 查詢來獲取物化視圖的結(jié)果,方便進行數(shù)據(jù)驗證和調(diào)試。

圖片

圖片

3)SQL 即流處理

RisingWave 中的 SQL 即流處理具有諸多優(yōu)勢。它基于 SQL 構(gòu)建流作業(yè),具備豐富的查詢優(yōu)化功能,如列裁剪、Filter 下推等。還支持子查詢解關(guān)聯(lián)、Join 重排序等操作,能夠?qū)⒂脩艟帉懙?SQL 優(yōu)化成高效的分布式流作業(yè),方便用戶操作。

圖片

(3)特征構(gòu)建

特征構(gòu)建是實時特征工程的關(guān)鍵環(huán)節(jié),下面我們從一些常用特征出發(fā),看一下如何通過 RisingWave 進行特征構(gòu)建

1)聚合特征和 Over 窗口計算
  • 通過 CREATE MATERIALIZED VIEW 語句實現(xiàn),例如計算用戶最近 30 天行為聚合統(tǒng)計,從清洗后的數(shù)據(jù)表(如 cleaned_events)中篩選出特定時間范圍內(nèi)(NOW() - INTERVAL '30 DAYS'到NOW())的數(shù)據(jù),按用戶 ID(user_id)和事件類型(event_type)進行分組,計算訪問次數(shù)(COUNT())和最后訪問時間(MAX(event_timestamp))。還可進一步計算如用戶過去 30 天最常瀏覽的 Top2 商品類別,先按用戶 ID 分區(qū)并按訪問次數(shù)降序排序,然后選擇排名前 2 的類別。

圖片

2)窗口特征
  • Hop Window 和 Tumble Window:如創(chuàng)建 2 分鐘 hop 窗口聚合特征,從數(shù)據(jù)源(如 taxi_trips)中,以 completed_at 為時間字段,按 2 分鐘間隔進行窗口聚合,計算行程數(shù)量(count(trip_id))和總距離(sum(distance))。同樣,對于 2 分鐘 tumble 窗口聚合特征,使用 TUMBLE 函數(shù)并設(shè)置相應(yīng)參數(shù)實現(xiàn)。這些窗口計算為時間序列數(shù)據(jù)的分析提供了靈活的方式。

圖片

  • Session Window 與 Watermark:在源頭表(如 user_views)上定義 5 分鐘間隔的 watermark,用于處理亂序數(shù)據(jù)。然后創(chuàng)建 5 分鐘 session 窗口聚合特征,按用戶 ID 分區(qū),以 viewed_at 為時間字段,計算每個會話的起始時間(first_value(viewed_at))和結(jié)束時間(last_value(viewed_at))。session 窗口能有效捕捉用戶在一段時間內(nèi)的連續(xù)行為,對于分析用戶行為模式非常有用。

圖片

3)實時多流 Join
  • Inner Join 示例
    計算用戶過去一天內(nèi)瀏覽的商品種類分布,通過 CREATE MATERIALIZED VIEW 將 user_clicks 表與 product_metadata 表進行 JOIN 操作,連接條件為 user_clicks.product_id = product_metadata.product_id,篩選出過去一天內(nèi)的數(shù)據(jù)(user_clicks.event_time >= NOW() - INTERVAL '1 DAY'),按用戶 ID 和商品類別分組,統(tǒng)計各類別瀏覽次數(shù)(COUNT())。
  • Outer Join 應(yīng)用
    可用于維度特征關(guān)聯(lián),如將 user_events 表分別與 product_info、store_info 和 user_info 表進行左外連接(LEFT OUTER JOIN),獲取更豐富的用戶行為相關(guān)信息,包括產(chǎn)品、店鋪和用戶自身的詳細信息,為后續(xù)分析提供多維度數(shù)據(jù)。
  • Window Join 功能
    實現(xiàn)窗口特征拼接,例如將兩個以 completed_at 為時間字段、2 分鐘間隔的窗口(TUMBLE (taxi_trips, completed_at, INTERVAL '2 MINUTES')和 TUMBLE (taxi_fare, completed_at, INTERVAL '2 MINUTES'))進行連接,連接條件為行程 ID(trip_id)和窗口起始時間(window_start)相等,按窗口起始時間排序,從而整合行程和費用相關(guān)的窗口特征,為分析出租車業(yè)務(wù)數(shù)據(jù)提供了全面的視角。

圖片

實時多流 Join 是 RisingWave 的一個高亮特性,除了上面介紹的 Regular Join 和 Interval Join,還支持 Temporal Join,以及基于 Watermark 的 Windows Join。多流 Join 是流處理中的一個難點,而 RisingWave 憑借其架構(gòu)優(yōu)勢和豐富的優(yōu)化,讓用戶在不感知調(diào)度和實現(xiàn)細節(jié)的情況下,可以輕松通過 SQL 構(gòu)建包含多流 Join 的實時特征。

圖片

4)高效狀態(tài)管理
  • 狀態(tài)過期清理
    基于 DynamicFilter 算子實現(xiàn),能夠生成正確強一致的流變更和存儲 delete tombstone,確保狀態(tài)存儲和 SQL 語義完全一致。在處理如用戶最近 30 天行為聚合統(tǒng)計等特征構(gòu)建時,自動管理狀態(tài)的過期,避免無效數(shù)據(jù)占用存儲空間,保證數(shù)據(jù)的時效性和準確性。

圖片

  • 長周期大狀態(tài)處理
    算子狀態(tài)持久化在對象存儲,無單機狀態(tài)上限。
    基于存算分離架構(gòu)可實現(xiàn)秒級擴縮容。
    自研云原生 LSM 存儲引擎。

圖片

圖片

在 RisingWave 中做了大量工作去優(yōu)化狀態(tài)遠端存儲帶來的延遲。通過多級緩存機制,用戶可以根據(jù)實際場景在性能與成本間做出權(quán)衡。

圖片

  • 內(nèi)部狀態(tài) SQL 可查
    流算子內(nèi)部狀態(tài)抽象成關(guān)系型 State Table。
    可以通過 SHOW INTERNAL TABLES 查看算子內(nèi)部狀態(tài)表,也可以通過 SQL 查詢。
    適用于排查線上數(shù)據(jù)問題、優(yōu)化流作業(yè) SQL、學(xué)習(xí)流算子的狀態(tài)管理制等場景。

圖片

  • 狀態(tài)復(fù)用

特征工程中,Source 數(shù)據(jù)清洗后的原始數(shù)據(jù)可以會物化成 MV,基于這些 MV 又可以創(chuàng)建不同的下游 MV,MV 之間還可以 join,這樣分層構(gòu)建流作業(yè),天然支持狀態(tài)復(fù)用。Source Table 支持 DML 進行數(shù)據(jù)訂正,訂正引起的變更會自動地同步到各個下游。

圖片

5)UDF

支持通過 CREATE FUNCTION 和 CREATE AGGREGATE 方式定義 UDF。

圖片

圖片

(4)Feature Serving

在 RisingWave中,F(xiàn)eature Serving 是實時特征工程的重要組成部分,提供了強大的功能用于特征查詢、數(shù)據(jù)分發(fā)和服務(wù)優(yōu)化。

1)查詢與結(jié)果一致性
  • 可查詢性
    Materialized View 和 Table 均可查詢,支持 Batch Query 和 Streaming Query。用戶可以通過 SELECT 語句直接查詢物化視圖(如 user_feature)獲取特征數(shù)據(jù),例如查詢特定用戶 ID(user_id = 15213)的特征。這種查詢方式方便快捷,能夠滿足不同場景下對特征數(shù)據(jù)的獲取需求。
  • 結(jié)果一致性與調(diào)試回溯
    Streaming 和 Batch Query 結(jié)果一致,這一特性使得用戶在開發(fā)和調(diào)試過程中更加便捷。用戶在創(chuàng)建物化視圖前可以先運行 Batch Query 來查看結(jié)果是否符合預(yù)期,進行數(shù)據(jù)驗證和邏輯調(diào)試。如果發(fā)現(xiàn)問題,可以方便地回溯和排查,因為兩種查詢方式的結(jié)果具有一致性,保證了數(shù)據(jù)的可靠性和可追溯性。
  • 支持創(chuàng)建索引加速 Serving 查詢

圖片

2)索引加速查詢
  • 索引創(chuàng)建與應(yīng)用
    支持在 Materialized View 和 Table 上創(chuàng)建索引來加速 Serving 查詢。用戶可以在 timestamp 列創(chuàng)建索引(如 CREATE INDEX idx_timestamp on user_feature(timestamp)),然后在查詢時利用該索引加速對 timestamp 列的范圍查詢(如 SELECT  FROM user_feature WHERE timestamp < NOW() - INTERVAL ‘1 days’)。通過創(chuàng)建合適的索引,可以顯著提高查詢性能,減少數(shù)據(jù)檢索時間。
  • 索引特性支持
    支持指定 Include 列、Distributed 列,還支持表達式索引。例如,在 customers 表上創(chuàng)建索引加速點查(CREATE INDEX idx_c_phone on customer(c_phone)),在 orders 表上創(chuàng)建索引加速 JOIN 操作(CREATE INDEX idx_o_custkey ON orders(o_custkey)),以及在包含 JSONB 類型列的表上創(chuàng)建表達式索引。這些豐富的索引特性為優(yōu)化查詢提供了多種選擇,適應(yīng)不同的數(shù)據(jù)結(jié)構(gòu)和查詢需求。
3)隔離與伸縮性
  • 隔離 Streaming 與 Serving
    支持隔離 Streaming 與 Serving,允許獨立伸縮。這意味著用戶可以根據(jù)實際需求分別調(diào)整 Streaming 和 Serving 的資源配置,優(yōu)化系統(tǒng)性能。例如,在高并發(fā)查詢場景下,可以為 Serving 分配更多的計算資源以滿足查詢需求,而不會影響 Streaming 的實時數(shù)據(jù)處理能力。
  • 資源優(yōu)化與靈活性
    通過獨立伸縮,用戶可以更好地平衡系統(tǒng)資源的利用,提高系統(tǒng)的整體效率和穩(wěn)定性。無論是處理大規(guī)模實時數(shù)據(jù)的攝入和處理(Streaming),還是應(yīng)對高并發(fā)的特征查詢(Serving),都能夠靈活配置資源,確保系統(tǒng)在不同負載下的良好性能表現(xiàn)。

圖片

4)數(shù)據(jù)分發(fā)到下游系統(tǒng)

支持將數(shù)據(jù)變更 Sink 到下游系統(tǒng)。

圖片

  • Sink 功能與支持的系統(tǒng)
    通過 Sink 可以實時將數(shù)據(jù)發(fā)送到多種下游系統(tǒng),支持的 Connector 包括 Redis、Kafka、JDBC、Clickhouse、StarRocks、Doris、ElasticSearch、Cassandra、File、Iceberg 等。用戶可以根據(jù)實際業(yè)務(wù)需求選擇合適的下游系統(tǒng)進行數(shù)據(jù)分發(fā),實現(xiàn)數(shù)據(jù)的進一步處理和分析。
  • 數(shù)據(jù)格式與輸入源
    支持多種數(shù)據(jù)格式,如 APPEND_ONLY、UPSERT、DEBEZIUM 等。Sink 的輸入可以是 Table/Materialized View,也可以是 SQL query。

圖片

5)支持 Subscription 訂閱變更

圖片

6)支持 Python-SDK 執(zhí)行 SQL 和訂閱變更

圖片

讓我們再來整體回顧一下 RisingWave 在特征工程各環(huán)節(jié)起到的助力作用。首先是數(shù)據(jù)攝入,利用 RisingWave 可以便捷地導(dǎo)入不同數(shù)據(jù)源;接下來是數(shù)據(jù)選擇和清洗,基于 SQL 和 UDF,利用物化視圖分層構(gòu)建流處理 pipeline;特征構(gòu)建完成后,可以用 SQL 或 Python 進行特征查詢;最后,可以采用 push-based 也就是 sink 的方式將變更輸出到下游,也可以采用 pull-based subscribe 的方式獲取變更。

圖片


三、RisingWave 其他使用場景

1. 實時監(jiān)控告警

用戶借助 RisingWave 實時處理數(shù)據(jù),一旦監(jiān)測到如設(shè)備故障等異常情況,便能迅速發(fā)出告警,實現(xiàn)自動修復(fù)或及時通知相關(guān)人員處理。

圖片

2. 流表實時打?qū)?/span>

當上游存在多個不同數(shù)據(jù)源的數(shù)據(jù)表時,RisingWave 可將這些表整合打?qū)挸梢粡埓髮挶?,以便在?shù)據(jù)庫中生成報表或進行深入分析,為決策提供全面的數(shù)據(jù)支持。

圖片

3. 規(guī)則引擎

用戶通過 SQL 定義規(guī)則,利用其與 PostgreSQL 協(xié)議 的兼容性,結(jié)合如 Superset 等 BI 工具,可直觀展示和分析數(shù)據(jù),依據(jù)規(guī)則對數(shù)據(jù)進行處理和判斷,如在金融交易中檢測異常交易行為。

圖片

4. 實時數(shù)據(jù)市場

不同部門利用 RisingWave 構(gòu)建物化視圖,維護數(shù)據(jù)的可見性與權(quán)限。借助 dbt 工具,清晰管理數(shù)據(jù)血緣,保障數(shù)據(jù)質(zhì)量與可追溯性,促進部門間高效的數(shù)據(jù)協(xié)作與共享。

圖片


四、RisingWave 2.0 更新內(nèi)容

RisingWave 2.0 作為最新發(fā)布的版本,帶來了諸多重要更新。

首先,新增 Premium 版本,專為自部署集群打造,提供企業(yè)級支持,有力保障自部署時的穩(wěn)定性與性能表現(xiàn)。同時,RisingWave 的 Cloud 版本在應(yīng)用性方面持續(xù)增強,尤其在 2.0 版本中,針對 Streaming 和 Batch 的統(tǒng)一支持進行了顯著改進。例如,對 Batch Source、Batch Sink 以及 Batch Query 均進行了優(yōu)化,提升了批量數(shù)據(jù)處理的效率與性能。

此外,該版本實現(xiàn)了自動的 Schema Change 和自動的 Schema Mapping 功能。這意味著當上游數(shù)據(jù)存在 Schema 時,用戶導(dǎo)入數(shù)據(jù)無需手動編寫 Schema,并且上游數(shù)據(jù)列的增減操作能夠自動同步至 RisingWave 中,極大地簡化了數(shù)據(jù)管理流程。同時針對創(chuàng)建 MV 時回填歷史數(shù)據(jù)這一資源消耗大且一次性的操作提供了進一步地的優(yōu)化,優(yōu)化了數(shù)據(jù)處理的完整性和效率。

RisingWave 2.0 通過這些更新,致力于為用戶提供更優(yōu)質(zhì)、高效、便捷的服務(wù),期待用戶深入了解并反饋使用體驗,共同推動產(chǎn)品的持續(xù)優(yōu)化。

責任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2022-12-12 16:15:19

圖像數(shù)據(jù)Python

2023-03-30 07:40:03

FeatHub 項目特征工程開發(fā)

2023-02-26 18:46:35

機器學(xué)習(xí)數(shù)據(jù)集算法

2024-06-13 09:12:38

2019-07-23 07:30:27

特征工程加密流量安全

2022-05-16 10:30:31

AIML存儲

2021-03-19 08:54:36

JavaJava 16開發(fā)

2009-12-15 17:02:29

Vs.Net 2010

2011-01-04 15:36:45

linux特征

2012-05-16 11:03:50

微軟IIS

2019-10-31 15:37:29

Android Q

2022-12-05 16:38:48

Python統(tǒng)計信息預(yù)測模型

2024-08-12 10:00:31

2009-08-25 10:03:13

2022-05-17 11:48:06

谷歌賬號安全

2011-06-20 13:05:53

Qt 4.7 Qt Quick

2013-10-23 10:34:41

Windows 8.1特征移動安全

2015-12-03 14:09:28

創(chuàng)始人成功創(chuàng)業(yè)

2013-05-10 09:31:18

大數(shù)據(jù)人工特征工程線性模型

2018-09-05 14:45:10

Python自動化機器學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號