自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

關于 Flink Regular Join 與 TTL 的理解

作者：SapphireCoder 2022-06-20 05:52:27

在 Regular Join 時 Flink 會將兩條沒有時間窗口限制的流的所有數(shù)據(jù)存儲在 State 中，由于流是無窮無盡持續(xù)流入的，隨著時間的不斷推進，內(nèi)存中積累的狀態(tài)會越來越多。

對于流查詢，Regular Join 的語法是最靈活的，它允許任何類型的更新(插入、更新、刪除)輸入表。

Regular Join 包含以下幾種（以 L 作為左流中的數(shù)據(jù)標識，R 作為右流中的數(shù)據(jù)標識）：

Inner Join（Inner Equal Join）：當兩條流 Join 到才會輸出 +[L, R]
Left Join（Outer Equal Join）：左流數(shù)據(jù)到達之后 Join 到 R 流數(shù)據(jù)則輸出 +[L, R]，沒 Join 到輸出 +[L, null]）。如果右流之后數(shù)據(jù)到達之后，發(fā)現(xiàn)左流之前輸出過沒有 Join 到的數(shù)據(jù)，則會發(fā)起回撤流，先輸出 -[L, null]，然后輸出 +[L, R]。
Right Join（Outer Equal Join）：與 Left Join 邏輯相反。
Full Join（Outer Equal Join）：流任務中，左流或者右流的數(shù)據(jù)到達之后，無論有沒有 Join 到另外一條流的數(shù)據(jù)，都會輸出（對右流來說：Join 到輸出 +[L, R]，沒 Join 到輸出 +[null, R]；對左流來說：Join 到輸出 +[L, R]，沒 Join 到輸出 +[L, null]）。如果一條流的數(shù)據(jù)到達之后，發(fā)現(xiàn)之前另一條流之前輸出過沒有 Join 到的數(shù)據(jù)，則會發(fā)起回撤流（左流數(shù)據(jù)到達為例：回撤 -[null, R]，輸出 +[L, R]，右流數(shù)據(jù)到達為例：回撤 -[L, null]，輸出 +[L, R]）。

Regular Inner Join

Flink SQL?：

CREATE TABLE matchResult (
    guid STRING
) WITH (
    'connector' = 'kafka',
    'topic' = 'match_result_log_test',
    'properties.bootstrap.servers' = 'xxxxxxxxxxxxxxxxxxx',
    'properties.group.id' = 'flinkTestGroup',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'json'
);

CREATE TABLE readRecord (
    guid STRING,
    book_name STRING
) WITH (
    'connector' = 'kafka',
    'topic' = 'read_record_log_test',
    'properties.bootstrap.servers' = 'xxxxxxxxxxxxxxxxxxx',
    'properties.group.id' = 'flinkTestGroup',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'json'
);

CREATE TABLE sink_table (
    guid STRING,
    book_name STRING
) WITH (
  'connector' = 'print'
);

INSERT INTO sink_table
SELECT
    matchResult.guid,
    readRecord.book_name
FROM matchResult
INNER JOIN readRecord ON  matchResult.guid = readRecord.guid;

輸出結果解析?：

                               -- L 流數(shù)據(jù)達到，由于沒有 Join 到 R 流數(shù)據(jù)而且是 inner join 便不輸出結果
+I[111, book1]       -- R 流數(shù)據(jù)達到， Join 到 L 流數(shù)據(jù)，便輸出 +I[111, book1]
                               -- R 流數(shù)據(jù)達到，由于沒有 Join 到 L 流數(shù)據(jù)而且是 inner join 便不輸出結果
+I[222, book2]       -- L 流數(shù)據(jù)達到， Join 到 R 流數(shù)據(jù)便輸出結果

Regular Left Join（Right join 則相反）

Flink SQL：

CREATE TABLE matchResult (
    guid STRING
) WITH (
    'connector' = 'kafka',
    'topic' = 'match_result_log_test',
    'properties.bootstrap.servers' = 'xxxxxxxxxxxxxxxxxxx',
    'properties.group.id' = 'flinkTestGroup',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'json'
);

CREATE TABLE readRecord (
    guid STRING,
    book_name STRING
) WITH (
    'connector' = 'kafka',
    'topic' = 'read_record_log_test',
    'properties.bootstrap.servers' = 'xxxxxxxxxxxxxxxxxxx',
    'properties.group.id' = 'flinkTestGroup',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'json'
);

CREATE TABLE sink_table (
    guid STRING,
    book_name STRING
) WITH (
  'connector' = 'print'
);

INSERT INTO sink_table
SELECT
    matchResult.guid,
    readRecord.book_name
FROM matchResult
LEFT JOIN readRecord ON  matchResult.guid = readRecord.guid;

輸出結果解析：

+I[111, null]           -- L 流數(shù)據(jù)達到，沒有 Join 到 R 流數(shù)據(jù)，便輸出 +[L, null]
-D[111, null]          -- R 流的數(shù)據(jù)到達，發(fā)現(xiàn) L 流之前輸出過沒有 Join 到的數(shù)據(jù)，則會發(fā)起回撤流，先輸出 -[L, null]
+I[111, book1]      -- 再輸出 +[L, R]
                              -- 這里模擬一條 R 流 guid = 222 的數(shù)據(jù)到達，由于是 left join 且沒有 join 到 L 流，因此不做輸出
+I[222, book2]      -- 當 L 流 guid = 222 的數(shù)據(jù)達到 join  R 流 后輸出結果 +[L, R]

Regular Full Join

Flink SQL：

CREATE TABLE matchResult (
    guid STRING
) WITH (
    'connector' = 'kafka',
    'topic' = 'match_result_log_test',
    'properties.bootstrap.servers' = 'xxxxxxxxxxxxxxxxxxx',
    'properties.group.id' = 'flinkTestGroup',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'json'
);

CREATE TABLE readRecord (
    guid STRING,
    book_name STRING
) WITH (
    'connector' = 'kafka',
    'topic' = 'read_record_log_test',
    'properties.bootstrap.servers' = 'xxxxxxxxxxxxxxxxxxx',
    'properties.group.id' = 'flinkTestGroup',
    'scan.startup.mode' = 'latest-offset',
    'format' = 'json'
);

CREATE TABLE sink_table (
    guid STRING,
    book_name STRING
) WITH (
  'connector' = 'print'
);

INSERT INTO sink_table
SELECT
    matchResult.guid,
    readRecord.book_name
FROM matchResult
FULL JOIN readRecord ON  matchResult.guid = readRecord.guid;

輸出結果解析：

+I[111, null]         -- L 流數(shù)據(jù)達到，沒有 Join 到 R 流數(shù)據(jù)，便輸出 +I[L, null]  
+I[null, book2]    -- R 流數(shù)據(jù)達到，沒有 Join 到 R 流數(shù)據(jù)，便輸出 +I[null, R]
-D[null, book2]    -- L 流新數(shù)據(jù)到達，發(fā)現(xiàn)之前 R 流之前輸出過沒有 Join 到的數(shù)據(jù)，則發(fā)起回撤流，先輸出 -D[null, R]
+I[222, book2]    -- 再輸出 +I[L, R]
-D[111, null]        -- 反之同理
+I[111, book1]

TTL 概念

在 Regular Join 時 Flink 會將兩條沒有時間窗口限制的流的所有數(shù)據(jù)存儲在 State 中，由于流是無窮無盡持續(xù)流入的，隨著時間的不斷推進，內(nèi)存中積累的狀態(tài)會越來越多。

針對這個問題，F(xiàn)link 提出了空閑狀態(tài)保留時間（Idle State Retention Time）的概念。通過為每個狀態(tài)設置 Timer，如果這個狀態(tài)中途被訪問過，則重新設置 Timer；否則（如果狀態(tài)一直未被訪問，長期處于 Idle 狀態(tài)）則在 Timer 到期時做狀態(tài)清理。這樣，就可以確保每個狀態(tài)都能得到及時的清理，可以通過 table.exec.state.ttl 參數(shù)進行控制（注意：這同時也會對結果的準確性有所影響，因此需要合理的權衡）。

責任編輯：趙寧寧來源：今日頭條

Flink TTL 流查詢

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

^{<sub id="hg6o1"></sub>}