自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于 Flink x TiDB,智慧芽打造實時分析新方案

數(shù)據(jù)庫
本文整理自智慧芽數(shù)據(jù)倉庫架構師曲明星在 Flink Forward Asia 2021 實時數(shù)倉專場的分享。

?摘要:本文整理自智慧芽數(shù)據(jù)倉庫架構師曲明星在 Flink Forward Asia 2021 實時數(shù)倉專場的分享。本篇內(nèi)容主要分為三個部分:

  1. 產(chǎn)品架構
  2. 技術架構
  3. 未來計劃

01產(chǎn)品架構

圖片

上圖是智慧芽APP 的產(chǎn)品架構圖,包括后臺管理系統(tǒng)、AI、內(nèi)容引擎、幫助中心,為客戶提供知識產(chǎn)權信息化服務和科技創(chuàng)新情報系統(tǒng)。

02技術架構

2.1 原實時分析方案

圖片

上圖是原來的實時分析方案。流程大致是客戶檢索一個條件,通過分析 API 把客戶檢索的相關條件發(fā)送到不同的搜索引擎。這種方案會產(chǎn)生 4 個問題:

  • 對檢索性能產(chǎn)生影響;
  • 復雜分析需要開發(fā)插件支持;
  • 跨多個搜索引擎分析復雜度高;
  • 不同維度的數(shù)據(jù)無法存儲。

在建立實時數(shù)倉前,收集了業(yè)務要求實時數(shù)倉特點:

  • 秒級響應;
  • 準實時數(shù)據(jù)更新;
  • 能支持一定量的并發(fā)能力;
  • 與搜索引擎數(shù)據(jù)保持一致;
  • 支持復雜分析的能力;
  • 支持統(tǒng)一使用方式及主流特性;
  • 支持與搜索引擎交互;
  • 支持存儲容量橫向擴展的能力。

圖片

上圖是數(shù)據(jù)平臺概覽。從下往上看:

  • 最下層是數(shù)據(jù)底座,包括數(shù)據(jù)存儲和數(shù)據(jù)計算,其中數(shù)據(jù)計算層由 Spark、Kafka、Flink 組成;
  • 中間層是數(shù)據(jù)平臺,包括數(shù)據(jù)開發(fā)、數(shù)據(jù)分類、數(shù)據(jù)管理和數(shù)據(jù)服務;
  • 上層是數(shù)據(jù)應用,主要有數(shù)據(jù)業(yè)務、外部分析服務和內(nèi)部分析業(yè)務構成。

2.2 新實時分析方案

圖片

新的技術選型主要基于 TiDB,主要包括數(shù)據(jù)存儲、數(shù)倉服務兩個部分。數(shù)倉服務分為安全檢查、驅(qū)動表管理、緩存管理、集群負載檢查以及執(zhí)行器等部分。

選擇 TiDB 是因為它是云原生并且社區(qū)活躍、滿足 TP 及 AP 業(yè)務場景、豐富的生態(tài)工具及多平臺以及其使用簡單,兼容 MySQL 以及大數(shù)據(jù)能力。

選擇 Flink 也是因為它是一個開源的大數(shù)據(jù)計算引擎,并且有活躍的云原生社區(qū),能夠滿足對數(shù)據(jù)的及時性要求,一致性方面有 exactly-once 語義,同時具備低延遲高吞吐量。

圖片

在線業(yè)務數(shù)據(jù)寫入流程:把源頭的數(shù)據(jù)變更放到消息隊列中去,通過索引程序?qū)?shù)據(jù)分發(fā)到不同的搜索引擎,同時搜索引擎也會給索引程序發(fā)送消息。

離線分析技術體系:整個離線分析技術體系比較依賴于 oss。將每日的增量數(shù)據(jù)離線放到 oss 里,對全量的數(shù)據(jù)進行一些比較復雜的分析。

離線業(yè)務數(shù)據(jù)寫入流程:數(shù)據(jù)變更會觸發(fā)持久流化至 oss,oss 同時會和歷史流進行合并在 oss 放一份全量數(shù)據(jù)。

2.3 原用戶行為分析方案

原用戶行為分析方案是非常復雜的方案,這個方案在前端有 JS 和 Java 的 API,JS 會將用戶的埋點數(shù)據(jù)放置到 Segment 中去,同時有 Gainsight 和 AMPLITUDE 兩個合成化引擎。

圖片

2.4 新用戶行為分析方案

圖片

新的用戶行為分析方案相對比較簡潔。首先收集用戶的行為數(shù)據(jù),通過 Kinesis 以流的方式接到到 Flink,再進行一些實時指標的計算,并將計算結果存放于不同的表中,給我們提供了可視化的開發(fā)。

2.5 Flink + Iceberge 探索

在 Flink + Iceberge 的探索中,將幾百 G 左右的表以流的方式放到 Kafka 中,再推送到 oss 中。目前,市面上缺乏成熟的解決方案,所以沒有把這個方式應用到生產(chǎn)環(huán)境上。

圖片

03未來計劃

  • 云原生數(shù)據(jù)庫架構遷移;
  • 提供更完善的指標和取數(shù)系統(tǒng);
  • 建設數(shù)據(jù)生產(chǎn)的全鏈路監(jiān)控和預警;
  • 供支撐公司數(shù)據(jù)消費和服務能力;
  • 在線實時分析數(shù)倉及其數(shù)據(jù)處理管道的繼續(xù)演進;
  • 打造云原生數(shù)據(jù)技術體系和新一代大數(shù)據(jù)平臺;
  • 提供數(shù)據(jù)網(wǎng)關入口,提供統(tǒng)一的數(shù)據(jù)出口、提高數(shù)據(jù)應用效率。?
責任編輯:未麗燕 來源: Apache Flink
相關推薦

2024-06-03 08:26:35

2019-04-15 14:06:12

2024-12-02 09:57:43

GormScopesClauses

2024-06-06 08:58:08

大數(shù)據(jù)SQLAPI

2013-05-15 12:20:30

NETGEAR智能家庭

2023-08-22 08:01:42

SpringBatch事務管理

2011-08-30 10:39:28

VMworld 201vmware

2013-10-16 09:53:08

IBMPureSystemsPower Syste

2024-06-05 09:16:54

開源工具Airflow

2024-05-20 08:08:00

分布式系統(tǒng)緩存C#

2011-07-06 14:22:09

power平臺服務器甲骨文

2009-12-22 14:59:24

路由器故障排除

2025-04-29 08:05:00

JavaScript錯誤處理開發(fā)

2022-04-14 10:41:47

數(shù)據(jù)TiDB

2012-10-29 18:21:15

互聯(lián)汽車Red Bend

2015-04-02 09:22:51

EMM深信服

2018-03-23 16:20:40

銳捷網(wǎng)絡

2018-03-23 16:49:33

銳捷網(wǎng)絡

2009-09-23 10:48:18

戴爾解決方案電子病歷

2010-04-20 13:37:04

點贊
收藏

51CTO技術棧公眾號