自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

再也不用敲SQL DDL了!數(shù)據(jù)湖時(shí)代Google的元數(shù)據(jù)自動(dòng)管理技術(shù)

數(shù)據(jù)庫(kù)
本文的特點(diǎn)是方向新穎、問題開放,因此行文邏輯和其他論文有一些不同,側(cè)重在問題的定義。

一、閱讀目的

目前不管是數(shù)倉(cāng)、Lakehouse、數(shù)據(jù)湖都把開放數(shù)據(jù)湖中數(shù)據(jù)的分析作為當(dāng)下的一個(gè)能力突破點(diǎn)。前面有看過論文“Data lake management: Challenges and opportunities”主要分析數(shù)據(jù)湖管理領(lǐng)域趨勢(shì)和挑戰(zhàn),里面有提到google的Goods在元數(shù)據(jù)管理方面做了不錯(cuò)的工業(yè)實(shí)踐。

二、解決的核心問題(場(chǎng)景/技術(shù))

1、Goods在Google元數(shù)據(jù)體系的位置

從Google bigquery相關(guān)資料可以看出google有一套統(tǒng)一的Data catalog,Goods可以理解是基于這套Data catalog基礎(chǔ)服務(wù)提供的面向數(shù)據(jù)湖場(chǎng)景元數(shù)據(jù)管理的完善能力。另外googole還有一篇論文“Big Metadata: When Metadata is Big Data”則是講在large scale表的元數(shù)據(jù)及統(tǒng)計(jì)信息管理的創(chuàng)新,也是基于Data catalog的工作,這篇文章的解析可以參考本公眾號(hào)的“Delta Lake&Hudi很火!Google更是Lakehouse的領(lǐng)跑者”文章。

2、Goods的場(chǎng)景定位

面向數(shù)據(jù)湖場(chǎng)景避免數(shù)據(jù)孤島,需要對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一的管理,而統(tǒng)一管理的可落地方式就是把元數(shù)據(jù)統(tǒng)一管理起來。Goods的定位不只做統(tǒng)一元數(shù)據(jù)服務(wù),而是在元數(shù)據(jù)服務(wù)之上解決元數(shù)據(jù)上下游的處理,并支持用戶高效的從大量數(shù)據(jù)中找到自己需要的數(shù)據(jù)集。核心技術(shù)難點(diǎn)在于準(zhǔn)確發(fā)現(xiàn)、大規(guī)模存儲(chǔ)、提供元數(shù)據(jù)查詢能力。

產(chǎn)生很多dataset的原因是為了快速的使用數(shù)據(jù),來驅(qū)動(dòng)他們的競(jìng)爭(zhēng)優(yōu)勢(shì),但是在存儲(chǔ)數(shù)據(jù)的時(shí)候沒有進(jìn)行統(tǒng)一的元數(shù)據(jù)管理,這樣就只能事后進(jìn)行元數(shù)據(jù)的管理。不改變?cè)惺褂迷獢?shù)據(jù)的方式,goods后臺(tái)執(zhí)行并采集元數(shù)據(jù),并記錄和其他dataset之間的血緣關(guān)系,從而對(duì)外提供高效的元數(shù)據(jù)查詢服務(wù)。

三、論文內(nèi)幕

本文的特點(diǎn)是方向新穎、問題開放,因此行文邏輯和其他論文有一些不同,側(cè)重在問題的定義。主要包括幾方面:挑戰(zhàn)、數(shù)據(jù)發(fā)現(xiàn)能力、后端存儲(chǔ)計(jì)算服務(wù)、查詢服務(wù)、相關(guān)工作及未來

1、挑戰(zhàn)

下面是整體的架構(gòu),可以看到goods支持多種數(shù)據(jù)源的元數(shù)據(jù)發(fā)現(xiàn)、對(duì)外提供豐富的數(shù)據(jù)管理能力。挑戰(zhàn)包括下面的:

  • 海量dataset的元數(shù)據(jù)發(fā)現(xiàn):支持google所有依賴的26 billion datasets的發(fā)現(xiàn),未來加速需要做dataset關(guān)聯(lián)的元數(shù)據(jù)推斷
  • dataset多樣性:不同的數(shù)據(jù)源有不同的類型系統(tǒng),怎么做一套統(tǒng)一的元數(shù)據(jù)管理很有挑戰(zhàn)。比如bigtable的表需要按照列簇進(jìn)行表的拆分
  • dataset的TTL能力:因?yàn)樵獢?shù)據(jù)會(huì)有版本,全部保留數(shù)據(jù)量很大,因此需要有TTL的能力
  • 后置元數(shù)據(jù)發(fā)現(xiàn)具有一定不確定性:利用dataset自包含的content和dataset本身的隱藏關(guān)系
  • 計(jì)算dataset的重要性:通過比如計(jì)算訪問頻率,主動(dòng)推理dataset對(duì)用戶的重要性
  • 恢復(fù)dataset的語義:dataset的語義對(duì)于后續(xù)的查詢、搜索、描述更有意義

2、Goods數(shù)據(jù)發(fā)現(xiàn)能力

存儲(chǔ)的元數(shù)據(jù)包括從不同系統(tǒng)獲取的,goods彌補(bǔ)自由度和統(tǒng)一視圖之間的gap,同時(shí)具備對(duì)多個(gè)版本進(jìn)行聚合處理的能力。

  • 元數(shù)據(jù)

多種方式來爬取元數(shù)據(jù)并進(jìn)行組裝,獲取的這些元數(shù)據(jù)不僅支持元數(shù)據(jù)恢復(fù),同時(shí)能夠滿足數(shù)據(jù)的血緣和流動(dòng)管理。goods支持構(gòu)建一個(gè)圖來描述元信息之間的關(guān)系。發(fā)現(xiàn)元數(shù)據(jù)的手段包括:結(jié)構(gòu)化的元數(shù)據(jù)都是使用pb來存儲(chǔ)、讀取一部分的數(shù)據(jù)來識(shí)別schema、使用一種算法識(shí)別潛在的key關(guān)鍵字、通過注釋來消除語義的歧義。

  • 對(duì)數(shù)據(jù)進(jìn)行聚集處理

按照邏輯集群級(jí)別進(jìn)行聚集分類,分類后可以進(jìn)行一些智能的schema推斷和傳播,從而減少schema推斷的開銷。

3、后端存儲(chǔ)計(jì)算服務(wù)

  • Catalog storage:有特點(diǎn)的是支持dataset添加描述、以及一些維度的標(biāo)簽信息

  • 批處理作業(yè)性能及調(diào)度

后臺(tái)有分析生成元數(shù)據(jù)的作業(yè)、schema識(shí)別可能會(huì)比較久,做了一些同質(zhì)元數(shù)據(jù)比如分區(qū)的元數(shù)據(jù)發(fā)現(xiàn)的數(shù)據(jù)裁剪

  • 容錯(cuò):status的metadata里面存儲(chǔ)作業(yè)的運(yùn)行狀態(tài),做了執(zhí)行作業(yè)的隔離
  • 元數(shù)據(jù)的垃圾收集:這里主要是有一些TTL

4、查詢服務(wù)

  • Dataset profile pages:支持dataset添加profile級(jí)別的配置,為了防止通過壓縮來減少使用空間。
  • dataset 搜索:這里主要是一些索引相關(guān)
  • 團(tuán)隊(duì)報(bào)表:可以監(jiān)控dataset的屬性的變化

5、相關(guān)工作

業(yè)界工作:Goods的特點(diǎn)是管理海量數(shù)據(jù)湖的元數(shù)據(jù),不需要元數(shù)據(jù)再創(chuàng)建的時(shí)候就進(jìn)行預(yù)處理。與現(xiàn)有比如hive管理元數(shù)據(jù),核心的區(qū)別就在與數(shù)據(jù)湖場(chǎng)景,以及事后的元數(shù)據(jù)發(fā)現(xiàn)。

未來工作包括:

  • 對(duì)dataset的重要性進(jìn)行標(biāo)記還沒有完全做好
  • 區(qū)分生產(chǎn)、測(cè)試、開發(fā)的datasets
  • 整合更多的信息來做dataset的推理和管理
  • 語義發(fā)現(xiàn)和識(shí)別

四、學(xué)習(xí)感悟

goods對(duì)于數(shù)據(jù)湖場(chǎng)景海量的數(shù)據(jù)集,進(jìn)行元數(shù)據(jù)做事后的發(fā)現(xiàn)提取、收集、管理、查詢。這個(gè)和筆者前面在阿里云云原生數(shù)據(jù)湖分析做的數(shù)據(jù)湖管理的元數(shù)據(jù)發(fā)現(xiàn)工作基本是一致的,這塊工作對(duì)于數(shù)據(jù)湖場(chǎng)景有很大的價(jià)值,可以看出goods在數(shù)據(jù)集血緣、發(fā)現(xiàn)的規(guī)模、模糊數(shù)據(jù)集的準(zhǔn)確性做了更加體系化的思考。

責(zé)任編輯:張燕妮 來源: LakeHouse技術(shù)
相關(guān)推薦

2021-12-21 09:05:46

命令Linux敲錯(cuò)

2024-01-26 07:00:11

Python工具無向圖

2015-05-29 09:01:48

2023-11-27 17:11:02

數(shù)據(jù)庫(kù)oracle

2021-08-13 22:38:36

大數(shù)據(jù)互聯(lián)網(wǎng)技術(shù)

2018-10-11 15:51:32

ChromeGoogle瀏覽器

2022-09-14 08:02:25

加密算法Bcryp

2024-04-15 00:08:00

MySQLInnoDB數(shù)據(jù)庫(kù)

2021-06-08 07:48:26

數(shù)據(jù) Python開發(fā)

2020-06-15 08:03:17

大文件OOM內(nèi)存

2023-07-29 22:02:06

MyBatis數(shù)據(jù)庫(kù)配置

2022-06-01 10:09:39

Linux網(wǎng)絡(luò)延遲

2022-11-07 08:58:41

搜索數(shù)據(jù)索引

2020-12-18 08:23:16

安卓手機(jī)系統(tǒng)谷歌

2025-04-25 10:00:00

2019-09-04 10:00:07

手機(jī)人臉識(shí)別

2015-10-22 10:38:43

Wi-Fi燃?xì)鈭?bào)警器

2021-01-11 16:19:45

MySQL數(shù)據(jù)庫(kù)服務(wù)器

2020-01-21 21:15:16

WiFi網(wǎng)絡(luò)WiFi6

2024-11-27 14:30:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)