自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

第三代指標(biāo)平臺定義、能力與技術(shù)詳解

大數(shù)據(jù)
今天分享的主題是第三代指標(biāo)平臺如何做“輕”數(shù)倉。傳統(tǒng)數(shù)倉的應(yīng)用層需要面向業(yè)務(wù)場景做大量的寬表和匯總表開發(fā),今天我們來探討是不是有新的解決思路。

一、ETL 的原罪和 NoETL 的全新思路

1. 應(yīng)對數(shù)智化分析需求,反范式 ETL 加工不堪重負(fù)

圖片

數(shù)字化轉(zhuǎn)型多年,現(xiàn)在很多業(yè)務(wù)人員都依賴數(shù)據(jù)來做日常決策。傳統(tǒng)的方式是業(yè)務(wù)提需求給 IT,IT 會根據(jù)每個特定需求開發(fā)定制化的寬表和匯總表,再做成 BI 工具里的報表。在這個過程中,會有很多反范式的 ETL 加工,使得整個數(shù)倉的數(shù)據(jù)管道越來越長、越來越深,企業(yè)數(shù)據(jù)治理的難度也越來越大。

2. ETL 工程陷入“效率、質(zhì)量、成本”的不可能三角

反范式的加工給企業(yè)帶來高成本、低質(zhì)量、低效率的問題。

圖片

  • 高成本:IT 接到不同業(yè)務(wù)部門不同業(yè)務(wù)人員提出的需求,為了快速響應(yīng)業(yè)務(wù)的需求,直接開發(fā)數(shù)據(jù)集市層表,結(jié)果導(dǎo)致不同 IT 之間存在大量重復(fù)的寬表和匯總表建設(shè),占用大量存儲計算資源的消耗,帶來高成本。
  • 低效率:在原來傳統(tǒng)的反范式 ETL 加工過程中,業(yè)務(wù)一開始提的需求是模糊化的,因為業(yè)務(wù)沒有看到數(shù)據(jù),也想不清楚。IT 開發(fā)完交付給業(yè)務(wù)的時候,業(yè)務(wù)發(fā)現(xiàn)開發(fā)的需求跟原本設(shè)想的不一樣,于是就有了再改一個口徑、再加一個字段等類似的需求。整個過程存在反復(fù)溝通,IT 需要排期,業(yè)務(wù)需要等待,所以,ETL 成了數(shù)字化分析過程中一個核心的瓶頸。
  • 低質(zhì)量:大量重復(fù)的寬表和匯總表開發(fā)會導(dǎo)致同一個指標(biāo)分散在不同的報表里,進(jìn)而可能出現(xiàn)不同報表里數(shù)據(jù)對不上的問題。比如,各個業(yè)務(wù)部門去向公司領(lǐng)導(dǎo)匯報的時候,每一個部門的績效都完成得特別好,但是公司整體的績效并不是那么好。真的是各個業(yè)務(wù)部門業(yè)績完成得好,公司層面出了問題嗎?可想而知,情況肯定不是這樣的,應(yīng)該是各業(yè)務(wù)部門的數(shù)據(jù)口徑不一致,最后出現(xiàn)了在公司總體層面數(shù)據(jù)對不上的情況。

3. 如何將“效率、質(zhì)量、成本”不可能的三角變?yōu)榭赡埽?/span>

有沒有什么辦法能解決“效率、質(zhì)量、成本”不可能三角的問題呢?整體來說,有兩種思路:

第一個思路是不開發(fā)寬表匯總表。既然“不可能三角”的原罪在于人工的大量的反范式加工,那能不能不進(jìn)行這樣的加工呢?早期,數(shù)據(jù)量較小,這個模式是可行的,直接開發(fā)公共層的明細(xì)表提供給業(yè)務(wù)去消費,可以大幅減少不可能三角。然而在大數(shù)據(jù)量的情況下,不做寬表和匯總表的開發(fā)很難保證性能,因此這條路行不通。

第二個思路是將人工 ETL 方式變成 NoETL。原來“不可能三角”是人工做開發(fā),那么能不能將人工的方式變成自動化的方式?這條路是可行的。

二、如何實現(xiàn)數(shù)倉應(yīng)用層 NoETL

1. 應(yīng)用層 NoETL 自動化的前提是指標(biāo)語義的標(biāo)準(zhǔn)化沉淀

把人工變成自動化的前提是讓機(jī)器和系統(tǒng)理解業(yè)務(wù)需要的指標(biāo)的業(yè)務(wù)邏輯,即實現(xiàn)應(yīng)用層 NoETL 自動化的前提是指標(biāo)語義的標(biāo)準(zhǔn)化沉淀,也就是需要將業(yè)務(wù)指標(biāo)體系以及指標(biāo)的計算邏輯告訴系統(tǒng)。

圖片

從上圖中可以看到,原來數(shù)倉是從貼源層到公共層再到集市層的開發(fā),現(xiàn)在將集市層用指標(biāo)語義層代替。這樣,原來需要在集市層做大量的反范式的開發(fā),現(xiàn)在只需要將業(yè)務(wù)的指標(biāo)以及指標(biāo)的計算邏輯通過配置化方式告訴系統(tǒng)即可,不需要做物理鏈路的開發(fā)實現(xiàn)。所以,要有指標(biāo)語義標(biāo)準(zhǔn)化沉淀的過程。

2. 如何做到指標(biāo)語義標(biāo)準(zhǔn)化沉淀

基于標(biāo)準(zhǔn)化語義,自動化生成反范式的寬表與匯總表。

圖片


  • 首先,需要有星型模型、雪花模型等強(qiáng)大的模型能力。原來,在數(shù)倉里需要將維度表里的維度打?qū)挼绞聦嵄砝锩嫔尚碌膶挶?,或者是基于某些維度做輕粒度或重粒度的匯總加工。現(xiàn)在,只需要建立明細(xì)事實表和維度表之間的邏輯關(guān)聯(lián)關(guān)系,無需物理打?qū)挘3帜P偷撵`活性,支持靈活的跨表指標(biāo)定義和靈活的維度下鉆分析。
  • 需要標(biāo)準(zhǔn)化指標(biāo)定義的能力,能夠把指標(biāo)的計算邏輯通過標(biāo)準(zhǔn)化的方式定義出來。

有了指標(biāo)標(biāo)準(zhǔn)化定義的能力和模型能力,反范式的寬表和匯總表的加工就可以實現(xiàn)系統(tǒng)自動了。系統(tǒng)可以自動將一個事實表和多個維度表的維度組合在一起,也可以實現(xiàn)多個事實表背后的不同指標(biāo)和多個維度一起分析。業(yè)務(wù)人員不用關(guān)心多個指標(biāo)到底來自于哪一張物理表,屏蔽了底層的技術(shù)概念,用戶感受到的是指標(biāo)和維度這樣偏業(yè)務(wù)語言的概念。

原來傳統(tǒng)的方式為什么做不到呢?要實現(xiàn)指標(biāo)定義能力承載在指標(biāo)平臺上,要求平臺具備強(qiáng)大的指標(biāo)語義表達(dá)能力。如果平臺沒有很強(qiáng)大的語義表達(dá)能力,就需要在數(shù)倉或者BI 工具里寫 SQL 開發(fā)來定義指標(biāo)的計算邏輯。

怎么保證所有的指標(biāo)定義都在平臺上承載。

圖片

指標(biāo)定義可分成四大類:

  • 窗口計算函數(shù),如證券行業(yè)中看資金凈買入額在行業(yè)中的排名。
  • 多層聚合嵌套,不是簡單的一次聚合。比如,在求平均的基礎(chǔ)之上,再去看最大值或者最小值。求近一年、月、日均 AUM 的最大值,需要進(jìn)行三次聚合,第一次算出每一天 AUM,第二次算出一個月 AUM 的均值,第三次基于每個月的均值算出一年十二個月中月均/日均的最大值。類似這種多層聚合的嵌套,一千個人有一千種寫法,系統(tǒng)很難判斷如何表達(dá),可以通過配置化的方式實現(xiàn)標(biāo)準(zhǔn)化模板化。
  • 行間計算,比如近三十天的銷售量。
  • 模型計算,跨多個事實表和維表之間的計算。在活動中經(jīng)常遇到的場景,是先把指標(biāo)變成一個標(biāo)簽或者變成一個維度,再計算特定客群的表現(xiàn)。比如,近三十天領(lǐng)取消費券客戶的購買金額。

除此之外,還有常規(guī)聚合類和日期函數(shù)等,通過將函數(shù)抽象封裝成配置化的模板來支持復(fù)雜的指標(biāo)計算,讓技術(shù)能力不是很強(qiáng)的業(yè)務(wù)分析師或者業(yè)務(wù)人員無需寫 SQL 也可以自助定義指標(biāo)。原來面向業(yè)務(wù)場景的大量的反范式的寬表和匯總表一定需要 IT 開發(fā),現(xiàn)在業(yè)務(wù)人員能夠自主做數(shù)據(jù)準(zhǔn)備,不需要有很強(qiáng)的技術(shù)能力。

指標(biāo)定義轉(zhuǎn)計算節(jié)點,支持復(fù)雜指標(biāo)自動轉(zhuǎn)成一個節(jié)點。

圖片

上圖中展示了指標(biāo)鏈路:先定義原子指標(biāo)“銷售額”,然后在原子指標(biāo)的基礎(chǔ)上定義派生指標(biāo)“近 7 日銷售額”,又在派生指標(biāo)的基礎(chǔ)上定義衍生指標(biāo)“銷售額占比”,在衍生指標(biāo)的基礎(chǔ)上定義復(fù)合指標(biāo)“銷售額占比去年同期的增長率”。整個指標(biāo)定義鏈路很復(fù)雜,涉及從原子到派生到衍生到復(fù)合再到衍生的過程,通過語義層,可以將這個鏈路變成相對 SQL 來說非常簡單的函數(shù)。

3. 指標(biāo)語義+最佳數(shù)據(jù)工程實踐,實現(xiàn)自動化指標(biāo)生產(chǎn)

圖片

分成三個策略:

  • 自動化數(shù)據(jù)編排。多個指標(biāo)和多個維度放在一起分析,比如查看不同日期、不同品類的下單量和退款量,下單量和退款量可能來自于兩個不同的事實表。自動化指標(biāo)生產(chǎn)的時候會基于物理表的拆分邏輯,對不同的事實表進(jìn)行拆分,保證數(shù)據(jù)產(chǎn)出的時效不受影響,同時不造成數(shù)據(jù)膨脹。自動化數(shù)據(jù)編排優(yōu)化還遵循了數(shù)倉中的最佳的數(shù)據(jù)工程實踐:冗余維度屬性打?qū)?;長周期依賴短周期;粗粒度依賴細(xì)粒度。
  • 自動化代碼生成。數(shù)據(jù)編排后,系統(tǒng)根據(jù)指標(biāo)語義自動生成優(yōu)化后的最佳 SQL 供計算引擎執(zhí)行。
  • 自動化變更回刷。上游的數(shù)據(jù)發(fā)生變更怎么去做自動的分析和回刷呢?首先,自動化感知上游的變更有兩種方式,第一種是通過任務(wù)的 DAG 圖自動獲取上游的信息,實時進(jìn)行數(shù)據(jù)回刷;第二種是通過定時任務(wù)的配置進(jìn)行定期刷新。一旦上游數(shù)據(jù)發(fā)生了變更,系統(tǒng)會自動識別變更點及回刷范圍,自動化進(jìn)行變更回刷,以保證數(shù)據(jù)的準(zhǔn)確性。

4. 自動化指標(biāo)生產(chǎn)的核心能力

自動化指標(biāo)生產(chǎn)的核心能力分為兩層。

圖片

  • 計算引擎層:通過內(nèi)置 MPP 計算引擎或者利用企業(yè)自有的 MPP 引擎,所有的 SQL 查詢都在查詢引擎中進(jìn)行,目前支持 StarRocks、Doris 等 MPP 查詢引擎。
  • 物化加速層:MPP 查詢引擎之上是物化視圖的構(gòu)建策略和命中策略,類似物化加速策略大腦。支持通過人工物化或者智能物化兩種策略,實現(xiàn)物化視圖的構(gòu)建,和指定指標(biāo)與維度的物化加速。同時,基于用戶查詢行為,系統(tǒng)自動進(jìn)行查詢改寫,通知 MPP 層的查詢引擎直接查明細(xì)數(shù)據(jù)還是物化表,保證大數(shù)據(jù)量場景下的查詢性能。

三、第三代指標(biāo)平臺的能力與價值

1. 第三代指標(biāo)平臺的能力

總結(jié)來說,應(yīng)用層 NoETL 的核心是語義化和自動化兩個能力。通過語義化提供任意復(fù)雜指標(biāo)的配置化定義,通過自動化實現(xiàn)指標(biāo)的定義即開發(fā)。如果沒有性能問題,只要完成了語義化的定義,用戶就可以直接消費數(shù)據(jù)了,這個過程叫做定義及服務(wù)。如果數(shù)據(jù)量比較大,系統(tǒng)會自動化進(jìn)行寬表匯總表加工,來保證查詢性能,這就是第三代指標(biāo)平臺,將原來 ETL 人工開發(fā)變成了 NoETL 的自動化開發(fā)。

2. 第三代指標(biāo)平臺的價值

Aloudata(大應(yīng)科技)公司推出的第三代指標(biāo)平臺產(chǎn)品名為 Aloudata CAN,實現(xiàn)了 NoETL 的自動化生產(chǎn)。

指標(biāo)從定義到開發(fā)到應(yīng)用是一體化的,保證業(yè)務(wù)人員能夠看懂。原來業(yè)務(wù)人員做分析的時候,面對的是數(shù)據(jù)集、物理表、字段這種偏技術(shù)的概念,現(xiàn)在面對的是指標(biāo)和維度這些偏業(yè)務(wù)的概念,更容易理解。除了指標(biāo)的業(yè)務(wù)含義外,還提供指標(biāo)血緣,讓業(yè)務(wù)能夠清晰地了解指標(biāo)的加工過程和口徑。同時,如果指標(biāo)口徑發(fā)生了變更,平臺會保存所有的指標(biāo)版本,可以進(jìn)行歷史口徑版本的對比。

對于承擔(dān)數(shù)據(jù)管理職責(zé)的 IT 團(tuán)隊來講,能夠?qū)崿F(xiàn)管得住。原來大量的指標(biāo)邏輯是在數(shù)倉中由不同 IT 人員開發(fā)實現(xiàn)的,溝通協(xié)調(diào)比較復(fù)雜,需要花費很大的成本才能保證指標(biāo)口徑的一致性?,F(xiàn)在,針對同樣的指標(biāo)進(jìn)行不同維度的分析,只需要一次定義,就可以處處使用了。

同時,指標(biāo)是基于公共層的明細(xì)數(shù)據(jù)生成的,保留了原來在公共層事實表和維度表的靈活性與豐富度,同一個指標(biāo)能夠支持多個維度下鉆分析和任意維度的篩選組合,提供良好的用戶體驗。

第三代指標(biāo)平臺 Aloudata CAN 為業(yè)務(wù)帶來的價值可以總結(jié)為兩方面:

(1)基于 Aloudata CAN 實現(xiàn)數(shù)倉集市層 NoETL

圖片

指標(biāo)語義層替換傳統(tǒng)數(shù)倉中的集市層,通過指標(biāo)語義層實現(xiàn)自動化集市層開發(fā)。

在質(zhì)量方面做到百分之百的指標(biāo)口徑一致。因為所有指標(biāo)語義都是通過標(biāo)準(zhǔn)化、配置化的模板實現(xiàn)的,通過原子化指標(biāo)的組裝,系統(tǒng)能夠提供指標(biāo)重復(fù)校驗,方便知道指標(biāo)的計算邏輯是否一樣,規(guī)避了“同名不同義”、“同義不同名”等二義性問題。

在效率方面也得到了提升。原來指標(biāo)的開發(fā)依賴于 IT 人員,一體化后,將指標(biāo)的開發(fā)和定義能力交給業(yè)務(wù)人員去做,降低了 IT 與業(yè)務(wù)的溝通成本,提高了效率。

在成本方面做到了節(jié)約。原來反范式的加工方式導(dǎo)致大量重復(fù)的寬表和匯總表開發(fā),現(xiàn)在指標(biāo)語義層通過自動化的方式可以規(guī)避重復(fù)開發(fā)。比如原來集市層做了一百張寬表和匯總表,可能因為重復(fù)開發(fā),實際上只需要開發(fā)八十張表;八十張表里面,六十張表可以直接查詢無需物化,二十張表因為數(shù)據(jù)量比較大,系統(tǒng)可以自動化開發(fā)寬表和匯總表;又因為一開始 ETL 的時候不清楚業(yè)務(wù)想要什么,為避免因漏掉業(yè)務(wù)常用的維度而反復(fù)變更,會把冗余的維度放在事實表里面,造成字段利用率低?,F(xiàn)在系統(tǒng)按需進(jìn)行開發(fā),在相同的二十張寬表和匯總表里面可以減少冗余字段的開發(fā),大大節(jié)約計算和存儲成本。

(2)Aloudata CAN,提供智能且靈活的洞察分析

上述是從“不可能三角”的視角來看價值,更偏向于管理層和 IT 方面。業(yè)務(wù)人員能感知到的則是分析的靈活性和指標(biāo)數(shù)據(jù)的一致性。

圖片

原來做指標(biāo)歸因依賴數(shù)倉已經(jīng)開發(fā)的表,會有維度的缺失?;?Aloudata CAN 指標(biāo)平臺,只要是在公共層的維度表存在的維度,都可以用來做指標(biāo)歸因和下鉆分析,使得業(yè)務(wù)人員能夠找到指標(biāo)波動背后的根本原因。

原來做自助探索分析的時候,希望增加一個視角來看數(shù)據(jù),需要向 IT 提需求?,F(xiàn)在通過 Aloudata CAN 指標(biāo)平臺,可以從任意的顆粒度和維度進(jìn)行分析,甚至可以拿到背后的明細(xì)數(shù)據(jù)。

目前,有很多金融行業(yè)的頭部客戶都在嘗試用大模型打造新的對話式的體驗。原來通過 NL2SQL 的方式返回數(shù)據(jù),存在數(shù)據(jù)精準(zhǔn)度不夠的問題,會有答非所問的情況出現(xiàn)?,F(xiàn)在,基于 Aloudata CAN 指標(biāo)平臺,通過指標(biāo)語義層加大模型能為企業(yè)對話式分析帶來更為精準(zhǔn)的體驗。

四、第三代指標(biāo)平臺做輕數(shù)倉實踐

助力某證券公司實現(xiàn)指標(biāo)統(tǒng)一管理與復(fù)用。

圖片

該客戶面臨的挑戰(zhàn)是:

  • 指標(biāo)口徑不一致。原來,為了響應(yīng)不同的業(yè)務(wù)需求,相同的指標(biāo)有不同的開發(fā)鏈路,導(dǎo)致了指標(biāo)口徑的不一致。
  • 排查耗時。因為缺少指標(biāo)加工鏈路和指標(biāo)血緣,排查和定位指標(biāo)口徑工作量會特別大,耗費大量的時間。
  • 對業(yè)務(wù)來講,靈活性不夠,缺少分析所需要的各種維度。

通過 Aloudata CAN 指標(biāo)能夠解決這些問題。

  • 指標(biāo)規(guī)范管理,同一個指標(biāo)只需要定義一次。
  • 由業(yè)務(wù)人員定義派生指標(biāo)。IT 只需要進(jìn)行公共層事實表和維度表的數(shù)據(jù)模型開發(fā),并進(jìn)行最小顆粒度的原子指標(biāo)定義。業(yè)務(wù)人員可以根據(jù)自己想要的各種場景,基于指標(biāo)和維度自助地組裝出自己想要的派生指標(biāo),減少了很多 IT 的開發(fā)工作。

圖片

在傳統(tǒng)方式中,業(yè)務(wù)向 IT 提了三十個指標(biāo)和二十個維度的分析需求,IT 在溝通過程中發(fā)現(xiàn)其中的五個指標(biāo)和五個維度已經(jīng)開發(fā),只需要開發(fā)二十五個指標(biāo)和十五個維度。IT 完成開發(fā)后,交給業(yè)務(wù)人員驗收,業(yè)務(wù)人員發(fā)現(xiàn)指標(biāo)和維度可能少了,需要反復(fù)溝通,一般這個過程至少要循環(huán)往復(fù)兩到三輪。這樣的模式下,從需求提出到交付驗收需要兩周的周期。

通過 Aloudata CAN 指標(biāo)平臺不斷地沉淀已經(jīng)定義好的指標(biāo)和維度,IT 就能越做越輕。同樣面對業(yè)務(wù)提出的三十個指標(biāo)和二十個維度的分析需求,發(fā)現(xiàn)二十五個基礎(chǔ)指標(biāo)已經(jīng)定義,而且基于基礎(chǔ)指標(biāo)的維度都已存在,就可以請業(yè)務(wù)通過拖拉拽進(jìn)行自助分析了。針對原來沒有進(jìn)行基礎(chǔ)指標(biāo)定義的五個指標(biāo),雙方要溝通指標(biāo)口徑定義,因為是原子指標(biāo),業(yè)務(wù)邏輯并不復(fù)雜,所以溝通過程也會很簡單。而且,IT 定義完指標(biāo)后,業(yè)務(wù)可以實時進(jìn)行指標(biāo)預(yù)覽,業(yè)務(wù)人員能快速看到指標(biāo)是否符合預(yù)期,并且可以切換不同的維度去看,如果符合預(yù)期,業(yè)務(wù)就可以驗收并進(jìn)行數(shù)據(jù)分析了。

傳統(tǒng)的數(shù)倉基于反范式模式的開發(fā),IT 越做越重,因為表越來越多,鏈路的依賴越來越長,問題排查也越來越難。基于指標(biāo)語義層,數(shù)倉可以越做越輕,一旦做好原子指標(biāo)的沉淀,就會越做越少,越做越輕松。分析效率有顯著的提升,從原來的兩周縮短到了兩天。

對于整個行業(yè)來說,可以提升創(chuàng)新試錯的效率。原來一輪試錯可能要一個月,現(xiàn)在可能僅用一周即可完成。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2009-04-11 21:45:24

2013-12-09 09:56:42

Vidyo

2024-05-22 09:48:04

2012-05-31 14:13:05

2011-05-31 16:46:09

投影機(jī)推薦

2009-10-14 09:35:11

Linux發(fā)行版操作系統(tǒng)

2014-03-14 11:22:08

Avalon芯片A3233

2010-09-28 10:53:07

Cisco WAAS

2011-10-27 12:17:50

2009-05-22 08:30:46

iPhone移動OS蘋果

2011-09-08 10:37:08

飛魚星智能流控帶寬

2021-01-19 09:56:30

AI知識圖譜

2015-08-24 09:35:18

微軟

2018-04-26 20:34:20

2015-08-05 16:34:10

東芝

2011-07-22 09:43:34

控制器XIVIBM

2020-07-17 11:01:01

云原生阿里云神龍

2024-03-22 13:20:30

模型訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號