譯者 | 晶顏
審校 | 重樓
據(jù)Gartner數(shù)據(jù)顯示,不良數(shù)據(jù)每年給企業(yè)造成1290萬美元的損失。因此,數(shù)據(jù)領(lǐng)導(dǎo)者幾十年來一直在為他們的商業(yè)智能(BI)和分析尋找單一的事實(shí)來源,以確保每個(gè)人都基于相同的數(shù)據(jù)和定義做出業(yè)務(wù)決策。
為了使數(shù)據(jù)保持一致性,BI提供商引入了語(yǔ)義層的概念,即在用行、列和字段名描述的原始數(shù)據(jù)之間的抽象層,只有數(shù)據(jù)專家才能理解,并為業(yè)務(wù)用戶提供見解。語(yǔ)義層隱藏了數(shù)據(jù)的復(fù)雜性,并將其映射到業(yè)務(wù)定義、邏輯和關(guān)系。它允許業(yè)務(wù)用戶使用收入和利潤(rùn)等標(biāo)準(zhǔn)術(shù)語(yǔ)進(jìn)行自助分析。
語(yǔ)義層激增
如今,BI工具及其相關(guān)的語(yǔ)義層激增,證實(shí)了語(yǔ)義層是一個(gè)備受歡迎的發(fā)展趨勢(shì)。上世紀(jì)90年代,BusinessObjects在SAP BusinessObjects中構(gòu)建了第一個(gè)輕量級(jí)語(yǔ)義層。問題在于,早期的BI套件(如businessojects)是單一的,且用戶界面不是特別友好。失望的用戶轉(zhuǎn)而采用了Tableau、Power BI和Looker,因?yàn)樗鼈兊囊子眯缘玫搅颂岣?。今天的問題是,這些工具已經(jīng)在組織中不斷發(fā)展和演變,粉碎了所有關(guān)于單一真相來源的希望。
現(xiàn)在,組織的不同部分使用不同的BI、分析和數(shù)據(jù)科學(xué)工具,創(chuàng)建獨(dú)特的數(shù)據(jù)定義、維度、度量、邏輯和上下文。獨(dú)立的團(tuán)隊(duì)也分別管理他們自己的語(yǔ)義層。這將導(dǎo)致用戶組之間在數(shù)據(jù)解釋、業(yè)務(wù)邏輯和定義方面的差異,從而對(duì)來自數(shù)據(jù)的報(bào)告和情報(bào)產(chǎn)生不信任情緒。
此外,這種不一致性也經(jīng)常導(dǎo)致團(tuán)隊(duì)之間的混亂。例如,活躍客戶是否為您的服務(wù)購(gòu)買了持續(xù)付費(fèi)訂閱?或者是最近七天內(nèi)登錄過的人?或者有人已經(jīng)注冊(cè)了七天免費(fèi)試用?不一致的定義會(huì)影響財(cái)務(wù)團(tuán)隊(duì)的計(jì)費(fèi)目的,影響續(xù)訂團(tuán)隊(duì)的客戶識(shí)別,影響處理和準(zhǔn)確報(bào)告銷售產(chǎn)品的操作。
數(shù)據(jù)倉(cāng)庫(kù)中語(yǔ)義層的興起
或許是覺得數(shù)據(jù)環(huán)境還不夠復(fù)雜,數(shù)據(jù)架構(gòu)師開始在數(shù)據(jù)倉(cāng)庫(kù)中也實(shí)現(xiàn)了語(yǔ)義層。架構(gòu)師可能會(huì)認(rèn)為他們管理的數(shù)據(jù)資產(chǎn)是所有用例的唯一真實(shí)來源。然而,通常情況并非如此,因?yàn)閿?shù)以百萬計(jì)的非規(guī)范化表結(jié)構(gòu)通常不是“業(yè)務(wù)就緒”(business-ready)的。當(dāng)語(yǔ)義層嵌入到各種倉(cāng)庫(kù)中時(shí),數(shù)據(jù)工程師必須通過設(shè)計(jì)和維護(hù)數(shù)據(jù)管道來將分析用例與數(shù)據(jù)連接起來,通過轉(zhuǎn)換生成“分析就緒”(analytics-ready)的數(shù)據(jù)。
如果沒有一致的語(yǔ)義層,數(shù)據(jù)工程師就會(huì)在他們專門構(gòu)建的管道中硬編碼語(yǔ)義,以支持他們的數(shù)據(jù)消費(fèi)者。語(yǔ)義含義(定義)將很快變得靜態(tài)和不靈活,使得集中式架構(gòu)團(tuán)隊(duì)難以跟上不同工作組特定領(lǐng)域的需求。隨著規(guī)模的擴(kuò)大,代碼會(huì)變得難以管理和不一致。這種方法會(huì)導(dǎo)致延遲和依賴,從而阻礙基于數(shù)據(jù)的決策。
本地化的語(yǔ)義層進(jìn)一步擴(kuò)展
更大的挑戰(zhàn)是,隨著數(shù)據(jù)倉(cāng)庫(kù)遷移至云端,用戶查詢可能變得非常緩慢。緩慢的性能迫使業(yè)務(wù)用戶提取數(shù)據(jù)并將其加載到他們首選的分析平臺(tái)中,以便實(shí)現(xiàn)更輕松地操作和更快地查詢,從而在本地化的語(yǔ)義層中進(jìn)一步擴(kuò)展語(yǔ)義。
在今天的大多數(shù)情況下,在數(shù)據(jù)堆棧周圍都有一些語(yǔ)義層——云數(shù)據(jù)倉(cāng)庫(kù)中有一些,轉(zhuǎn)換管道中有一些,每個(gè)BI工具中都有一些。由于數(shù)據(jù)工程師每次設(shè)計(jì)新的數(shù)據(jù)管道時(shí)都要重新創(chuàng)建常見的業(yè)務(wù)概念(例如,逐年預(yù)測(cè)或貨幣轉(zhuǎn)換),這種語(yǔ)義蔓延造成了極大的效率低下。每當(dāng)需要回答涉及不同數(shù)據(jù)定義或業(yè)務(wù)邏輯的新業(yè)務(wù)問題時(shí),數(shù)據(jù)團(tuán)隊(duì)都需要不斷地重新創(chuàng)建散布在各種語(yǔ)義層中的公共業(yè)務(wù)概念,這種重復(fù)性的工作不僅浪費(fèi)時(shí)間和資源,還會(huì)導(dǎo)致數(shù)據(jù)團(tuán)隊(duì)產(chǎn)生倦怠情緒。
創(chuàng)建通用語(yǔ)義層
我們需要的是一個(gè)通用的語(yǔ)義層,為所有可能的數(shù)據(jù)體驗(yàn)定義所有指標(biāo)和元數(shù)據(jù):可視化工具、面向客戶的分析、嵌入式分析和人工智能代理。使用通用語(yǔ)義層,業(yè)務(wù)中的每個(gè)人都同意“客戶”和“潛在客戶”等術(shù)語(yǔ)的標(biāo)準(zhǔn)定義集,以及數(shù)據(jù)之間的標(biāo)準(zhǔn)關(guān)系(標(biāo)準(zhǔn)業(yè)務(wù)邏輯和定義),因此數(shù)據(jù)團(tuán)隊(duì)可以構(gòu)建一個(gè)一致的語(yǔ)義數(shù)據(jù)模型。
通用語(yǔ)義層位于數(shù)據(jù)倉(cāng)庫(kù)之上,為各種數(shù)據(jù)應(yīng)用程序提供數(shù)據(jù)語(yǔ)義(上下文)。它可以與轉(zhuǎn)換工具無縫協(xié)作,允許企業(yè)定義指標(biāo)、準(zhǔn)備數(shù)據(jù)模型,并將其公開給不同的BI和分析工具。
為了構(gòu)建通用語(yǔ)義層,數(shù)據(jù)團(tuán)隊(duì)必須首先建立業(yè)務(wù)邏輯、運(yùn)算和上下文,這些都將進(jìn)入語(yǔ)義數(shù)據(jù)模型。他們首先要了解業(yè)務(wù)需要解決的實(shí)際問題,收集必要的數(shù)據(jù),然后對(duì)數(shù)據(jù)之間的關(guān)系進(jìn)行編碼,并定義治理和安全策略,以啟用可信訪問。之后,他們使用元數(shù)據(jù)在數(shù)據(jù)上構(gòu)建抽象層,以便向下游數(shù)據(jù)消費(fèi)者一致地公開維度、層次結(jié)構(gòu)和運(yùn)算。
一旦建立了底層數(shù)據(jù)和語(yǔ)義,通用語(yǔ)義層必須與數(shù)據(jù)消費(fèi)者集成,例如生成式AI、BI、電子表格和嵌入式分析。Cube Cloud是一個(gè)通用的語(yǔ)義層平臺(tái),提供了大量預(yù)構(gòu)建的集成和強(qiáng)大的API套件,因此企業(yè)可以一次建模數(shù)據(jù)并將其交付到任何地方。它還提供了大量開發(fā)人員工具,使協(xié)作和構(gòu)建數(shù)據(jù)模型、設(shè)置緩存和預(yù)聚合以及維護(hù)數(shù)據(jù)訪問控制變得更加容易。
通用語(yǔ)義層的好處
有了通用語(yǔ)義層,數(shù)據(jù)團(tuán)隊(duì)就有了更多的治理和控制權(quán),如果實(shí)施得當(dāng),終端用戶可以從數(shù)據(jù)中獲得更多價(jià)值,減少團(tuán)隊(duì)之間的誤解。這提高了效率,并確保所有數(shù)據(jù)消費(fèi)場(chǎng)所都使用相同的、準(zhǔn)確的數(shù)據(jù)。因此,無論數(shù)據(jù)是由查看儀表板的人使用,還是由向某人提供問題答案的大型語(yǔ)言模型使用,數(shù)據(jù)都是一致的。
所有這些都使得數(shù)據(jù)團(tuán)隊(duì)可以更輕松地將數(shù)據(jù)快速交付給他們?cè)趦?nèi)部和外部工作的各種消費(fèi)者。數(shù)據(jù)團(tuán)隊(duì)可以輕松地更新或定義新的度量標(biāo)準(zhǔn),設(shè)計(jì)特定于領(lǐng)域的數(shù)據(jù)視圖,并合并新的原始數(shù)據(jù)源。他們還可以執(zhí)行治理策略,包括訪問控制、定義和性能。
另一個(gè)好處是:隨著數(shù)據(jù)量的激增,云計(jì)算的成本也在飆升。通用語(yǔ)義層通過預(yù)處理或預(yù)聚合數(shù)據(jù)、存儲(chǔ)常用的業(yè)務(wù)指標(biāo)并將其用作分析的基礎(chǔ)來解決這個(gè)問題,從而降低了云數(shù)據(jù)費(fèi)用。通用語(yǔ)義層還在企業(yè)范圍的數(shù)據(jù)上提供了異常高的性能和低延遲,加快了用戶查詢的速度。
結(jié)語(yǔ)
我們需要一個(gè)通用的語(yǔ)義層來支持下一代數(shù)據(jù)驅(qū)動(dòng)的應(yīng)用程序,并接受這樣一個(gè)現(xiàn)實(shí):將有許多不同的工具來可視化和使用這些數(shù)據(jù),以及存儲(chǔ)這些數(shù)據(jù)的許多不同數(shù)據(jù)源。最后,通用語(yǔ)義層可以為企業(yè)指標(biāo)創(chuàng)建一個(gè)單一的事實(shí)來源,為決策者提供他們需要的數(shù)據(jù),以獲得一致、快速和準(zhǔn)確的答案。
原文標(biāo)題:Overcoming data inconsistency with a universal semantic layer,作者:Artyom Keydunov