企業(yè)知識(shí)圖譜面臨的機(jī)遇、挑戰(zhàn)及解決方案
譯文【51CTO.com快譯】作為提高企業(yè)的運(yùn)營(yíng)效率和業(yè)務(wù)部門競(jìng)爭(zhēng)力的必備工具,企業(yè)知識(shí)圖譜(Enterprise Knowledge Graphs,EKG)正日益被廣泛地運(yùn)用在協(xié)調(diào)組織內(nèi)、外部數(shù)據(jù)的不同場(chǎng)景中。不過(guò),作為事物的另一面,EKG的弊端則主要體現(xiàn)在:業(yè)務(wù)部門可能難以對(duì)其進(jìn)行開發(fā)、維護(hù)、以及擴(kuò)展。本文介紹了EKG目前尚存在的各種挑戰(zhàn),以及如何使用原生的多模型數(shù)據(jù)庫(kù)所提供的靈活的數(shù)據(jù)表示,來(lái)解決這些挑戰(zhàn)(請(qǐng)參見(jiàn)圖1)。
圖1:多模型知識(shí)圖譜能夠在一個(gè)系統(tǒng)中融合多種數(shù)據(jù)表示
什么是企業(yè)知識(shí)圖譜?
目前,知識(shí)圖譜已經(jīng)為Google、Apple、Facebook、Twitter、MicroSoft、Linkedin、Ebay以及阿里巴巴等公司創(chuàng)造了數(shù)萬(wàn)億美元的財(cái)富。它們主要是通過(guò)自行研發(fā)技術(shù)棧(technology stacks)來(lái)支持知識(shí)圖譜。相對(duì)于開源的EKG,商業(yè)化圖形數(shù)據(jù)庫(kù)產(chǎn)品的開發(fā),則是根據(jù)行業(yè)或企業(yè)特定的知識(shí)模型,來(lái)協(xié)調(diào)組織的內(nèi)容、數(shù)據(jù)、以及信息資產(chǎn)。
EKG通常表示某個(gè)組織的知識(shí)領(lǐng)域,以及那些可被人工和機(jī)器理解的組件。它是對(duì)本組織的知識(shí)資產(chǎn)、內(nèi)容和數(shù)據(jù)的參考集合。此類集合利用某種數(shù)據(jù)模型來(lái)描述人員、地點(diǎn)、事物、以及它們之間的關(guān)系。
雖然許多企業(yè)都部署了各種類型的業(yè)務(wù)知識(shí)圖譜(business knowledge graph,BKG)方案,但是并非所有的圖譜都能叫做EKG。EKG的主要驅(qū)動(dòng)力源自:為滿足特定業(yè)務(wù)需求而構(gòu)建定制化的知識(shí)圖譜。如果說(shuō)BKG主要旨在支持那些細(xì)分的業(yè)務(wù)用例,那么EKG則旨在向多個(gè)業(yè)務(wù)部門提供高質(zhì)量的統(tǒng)一數(shù)據(jù),以及多種用例。在下一節(jié)中,我們將討論在利用EKG支持業(yè)務(wù)用例時(shí),所面臨的挑戰(zhàn)和機(jī)遇。
EKG的挑戰(zhàn)與機(jī)遇
對(duì)于業(yè)務(wù)部門而言,由于EKG包含了來(lái)自多個(gè)數(shù)據(jù)源的高凈值數(shù)據(jù),因此它省去了為支持業(yè)務(wù)用例而集成數(shù)據(jù)源所使用的時(shí)間和精力。目前許多EKG方案都能夠根據(jù)企業(yè)的概念模型,來(lái)協(xié)調(diào)多個(gè)截然不同的異構(gòu)源系統(tǒng)。這些原始數(shù)據(jù)通常被暫存在諸如Hadoop/HDFS、S3等分布式的存儲(chǔ)系統(tǒng)上,中間件群集會(huì)將這些數(shù)據(jù)提取并轉(zhuǎn)換(Extract Transform Load,ETL)到圖形數(shù)據(jù)庫(kù)的群集之中。
由于EKG能夠支持諸如企業(yè)級(jí)搜索之類的應(yīng)用,因此它們需要提取和轉(zhuǎn)換各種格式(如:文檔、表格、鍵值和圖形)的EKG數(shù)據(jù),以支持業(yè)務(wù)應(yīng)用。
圖2:在協(xié)調(diào)圖譜和提供數(shù)據(jù)時(shí),可能產(chǎn)生不匹配的現(xiàn)象
由于企業(yè)往往難以將數(shù)據(jù)協(xié)調(diào)成為EKG所需的復(fù)雜多源數(shù)據(jù),因此EKG常常無(wú)法發(fā)揮出其全部的潛力。同時(shí),業(yè)務(wù)用戶不但難以應(yīng)對(duì)復(fù)雜且生疏的知識(shí)圖譜表示形式,而且缺乏使用它們的工具。雖然企業(yè)可以通過(guò)付出巨大的努力,將數(shù)十個(gè)、乃至數(shù)百個(gè)數(shù)據(jù)源整合到一個(gè)EKG中,并且解決諸如數(shù)據(jù)出處、以及權(quán)限保留之類的數(shù)據(jù)治理問(wèn)題,因此業(yè)務(wù)部門在充分利用高質(zhì)量EKG數(shù)據(jù)過(guò)程種,面臨著“最后一百米”的巨大挑戰(zhàn)。
其實(shí),問(wèn)題的本質(zhì)在于,從數(shù)據(jù)到圖形的“全有或全無(wú)”轉(zhuǎn)換過(guò)程,會(huì)導(dǎo)致源數(shù)據(jù)表示形式與EKG之間、以及EKG與業(yè)務(wù)部門希望的數(shù)據(jù)處理方式之間的不匹配(見(jiàn)圖2)狀況?;诙嗄P偷腅KG,通過(guò)允許知識(shí)圖譜中表示形式的多樣性,來(lái)減少數(shù)據(jù)的不匹配。據(jù)此,圖譜將得以靈活地進(jìn)行增量協(xié)調(diào),而業(yè)務(wù)部門也能夠按需對(duì)數(shù)據(jù)進(jìn)行最少的轉(zhuǎn)換。
多個(gè)數(shù)據(jù)源被協(xié)調(diào)到圖譜中的挑戰(zhàn)
企業(yè)需要協(xié)調(diào)好大量不同的數(shù)據(jù)源。通常情況下,被統(tǒng)一的相關(guān)數(shù)據(jù)源越多,對(duì)企業(yè)的潛在價(jià)值也就越大。當(dāng)然,將數(shù)據(jù)協(xié)調(diào)到圖譜的成本,也會(huì)隨著數(shù)據(jù)源數(shù)量的增加而呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)。這就是為什么企業(yè)渴望找到能夠?qū)?shù)據(jù)進(jìn)行自動(dòng)協(xié)調(diào),以及通過(guò)敏捷應(yīng)用,來(lái)按需提供數(shù)據(jù)的協(xié)調(diào)方法。
圖3:EKG的數(shù)據(jù)協(xié)調(diào)工作量會(huì)隨著數(shù)據(jù)源數(shù)量而呈現(xiàn)出指數(shù)級(jí)的增長(zhǎng)
可見(jiàn),我們需要通過(guò)復(fù)雜的知識(shí)表示形式,來(lái)表示不同數(shù)據(jù)的細(xì)微差別,并標(biāo)準(zhǔn)化圖譜結(jié)構(gòu)。供知識(shí)圖譜使用與聯(lián)合的所有源數(shù)據(jù),都需要被轉(zhuǎn)換成為單模型圖形數(shù)據(jù)庫(kù)中的圖表結(jié)構(gòu)。當(dāng)然,將源數(shù)據(jù)映射到這些復(fù)雜的知識(shí)圖譜表示形式是需要時(shí)間、精力、以及知識(shí)儲(chǔ)備的。
如下圖4所示,由于需要大量的資源,EKG的生成過(guò)程可能會(huì)影響到圖形數(shù)據(jù)庫(kù)的擴(kuò)展性能。在實(shí)際應(yīng)用中,總會(huì)有超過(guò)圖形數(shù)據(jù)庫(kù)擴(kuò)展能力的海量數(shù)據(jù),尤其是存儲(chǔ)鍵值和文檔等實(shí)際數(shù)據(jù)的時(shí)候。
圖4:圖形處理數(shù)據(jù)的復(fù)雜度與文檔、鍵值的處理能力關(guān)系
基于上述原因,多模型數(shù)據(jù)庫(kù)恰好能夠以按需擴(kuò)容和簡(jiǎn)化圖形表示的方式,來(lái)融合各種鍵值、文檔、聯(lián)接(join)、以及圖形數(shù)據(jù)模型。例如:當(dāng)用純圖形表示時(shí),企業(yè)內(nèi)部的網(wǎng)絡(luò)安全信息會(huì)逐年以數(shù)萬(wàn)億條“邊(edge)”的速度增長(zhǎng)。那么在結(jié)合了圖形、文檔和聯(lián)接之后,同一個(gè)企業(yè)網(wǎng)絡(luò)安全的圖譜則可能以數(shù)十億條“邊”來(lái)表示。
企業(yè)在尋找減少開發(fā)和維護(hù)EKG所需工作量的過(guò)程中,往往會(huì)捫心自問(wèn)如下問(wèn)題:
- 我們可以自動(dòng)將源數(shù)據(jù)進(jìn)行分類、映射和轉(zhuǎn)換為知識(shí)圖譜嗎?
- 在概念模型出現(xiàn)變化時(shí),我們能夠自動(dòng)重構(gòu)EKG嗎?
- 我們能夠搜索數(shù)據(jù)源、知識(shí)圖譜,進(jìn)而精選數(shù)據(jù)嗎?
鑒于目前尚無(wú)可用于將數(shù)據(jù)自動(dòng)協(xié)調(diào)為圖形的實(shí)用方案,EKG必須是整體化的圖模型,并且所有數(shù)據(jù)都必須被轉(zhuǎn)換為圖才能真正有用。同時(shí),通過(guò)允許包含其他類型的數(shù)據(jù)模型,我們可以減少EKG的部署和維護(hù)工作,增加EKG的潛在規(guī)模,并且提高EKG開發(fā)和維持的靈活性與敏捷性。另外,通過(guò)讓其他數(shù)據(jù)模型的知識(shí)圖譜將分段數(shù)據(jù)和圖形存儲(chǔ)在同一數(shù)據(jù)庫(kù)中,我們能夠以敏捷和迭代的方式進(jìn)行圖形的協(xié)調(diào)。
讓EKG易用的挑戰(zhàn)
如前文所述,業(yè)務(wù)用戶難以應(yīng)對(duì)復(fù)雜且生疏的知識(shí)圖譜的表示形式,而且缺乏使用它們的工具。在實(shí)際使用中,他們常會(huì)碰到如下EKG問(wèn)題:
- 它能夠與我現(xiàn)有的工具一起使用嗎?
- 我的開發(fā)人員會(huì)知道如何使用它嗎?
- 我如何能夠找到相關(guān)的數(shù)據(jù)?
- 如何綁定所需的數(shù)據(jù)?
- 如何獲得所需的數(shù)據(jù)格式?
上述挑戰(zhàn)的實(shí)質(zhì)源于:在EKG與業(yè)務(wù)部門需要使用和處理的數(shù)據(jù)方式之間,存在不匹配的狀況。例如:某家企業(yè)可能需要2017年1月至2019年12月的所有交易信息,并要求此類數(shù)據(jù)能夠以特定文檔結(jié)構(gòu)(如JSON文檔集合)的形式提供出來(lái)。由于不想額外地學(xué)習(xí)或使用圖形查詢語(yǔ)言來(lái)達(dá)到該目的,因此他們需要一種“數(shù)據(jù)購(gòu)物”的體驗(yàn)。即:通過(guò)訪問(wèn)EKG商店,并使用多重過(guò)濾器在EKG的目錄中搜索數(shù)據(jù),然后他們根據(jù)EKG商店推薦的數(shù)據(jù)集,來(lái)補(bǔ)充現(xiàn)有的數(shù)據(jù),并指定獲取數(shù)據(jù)的方式與時(shí)間。
多模型企業(yè)知識(shí)圖譜
多模型企業(yè)圖譜(Multi-model enterprise graphs,MMEKG)可以通過(guò)讓用戶在同一個(gè)生態(tài)系統(tǒng)中混合和管理數(shù)據(jù)源、EKG、以及數(shù)據(jù)的表示形式,以解決前面提到的各種問(wèn)題。
減少時(shí)間和成本
MMEKG能夠按需對(duì)圖進(jìn)行延遲轉(zhuǎn)換。由于允許在邊和頂點(diǎn)中包含不同的文檔,因此多模型圖譜能夠減小圖的大小。據(jù)此,EKG也可以使用敏捷迭代的過(guò)程來(lái)進(jìn)行開發(fā)。
圖5:使用多模型圖譜能夠更有效地協(xié)調(diào)知識(shí)圖譜的數(shù)據(jù)
減少計(jì)算資源
如下圖6所示,EKG解決方案通常需要使用單獨(dú)的數(shù)據(jù)系統(tǒng),來(lái)進(jìn)行stage、圖形ETL、圖形管理、以及將數(shù)據(jù)傳遞給業(yè)務(wù)部門使用。MMEKG可以有效地消除源數(shù)據(jù)、知識(shí)圖譜、以及精選的業(yè)務(wù)數(shù)據(jù)之間存在的不匹配狀況。它不但可以在同一個(gè)系統(tǒng)中管理數(shù)據(jù),而且能夠減少轉(zhuǎn)換的延遲,并使得所有的數(shù)據(jù)都可以被搜索。可見(jiàn),它降低了使用單獨(dú)的集群來(lái)進(jìn)行stage,轉(zhuǎn)換,圖形化,以及業(yè)務(wù)應(yīng)用的相關(guān)成本(請(qǐng)參見(jiàn)圖7)。
圖6:典型的EKG生態(tài)系統(tǒng)會(huì)使用多個(gè)系統(tǒng)來(lái)進(jìn)行stage和轉(zhuǎn)換
圖7:可以在同一多模型數(shù)據(jù)庫(kù)中管理源數(shù)據(jù)、EKG、以及業(yè)務(wù)數(shù)據(jù)
使用方便
由于多模型使得源數(shù)據(jù)、知識(shí)圖譜和業(yè)務(wù)應(yīng)用數(shù)據(jù),能夠在同一個(gè)數(shù)據(jù)系統(tǒng)中被搜索和找到,因此業(yè)務(wù)用戶可以采用自己的格式去使用數(shù)據(jù),而不必了解復(fù)雜的企業(yè)圖譜模型。
數(shù)據(jù)沿襲(data lineage)
同樣由于采用了同一個(gè)多模型系統(tǒng)進(jìn)行數(shù)據(jù)的stage,轉(zhuǎn)換和交付,因此跟蹤數(shù)據(jù)的沿襲也變得容易了許多。
增強(qiáng)現(xiàn)有的EKG
具有RDF(Resource Description Framework,資源描述框架)類EKG的企業(yè),完全可以保留現(xiàn)有的投入,并在MMEKG中加以利用。因?yàn)槎嗄P蛨D是RDF基于帶標(biāo)記的有向圖的超集,因此模型數(shù)據(jù)庫(kù)可以吸收RDF的本體和RDF的EKG。類似地,多模型圖也包含有屬性圖,因此方便了吸收那些基于屬性圖的EKG。
圖8:多模型的EKG可以提取RDF,以及基于屬性圖的EKG
總結(jié)
多模型(Multi-model)可謂針對(duì)EKG的實(shí)用技術(shù),其優(yōu)勢(shì)包括讓EKG的多源數(shù)據(jù)更加流暢,提高EKG數(shù)據(jù)在業(yè)務(wù)用例中的可用性,通過(guò)混合模型實(shí)現(xiàn)更高的可擴(kuò)展性,以及減少EKG生態(tài)系統(tǒng)的復(fù)雜度。
原文標(biāo)題:The Multi-Model Knowledge Graph,作者:Arthur Keen & Jan Stuecke
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】