模式設(shè)計(jì)和原則在知識(shí)圖譜中的應(yīng)用
知識(shí)圖譜是一種非常強(qiáng)大的表示工具,它可以通過(guò)一張圖表達(dá)復(fù)雜的概念,這就是為什么常說(shuō)“一圖勝千言”。但是,如果我們?cè)跊](méi)有明確定義的模式下創(chuàng)建知識(shí)圖譜,就會(huì)存在一些問(wèn)題。這就是為什么需要一種模式來(lái)限制鏈接的類型,充當(dāng)文檔,提供和機(jī)器可讀的語(yǔ)義,并確保軟件按照預(yù)期的方式來(lái)組織信息。
對(duì)于知識(shí)圖譜而言,良好的模式設(shè)計(jì)比關(guān)系數(shù)據(jù)庫(kù)更為重要和核心。不幸的是,對(duì)于如何完成相對(duì)簡(jiǎn)單的任務(wù)而言,目前缺乏詳細(xì)的指導(dǎo)。根據(jù)我的經(jīng)驗(yàn),我想至少提供一些幫助。
為了更好地了解模式設(shè)計(jì)的模式和原則,我們可以使用TerminusCMS。雖然其中許多想法也適用于其他領(lǐng)域。
文檔(Documents)
在知識(shí)圖譜TerminusDB中,數(shù)據(jù)被視為由具有特定數(shù)據(jù)類型的字段組成的基本單元,這些字段可以是字符串、整數(shù)或日期等類型。這些基本單元會(huì)被組織成一個(gè)數(shù)據(jù)集合,稱為“文檔”。
舉個(gè)例子,我們可以看看“Person”文檔,以更好地理解這個(gè)概念。
這個(gè)人的信息包括姓名和出生日期,類似于關(guān)系型數(shù)據(jù)庫(kù)(RDBMS)或逗號(hào)分隔值(CSV)文件中的行記錄。為了讓數(shù)據(jù)更加豐富,可以添加一些額外的鏈接。
在知識(shí)圖譜中,我們可以將人與他們的朋友之間建立鏈接。這種數(shù)據(jù)結(jié)構(gòu)非常適合用于社交網(wǎng)絡(luò)或聯(lián)系人管理應(yīng)用程序。我們可以將每個(gè)人視為一個(gè)文檔,其中包含許多數(shù)據(jù)屬性,例如姓名和出生日期。此外,我們可以在文檔中添加指向其他文檔的鏈接,以建立人與他們的朋友之間的聯(lián)系。這種建模方式非常簡(jiǎn)單和靈活,讓我們能夠方便地捆綁所有的數(shù)據(jù)屬性和鏈接在一起。
子文檔(Subdocuments)
有時(shí),您需要在文檔中包含一個(gè)內(nèi)部結(jié)構(gòu),這個(gè)結(jié)構(gòu)不僅僅是一個(gè)數(shù)據(jù)原子,而是與該對(duì)象有緊密聯(lián)系,而不只是指向另一個(gè)對(duì)象的鏈接。這種類型的對(duì)象最常見(jiàn)的變體是注釋了一些附加結(jié)構(gòu)的數(shù)據(jù)。例如,我們可能希望在某個(gè)時(shí)間范圍內(nèi)得到數(shù)據(jù)點(diǎn),該數(shù)據(jù)點(diǎn)具有特定的來(lái)源或可能有一個(gè)單位。
有時(shí)候一個(gè)數(shù)據(jù)原子的值本身并沒(méi)有意義,但是在特定對(duì)象的上下文中卻很有用,例如人的身高。為了表達(dá)這種內(nèi)在聯(lián)系,我們可以使用子文檔,它可以將數(shù)據(jù)與額外的結(jié)構(gòu)注釋關(guān)聯(lián)起來(lái)。使用"@subdocument" : []指定一個(gè)子文檔類,這個(gè)子文檔將完全屬于包含類,不允許其他人對(duì)其進(jìn)行引用,并且當(dāng)我們搜索包含文檔時(shí),它將始終以完全擴(kuò)展的 JSON 文檔返回。
您可能已經(jīng)發(fā)現(xiàn),“height”和“weight”都被表示為“UnitValue”,但是可能沒(méi)有使用正確的單位。為了確保單位的正確性,我們正在加入一些限制。
關(guān)系(Relationships)
并非所有關(guān)系都可以簡(jiǎn)化為一個(gè)簡(jiǎn)單的鏈接。xsd:decimal是表示數(shù)字的一種數(shù)據(jù)類型,然而,對(duì)于復(fù)雜的關(guān)系,通??梢允褂米游臋n來(lái)表示它們,就像我們使用單位裝飾基本類型以添加輔助信息一樣。如果您有一個(gè)復(fù)雜的關(guān)系,將其升級(jí)為一級(jí)對(duì)象通常是有意義的。例如,假設(shè)我們要表示股權(quán)關(guān)系,我們可以使用子文檔來(lái)描述持股人、股票數(shù)量、股份轉(zhuǎn)讓條款等詳細(xì)信息。
我們的Shareholding關(guān)系包含兩個(gè)不同的角色:持股公司和股東,他們可以是個(gè)人或公司。此外,我們還添加了關(guān)于這個(gè)關(guān)系的兩個(gè)附加信息:持股數(shù)量和持有時(shí)間。這種一流關(guān)系鏈接的方法可以擴(kuò)展到處理超圖,即涉及兩個(gè)或更多對(duì)象的關(guān)系(例如接管)。
混合(Mixins):面向方面編程的多重繼承
在編程語(yǔ)言中,多重繼承是一種有效的工具,但在數(shù)據(jù)處理中,它更加實(shí)用。混合是數(shù)據(jù)建模中可重復(fù)使用的一種方法,可以用來(lái)解決一些通用問(wèn)題,例如空間、時(shí)間、來(lái)源和單位等。在我的建模經(jīng)驗(yàn)中,我發(fā)現(xiàn)這些通用問(wèn)題在數(shù)據(jù)建模中屢次出現(xiàn),它們是跨多個(gè)領(lǐng)域的共同問(wèn)題。
時(shí)域范圍(Temporal Scope)
上面的例子Shareholding使用了時(shí)間組件,但該組件也可作為mixin(混入)在其他地方重用。mixin是一種可組合的代碼單元,可在不同類或?qū)ο笾羞M(jìn)行重復(fù)利用,以實(shí)現(xiàn)更高的代碼復(fù)用性和靈活性。因此,將時(shí)間組件提取為mixin可以在其他數(shù)據(jù)建模中方便地進(jìn)行復(fù)用,提高建模效率和代碼質(zhì)量。
在數(shù)據(jù)建模中,時(shí)間范圍的起始日期(from)是必須要有的,因?yàn)樗枋隽艘恍┦虑榈拈_(kāi)始時(shí)間。但是,結(jié)束日期(to)是可選的,這樣可以建模尚未結(jié)束的時(shí)間范圍。當(dāng)然,并不總是需要這樣做,但通常這是一種非常有用的方法。
此外,我們可能還需要建模只發(fā)生一次的事件,即在某個(gè)特定時(shí)刻發(fā)生且不再重復(fù)發(fā)生的事件,例如一個(gè)人的生日或一場(chǎng)比賽的開(kāi)始時(shí)間。
空間范圍(spatial scope)
在知識(shí)圖譜中,我們可以利用幾何形狀為對(duì)象添加空間范圍,這可以通過(guò)繼承來(lái)實(shí)現(xiàn)。我們可以將不同的幾何形狀組合在一起來(lái)表示空間范圍,例如矩形、圓形或多邊形。這種方法使我們能夠描述一個(gè)實(shí)體或概念在地理上的位置或空間范圍。
在這個(gè)上下文中,“Geometry”所指的是GeoJson中的一個(gè)類,具體指的是“Geometry類”。
溯源(Provenance)
為了更好地了解某些信息,通常需要記錄相關(guān)資源的來(lái)源。例如,當(dāng)我們從網(wǎng)站等途徑獲取資源時(shí),這種記錄就很常見(jiàn)。在這種情況下,我們可能需要?jiǎng)?chuàng)建一個(gè)繼承Event和Source類的對(duì)象來(lái)記錄這些信息。
集合體(Collections)
在知識(shí)圖譜中,有許多不同的方式可以對(duì)集合進(jìn)行建模。TerminusDB 實(shí)現(xiàn)了三種不同的方法,旨在嘗試簡(jiǎn)化建模過(guò)程,這三種方法是:Set、List和Array。了解這三種方法之間的差異非常重要:Set表示集合,List表示列表,而Array則表示數(shù)組。
集合(Set)
Set是三種集合模型中最簡(jiǎn)單的一種,因?yàn)樗鼪](méi)有順序,實(shí)際上只是一條邊,可以包含多個(gè)元素。在圖中,具有三個(gè)元素的Set集合可以表示為以下形式:
數(shù)組(Array)
Array是一個(gè)更復(fù)雜的對(duì)象,它通過(guò)索引來(lái)對(duì)元素進(jìn)行編碼,并且可以根據(jù)位置來(lái)訪問(wèn)它們。與Sets和Lists不同,Array具有固定的大小,其元素是有序的。此外,Array還提供了一些額外的功能,使其與Sets和Lists區(qū)別開(kāi)來(lái)。
數(shù)組中的每個(gè)值元素都有一個(gè)附加的(隱藏)間接對(duì)象,帶有索引(或多維數(shù)組的多個(gè)索引)。這使得我們不僅可以有順序,還可以有多個(gè)維度來(lái)表示“間隔”。當(dāng)返回 JSON 中的值時(shí),我們將返回一個(gè)多維數(shù)組,其中包含未填充區(qū)域的null字段。但實(shí)際上,這些未填充區(qū)域并沒(méi)有在數(shù)據(jù)庫(kù)中出現(xiàn)。
列表(List)
List 是直接從 RDF 數(shù)據(jù)中提取 rdf:List 并使用 rdf:first 和 rdf:rest 字段來(lái)表示。三個(gè)元素的列表結(jié)構(gòu)如下所示:
鏈表式結(jié)構(gòu)具有潛在的技術(shù)優(yōu)勢(shì)。相較于數(shù)組,您可以在列表中的任何位置插入新元素,而不必在給定元素之后重新索引所有內(nèi)容。但是,鏈表式結(jié)構(gòu)需要遍歷圖中的長(zhǎng)鏈來(lái)解碼列表,這可能會(huì)對(duì)性能產(chǎn)生影響。在列表非常長(zhǎng)時(shí),它可能會(huì)導(dǎo)致解碼時(shí)間顯著延長(zhǎng),因此需要權(quán)衡其優(yōu)缺點(diǎn)來(lái)選擇適合特定場(chǎng)景的數(shù)據(jù)結(jié)構(gòu)。
結(jié)論
通過(guò)使用知識(shí)圖譜,可以實(shí)現(xiàn)更加輕松地操作和發(fā)現(xiàn)數(shù)據(jù)。知識(shí)圖譜是一個(gè)基于圖形結(jié)構(gòu)的數(shù)據(jù)模型,可以將各種實(shí)體和概念以及它們之間的關(guān)系表示為節(jié)點(diǎn)和邊,使得數(shù)據(jù)之間的關(guān)系和結(jié)構(gòu)更加清晰和易于理解。在使用知識(shí)圖譜進(jìn)行數(shù)據(jù)建模后,用戶可以方便地進(jìn)行數(shù)據(jù)操作和發(fā)現(xiàn),從而更加高效地利用數(shù)據(jù)。