自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

知識(shí)圖譜不復(fù)雜,我來(lái)幫你理一理!

原創(chuàng)
開(kāi)發(fā) 架構(gòu) 開(kāi)發(fā)工具 知識(shí)圖譜
隨著互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,產(chǎn)生了大量的數(shù)據(jù),數(shù)據(jù)經(jīng)過(guò)分析會(huì)推動(dòng)業(yè)務(wù)的發(fā)展。將數(shù)據(jù)中蘊(yùn)含的知識(shí)用圖的結(jié)構(gòu)表示出來(lái),就形成了知識(shí)圖譜。

【51CTO.com原創(chuàng)稿件】隨著互聯(lián)網(wǎng)業(yè)務(wù)的發(fā)展,產(chǎn)生了大量的數(shù)據(jù),數(shù)據(jù)經(jīng)過(guò)分析會(huì)推動(dòng)業(yè)務(wù)的發(fā)展。將數(shù)據(jù)中蘊(yùn)含的知識(shí)用圖的結(jié)構(gòu)表示出來(lái),就形成了知識(shí)圖譜。

[[312149]] 

圖片來(lái)自 Pexels

知識(shí)圖譜可以應(yīng)用到智能搜索,自動(dòng)文檔,推薦,決策支持等領(lǐng)域。例如:WordNet,F(xiàn)reebase,Wikidata。

今天和大家一起了解知識(shí)圖譜構(gòu)建的方法和基本原理。

知識(shí)圖譜概括

知識(shí)圖譜是一個(gè)較大的話題。從發(fā)展,特點(diǎn),分類(lèi)和生命周期等不同的方面都有很多需要講的東西。

 

知識(shí)領(lǐng)域示意圖

這里我們主要從知識(shí)圖譜的生命周期作為切入點(diǎn),講講在其形成和使用過(guò)程中用到的原理和方法。

①知識(shí)體系構(gòu)建。根據(jù)分類(lèi),可以把知識(shí)圖譜分為通用型和領(lǐng)域型。無(wú)論是什么類(lèi)型的知識(shí)圖譜都需要對(duì)其服務(wù)的領(lǐng)域進(jìn)行知識(shí)建模。也就是說(shuō),采用什么樣的方式來(lái)表達(dá)知識(shí)。

②知識(shí)融合。一個(gè)知識(shí)庫(kù)可以和其他知識(shí)庫(kù)進(jìn)行融合。在不同領(lǐng)域知識(shí)圖庫(kù)進(jìn)行融合時(shí),會(huì)發(fā)現(xiàn)來(lái)自不同領(lǐng)域,不同語(yǔ)言,甚至不同結(jié)構(gòu)的知識(shí)需要做“補(bǔ)充,更新和去重的操作”。

這就是知識(shí)融合,一般分為:知識(shí)體系融合和實(shí)例融合。這部分的操作也可以在構(gòu)建知識(shí)體系的時(shí)候統(tǒng)籌考慮。

③知識(shí)獲取。知識(shí)獲取的目的是從海量的信息(文本)中抽取知識(shí)。本文中提到的“獲取信息”多為文本信息,因此這里的“獲取信息”也是從文本中獲取信息的過(guò)程。

獲取信息結(jié)構(gòu)上劃分為三類(lèi),分別是結(jié)構(gòu)化信息,半結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息。

從獲取信息內(nèi)容上又分為,實(shí)體識(shí)別,實(shí)體消歧,關(guān)系抽取和事件抽取。知識(shí)存儲(chǔ)在完成了知識(shí)抽取和融合之后,就需要將知識(shí)存儲(chǔ)下來(lái)了。

有 RDF(Resource Description Framework,資源描述框架)格式和圖數(shù)據(jù)庫(kù)兩種方式。

因?yàn)閳D數(shù)據(jù)庫(kù)對(duì)于查詢友好,因此被廣泛使用,例如:Neo4j。

④知識(shí)推理。識(shí)別并抽取知識(shí)以及存儲(chǔ)知識(shí)以后,我們會(huì)試圖挖掘?qū)嶓w(知識(shí))之間隱含的語(yǔ)義關(guān)系。

這個(gè)過(guò)程就是知識(shí)推理。例如:已知 A 是 B 的兒子,又知道 B 是 C 的兒子。那么可以推理出 A 是 C 的孫子。

⑤知識(shí)應(yīng)用。識(shí)別,抽取,存儲(chǔ)和推理的最終目的還是為了應(yīng)用。知識(shí)圖譜在搜索,問(wèn)答,推薦,決策方面被廣泛應(yīng)用。

后面會(huì)將上述過(guò)程展開(kāi)講解,由于知識(shí)圖譜中包括的內(nèi)容比較豐富,因此會(huì)著重介紹前面幾個(gè)部分的內(nèi)容,關(guān)于知識(shí)推理和知識(shí)應(yīng)用的部分會(huì)放到以后的文章中介紹。

知識(shí)體系構(gòu)建

我們常說(shuō)的知識(shí)是人類(lèi)對(duì)現(xiàn)實(shí)世界的認(rèn)識(shí),如何將這種認(rèn)識(shí)轉(zhuǎn)化為一種標(biāo)準(zhǔn)的形式呢?因此,需要有一種模型,對(duì)其進(jìn)行描述,從而能夠存儲(chǔ)到計(jì)算機(jī)中。

知識(shí)表示

知識(shí)圖譜的表示方式有多種,有語(yǔ)義網(wǎng)絡(luò),框架,腳本。使用比較多的是語(yǔ)義網(wǎng)絡(luò)模型。

它是通過(guò)語(yǔ)義關(guān)系連接的概念網(wǎng)絡(luò),將知識(shí)表示為互相連接的點(diǎn)和邊。其中,節(jié)點(diǎn)表示為實(shí)體,時(shí)間,值等信息;邊表示實(shí)體之間的關(guān)系。

例如:馬是一種動(dòng)物,可以表示為如下:

 

這里的馬和動(dòng)物表示為實(shí)體,“是一種”表示它們之間的關(guān)系。這也是我們常說(shuō)的三元組的表現(xiàn)形式。

用 RDF(Resource Description Framework,資源描述框架)可以表述為:

  • (節(jié)點(diǎn) 1,關(guān)系,節(jié)點(diǎn) 1)
  • (馬,是一種,動(dòng)物)

針對(duì)關(guān)系來(lái)說(shuō)有多種類(lèi)型的定義:

  • 實(shí)例關(guān)系:“是一個(gè)”。表示一個(gè)事物是另一個(gè)事物的一個(gè)實(shí)例。例如:小明是一個(gè)人。
  • 分類(lèi)關(guān)系:“是一種”。表示一個(gè)事物是另一個(gè)事物的種類(lèi)。例如:籃球是一種球。
  • 成員關(guān)系:“個(gè)人與集體”。表示一個(gè)事物是另一個(gè)事物的成員。例如:小王是三年級(jí)一班的學(xué)生。
  • 屬性關(guān)系:“一個(gè)節(jié)點(diǎn)具有另一個(gè)節(jié)點(diǎn)所表示的屬性”。例如:猴子會(huì)爬樹(shù)。
  • 聚合關(guān)系:“部分與整體”。例如:手是身體的一部分。
  • 位置關(guān)系:事物的方位關(guān)系。例如:蘋(píng)果在桌子上。
  • 相近關(guān)系:事物在形狀,內(nèi)容等方面相似。例如:獅子和老虎在森林中都有霸主的地位。

如果將實(shí)體通過(guò)上述描述,用三元組的方式表示出來(lái),就形成了知識(shí)的圖狀結(jié)構(gòu),我們把這種結(jié)構(gòu)的表現(xiàn)就叫做知識(shí)表現(xiàn)。

 

知識(shí)圖譜的表現(xiàn)形式

知識(shí)體系構(gòu)建

上面講了知識(shí)表示,通過(guò)三元組表示現(xiàn)實(shí)世界的知識(shí)。由于知識(shí)領(lǐng)域的不同,對(duì)事物的概念和定義也會(huì)不相同。

例如:“運(yùn)維”這個(gè)詞,在軟件領(lǐng)域是指對(duì)軟件的運(yùn)行維護(hù);在基礎(chǔ)設(shè)施領(lǐng)域,是指對(duì)供配電,空調(diào)的運(yùn)行和維護(hù)。

因此,知識(shí)圖譜是針對(duì)具體知識(shí)領(lǐng)域而言的。需要根據(jù)具體的知識(shí)領(lǐng)域,進(jìn)行“知識(shí)體系構(gòu)建”。

知識(shí)體系主要包括三個(gè)方面的核心內(nèi)容:對(duì)概念的分類(lèi),概念屬性的描述以及概念之間相互關(guān)系的定義。

 

知識(shí)領(lǐng)域示意圖

知識(shí)領(lǐng)域(知識(shí)體系結(jié)構(gòu))就好像知識(shí)圖譜的框架,它定義了知識(shí)的概念,概念的屬性以及概念之間的關(guān)系。

只有先定義了它,才能再構(gòu)建知識(shí)圖譜。如果把知識(shí)領(lǐng)域(知識(shí)體系結(jié)構(gòu))理解成 Class 的話,知識(shí)圖譜就是 Object;如果把知識(shí)領(lǐng)域(知識(shí)體系結(jié)構(gòu))理解成骨架的話,知識(shí)圖譜就是肉體。

Ontology 對(duì)知識(shí)進(jìn)行定義(Concept),根據(jù)定義生成實(shí)體(Instance) 

[[312152]] 

骨架和肉體

說(shuō)完知識(shí)領(lǐng)域(知識(shí)體系結(jié)構(gòu))的概念,再來(lái)看看通過(guò)人工構(gòu)建需要哪幾個(gè)步驟。

①確定領(lǐng)域以及任務(wù)。這里需要明確幾個(gè)問(wèn)題,為什么需要這個(gè)領(lǐng)域的知識(shí)圖譜?其中包括哪些知識(shí)?它所服務(wù)的人群?以及誰(shuí)來(lái)維護(hù)它?

②知識(shí)體系整合。由于知識(shí)圖譜,需要包括海量的知識(shí)數(shù)據(jù),所以從 0 開(kāi)始建設(shè)成本很高。

因此,需要借助通用知識(shí)圖譜,領(lǐng)域詞典,語(yǔ)言學(xué)資源,開(kāi)源知識(shí)圖譜的資源。在它們的基礎(chǔ)上建立,大大降低成本。

③羅列要素。針對(duì)要建立的知識(shí)圖譜,列出這個(gè)領(lǐng)域知識(shí)的概念,屬性,以及關(guān)系等要素。

例如:建立一個(gè)人物知識(shí)圖譜,就要列出科學(xué)家,演員,老師,運(yùn)動(dòng)員等概念分類(lèi)。

針對(duì)每個(gè)分類(lèi),定義姓名,年齡,國(guó)籍,出生地等屬性。以及父母,子女,朋友等關(guān)系。

④確定分類(lèi)體系。就是概念之間的層級(jí)關(guān)系,類(lèi)似樹(shù)狀結(jié)構(gòu)。例如體育分類(lèi),下面包括體育組織,體育賽事,體育院校等等??梢酝ㄟ^(guò)由上至下,或者由下至上的方式建立。 

 

分類(lèi)體系示意圖

⑤定義屬性以及關(guān)系。這里的屬性和關(guān)系的定義具有繼承性。例如:演藝人員擁有“年齡”,“畢業(yè)院校”,“經(jīng)紀(jì)公司”等屬性。演藝人員分類(lèi)下面包括了歌手和演員。

那么歌手和演員的屬性中,除了包括“年齡”,“畢業(yè)院校”,“經(jīng)紀(jì)公司”等屬性以外,還可能包括其他屬性,例如:歌手包括“低/中/高音“;演員包括:”國(guó)內(nèi)/國(guó)際影星“。

⑥定義約束。針對(duì)上面屬性關(guān)系的約束關(guān)系。例如:年齡為正整數(shù)。每個(gè)人只有一個(gè)母親(生理學(xué)意義上的)。

知識(shí)融合

各個(gè)領(lǐng)域知識(shí)圖譜的構(gòu)建,導(dǎo)致存在各個(gè)垂直領(lǐng)域的知識(shí)庫(kù)。每個(gè)知識(shí)庫(kù)為了擴(kuò)大自身的廣度和深度,就需要和其他庫(kù)做融合。

 

知識(shí)融合示例圖

知識(shí)庫(kù)的融合有兩種模式:

  • 豎直方向的知識(shí)融合,將通用知識(shí)庫(kù)與專(zhuān)業(yè)知識(shí)庫(kù)進(jìn)行融合。專(zhuān)業(yè)知識(shí)庫(kù)中需要一些通用知識(shí)庫(kù)中的通用知識(shí)定義,例如:著名人物,地名,公理。
  • 水平方向的知識(shí)融合,將相同領(lǐng)域的知識(shí)庫(kù)進(jìn)行融合。讓兩個(gè)知識(shí)庫(kù)進(jìn)行數(shù)據(jù)互補(bǔ)。

知識(shí)體系能夠在認(rèn)知和語(yǔ)義層次上對(duì)領(lǐng)域知識(shí)進(jìn)行建模和表達(dá),確定領(lǐng)域內(nèi)共同認(rèn)可的詞匯,通過(guò)概念之間的關(guān)系來(lái)描述概念的語(yǔ)義,提供對(duì)領(lǐng)域知識(shí)的共同理解。

多個(gè)知識(shí)體系在融合過(guò)程中會(huì)產(chǎn)生重疊,會(huì)產(chǎn)生許多不同的知識(shí)體系。這些不同的知識(shí)體系會(huì)導(dǎo)致不同的知識(shí)圖譜難以聯(lián)合使用。

因此,下面要介紹幾種融合的方法:

  • 元素級(jí)匹配,將一個(gè)詞表示為語(yǔ)義向量空間中的一個(gè)點(diǎn),如果詞與詞之間的相似度高,那么兩個(gè)點(diǎn)之間的距離就近。表明兩個(gè)詞可以融合。
  • 結(jié)構(gòu)級(jí)匹配,通過(guò)判斷元素屬性的定義域和值域匹配度,推斷屬性的匹配度。
  • 實(shí)體對(duì)齊,通過(guò)判斷相同或不同知識(shí)庫(kù)中的兩個(gè)實(shí)體是否表示同一個(gè)物理對(duì)象的過(guò)程。

知識(shí)獲取

定義了知識(shí)領(lǐng)域和領(lǐng)域之間的融合,就搭建了知識(shí)圖譜的框架,接下來(lái)就要填充內(nèi)容了。根據(jù)三元組理論,知識(shí)圖譜是由(實(shí)體 1,關(guān)系,實(shí)體 2)組成的。

所以,接下來(lái)就要介紹知識(shí)獲取,它包括實(shí)體識(shí)別,實(shí)體消歧,關(guān)系抽取,事件抽取。

 

知識(shí)獲取示意圖

實(shí)體識(shí)別

實(shí)體(Entity)是知識(shí)圖譜的基本單元,也是本文中承載信息的重要語(yǔ)言單位。實(shí)體識(shí)別是抽取文本中命名性指稱項(xiàng)。

例如:人名,地名,機(jī)構(gòu)名,產(chǎn)品名。通常意義上分為三大類(lèi):實(shí)體類(lèi),時(shí)間類(lèi)和數(shù)字類(lèi);七小類(lèi):人名,地名,機(jī)構(gòu)名,時(shí)間,日期,貨幣和百分比。

例如:紅利小學(xué)籃球教練張平出席了會(huì)議,他在會(huì)議上分享了執(zhí)教心得。

實(shí)體“張平”就有三個(gè)指稱項(xiàng),“紅利小學(xué)籃球教練”是名詞性指稱項(xiàng);“張平”是命名性指稱項(xiàng);“他”是代詞性指稱項(xiàng)。

實(shí)體識(shí)別抽取有以下幾種方法:

①基于規(guī)則的方法,通過(guò)建立命名實(shí)體詞典的方法,每次抽取都從文本中查找詞典的內(nèi)容。

  • 中文人名識(shí)別:<姓氏><名字>。例如:張平。
  • 中文組織名識(shí)別:<人名><組織名><地名><核心名>。例如:中國(guó)軟件信息協(xié)會(huì)。
  • 中文地名的識(shí)別:<名字部分><指示詞>。例如:武漢市。

②基于特征的方法,通過(guò)機(jī)器學(xué)習(xí)的方法利用預(yù)先標(biāo)注好的語(yǔ)料訓(xùn)練模型,使模型學(xué)習(xí)到某個(gè)字或者詞作為命名實(shí)體組成部分的概率,計(jì)算出一個(gè)候選字段作為命名實(shí)體的概率值。如果大于某個(gè)設(shè)定的閥值,就抽取命名實(shí)體。

③基于神經(jīng)網(wǎng)絡(luò)的方法:

  • 特征表示:利用神經(jīng)網(wǎng)絡(luò)模型將文字符號(hào)特征表示為分布式特征信息。
  • 模型訓(xùn)練:利用標(biāo)注數(shù)據(jù),優(yōu)化網(wǎng)絡(luò)參數(shù),訓(xùn)練網(wǎng)絡(luò)模型。
  • 模型分類(lèi):利用訓(xùn)練的模型對(duì)新樣本進(jìn)行分類(lèi),完成識(shí)別。

實(shí)體消歧

實(shí)體識(shí)別完成以后,我們遇到一些問(wèn)題。兩個(gè)實(shí)體名字一模一樣,但在不同的語(yǔ)境下面,表達(dá)的內(nèi)容完全不同。

例如:實(shí)體指稱項(xiàng),邁克爾·喬丹(Michael Jordan)在不同的文本中,有可能是籃球明星,也有可能是一位機(jī)器學(xué)習(xí)的研究員。

 

實(shí)體消歧示例圖

在介紹如何進(jìn)行實(shí)體消歧之前,先介紹幾個(gè)相關(guān)概念,以上圖為例:

  • 實(shí)體名:邁克爾·喬丹(Michael Jordan)
  • 目標(biāo)實(shí)體列表:邁克爾·喬丹(研究員),邁克爾·喬丹(運(yùn)動(dòng)員)
  • 實(shí)體指稱項(xiàng):“邁克爾·喬丹” 是 “邁克爾·喬丹(研究員)”的實(shí)體指稱項(xiàng)。同樣,“邁克爾·喬丹”也是 “邁克爾·喬丹(運(yùn)動(dòng)員)”的實(shí)體指稱項(xiàng)。

那么如何消除這種歧義呢?這里有兩種歧義消除系統(tǒng)推薦。

聚類(lèi)的消歧系統(tǒng):將同一實(shí)體指稱項(xiàng)分配到同一類(lèi)別下面,聚類(lèi)結(jié)果中每個(gè)類(lèi)別對(duì)應(yīng)一個(gè)目標(biāo)實(shí)體。

 

聚類(lèi)示意圖

實(shí)體鏈接的消歧系統(tǒng):將實(shí)體指稱項(xiàng)與目標(biāo)實(shí)體列表中對(duì)應(yīng)的實(shí)體進(jìn)行連接實(shí)現(xiàn)消歧。

 

實(shí)體鏈接示意圖

關(guān)系抽取

上面可以將文本中的實(shí)體抽取出來(lái),并且消除它們之間的歧義。接下來(lái),要知道實(shí)體之間的關(guān)系,就需要用到關(guān)系抽取。

關(guān)系抽取就是,識(shí)別實(shí)體之間的語(yǔ)義關(guān)系??梢苑譃槎P(guān)系抽取(兩個(gè)實(shí)體)和多元關(guān)系抽取(三個(gè)及以上實(shí)體)。通常表示為(實(shí)體 1, 關(guān)系, 實(shí)體 2)三元組。

根據(jù)處理數(shù)據(jù)源的不同,關(guān)系抽取可以分為以下三種:

  • 面向結(jié)構(gòu)化文本的關(guān)系抽取:包括表格文檔、XML文檔、數(shù)據(jù)庫(kù)數(shù)據(jù)等。
  • 面向非結(jié)構(gòu)化文本的關(guān)系抽?。杭兾谋?。
  • 面向半結(jié)構(gòu)化文本的關(guān)系抽?。航橛诮Y(jié)構(gòu)化和非結(jié)構(gòu)化之間。

根據(jù)抽取文本的范圍不同,關(guān)系抽取可以分為以下兩種:

  • 句子級(jí)關(guān)系抽?。簭囊粋€(gè)句子中判別兩個(gè)實(shí)體間是何種語(yǔ)義關(guān)系。
  • 語(yǔ)料級(jí)關(guān)系抽?。翰幌薅▋蓚€(gè)目標(biāo)實(shí)體所出現(xiàn)的上下文。

根據(jù)所抽取領(lǐng)域的劃分,關(guān)系抽取又可以分為以下兩種:

  • 限定域關(guān)系抽?。涸谝粋€(gè)或者多個(gè)限定的領(lǐng)域內(nèi)對(duì)實(shí)體間的語(yǔ)義關(guān)系進(jìn)行抽取,限定關(guān)系的類(lèi)別,可看成是一個(gè)文本分類(lèi)任務(wù)。
  • 開(kāi)放域關(guān)系抽?。翰幌薅P(guān)系的類(lèi)別。

由于篇幅關(guān)系,這里對(duì)具體關(guān)系抽取的方法不展開(kāi)描述。有興趣可以自行查找,每個(gè)算法都可以單獨(dú)成為一篇文章。這里我們只需要對(duì)關(guān)系抽取的分類(lèi)和方法有基本認(rèn)識(shí)就好。

事件抽取

和關(guān)系抽取類(lèi)似,事件抽取是從文本中抽取出事件并以結(jié)構(gòu)化的形式呈現(xiàn)出來(lái)。

首先識(shí)別事件及其類(lèi)型,其次識(shí)別出事件所涉及的實(shí)體,最后需要確定實(shí)體在事件中扮演的角色。

通過(guò)一個(gè)例子,來(lái)介紹幾個(gè)概念。例如:“小明和小紅于 2019 年 12 月 30 日在北京舉行婚禮。”

事件指稱:具體事件的自然語(yǔ)言描述,通常是一個(gè)句子或句群。就是上面這句話的描述。

事件觸發(fā)詞:代表事件發(fā)生的詞,是決定事件類(lèi)別的特征,一般是動(dòng)詞或名詞。例如:“舉行婚禮”。

事件元素:事件中的參與者,主要由實(shí)體、時(shí)間和屬性值組成。例如:“小明”,“小紅”, “2019 年 12 月 30 日”。

 

事件元素類(lèi)型

元素角色:事件元素在事件中扮演的角色。例如:“小明”與“小紅”扮演的是“夫妻角色”。

事件類(lèi)別:事件元素和觸發(fā)詞決定了事件的類(lèi)別,每個(gè)分類(lèi)下面還有子分類(lèi)。例如:生命,結(jié)婚。

 

事件類(lèi)型示意圖

事件抽取的方法比較多,基本上分為限定域事件抽取和開(kāi)放域事件抽取兩大類(lèi)。

在兩類(lèi)中又分為若干小類(lèi)。這里針對(duì)限定域中給予模式匹配的方法給大家做簡(jiǎn)單介紹。

限定域事件抽?。涸谶M(jìn)行抽取之前,預(yù)先定義好目標(biāo)事件的類(lèi)型及每種類(lèi)型的具體結(jié)構(gòu)(包含哪些具體的事件元素),通常會(huì)給出一定數(shù)量的標(biāo)注數(shù)據(jù)。通過(guò)這些標(biāo)注數(shù)據(jù)引導(dǎo)事件的抽取。

比較有代表的是基于模式匹配的方法,首先通過(guò)人工標(biāo)注語(yǔ)料,再通過(guò)學(xué)習(xí)模型來(lái)抽取模式,最后將“待抽取文檔”與模式庫(kù)中的模式進(jìn)行匹配,生成抽取結(jié)果。

 

事件抽取,匹配流程圖

另外,關(guān)于事件抽取的方法和關(guān)系還有很多,這里不展開(kāi)描述,放出思維導(dǎo)圖供大家參考。

 

事件抽取思維導(dǎo)圖

知識(shí)存儲(chǔ)與檢索

前面提到了知識(shí)圖譜的架構(gòu),知識(shí)的抽取,接下來(lái)就需要將這些知識(shí)(數(shù)據(jù))存儲(chǔ)下來(lái)。并且可以將存儲(chǔ)的數(shù)據(jù)進(jìn)行檢索。

 

知識(shí)存儲(chǔ)示意圖

談到存儲(chǔ),需要回到前面說(shuō)的三元組。知識(shí)圖譜中的知識(shí)是通過(guò) RDF(Resource Description Framework,資源描述框架)構(gòu)成的。

每個(gè)事實(shí)被表示為一個(gè)形如(subject,predicate,object)的三元組:

  • subject:主體(也稱主語(yǔ)),其取值通常是實(shí)體、事件。
  • predicate:謂詞(也稱謂語(yǔ)),其取值通常是關(guān)系或?qū)傩浴?/li>
  • object:客體(也稱賓語(yǔ)),其取值既可以是實(shí)體、 事件、概念,也可以是普通的值(如數(shù)字、字符串等) 。

基于表數(shù)據(jù)的介紹

知識(shí)圖譜的表存放方式有兩種,分別是三元組表,類(lèi)型表。來(lái)看看前兩種存儲(chǔ)的方式。例如:有下圖關(guān)系。

 

知識(shí)圖譜存儲(chǔ)示例圖

用三元組方式存儲(chǔ):

用類(lèi)型表存儲(chǔ):

 

基于圖數(shù)據(jù)庫(kù)的介紹

圖數(shù)據(jù)庫(kù)基于有向圖,其理論基礎(chǔ)是圖論。節(jié)點(diǎn)、邊和屬性是圖數(shù)據(jù)庫(kù)的核心概念。

節(jié)點(diǎn),用于表示實(shí)體、事件等對(duì)象,可以類(lèi)比于關(guān)系數(shù)據(jù)庫(kù)中的記錄。例如人物、 地點(diǎn)、電影等都可以作為圖中的節(jié)點(diǎn)。

邊,是指圖中連接節(jié)點(diǎn)的有向線條,用于表示不同節(jié)點(diǎn)之間的關(guān)系。例如:夫妻關(guān)系、同事關(guān)系等。

屬性,用于描述節(jié)點(diǎn)或者邊的特性。例如:姓名、夫妻關(guān)系的起止時(shí)間等。

來(lái)看個(gè)例子: 

 

用節(jié)點(diǎn)表示實(shí)體:劉德華、劉青云、Film:暗戰(zhàn) 。

用邊表示實(shí)體間的關(guān)系:劉德華和暗戰(zhàn)之間的參演關(guān)系、劉德華和劉青云之間的朋友關(guān)系等 。

節(jié)點(diǎn)可以定義屬性:劉德華性別男、身高 174cm、出生地香港等。

邊上也可以定義屬性:劉德華參演暗戰(zhàn)的時(shí)間是 1999 年,參演角色是張彼得等。

無(wú)向關(guān)系需要轉(zhuǎn)化為兩條對(duì)稱的有向關(guān)系:劉德華和劉青云之間互為朋友關(guān)系。

知識(shí)圖譜的檢索

上面說(shuō)了按照表方式和圖方式的存儲(chǔ),再來(lái)看看存儲(chǔ)之后如何檢索知識(shí)信息。知識(shí)圖譜信息可以通過(guò) SQL 和 SPARQL 搜索來(lái)獲得。

這里著重介紹 SPARQL,它是 Simple Protocol and RDF Query Language 的縮寫(xiě),是由 W3C 為 RDF 數(shù)據(jù)開(kāi)發(fā)的一種查詢語(yǔ)言和數(shù)據(jù)獲取協(xié)議,被圖數(shù)據(jù)庫(kù)廣泛支持。

和 SQL 類(lèi)似,SPARQL 也是一種結(jié)構(gòu)化的查詢語(yǔ)言,用于對(duì)數(shù)據(jù)的獲取與管理。

①數(shù)據(jù)插入

INSERT DATA { } 包含三元組,不同的三元組通過(guò)”.”分割,連續(xù)的三元組用”;” 分割。

 

②數(shù)據(jù)刪除

DELETE DATA {} 包括的三元組,不同的三元組通過(guò)”.”分割。 


 

刪除劉德華參演電影的關(guān)系

如果想刪除所有劉德華對(duì)應(yīng)節(jié)點(diǎn)的關(guān)系,用如下語(yǔ)句。

這里的 s,p,o 分別對(duì)應(yīng)的是 subject,predicate 和 object。這樣和劉德華這個(gè)節(jié)點(diǎn)的相關(guān)信息都刪除了。但是劉青云和暗戰(zhàn)對(duì)應(yīng)的節(jié)點(diǎn)和關(guān)系依舊存在。

  

刪除劉德華節(jié)點(diǎn)以及對(duì)應(yīng)的關(guān)系

③查詢語(yǔ)句

和上面兩個(gè)語(yǔ)句類(lèi)似,例如要查詢身高為 174cm 的男演員。


得出的結(jié)果就是“s:劉德華”。

總結(jié)

如果說(shuō)知識(shí)圖譜本身就是一個(gè)知識(shí)的數(shù)據(jù)庫(kù),那么知識(shí)領(lǐng)域(知識(shí)體系結(jié)構(gòu))就是這個(gè)數(shù)據(jù)庫(kù)的框架。

在建立知識(shí)圖譜之前我們需要對(duì)知識(shí)體系進(jìn)行搭建,同時(shí)要解決知識(shí)融合的問(wèn)題。

有了知識(shí)體系結(jié)構(gòu),就可以進(jìn)行知識(shí)獲取,這里包括實(shí)體識(shí)別,實(shí)體消岐,關(guān)系抽取和事件抽取。

實(shí)體識(shí)別有基于規(guī)則,特征和神經(jīng)網(wǎng)絡(luò)的識(shí)別方法。實(shí)體消岐可以通過(guò)聚類(lèi)和實(shí)體連接的方法搞定。

關(guān)系抽取和事件抽取,根據(jù)數(shù)據(jù)源,文本范圍和領(lǐng)域劃分的不同,方法各有千秋。知識(shí)抽取以后需要做知識(shí)的存儲(chǔ),其中有表存儲(chǔ)和圖存儲(chǔ)兩種方式。

目前比較流行的是圖存儲(chǔ)的方式。并且基于圖存儲(chǔ)的方式,還提供了 SPARQL 查詢語(yǔ)言對(duì)數(shù)據(jù)進(jìn)行管理。

PS:知識(shí)圖譜的內(nèi)容比較廣博,本文只是對(duì)最基本的概念進(jìn)行了描述。很多觀點(diǎn)來(lái)自于趙軍老師的知識(shí)圖譜一書(shū)。如果需要深入了解,建議閱讀。

作者:崔皓

簡(jiǎn)介:十六年開(kāi)發(fā)和架構(gòu)經(jīng)驗(yàn),曾擔(dān)任過(guò)惠普武漢交付中心技術(shù)專(zhuān)家,需求分析師,項(xiàng)目經(jīng)理,后在創(chuàng)業(yè)公司擔(dān)任技術(shù)/產(chǎn)品經(jīng)理。善于學(xué)習(xí),樂(lè)于分享。目前專(zhuān)注于技術(shù)架構(gòu)與研發(fā)管理。 

【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】

 

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2021-01-19 10:52:15

知識(shí)圖譜

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2024-06-03 07:28:43

2013-01-29 10:07:08

綜合布線數(shù)據(jù)機(jī)柜

2017-04-13 11:48:05

NLP知識(shí)圖譜

2017-05-04 13:18:18

深度學(xué)習(xí)知識(shí)圖譜

2019-05-07 10:01:49

Redis軟件開(kāi)發(fā)

2021-02-01 22:41:05

語(yǔ)義網(wǎng)知識(shí)圖譜

2021-01-18 10:50:29

知識(shí)圖譜人工智能深度學(xué)習(xí)

2024-10-08 10:37:12

語(yǔ)言數(shù)據(jù)自然語(yǔ)言

2021-04-12 11:47:21

人工智能知識(shí)圖譜

2023-08-22 15:34:01

Python開(kāi)發(fā)

2025-04-18 12:49:58

知識(shí)圖譜大模型人工智能

2022-08-11 14:11:14

知識(shí)圖譜人工智能

2022-03-01 15:14:36

圖數(shù)據(jù)庫(kù)知識(shí)圖譜

2021-01-19 10:16:00

AI大數(shù)據(jù)知識(shí)圖譜

2023-09-27 09:00:00

大型語(yǔ)言模型自然語(yǔ)言處理

2024-06-27 00:31:28

知識(shí)圖譜KBQATKGQA
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)