知識圖譜與圖數(shù)據(jù)庫的關(guān)系,終于有人講明白了
01 什么是知識圖譜
1. 搜索引擎方式革新
?
2012年5月6日,Google發(fā)布了“知識圖譜”的新一代“智能”搜索功能。
傳統(tǒng)的搜索引擎搜索數(shù)據(jù),更多的方法是基于關(guān)鍵詞匹配的方式。
近兩年來,我們到各大搜索引擎上搜索信息時,比如搜索關(guān)鍵詞“詹姆斯瓦特”,你會發(fā)現(xiàn)在某一個地方出現(xiàn)一些卡片,信息卡片的方式是搜索領(lǐng)域的一大革新,它是基于知識圖譜的方式。
2. 知識圖譜的本質(zhì)
?
基于關(guān)鍵詞匹配的傳統(tǒng)搜索引擎,是將匹配到關(guān)鍵詞后再把信息展現(xiàn)出來。
如果把信息的形式進(jìn)行轉(zhuǎn)換,例如將里面的人物、地點、時間等信息抽取出來,構(gòu)建一個知識圖譜的結(jié)構(gòu),就可以將“詹姆斯瓦特的校友是誰?”等問題的答案推理出來。
知識圖譜實現(xiàn)了從原來的關(guān)鍵字匹配、內(nèi)容匹配的方式,轉(zhuǎn)變?yōu)閷π畔⒌耐评?、對信息的追溯這種方式。
知識圖譜本質(zhì)上是基于圖的語義網(wǎng)絡(luò),表示實體與實體之間的關(guān)系。
02 知識圖譜研究的多個維度
知識圖譜相關(guān)領(lǐng)域包括知識工程、自然語言處理、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)等。
知識工程:例如知識庫構(gòu)建、基于規(guī)則的推理等。
自然語言處理:例如信息抽取、語義解析等。
數(shù)據(jù)庫:例如RDF數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)集成、知識融合等。
機(jī)器學(xué)習(xí):例如知識圖譜數(shù)據(jù)的知識表示(Graph Embedding)等。
1. 知識工程
知識圖譜是Web和?數(shù)據(jù)時代的知識?程新的發(fā)展形態(tài)。
知識工程的核心是知識庫和推理引擎。?
知識庫包括以下幾個方面:
- 領(lǐng)域本體的構(gòu)建:面向特定領(lǐng)域的形式化地對于共享概念體系的明確而又詳細(xì)的說明。
- 知識抽取:從海量的數(shù)據(jù)中通過信息抽取的?式獲取知識。
- 知識融合:通過對多個相關(guān)知識圖譜的對?、關(guān)聯(lián)和合并,使其稱為?個有機(jī)的整體,以提供更全?知識。
① 知識圖譜數(shù)據(jù)模型
- RDF?
基于領(lǐng)域本體的構(gòu)建,有幾種基本的數(shù)據(jù)模型,比如常見的RDF數(shù)據(jù)模型。
RDF數(shù)據(jù)模型將知識庫里面的各個本體以及它的屬性,還有一些相關(guān)的屬性值,以及它和其他的本體之間的關(guān)系,用一個3元組的方式來描述,即主謂賓三列的表。
?
- RDFs?
RDF數(shù)據(jù)模型的一種變式,在RDF數(shù)據(jù)層的基礎(chǔ)上引?模式層,定義類、屬性、關(guān)系、屬性的定義域與值域來描述與約束資源,構(gòu)建最基本的類層次體系和屬性體系,?持簡單的上下位推理。
- 本體語言O(shè)WL?
進(jìn)?步擴(kuò)展RDFs詞匯,可聲明類間互斥關(guān)系、屬性的傳遞性等復(fù)雜語義,?持基于本體的?動推理,提供了?組合適web傳播的描述邏輯的語法,對機(jī)器友好,但認(rèn)知復(fù)雜性限制了?程應(yīng)?。
② 知識抽取
?
③ 大規(guī)模知識抽取?
知識庫的構(gòu)建有以下案例:
- Yago(Yet Another Great Ontology)?
融合了WordNet和Wikipedia,從Wikipedia的結(jié)構(gòu)中抽取信息,利???采樣評估
- DBPedia?
通過社區(qū)成員定義和撰寫準(zhǔn)確的抽取模板,進(jìn)?從維基百科中抽取結(jié)構(gòu)信息,并將其發(fā)布到Web上。
- Freebase
從Wikipedia和其他數(shù)據(jù)源(如 IMDB、MusicBrainz)中導(dǎo)?知識。
2. 自然語言處理
?然語?處理和知識圖譜研究是雙向互動的關(guān)系:?然語?處理為知識圖譜抽取知識;知識圖譜可以提升NLP任務(wù)的準(zhǔn)確度。
(1)知識圖譜與自然語言處理
知識圖譜與自然語言處理在如下兩個方面關(guān)系緊密:
①信息抽取
主要技術(shù):實體識別與抽取、實體消歧、關(guān)系抽取
趨勢及挑戰(zhàn):
? 從封閉?向開放
? ?規(guī)模信息抽取
? 深層次挖掘信息背后的語義(從抽取到理解)
②語義解析
語義解析就是將?然語?映射成機(jī)器可以表達(dá)的形式。
主要技術(shù):詞義消歧、語義??標(biāo)注、指代消解等。
應(yīng)?:
? ?向知識圖譜的?然語?問答
? 聊天機(jī)器?等
(2)實體識別
在實體識別中,命名實體識別的主要?法有如下兩種:
①基于規(guī)則的實體識別?法
基于命名實體詞典的?法:采?字符串完全匹配或部分匹配的?式,從?本中找出與詞典最相似的短語完成實體識別。
優(yōu)點:規(guī)則簡單。
缺點:需要構(gòu)建詞典和規(guī)則;性能受詞典規(guī)模和質(zhì)量的影響。
②基于機(jī)器學(xué)習(xí)的實體識別?法
利?預(yù)先標(biāo)注好的語料訓(xùn)練模型,使模型學(xué)習(xí)到某個字或詞作為命名實體組成部分的概率,進(jìn)?計算?個候選字段作為命名實體的概率值。若?于某?閾值,則識別為命名實體。
分為:最?熵模型(Maximum Entropy Model)和條件隨機(jī)場模型(Conditional Markov Random Field)。
(3)語義解析之語義搜索
語義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請求語句的字?本?,?是透過現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到?戶所輸?語句后?的真正意圖,并以此來進(jìn)?搜索,從?更準(zhǔn)確地向?戶返回最符合其需求的搜索結(jié)果。
(4)語義解析之知識問答
智能問答的主要?法有如下兩種:
①基于信息檢索的?法
?先利?中?分詞、命名實體識別等?然語?處理?具找到問句中所涉及到的實體和關(guān)鍵詞,然后去知識資源庫中去進(jìn)?檢索,并通過打分模型對答案進(jìn)?排序。
②基于語義解析的?法
將?個?然語?形式的問句,按照特定語?的語法規(guī)則,解析成語義表達(dá)式,將其轉(zhuǎn)化為某種數(shù)據(jù)庫的查詢語?。
兩種主要方法的框架對比如下所示:
3. 圖數(shù)據(jù)庫
知識圖譜與圖數(shù)據(jù)庫的關(guān)系從以下四個方面介紹:知識圖譜與數(shù)據(jù)管理、基于關(guān)系的知識圖譜存儲管理、原生知識圖譜存儲管理、知識圖譜與圖數(shù)據(jù)庫。
① 知識圖譜與數(shù)據(jù)管理
知識圖譜本質(zhì)上是多關(guān)系圖,通常?“實體”來表達(dá)圖?的結(jié)點、?“關(guān)系”來表達(dá)圖?的邊。
關(guān)系型數(shù)據(jù)庫:實體與實體之間的關(guān)系通常都是利?外鍵來實現(xiàn),對關(guān)系的查詢需要?量join操作。
圖數(shù)據(jù)庫:圖模型建模實體(結(jié)點)和實體之間的關(guān)系(邊),在對關(guān)系的操作上有更?的性能。
② 基于關(guān)系的知識圖譜存儲管理
使用三元組進(jìn)行知識圖譜的存儲:
優(yōu)點:簡單明了
缺點:最?問題在于將知識圖譜查詢翻譯為 SQL 查詢后會產(chǎn)?三元組表的?量?連接操作。
為解決基于關(guān)系的是指圖譜存儲管理中出現(xiàn)的問題,采用以下兩種方法解決:
- 屬性表:屬性相似的聚為?張表?
優(yōu)點:克服三元組?連接的問題。
缺點:?對多聯(lián)系或多值屬性存儲問題、RDF的靈活性等。
代表:采?屬性表存儲?案的代表系統(tǒng)是 RDF 三元組庫 Jena。
- 垂直劃分:以謂語劃分三元組表?
優(yōu)點:克服屬性表的空值多值問題。
缺點:?量屬性表、刪除代價?。
代表:采?垂直劃分存儲?案的代表數(shù)據(jù)庫是 SW‐Store。
③ 原生知識圖譜存儲管理
- RDF模型?
?
gStore系統(tǒng)利用子圖匹配整個圖譜。
優(yōu)點:任意一個節(jié)點不滿足子圖的模式都可以跳過,實現(xiàn)高并發(fā)。
- 屬性圖
?
典型屬性圖代表:Neo4j圖數(shù)據(jù)庫。
與RDF的區(qū)別為:邊也有屬性,可以與RDF互相轉(zhuǎn)換
④ 知識圖譜與圖數(shù)據(jù)庫
?
4. 機(jī)器學(xué)習(xí)
在與機(jī)器學(xué)習(xí)的聯(lián)系更多地表現(xiàn)在知識表示學(xué)習(xí)這一方面,應(yīng)用較多的場景為知識推理。
① 知識表示學(xué)習(xí)
知識表示學(xué)習(xí)的背景是基于?絡(luò)形式的知識表示存在數(shù)據(jù)稀疏問題和計算效率問題。
知識表示學(xué)習(xí)(representation learning)主要是?向知識圖譜中的實體和關(guān)系進(jìn)?表示學(xué)習(xí),使?建模?法將實體和向量表示在低維稠密向量空間中,然后進(jìn)?計算和推理。
- 優(yōu)點:顯著提升計算效率,有效緩解數(shù)據(jù)稀疏,實現(xiàn)異質(zhì)信息融合。
- 應(yīng)?:知識圖譜補(bǔ)全、相似度計算、關(guān)系抽取、?動問答、實體鏈指。
- 舉例:知識表示代表模型:TransE [Bordes et al., NIPS 13]。
對每個事實(Subject, Predicate, Object),將其中的predicate作為從subject到object的翻譯操作。每個Subject/Predicate/Object,都映射成?個多維向量。優(yōu)化?標(biāo)是S+P=O 。
② 自然語言問答
?
03 從人工智能和大數(shù)據(jù)的角度看待知識圖譜
為什么要從這兩個角度來看待?這主要是目前這兩個角度非?;?。
① 人工智能的誕生
早在1956年達(dá)特茅斯會議上,首次提出“??智能(Artificial Intelligence, AI)”的概念。人們將他概括為“?機(jī)器來模仿?類學(xué)習(xí)以及其他??的智能”。
人工智能目前有兩個流派:符號主義(Symbolism)與連接主義(Connectionism)。
- 符號主義
符號主義(symbolicism),?稱為邏輯主義(logicism)、?理學(xué)派(psychologism)或計算機(jī)學(xué)派(computerism),其主要原理為認(rèn)知過程就是在符號表示上的?種運算。
可以舉例理解:
?明認(rèn)識???O:O(a,b,c,d,e) ,其中a(?把))b(?胎)d(坐墊)e(?架)c(腳踏)。
- 連接主義?
連接主義(connectionism),?稱為仿?學(xué)派(bionicsism)或?理學(xué)派(physiologism),其主要原理為智能活動是由?量簡單的單元通過復(fù)雜的相互連接后并?運?的結(jié)果。
當(dāng)前典型研究:深度學(xué)習(xí)、深度神經(jīng)?絡(luò)。
可以舉例理解:
?明學(xué)騎???:經(jīng)過?時間練習(xí),?明終于學(xué)會了!卻說不清楚“到底該怎樣”騎。
② 知識圖譜與人工智能
?
計算機(jī)的發(fā)展分為三個階段:計算智能、感知智能、認(rèn)知智能。
人工智能需要機(jī)器智能,特別是認(rèn)知智能,而認(rèn)知智能依賴知識圖譜。
目前的重要研究方向是和連接主義的結(jié)合(例如知識圖譜的表示學(xué)習(xí)等)。
③ 知識圖譜與大數(shù)據(jù)
- 知識圖譜與大數(shù)據(jù)的聯(lián)系?
“知識圖譜”是?向關(guān)聯(lián)分析的?數(shù)據(jù)模型。
大數(shù)據(jù)的5V 特性包括:Volume(大量),Velocity(高速),Variety(多樣),Value(價值),Veracity (真實)。其中最重要是Value,但價值是隱含的,而大數(shù)據(jù)里面隱含的關(guān)系,可以用一個知識圖譜來表示。
- 知識圖譜與大數(shù)據(jù)的應(yīng)用?
知識圖譜與大數(shù)據(jù)方面的應(yīng)用包括以下幾個方面:
圖機(jī)器學(xué)習(xí),例如TransE,GCN等模型。
圖數(shù)據(jù)庫,例如RDF圖gStore、Virtuoso,屬性圖Neo4j、janusgraph等。
圖計算系統(tǒng),例如點中心模型系統(tǒng)Pregel、GraphLab等。
圖挖掘算法,例如Pagerank、Simrank、社區(qū)發(fā)現(xiàn)、影響力傳播等。
04 我們的工作
① 研發(fā)路線圖
?
我們團(tuán)隊來自于北京大學(xué)王選計算機(jī)研究所數(shù)據(jù)管理研究室,2011年開始做圖數(shù)據(jù)庫方面的研究,提出了子圖匹配的方法來實現(xiàn)RDF的查詢、2013年至2017年開發(fā)的gStore中提出了基于結(jié)構(gòu)感知的圖數(shù)據(jù)庫索引和子圖匹配查詢優(yōu)化理論。
② 技術(shù)路線圖
?
基于圖的生態(tài)鏈的系統(tǒng)平臺分為三個步驟研發(fā):知識圖譜的構(gòu)建、知識圖譜管理、知識圖譜應(yīng)用。
- 知識圖譜的構(gòu)建
大部分?jǐn)?shù)據(jù)是結(jié)構(gòu)化或非結(jié)構(gòu)化等形式,存儲在關(guān)系數(shù)據(jù)庫中,而非以RDF或?qū)傩詧D的形式存儲,因此在構(gòu)建時需要進(jìn)行數(shù)據(jù)形式的轉(zhuǎn)換。
涉及知識抽取、知識融合等問題,是整個系統(tǒng)平臺的重難點。
- 知識圖譜管理
解決轉(zhuǎn)換成RDF或?qū)傩詧D的數(shù)據(jù)怎么存儲、如何進(jìn)行數(shù)據(jù)管理、為知識圖譜應(yīng)用提供高效訪問接口等問題。
- 知識圖譜應(yīng)用
開發(fā)知識圖譜的應(yīng)用,體現(xiàn)數(shù)據(jù)的價值,是整個系統(tǒng)平臺的價值點。
③ 產(chǎn)品生態(tài)
?
- gStore?
項?特點:基于?圖匹配的圖數(shù)據(jù)查詢和優(yōu)化策略,單機(jī)能?持50億規(guī)模的圖數(shù)據(jù)的存儲和查詢,以及更新等。
代碼:除了SPARQL語法解析器外均為獨?開發(fā)的,?前有14萬?C++代碼,完成?主知識產(chǎn)權(quán)。
目前版本:v 0.9.1
項?主?:gstore.cn
開源地址:https://github.com/pkumod/gStore
- gBuilder
項?特點:知識圖譜構(gòu)建的?體化平臺,包括Schema設(shè)計,結(jié)構(gòu)化和?結(jié)構(gòu)數(shù)據(jù)抽取,融合多種?本抽取的算法模型,以及抽取模型NAS搜索等。
- gAnswer?
項?特點:基于?圖匹配的知識圖譜的?然語?問答?法。
開源地址:https://github.com/pkumod/gAnswer
- gStore Workbench
gStore可視化管理工具。
- gCloud
“開箱即用”的gStore服務(wù)。
- gMaster
支持百億規(guī)模分布式部署。
gStore高效RDF圖數(shù)據(jù)庫管理系統(tǒng)實現(xiàn)了自主可控國產(chǎn)化,能夠與國產(chǎn)化CPU和操作系統(tǒng)適配。賦能國產(chǎn)?主可控的計算機(jī)體系架構(gòu)。
05 相關(guān)案例
① 金融科技
知識關(guān)聯(lián)查詢:?融實體查詢、多層股權(quán)查詢、?融實體關(guān)聯(lián)分析。
?險分析:?險識別、資本系分析。
② 政府大數(shù)據(jù)
社會的自然人會產(chǎn)生諸多數(shù)據(jù),例如出生、教育、住房、就業(yè)、婚姻生育、醫(yī)療養(yǎng)老、死亡等方面的數(shù)據(jù)。基于這些數(shù)據(jù)可以進(jìn)行政府大數(shù)據(jù)融合與挖掘,例如用于民政和司法的親屬關(guān)系檢索。
③ 智慧紀(jì)檢
可以使用知識圖譜進(jìn)行干部廉潔畫像、社會關(guān)系分析、話單分析等。
④ 智慧醫(yī)療
基于藥物說明書構(gòu)建“病-癥-藥”的知識圖譜,可以進(jìn)行疾病科室、疾病癥狀、疾病并發(fā)癥、健康飲食智能問答等應(yīng)用。
⑤ 人工智能
例如智能問答等語音機(jī)器人。
⑥ 氣象交通
將規(guī)則寫進(jìn)知識圖譜,實時采集氣象信息并進(jìn)行知識圖譜的匹配,以起到預(yù)警的作用。
⑦ 公安知識圖譜
多維度知識探索:從“同程、同宿、同案件”等多個維度進(jìn)?知識探索和知識推理。
隱含關(guān)系挖掘:從交通出?、?吧上?、出?境等部?和系統(tǒng)中獲取數(shù)據(jù),發(fā)現(xiàn)?物的“同?,同上?,同出國”等隱含關(guān)聯(lián)關(guān)系。
嘉賓:李文杰博士 北京大學(xué) 博士后