自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

知識圖譜與圖數(shù)據(jù)庫的關(guān)系,終于有人講明白了

數(shù)據(jù)庫 新聞
本文分享圖數(shù)據(jù)庫和知識圖譜的基礎(chǔ)內(nèi)容以及我們做過的相關(guān)工作。

01 什么是知識圖譜

1. 搜索引擎方式革新

圖片?

2012年5月6日,Google發(fā)布了“知識圖譜”的新一代“智能”搜索功能。

傳統(tǒng)的搜索引擎搜索數(shù)據(jù),更多的方法是基于關(guān)鍵詞匹配的方式。

近兩年來,我們到各大搜索引擎上搜索信息時,比如搜索關(guān)鍵詞“詹姆斯瓦特”,你會發(fā)現(xiàn)在某一個地方出現(xiàn)一些卡片,信息卡片的方式是搜索領(lǐng)域的一大革新,它是基于知識圖譜的方式。

2. 知識圖譜的本質(zhì)

圖片?

基于關(guān)鍵詞匹配的傳統(tǒng)搜索引擎,是將匹配到關(guān)鍵詞后再把信息展現(xiàn)出來。

如果把信息的形式進(jìn)行轉(zhuǎn)換,例如將里面的人物、地點、時間等信息抽取出來,構(gòu)建一個知識圖譜的結(jié)構(gòu),就可以將“詹姆斯瓦特的校友是誰?”等問題的答案推理出來。

知識圖譜實現(xiàn)了從原來的關(guān)鍵字匹配、內(nèi)容匹配的方式,轉(zhuǎn)變?yōu)閷π畔⒌耐评?、對信息的追溯這種方式。

知識圖譜本質(zhì)上是基于圖的語義網(wǎng)絡(luò),表示實體與實體之間的關(guān)系。

02 知識圖譜研究的多個維度

知識圖譜相關(guān)領(lǐng)域包括知識工程、自然語言處理、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)等。

知識工程:例如知識庫構(gòu)建、基于規(guī)則的推理等。

自然語言處理:例如信息抽取、語義解析等。

數(shù)據(jù)庫:例如RDF數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)集成、知識融合等。

機(jī)器學(xué)習(xí):例如知識圖譜數(shù)據(jù)的知識表示(Graph Embedding)等。

1. 知識工程

知識圖譜是Web和?數(shù)據(jù)時代的知識?程新的發(fā)展形態(tài)。

知識工程的核心是知識庫和推理引擎。?

知識庫包括以下幾個方面:

  • 領(lǐng)域本體的構(gòu)建:面向特定領(lǐng)域的形式化地對于共享概念體系的明確而又詳細(xì)的說明。
  • 知識抽取:從海量的數(shù)據(jù)中通過信息抽取的?式獲取知識。
  • 知識融合:通過對多個相關(guān)知識圖譜的對?、關(guān)聯(lián)和合并,使其稱為?個有機(jī)的整體,以提供更全?知識。

① 知識圖譜數(shù)據(jù)模型

  • RDF?

基于領(lǐng)域本體的構(gòu)建,有幾種基本的數(shù)據(jù)模型,比如常見的RDF數(shù)據(jù)模型。

RDF數(shù)據(jù)模型將知識庫里面的各個本體以及它的屬性,還有一些相關(guān)的屬性值,以及它和其他的本體之間的關(guān)系,用一個3元組的方式來描述,即主謂賓三列的表。

圖片?

  • RDFs?

RDF數(shù)據(jù)模型的一種變式,在RDF數(shù)據(jù)層的基礎(chǔ)上引?模式層,定義類、屬性、關(guān)系、屬性的定義域與值域來描述與約束資源,構(gòu)建最基本的類層次體系和屬性體系,?持簡單的上下位推理。

  • 本體語言O(shè)WL?

進(jìn)?步擴(kuò)展RDFs詞匯,可聲明類間互斥關(guān)系、屬性的傳遞性等復(fù)雜語義,?持基于本體的?動推理,提供了?組合適web傳播的描述邏輯的語法,對機(jī)器友好,但認(rèn)知復(fù)雜性限制了?程應(yīng)?。

② 知識抽取

圖片?

③ 大規(guī)模知識抽取?

知識庫的構(gòu)建有以下案例:

  • Yago(Yet Another Great Ontology)?

融合了WordNet和Wikipedia,從Wikipedia的結(jié)構(gòu)中抽取信息,利???采樣評估 

  • DBPedia?

通過社區(qū)成員定義和撰寫準(zhǔn)確的抽取模板,進(jìn)?從維基百科中抽取結(jié)構(gòu)信息,并將其發(fā)布到Web上。

  • Freebase

從Wikipedia和其他數(shù)據(jù)源(如 IMDB、MusicBrainz)中導(dǎo)?知識。

2. 自然語言處理

?然語?處理和知識圖譜研究是雙向互動的關(guān)系:?然語?處理為知識圖譜抽取知識;知識圖譜可以提升NLP任務(wù)的準(zhǔn)確度。

(1)知識圖譜與自然語言處理

知識圖譜與自然語言處理在如下兩個方面關(guān)系緊密:

①信息抽取 

主要技術(shù):實體識別與抽取、實體消歧、關(guān)系抽取 

趨勢及挑戰(zhàn): 

? 從封閉?向開放 

? ?規(guī)模信息抽取 

? 深層次挖掘信息背后的語義(從抽取到理解)

②語義解析 

語義解析就是將?然語?映射成機(jī)器可以表達(dá)的形式。 

主要技術(shù):詞義消歧、語義??標(biāo)注、指代消解等。 

應(yīng)?: 

? ?向知識圖譜的?然語?問答 

? 聊天機(jī)器?等

(2)實體識別

在實體識別中,命名實體識別的主要?法有如下兩種: 

①基于規(guī)則的實體識別?法 

基于命名實體詞典的?法:采?字符串完全匹配或部分匹配的?式,從?本中找出與詞典最相似的短語完成實體識別。 

優(yōu)點:規(guī)則簡單。

缺點:需要構(gòu)建詞典和規(guī)則;性能受詞典規(guī)模和質(zhì)量的影響。

②基于機(jī)器學(xué)習(xí)的實體識別?法 

利?預(yù)先標(biāo)注好的語料訓(xùn)練模型,使模型學(xué)習(xí)到某個字或詞作為命名實體組成部分的概率,進(jìn)?計算?個候選字段作為命名實體的概率值。若?于某?閾值,則識別為命名實體。 

分為:最?熵模型(Maximum Entropy Model)和條件隨機(jī)場模型(Conditional Markov Random Field)。

(3)語義解析之語義搜索

語義搜索是指搜索引擎的?作不再拘泥于?戶所輸?請求語句的字?本?,?是透過現(xiàn)象看本質(zhì),準(zhǔn)確地捕捉到?戶所輸?語句后?的真正意圖,并以此來進(jìn)?搜索,從?更準(zhǔn)確地向?戶返回最符合其需求的搜索結(jié)果。 

(4)語義解析之知識問答

智能問答的主要?法有如下兩種:

①基于信息檢索的?法 

?先利?中?分詞、命名實體識別等?然語?處理?具找到問句中所涉及到的實體和關(guān)鍵詞,然后去知識資源庫中去進(jìn)?檢索,并通過打分模型對答案進(jìn)?排序。 

②基于語義解析的?法 

將?個?然語?形式的問句,按照特定語?的語法規(guī)則,解析成語義表達(dá)式,將其轉(zhuǎn)化為某種數(shù)據(jù)庫的查詢語?。

兩種主要方法的框架對比如下所示:

圖片

3. 圖數(shù)據(jù)庫

知識圖譜與圖數(shù)據(jù)庫的關(guān)系從以下四個方面介紹:知識圖譜與數(shù)據(jù)管理、基于關(guān)系的知識圖譜存儲管理、原生知識圖譜存儲管理、知識圖譜與圖數(shù)據(jù)庫。

① 知識圖譜與數(shù)據(jù)管理

知識圖譜本質(zhì)上是多關(guān)系圖,通常?“實體”來表達(dá)圖?的結(jié)點、?“關(guān)系”來表達(dá)圖?的邊。

關(guān)系型數(shù)據(jù)庫:實體與實體之間的關(guān)系通常都是利?外鍵來實現(xiàn),對關(guān)系的查詢需要?量join操作。

圖數(shù)據(jù)庫:圖模型建模實體(結(jié)點)和實體之間的關(guān)系(邊),在對關(guān)系的操作上有更?的性能。

② 基于關(guān)系的知識圖譜存儲管理

使用三元組進(jìn)行知識圖譜的存儲:

優(yōu)點:簡單明了 

缺點:最?問題在于將知識圖譜查詢翻譯為 SQL 查詢后會產(chǎn)?三元組表的?量?連接操作。

為解決基于關(guān)系的是指圖譜存儲管理中出現(xiàn)的問題,采用以下兩種方法解決:

  • 屬性表:屬性相似的聚為?張表?

優(yōu)點:克服三元組?連接的問題。

缺點:?對多聯(lián)系或多值屬性存儲問題、RDF的靈活性等。

代表:采?屬性表存儲?案的代表系統(tǒng)是 RDF 三元組庫 Jena。

  • 垂直劃分:以謂語劃分三元組表?

優(yōu)點:克服屬性表的空值多值問題。

缺點:?量屬性表、刪除代價?。

代表:采?垂直劃分存儲?案的代表數(shù)據(jù)庫是 SW‐Store。

③ 原生知識圖譜存儲管理

  • RDF模型?

圖片?

gStore系統(tǒng)利用子圖匹配整個圖譜。

優(yōu)點:任意一個節(jié)點不滿足子圖的模式都可以跳過,實現(xiàn)高并發(fā)。

  • 屬性圖 

圖片?

典型屬性圖代表:Neo4j圖數(shù)據(jù)庫。

與RDF的區(qū)別為:邊也有屬性,可以與RDF互相轉(zhuǎn)換

④ 知識圖譜與圖數(shù)據(jù)庫

圖片?

4. 機(jī)器學(xué)習(xí)

在與機(jī)器學(xué)習(xí)的聯(lián)系更多地表現(xiàn)在知識表示學(xué)習(xí)這一方面,應(yīng)用較多的場景為知識推理。

① 知識表示學(xué)習(xí)

知識表示學(xué)習(xí)的背景是基于?絡(luò)形式的知識表示存在數(shù)據(jù)稀疏問題和計算效率問題。 

知識表示學(xué)習(xí)(representation learning)主要是?向知識圖譜中的實體和關(guān)系進(jìn)?表示學(xué)習(xí),使?建模?法將實體和向量表示在低維稠密向量空間中,然后進(jìn)?計算和推理。 

  • 優(yōu)點:顯著提升計算效率,有效緩解數(shù)據(jù)稀疏,實現(xiàn)異質(zhì)信息融合。 
  • 應(yīng)?:知識圖譜補(bǔ)全、相似度計算、關(guān)系抽取、?動問答、實體鏈指。
  • 舉例:知識表示代表模型:TransE [Bordes et al., NIPS 13]。 

對每個事實(Subject, Predicate, Object),將其中的predicate作為從subject到object的翻譯操作。每個Subject/Predicate/Object,都映射成?個多維向量。優(yōu)化?標(biāo)是S+P=O 。

② 自然語言問答

圖片?


03 從人工智能和大數(shù)據(jù)的角度看待知識圖譜

為什么要從這兩個角度來看待?這主要是目前這兩個角度非?;?。

① 人工智能的誕生

早在1956年達(dá)特茅斯會議上,首次提出“??智能(Artificial Intelligence, AI)”的概念。人們將他概括為“?機(jī)器來模仿?類學(xué)習(xí)以及其他??的智能”。

人工智能目前有兩個流派:符號主義(Symbolism)與連接主義(Connectionism)。

  • 符號主義

符號主義(symbolicism),?稱為邏輯主義(logicism)、?理學(xué)派(psychologism)或計算機(jī)學(xué)派(computerism),其主要原理為認(rèn)知過程就是在符號表示上的?種運算。

可以舉例理解:

?明認(rèn)識???O:O(a,b,c,d,e) ,其中a(?把))b(?胎)d(坐墊)e(?架)c(腳踏)。

  • 連接主義?

連接主義(connectionism),?稱為仿?學(xué)派(bionicsism)或?理學(xué)派(physiologism),其主要原理為智能活動是由?量簡單的單元通過復(fù)雜的相互連接后并?運?的結(jié)果。 

當(dāng)前典型研究:深度學(xué)習(xí)、深度神經(jīng)?絡(luò)。

可以舉例理解:

?明學(xué)騎???:經(jīng)過?時間練習(xí),?明終于學(xué)會了!卻說不清楚“到底該怎樣”騎。

② 知識圖譜與人工智能

圖片?

計算機(jī)的發(fā)展分為三個階段:計算智能、感知智能、認(rèn)知智能。

人工智能需要機(jī)器智能,特別是認(rèn)知智能,而認(rèn)知智能依賴知識圖譜。

目前的重要研究方向是和連接主義的結(jié)合(例如知識圖譜的表示學(xué)習(xí)等)。

③ 知識圖譜與大數(shù)據(jù)

  • 知識圖譜與大數(shù)據(jù)的聯(lián)系?

“知識圖譜”是?向關(guān)聯(lián)分析的?數(shù)據(jù)模型。

大數(shù)據(jù)的5V 特性包括:Volume(大量),Velocity(高速),Variety(多樣),Value(價值),Veracity (真實)。其中最重要是Value,但價值是隱含的,而大數(shù)據(jù)里面隱含的關(guān)系,可以用一個知識圖譜來表示。

  • 知識圖譜與大數(shù)據(jù)的應(yīng)用?

知識圖譜與大數(shù)據(jù)方面的應(yīng)用包括以下幾個方面:

圖機(jī)器學(xué)習(xí),例如TransE,GCN等模型。

圖數(shù)據(jù)庫,例如RDF圖gStore、Virtuoso,屬性圖Neo4j、janusgraph等。

圖計算系統(tǒng),例如點中心模型系統(tǒng)Pregel、GraphLab等。

圖挖掘算法,例如Pagerank、Simrank、社區(qū)發(fā)現(xiàn)、影響力傳播等。

04 我們的工作

① 研發(fā)路線圖

圖片?

我們團(tuán)隊來自于北京大學(xué)王選計算機(jī)研究所數(shù)據(jù)管理研究室,2011年開始做圖數(shù)據(jù)庫方面的研究,提出了子圖匹配的方法來實現(xiàn)RDF的查詢、2013年至2017年開發(fā)的gStore中提出了基于結(jié)構(gòu)感知的圖數(shù)據(jù)庫索引和子圖匹配查詢優(yōu)化理論。

② 技術(shù)路線圖

圖片?

基于圖的生態(tài)鏈的系統(tǒng)平臺分為三個步驟研發(fā):知識圖譜的構(gòu)建、知識圖譜管理、知識圖譜應(yīng)用。

  • 知識圖譜的構(gòu)建

大部分?jǐn)?shù)據(jù)是結(jié)構(gòu)化或非結(jié)構(gòu)化等形式,存儲在關(guān)系數(shù)據(jù)庫中,而非以RDF或?qū)傩詧D的形式存儲,因此在構(gòu)建時需要進(jìn)行數(shù)據(jù)形式的轉(zhuǎn)換。

涉及知識抽取、知識融合等問題,是整個系統(tǒng)平臺的重難點。

  • 知識圖譜管理

解決轉(zhuǎn)換成RDF或?qū)傩詧D的數(shù)據(jù)怎么存儲、如何進(jìn)行數(shù)據(jù)管理、為知識圖譜應(yīng)用提供高效訪問接口等問題。

  • 知識圖譜應(yīng)用

開發(fā)知識圖譜的應(yīng)用,體現(xiàn)數(shù)據(jù)的價值,是整個系統(tǒng)平臺的價值點。

③ 產(chǎn)品生態(tài)

圖片?

  • gStore?

項?特點:基于?圖匹配的圖數(shù)據(jù)查詢和優(yōu)化策略,單機(jī)能?持50億規(guī)模的圖數(shù)據(jù)的存儲和查詢,以及更新等。

代碼:除了SPARQL語法解析器外均為獨?開發(fā)的,?前有14萬?C++代碼,完成?主知識產(chǎn)權(quán)。

目前版本:v 0.9.1

項?主?:gstore.cn

開源地址:https://github.com/pkumod/gStore

  • gBuilder

項?特點:知識圖譜構(gòu)建的?體化平臺,包括Schema設(shè)計,結(jié)構(gòu)化和?結(jié)構(gòu)數(shù)據(jù)抽取,融合多種?本抽取的算法模型,以及抽取模型NAS搜索等。

  • gAnswer?

項?特點:基于?圖匹配的知識圖譜的?然語?問答?法。

開源地址:https://github.com/pkumod/gAnswer

  • gStore Workbench

gStore可視化管理工具。

  • gCloud

“開箱即用”的gStore服務(wù)。

  • gMaster

支持百億規(guī)模分布式部署。

gStore高效RDF圖數(shù)據(jù)庫管理系統(tǒng)實現(xiàn)了自主可控國產(chǎn)化,能夠與國產(chǎn)化CPU和操作系統(tǒng)適配。賦能國產(chǎn)?主可控的計算機(jī)體系架構(gòu)。

05 相關(guān)案例

① 金融科技

知識關(guān)聯(lián)查詢:?融實體查詢、多層股權(quán)查詢、?融實體關(guān)聯(lián)分析。

?險分析:?險識別、資本系分析。

② 政府大數(shù)據(jù)

社會的自然人會產(chǎn)生諸多數(shù)據(jù),例如出生、教育、住房、就業(yè)、婚姻生育、醫(yī)療養(yǎng)老、死亡等方面的數(shù)據(jù)。基于這些數(shù)據(jù)可以進(jìn)行政府大數(shù)據(jù)融合與挖掘,例如用于民政和司法的親屬關(guān)系檢索。

③ 智慧紀(jì)檢

可以使用知識圖譜進(jìn)行干部廉潔畫像、社會關(guān)系分析、話單分析等。

④ 智慧醫(yī)療

基于藥物說明書構(gòu)建“病-癥-藥”的知識圖譜,可以進(jìn)行疾病科室、疾病癥狀、疾病并發(fā)癥、健康飲食智能問答等應(yīng)用。

⑤ 人工智能

例如智能問答等語音機(jī)器人。

⑥ 氣象交通

將規(guī)則寫進(jìn)知識圖譜,實時采集氣象信息并進(jìn)行知識圖譜的匹配,以起到預(yù)警的作用。

⑦ 公安知識圖譜

多維度知識探索:從“同程、同宿、同案件”等多個維度進(jìn)?知識探索和知識推理。

隱含關(guān)系挖掘:從交通出?、?吧上?、出?境等部?和系統(tǒng)中獲取數(shù)據(jù),發(fā)現(xiàn)?物的“同?,同上?,同出國”等隱含關(guān)聯(lián)關(guān)系。

嘉賓:李文杰博士 北京大學(xué) 博士后

責(zé)任編輯:張燕妮 來源: DataFunTalk
相關(guān)推薦

2022-08-15 20:49:16

知識圖譜網(wǎng)絡(luò)大數(shù)據(jù)

2021-02-21 21:25:43

知識圖譜

2021-11-07 21:01:52

云計算數(shù)據(jù)庫分布式

2022-08-15 19:24:35

圖數(shù)據(jù)庫圖計算搜索

2022-04-18 07:37:30

數(shù)據(jù)信息知識

2021-12-03 18:25:56

數(shù)據(jù)指標(biāo)本質(zhì)

2022-04-27 18:25:02

數(shù)據(jù)采集維度

2021-09-03 18:38:13

數(shù)據(jù)湖數(shù)據(jù)倉庫

2022-05-01 22:09:27

數(shù)據(jù)模型大數(shù)據(jù)

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構(gòu)

2022-09-19 09:41:45

數(shù)據(jù)庫思維

2023-09-08 18:57:42

MPPSMP節(jié)點

2022-12-28 18:31:43

Hive性能分布式表

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2022-03-27 20:32:28

Knative容器事件模型
點贊
收藏

51CTO技術(shù)棧公眾號