知識圖譜的入門與應用
在人類獲取知識的過程中越來越關注事物的本質,借助人工智能以及大數(shù)據分析的能力,在其基礎上衍生了各類各樣的智能應用,其中知識圖譜的構建,至關重要。
初識知識圖譜
1.知識圖譜的意義
AI需要從感知智能邁向認知智能,本質上知識是一個基礎,然后基于知識的推理,剛好知識圖譜其實是具備這樣的一個屬性。
2. 知識工程的歷史
3.什么是知識
信息:是指外部的客觀事實,如封面新聞,中國,第一智媒體
知識:是對外部客觀規(guī)律的歸納和總結,如封面新聞是中國的第一智媒體。
4.什么是知識圖譜
知識圖譜(Knowledge Graph)本質上是語義網絡,是一種基于圖的數(shù)據結構,由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條變?yōu)閷嶓w與實體之間的“關系”。知識圖譜是關系的最有效的表示方式。
5. 知識圖譜的構成
實體:具有可區(qū)別性且獨立存在的某種事物。如某一個人、某一座城市、某一種植物、某一件商品等等。
概念:具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。
內容:通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來表達。
屬性:從一個實體指向它的屬性值。不同的屬性類型對應于不同類型屬性的邊。屬性值主要指對象指定屬性的值。如 “面積”、“人口”、“首都”是幾種不同的屬性。屬性值主要指對象指定屬性的值,例如960萬平方公里等。
關系:關系是連接不同的實體,指代實體之間的聯(lián)系。通過關系節(jié)點把知識圖譜中的節(jié)點連接起來,形成一張大圖。
構建知識圖譜
1.數(shù)據類型
知識圖譜的數(shù)據類型包含結構化數(shù)據(關系數(shù)據庫),半結構化數(shù)據(如XML、JSON、百科),非結構化數(shù)據(如圖片、音頻、視頻、文本)。
2. 邏輯結構
模式層:模式層構建在數(shù)據層之上,主要是通過本體庫來規(guī)范數(shù)據層的一系列事實表達。本體是結構化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結構較強,并且冗余程度較小。
數(shù)據層:數(shù)據層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。如果用(實體1,關系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數(shù)據庫作為存儲介質
3. 存儲方式
RDF(資源描述框架):其本質是一個數(shù)據模型(Data Model)。它提供了一個統(tǒng)一的標準,用于描述實體/資源。簡單來說,就是表示事物的一種方法和手段。
RDF由節(jié)點和邊組成,節(jié)點表示實體/資源、屬性,邊則表示了實體和實體之間的關系以及實體和屬性的關系。
圖數(shù)據庫:在知識圖譜方面,圖數(shù)據庫比關系數(shù)據庫靈活的多。
在數(shù)據少的時候,關系數(shù)據庫也沒有問題,效率也不低。但是隨著知識圖譜變的復雜,圖數(shù)據庫的優(yōu)勢會明顯增加。當涉及到2,3度的關聯(lián)查詢,基于圖數(shù)據庫的效率會比關系數(shù)據庫的效率高出幾千倍甚至幾百萬倍。
4.技術架構
5.知識圖譜構建過程
知識圖譜應用
1. 信息檢索
語義搜索-答案檢索型
[ 原理 ] 對用戶使用自然語言提出的問題進行語義分析和語法分析,進而將其轉化成結構化形式的查詢語句,然后在知識圖譜中查詢答案
[ 場景 ] 直接找到問題的答案,而非大量的網頁鏈接
關系搜索
[ 場景 ] 快速準確地查詢兩個實體之間的關系
可視化展示
[ 場景 ] 直觀清晰的呈現(xiàn)概念的所有實例
2.智能推薦
推薦系統(tǒng)作為一種信息過濾的重要手段,是當前解決信息超載問題的最有效的方法之一,是面向用戶的互聯(lián)網產品的核心技術。
使用推薦服務會遇到2個問題:
使用數(shù)據稀疏:在實際場景中,用戶和物品的交互信息往往是非常稀疏的。
冷啟動問題:對于新加入的用戶或者物品,由于系統(tǒng)沒有其歷史交互信息,因此無法進行準確地建模和推薦。
解決上述問題的常用方式就是:在推薦算法中額外引入一些輔助信息
(1)社交網絡(social networks):一個用戶對某個物品感興趣,他的朋友可能也會對該物品感興趣;
(2)用戶/物品屬性(attributes):擁有同種屬性的用戶可能會對同一類物品感興趣;
圖像/視頻/音頻/文本等多媒體信息(multimedia):例如商品圖片、電影預告片、音樂、新聞標題等;
(3)上下文(context):用戶-物品交互的時間、地點、當前會話信息等。
知識圖譜…
知識圖譜包含了實體之間豐富的語義關聯(lián),為推薦系統(tǒng)提供了潛在的輔助信息來源。知識圖譜在諸多推薦場景中都有應用的潛力,例如電影、新聞、景點、餐館、購物等。
精確性:知識圖譜為物品引入了更多的語義關系,可以深層次地發(fā)現(xiàn)用戶興趣;
多樣性:知識圖譜提供了不同的關系連接種類,有利于推薦結果的發(fā)散,避免推薦結果局限于單一類型;
可解釋性:知識圖譜可以連接用戶的歷史記錄和推薦結果,從而提高用戶對推薦結果的滿意度和接受度,增強用戶對推薦系統(tǒng)的信任。
3.反欺詐
不一致性驗證:不一致性驗證可以用來判斷一個借款人的欺詐風險
比如借款人張三和借款人李四填寫的是同一個公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個風險點,需要審核人員格外的注意。
再比如,借款人說跟張三是朋友關系,跟李四是父子關系。很顯然,朋友的朋友不是父子關系,所以存在著明顯的不一致性。
4.其他行業(yè)應用
公安刑偵:分析實體和實體之間的關系以獲得線索等;
司法輔助:法律條文的結構化表示和查詢來輔助案件的判決等;
電子商務:構建商品知識圖譜來精準地匹配用戶的購買意愿和商品候選集合;
醫(yī)療診斷:提供可視化的知識表示,用于藥物分析、疾病診斷等。