終于有人把知識(shí)圖譜講明白了
本文轉(zhuǎn)載自微信公眾號(hào)「大數(shù)據(jù)DT」,作者劉宇 趙宏宇 等。轉(zhuǎn)載本文請(qǐng)聯(lián)系大數(shù)據(jù)DT公眾號(hào)。
01 什么是知識(shí)圖譜
我們可以從不同的視角去審視知識(shí)圖譜的概念。
- 在Web視角下,知識(shí)圖譜如同簡(jiǎn)單文本之間的超鏈接一樣,通過(guò)建立數(shù)據(jù)之間的語(yǔ)義鏈接,支持語(yǔ)義搜索。
- 在自然語(yǔ)言處理視角下,知識(shí)圖譜就是從文本中抽取語(yǔ)義和結(jié)構(gòu)化的數(shù)據(jù)。
- 在知識(shí)表示視角下,知識(shí)圖譜是采用計(jì)算機(jī)符號(hào)表示和處理知識(shí)的方法。
- 在人工智能視角下,知識(shí)圖譜是利用知識(shí)庫(kù)來(lái)輔助理解人類語(yǔ)言的工具。
- 在數(shù)據(jù)庫(kù)視角下,知識(shí)圖譜是利用圖的方式去存儲(chǔ)知識(shí)的方法。
目前,學(xué)術(shù)界還沒有給知識(shí)圖譜一個(gè)統(tǒng)一的定義。在谷歌發(fā)布的文檔中有明確的描述,知識(shí)圖譜是一種用圖模型來(lái)描述知識(shí)和建模世界萬(wàn)物之間關(guān)聯(lián)關(guān)系的技術(shù)方法。
知識(shí)圖譜還是比較通用的語(yǔ)義知識(shí)的形式化描述框架,它用節(jié)點(diǎn)表示語(yǔ)義符號(hào),用邊表示語(yǔ)義之間的關(guān)系,如圖3-1所示。在知識(shí)圖譜中,人、事、物通常被稱作實(shí)體或本體。
▲圖3-1 知識(shí)圖譜示例
知識(shí)圖譜的組成三要素包括:實(shí)體、關(guān)系和屬性。
- 實(shí)體:又叫作本體(Ontology),指客觀存在并可相互區(qū)別的事物,可以是具體的人、事、物,也可以是抽象的概念或聯(lián)系。實(shí)體是知識(shí)圖譜中最基本的元素。
- 關(guān)系:在知識(shí)圖譜中,邊表示知識(shí)圖譜中的關(guān)系,用來(lái)表示不同實(shí)體間的某種聯(lián)系。如圖3-1所示,圖靈和人工智能之間的關(guān)系,知識(shí)圖譜和谷歌之間的關(guān)系,谷歌和深度學(xué)習(xí)之間的關(guān)系。
- 屬性:知識(shí)圖譜中的實(shí)體和關(guān)系都可以有各自的屬性,如圖3-2所示。
▲圖3-2 知識(shí)圖譜中的屬性
知識(shí)圖譜的構(gòu)建涉及知識(shí)建模、關(guān)系抽取、圖存儲(chǔ)、關(guān)系推理、實(shí)體融合等多方面技術(shù)。知識(shí)圖譜的應(yīng)用則體現(xiàn)在語(yǔ)義搜索、智能問(wèn)答、語(yǔ)言理解、決策分析等多個(gè)領(lǐng)域。
02 知識(shí)圖譜的價(jià)值
知識(shí)圖譜最早應(yīng)用于搜索引擎,一方面通過(guò)推理實(shí)現(xiàn)概念檢索,另一方面以圖形化方式向用戶展示經(jīng)過(guò)分類整理的結(jié)構(gòu)化知識(shí),從而使人們從人工過(guò)濾網(wǎng)頁(yè)尋找答案的模式中解脫出來(lái),可應(yīng)用到智能問(wèn)答、自然語(yǔ)言理解、推薦等方面。
知識(shí)圖譜的發(fā)展得益于Web技術(shù)的發(fā)展,受KR、NLP、Web以及AI等方面的影響。知識(shí)圖譜的價(jià)值歸根結(jié)底是為了讓AI變得更智慧。
1. 助力搜索
搜索的目的是在萬(wàn)物互聯(lián)的網(wǎng)絡(luò)中,能夠使人們方便、快速地找到某一事物。目前,我們的搜索習(xí)慣和搜索行為仍然是以關(guān)鍵詞為搜索目的,知識(shí)圖譜的出現(xiàn)可以徹底改變這種搜索行為模式。
在知識(shí)圖譜還沒有應(yīng)用到搜索引擎上時(shí),搜索的流程是:從海量的URL中找出與查詢匹配度最高的URL,按照查詢結(jié)果把排序分值最高的一些結(jié)果返回給用戶。在整個(gè)過(guò)程中,搜索引擎可能并不需要知道用戶輸入的是什么,因?yàn)橄到y(tǒng)不具備推理能力,在精準(zhǔn)搜索方面也略顯不足。
而基于知識(shí)圖譜的搜索,除了能夠直接回答用戶的問(wèn)題外,還具有一定的語(yǔ)義推理能力,大大提高了搜索的精確度。圖3-3所示是知識(shí)圖譜助力搜索示意圖。
▲圖3-3 知識(shí)圖譜助力搜索
2. 助力推薦
推薦技術(shù)和搜索技術(shù)非常相似,但是稍有區(qū)別。搜索技術(shù)采用信息拉取的方式,而推薦技術(shù)采用信息推送的方式,所以在推薦技術(shù)中有一些問(wèn)題,比如冷啟動(dòng)和數(shù)據(jù)稀疏問(wèn)題。
以電商推薦為例介紹知識(shí)圖譜在推薦上的應(yīng)用。假設(shè)我買了手機(jī),手機(jī)的強(qiáng)下位關(guān)系是手機(jī)殼,這樣系統(tǒng)就可以給我推薦手機(jī)殼,同時(shí)也可以推薦相似或互補(bǔ)的實(shí)體。圖3-4為知識(shí)圖譜助力推薦示意圖。
▲圖3-4 知識(shí)圖譜助力推薦
3. 助力問(wèn)答
問(wèn)答與對(duì)話系統(tǒng)一直是NLP在人工智能實(shí)現(xiàn)領(lǐng)域的關(guān)鍵標(biāo)志之一。知識(shí)圖譜相當(dāng)于是給問(wèn)答與對(duì)話系統(tǒng)掛載了一個(gè)背景知識(shí)庫(kù)。
對(duì)于問(wèn)答與對(duì)話系統(tǒng)或者聊天機(jī)器人來(lái)說(shuō),其除了需要實(shí)體知識(shí)圖譜和興趣知識(shí)圖譜等開放領(lǐng)域的稀疏大圖外,還需要針對(duì)機(jī)器人和用戶個(gè)性化的稠密小圖。同時(shí),知識(shí)圖譜是需要?jiǎng)討B(tài)更新的。圖3-5是知識(shí)圖譜助力問(wèn)答示意圖。
▲圖3-5 知識(shí)圖譜助力問(wèn)答
03 知識(shí)圖譜的架構(gòu)
知識(shí)圖譜的架構(gòu)涉及知識(shí)表示、知識(shí)獲取、知識(shí)處理和知識(shí)利用等多個(gè)方面。
一般情況下,知識(shí)圖譜構(gòu)建流程如下:首先確定知識(shí)表示模型,然后根據(jù)不同的數(shù)據(jù)來(lái)源選擇不同的知識(shí)獲取手段并導(dǎo)入相關(guān)的知識(shí),接著利用知識(shí)推理、知識(shí)融合、知識(shí)挖掘等技術(shù)構(gòu)建相應(yīng)的知識(shí)圖譜,最后根據(jù)不同應(yīng)用場(chǎng)景設(shè)計(jì)知識(shí)圖譜的表現(xiàn)方式,比如:語(yǔ)義搜索、智能推薦、智能問(wèn)答等。
從邏輯上,我們可以將知識(shí)圖譜劃分為兩個(gè)層次:數(shù)據(jù)層和模式層。數(shù)據(jù)層可以是以事實(shí)為單位存儲(chǔ)的數(shù)據(jù)庫(kù),可以選用的圖數(shù)據(jù)庫(kù)有RDF4j、Virtuoso、Neo4j等三元組。
<實(shí)體,關(guān)系,實(shí)體>或者<實(shí)體,屬性,屬性值>可以作為基本的表達(dá)方式,存儲(chǔ)在圖數(shù)據(jù)庫(kù)中。模式層建立在數(shù)據(jù)層之上,是知識(shí)圖譜的核心。通常,通過(guò)本體庫(kù)來(lái)管理數(shù)據(jù)層,本體庫(kù)的概念相當(dāng)于對(duì)象中“類”的概念。借助本體庫(kù),我們可以管理公理、規(guī)則和約束條件,規(guī)范實(shí)體、關(guān)系、屬性這些具體對(duì)象間的關(guān)系。
知識(shí)圖譜有自頂向下和自底向上兩種構(gòu)建方式。自頂向下構(gòu)建是指借助百科類數(shù)據(jù)源,提取本體和模式信息,并加入知識(shí)庫(kù)中。自底向上構(gòu)建是指借助一定的技術(shù)手段,從公開的數(shù)據(jù)中提取資源,選擇其中置信度較高的信息,經(jīng)人工審核后,加入知識(shí)庫(kù)中。
在知識(shí)圖譜發(fā)展初期,多數(shù)企業(yè)和機(jī)構(gòu)采用自頂向下的方式構(gòu)建知識(shí)圖譜,目前大多企業(yè)采用自底向上的方式構(gòu)建知識(shí)圖譜。
知識(shí)圖譜的架構(gòu)如圖3-6所示。
▲圖3-6 知識(shí)圖譜的架構(gòu)
- 知識(shí)源:包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。
- 信息抽?。壕褪菑母鞣N類型的數(shù)據(jù)源中提取實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體的知識(shí)表述。知識(shí)圖譜的構(gòu)建過(guò)程中存在大量的非結(jié)構(gòu)化或者是半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在知識(shí)圖譜的構(gòu)建過(guò)程中需要通過(guò)自然語(yǔ)言處理的方法進(jìn)行信息抽取。從這些數(shù)據(jù)中,我們可以提取出實(shí)體、關(guān)系和屬性。
- 知識(shí)融合:主要工作是把結(jié)構(gòu)化的數(shù)據(jù)以及信息抽取提煉到的實(shí)體信息,甚至第三方知識(shí)庫(kù)進(jìn)行實(shí)體對(duì)齊和實(shí)體消歧。這一階段的輸出應(yīng)該是從各個(gè)數(shù)據(jù)源融合的各種本體信息。
- 知識(shí)加工:知識(shí)加工階段如圖3-6所示,其中知識(shí)推理中重要的工作就是知識(shí)圖譜的補(bǔ)全。常用的知識(shí)圖譜的補(bǔ)全方法包括:基于本體推理的補(bǔ)全方法、相關(guān)的推理機(jī)制實(shí)現(xiàn)以及基于圖結(jié)構(gòu)和關(guān)系路徑特征的補(bǔ)全方法。
關(guān)于作者:劉宇,清華大學(xué)碩士,現(xiàn)就職于一家跨境電商公司,任技術(shù)總監(jiān),主要負(fù)責(zé)該公司搜索推薦業(yè)務(wù)以及廣告的相關(guān)技術(shù)開發(fā)。目前工作的重點(diǎn)是落地算法在搜索系統(tǒng)、推薦系統(tǒng)、對(duì)話系統(tǒng)等具體業(yè)務(wù)場(chǎng)景下的應(yīng)用。對(duì)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、大數(shù)據(jù)應(yīng)用與開發(fā)等頗有研究。合著有《聊天機(jī)器人:入門、進(jìn)階與實(shí)戰(zhàn)》一書。
趙宏宇,本科畢業(yè)于東北大學(xué);研究生畢業(yè)于RIT,主修AI方向?,F(xiàn)就職于獵聘網(wǎng),主要負(fù)責(zé)獵聘網(wǎng)推薦排序相關(guān)的工作。
劉書斌,本科畢業(yè)于東北大學(xué),現(xiàn)就職于美團(tuán),資深系統(tǒng)開發(fā)工程師。曾在唯品會(huì)任職,主要負(fù)責(zé)搜索工程的架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)等相關(guān)工作,在Elasticsearch方面有豐富的工程實(shí)踐經(jīng)驗(yàn)。
孫明珠,碩士畢業(yè)于南京航空航天大學(xué),現(xiàn)就職于獵聘網(wǎng),擔(dān)任高級(jí)算法工程師,負(fù)責(zé)查詢理解、解析、擴(kuò)展等NLP相關(guān)的工作。
本文摘編自《智能搜索和推薦系統(tǒng):原理、算法與應(yīng)用》,經(jīng)出版方授權(quán)發(fā)布。