自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

當知識圖譜“遇見”深度學習

人工智能 深度學習 移動開發(fā) 知識圖譜
近日,Tartu大學計算機科學系計算神經(jīng)學小組的學者在robohub網(wǎng)站發(fā)表文章,闡述了他們對DeepMind人工智能算法的復現(xiàn)。在arXiv發(fā)表的原始論文中,描述了一個單個的網(wǎng)絡,它能夠自我學習從而自動的玩一些老的電視游戲。它僅僅通過屏幕上面的圖像和游戲中的分數(shù)是否上升下降,從而做出選擇性的動作。
 作者:肖仰華,復旦大學計算機科學技術學院,副教授,博士生導師,上海市互聯(lián)網(wǎng)大數(shù)據(jù)工程技術中心副主任。主要研究方向為大數(shù)據(jù)管理與挖掘、知識庫等。

大數(shù)據(jù)時代的到來,為人工智能的飛速發(fā)展帶來前所未有的數(shù)據(jù)紅利。在大數(shù)據(jù)的“喂養(yǎng)”下,人工智能技術獲得了前所未有的長足進步。其進展突出體現(xiàn)在以知識圖譜為代表的知識工程以及深度學習為代表的機器學習等相關領域。隨著深度學習對于大數(shù)據(jù)的紅利消耗殆盡,深度學習模型效果的天花板日益迫近。另一方面大量知識圖譜不斷涌現(xiàn),這些蘊含人類大量先驗知識的寶庫卻尚未被深度學習有效利用。融合知識圖譜與深度學習,已然成為進一步提升深度學習模型效果的重要思路之一。以知識圖譜為代表的符號主義、以深度學習為代表的聯(lián)結主義,日益脫離原先各自獨立發(fā)展的軌道,走上協(xié)同并進的新道路。

知識圖譜與深度學習融合的歷史背景

大數(shù)據(jù)為機器學習,特別是深度學習帶來前所未有的數(shù)據(jù)紅利。得益于大規(guī)模標注數(shù)據(jù),深度神經(jīng)網(wǎng)絡能夠習得有效的層次化特征表示,從而在圖像識別等領域取得優(yōu)異效果。但是隨著數(shù)據(jù)紅利消失殆盡,深度學習也日益體現(xiàn)出其局限性,尤其體現(xiàn)在依賴大規(guī)模標注數(shù)據(jù)和難以有效利用先驗知識等方面。這些局限性阻礙了深度學習的進一步發(fā)展。另一方面在深度學習的大量實踐中,人們越來越多地發(fā)現(xiàn)深度學習模型的結果往往與人的先驗知識或者專家知識相沖突。如何讓深度學習擺脫對于大規(guī)模樣本的依賴?如何讓深度學習模型有效利用大量存在的先驗知識?如何讓深度學習模型的結果與先驗知識一致已成為了當前深度學習領域的重要問題。

當前,人類社會業(yè)已積累大量知識。特別是,近幾年在知識圖譜技術的推動下,對于機器友好的各類在線知識圖譜大量涌現(xiàn)。知識圖譜本質上是一種語義網(wǎng)絡,表達了各類實體、概念及其之間的語義關系。相對于傳統(tǒng)知識表示形式(諸如本體、傳統(tǒng)語義網(wǎng)絡),知識圖譜具有實體/概念覆蓋率高、語義關系多樣、結構友好(通常表示為RDF格式)以及質量較高等優(yōu)勢,從而使得知識圖譜日益成為大數(shù)據(jù)時代和人工智能時代最為主要的知識表示方式。能否利用蘊含于知識圖譜中的知識指導深度神經(jīng)網(wǎng)絡模型的學習從而提升模型的性能,成為了深度學習模型研究的重要問題之一。

現(xiàn)階段將深度學習技術應用于知識圖譜的方法較為直接。大量的深度學習模型可以有效完成端到端的實體識別、關系抽取和關系補全等任務,進而可以用來構建或豐富知識圖譜。本文主要探討知識圖譜在深度學習模型中的應用。從當前的文獻來看,主要有兩種方式。一是將知識圖譜中的語義信息輸入到深度學習模型中;將離散化知識圖譜表達為連續(xù)化的向量,從而使得知識圖譜的先驗知識能夠成為深度學習的輸入。二是利用知識作為優(yōu)化目標的約束,指導深度學習模型的學習;通常是將知識圖譜中知識表達為優(yōu)化目標的后驗正則項。前者的研究工作已有不少文獻,并成為當前研究熱點。知識圖譜向量表示作為重要的特征在問答以及推薦等實際任務中得到有效應用。后者的研究才剛剛起步,本文將重點介紹以一階謂詞邏輯作為約束的深度學習模型。

知識圖譜作為深度學習的輸入

知識圖譜是人工智能符號主義近期進展的典型代表。知識圖譜中的實體、概念以及關系均采用了離散的、顯式的符號化表示。而這些離散的符號化表示難以直接應用于基于連續(xù)數(shù)值表示的神經(jīng)網(wǎng)絡。為了讓神經(jīng)網(wǎng)絡有效利用知識圖譜中的符號化知識,研究人員提出了大量的知識圖譜的表示學習方法。知識圖譜的表示學習旨在習得知識圖譜的組成元素(節(jié)點與邊)的實值向量化表示。這些連續(xù)的向量化表示可以作為神經(jīng)網(wǎng)絡的輸入,從而使得神經(jīng)網(wǎng)絡模型能夠充分利用知識圖譜中大量存在的先驗知識。這一趨勢催生了對于知識圖譜的表示學習的大量研究。本章首先簡要回顧知識圖譜的表示學習,再進一步介紹這些向量表示如何應用到基于深度學習模型的各類實際任務中,特別是問答與推薦等實際應用。

1.知識圖譜的表示學習

知識圖譜的表示學習旨在學習實體和關系的向量化表示,其關鍵是合理定義知識圖譜中關于事實(三元組< h,r,t >)的損失函數(shù) ƒr(h,t),其中和是三元組的兩個實體h和t的向量化表示。通常情況下,當事實 < h,r,t > 成立時,期望最小化 ƒr(h,t)??紤]整個知識圖譜的事實,則可通過最小化

圖片描述

來學習實體以及關系的向量化表示,其中 O 表示知識圖譜中所有事實的集合。不同的表示學習可以使用不同的原則和方法定義相應的損失函數(shù)。這里以基于距離和翻譯的模型介紹知識圖譜表示的基本思路[1]。

基于距離的模型。其代表性工作是 SE 模型[2]?;舅枷胧钱攦蓚€實體屬于同一個三元組 < h,r,t > 時,它們的向量表示在投影后的空間中也應該彼此靠近。因此,損失函數(shù)定義為向量投影后的距離

圖片描述

其中矩陣 Wr,1 和 Wr,2 用于三元組中頭實體 h 和尾實體 t 的投影操作。但由于 SE 引入了兩個單獨的投影矩陣,導致很難捕獲實體和關系之間的語義相關性。Socher 等人針對這一問題采用三階張量替代傳統(tǒng)神經(jīng)網(wǎng)絡中的線性變換層來刻畫評分函數(shù)。Bordes 等人提出能量匹配模型,通過引入多個矩陣的 Hadamard 乘積來捕獲實體向量和關系向量的交互關系。

基于翻譯的表示學習。其代表性工作 TransE 模型通過向量空間的向量翻譯來刻畫實體與關系之間的相關性[3]。該模型假定,若 < h,r,t > 成立則尾部實體 t 的嵌入表示應該接近頭部實體 h 加上關系向量 r 的嵌入表示,即 h+r≈t。因此,TransE 采用

圖片描述

作為評分函數(shù)。當三元組成立時,得分較低,反之得分較高。TransE 在處理簡單的 1-1 關系(即關系兩端連接的實體數(shù)比率為 1:1)時是非常有效的,但在處理 N-1、1-N 以及 N-N 的復雜關系時性能則顯著降低。針對這些復雜關系,Wang 提出了 TransH 模型通過將實體投影到關系所在超平面,從而習得實體在不同關系下的不同表示。Lin 提出了 TransR 模型通過投影矩陣將實體投影到關系子空間,從而習得不同關系下的不同實體表示。

除了上述兩類典型知識圖譜表示學習模型之外,還有大量的其他表示學習模型。比如,Sutskever 等人使用張量因式分解和貝葉斯聚類來學習關系結構。Ranzato 等人引入了一個三路的限制玻爾茲曼機來學習知識圖譜的向量化表示,并通過一個張量加以參數(shù)化。

當前主流的知識圖譜表示學習方法仍存在各種各樣的問題,比如不能較好刻畫實體與關系之間的語義相關性、無法較好處理復雜關系的表示學習、模型由于引入大量參數(shù)導致過于復雜,以及計算效率較低難以擴展到大規(guī)模知識圖譜上等等。為了更好地為機器學習或深度學習提供先驗知識,知識圖譜的表示學習仍是一項任重道遠的研究課題。

知識圖譜向量化表示的應用

應用 1 問答系統(tǒng)。自然語言問答是人機交互的重要形式。深度學習使得基于問答語料的生成式問答成為可能。然而目前大多數(shù)深度問答模型仍然難以利用大量的知識實現(xiàn)準確回答。Yin 等人針對簡單事實類問題,提出了一種基于 encoder-decoder 框架,能夠充分利用知識圖譜中知識的深度學習問答模型[4]。在深度神經(jīng)網(wǎng)絡中,一個問題的語義往往被表示為一個向量。具有相似向量的問題被認為是具有相似語義。這是聯(lián)結主義的典型方式。另一方面,知識圖譜的知識表示是離散的,即知識與知識之間并沒有一個漸變的關系。這是符號主義的典型方式。通過將知識圖譜向量化,可以將問題與三元組進行匹配(也即計算其向量相似度),從而為某個特定問題找到來自知識庫的最佳三元組匹配。匹配過程如圖 1 所示。對于問題 Q:“How tallis Yao Ming?”,首先將問題中的單詞表示為向量數(shù)組 HQ。進一步尋找能與之匹配的知識圖譜中的候選三元組。最后為這些候選三元組,分別計算問題與不同屬性的語義相似度。其由以下相似度公式?jīng)Q定:

圖片描述

這里,S(Q,τ) 表示問題Q 與候選三元組τ 的相似度;xQ 表示問題的向量( 從HQ計算而得),uτ 表示知識圖譜的三元組的向量,M是待學習參數(shù)。

圖片描述

圖1 基于知識圖譜的神經(jīng)生成問答模型

 

應用 2 推薦系統(tǒng)。個性化推薦系統(tǒng)是互聯(lián)網(wǎng)各大社交媒體和電商網(wǎng)站的重要智能服務之一。隨著知識圖譜的應用日益廣泛,大量研究工作意識到知識圖譜中的知識可以用來完善基于內容的推薦系統(tǒng)中對用戶和項目的內容(特征)描述,從而提升推薦效果。另一方面,基于深度學習的推薦算法在推薦效果上日益優(yōu)于基于協(xié)同過濾的傳統(tǒng)推薦模型[5]。但是,將知識圖譜集成到深度學習的框架中的個性化推薦的研究工作,還較為少見。Zhang 等人做出了這樣的嘗試。作者充分利用了結構化知識(知識圖譜)、文本知識和可視化知識(圖片)[6]等三類典型知識。作者分別通過網(wǎng)絡嵌入(network embedding)獲得結構化知識的向量化表示,然后分別用SDAE(Stacked Denoising Auto-Encoder)和層疊卷積自編碼器(stackedconvolution-autoencoder)抽取文本知識特征和圖片知識特征;并最終將三類特征融合進協(xié)同集成學習框架,利用三類知識特征的整合來實現(xiàn)個性化推薦。作者針對電影和圖書數(shù)據(jù)集進行實驗,證明了這種融合深度學習和知識圖譜的推薦算法具有較好性能。

知識圖譜作為深度學習的約束

Hu 等人提出了一種將一階謂詞邏輯融合進深度神經(jīng)網(wǎng)絡的模型,并將其成功用于解決情感分類和命名實體識別等問題[7]。邏輯規(guī)則是一種對高階認知和結構化知識的靈活表示形式,也是一種典型的知識表示形式。將各類人們已積累的邏輯規(guī)則引入到深度神經(jīng)網(wǎng)絡中,利用人類意圖和領域知識對神經(jīng)網(wǎng)絡模型進行引導具有十分重要的意義。其他一些研究工作則嘗試將邏輯規(guī)則引入到概率圖模型,這類工作的代表是馬爾科夫邏輯網(wǎng)絡[8],但是鮮有工作能將邏輯規(guī)則引入到深度神經(jīng)網(wǎng)絡中。

Hu 等人所提出的方案框架可以概括為“teacher-student network”,如圖 2 所示,包括兩個部分 teacher network q(y|x) 和 student network pθ(y|x)。其中 teacher network 負責將邏輯規(guī)則所代表的知識建模,student network 利用反向傳播方法加上teacher network的約束,實現(xiàn)對邏輯規(guī)則的學習。這個框架能夠為大部分以深度神經(jīng)網(wǎng)絡為模型的任務引入邏輯規(guī)則,包括情感分析、命名實體識別等。通過引入邏輯規(guī)則,在深度神經(jīng)網(wǎng)絡模型的基礎上實現(xiàn)效果提升。

圖片描述

圖2 將邏輯規(guī)則引入到深度神經(jīng)網(wǎng)絡的“teacher-student network”模型

 

其學習過程主要包括如下步驟:

  • 利用 soft logic 將邏輯規(guī)則表達為 [0, 1] 之間的連續(xù)數(shù)值。

  • 基于后驗正則化(posterior regularization)方法,利用邏輯規(guī)則對 teacher network 進行限制,同時保證 teacher network 和 student network 盡量接近。最終優(yōu)化函數(shù)為: 
    圖片描述
    其中,ξl,gl是松弛變量,L 是規(guī)則個數(shù),Gl 是第 l 個規(guī)則的 grounding 數(shù)。KL 函數(shù)(Kullback-Leibler Divergence)部分保證 teacher network 和student network 習得模型盡可能一致。后面的正則項表達了來自邏輯規(guī)則的約束。

  • 對 student network 進行訓練,保證 teacher network 的預測結果和 student network 的預測結果都盡量地好,優(yōu)化函數(shù)如下: 
    圖片描述
    其中,t 是訓練輪次,l 是不同任務中的損失函數(shù)(如在分類問題中,l 是交叉熵),σθ 是預測函數(shù),sn(t) 是 teacher network 的預測結果。

  • 重復 1~3 過程直到收斂。

結束語

隨著深度學習研究的進一步深入,如何有效利用大量存在的先驗知識,進而降低模型對于大規(guī)模標注樣本的依賴,逐漸成為主流的研究方向之一。知識圖譜的表示學習為這一方向的探索奠定了必要的基礎。近期出現(xiàn)的將知識融合進深度神經(jīng)網(wǎng)絡模型的一些開創(chuàng)性工作也頗具啟發(fā)性。但總體而言,當前的深度學習模型使用先驗知識的手段仍然十分有限,學術界在這一方向的探索上仍然面臨巨大的挑戰(zhàn)。這些挑戰(zhàn)主要體現(xiàn)在兩個方面:

  1. 如何獲取各類知識的高質量連續(xù)化表示。當前知識圖譜的表示學習,不管是基于怎樣的學習原則,都不可避免地產生語義損失。符號化的知識一旦向量化后,大量的語義信息被丟棄,只能表達十分模糊的語義相似關系。如何為知識圖譜習得高質量的連續(xù)化表示仍然是個開放問題。
  2. 如何在深度學習模型中融合常識知識。大量的實際任務(諸如對話、問答、閱讀理解等等)需要機器理解常識。常識知識的稀缺嚴重阻礙了通用人工智能的發(fā)展。如何將常識引入到深度學習模型將是未來人工智能研究領域的重大挑戰(zhàn),同時也是重大機遇。

 

責任編輯:林師授 來源: 搜狐
相關推薦

2017-03-06 16:48:56

知識圖譜構建存儲

2017-08-03 16:20:42

深度學習文本摘要遞歸神經(jīng)網(wǎng)絡

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2021-01-18 10:42:36

深度學習知識圖譜

2020-11-13 15:38:12

深度學習編程人工智能

2021-01-25 10:36:32

知識圖譜人工智能

2019-08-02 11:53:50

Android開發(fā)學習

2024-06-03 07:28:43

2017-04-13 11:48:05

NLP知識圖譜

2019-05-07 10:01:49

Redis軟件開發(fā)

2021-02-01 22:41:05

語義網(wǎng)知識圖譜

2021-01-18 10:50:29

知識圖譜人工智能深度學習

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2021-04-12 11:47:21

人工智能知識圖譜

2025-03-06 10:41:32

2023-08-22 15:34:01

Python開發(fā)

2025-04-18 12:49:58

知識圖譜大模型人工智能

2022-08-11 14:11:14

知識圖譜人工智能

2022-03-01 15:14:36

圖數(shù)據(jù)庫知識圖譜
點贊
收藏

51CTO技術棧公眾號