自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

賈強(qiáng)槐:螞蟻大規(guī)模知識(shí)圖譜構(gòu)建及其應(yīng)用

人工智能 知識(shí)圖譜
知識(shí)圖譜旨在利用圖結(jié)構(gòu)建模、識(shí)別和推斷事物之間的復(fù)雜關(guān)聯(lián)關(guān)系和沉淀領(lǐng)域知識(shí),是實(shí)現(xiàn)認(rèn)知智能的重要基石, 已經(jīng)被廣泛應(yīng)用于搜索引擎、智能問(wèn)答、語(yǔ)言語(yǔ)義理解、大數(shù)據(jù)決策分析等眾多領(lǐng)域。本文將分享螞蟻集團(tuán)在知識(shí)圖譜上的工作。

一、圖譜概覽

首先介紹知識(shí)圖譜的一些基礎(chǔ)概念。

1、什么是知識(shí)圖譜

圖片

知識(shí)圖譜旨在利用圖結(jié)構(gòu)建模、識(shí)別和推斷事物之間的復(fù)雜關(guān)聯(lián)關(guān)系和沉淀領(lǐng)域知識(shí),是實(shí)現(xiàn)認(rèn)知智能的重要基石, 已經(jīng)被廣泛應(yīng)用于搜索引擎、智能問(wèn)答、語(yǔ)言語(yǔ)義理解、大數(shù)據(jù)決策分析等眾多領(lǐng)域。

知識(shí)圖譜同時(shí)建模了數(shù)據(jù)之間的語(yǔ)義關(guān)系和結(jié)構(gòu)關(guān)系,結(jié)合深度學(xué)習(xí)技術(shù)可以把這兩者關(guān)系更好得融合和表征。

2、為什么要建知識(shí)圖譜

圖片

我們要建設(shè)知識(shí)圖譜主要是從如下兩點(diǎn)出發(fā)考慮:一方面是螞蟻本身的數(shù)據(jù)來(lái)源背景特點(diǎn),另一方面是知識(shí)圖譜能帶來(lái)的好處。

[1]  數(shù)據(jù)來(lái)源本身是多元和異構(gòu)的,缺乏一套統(tǒng)一的知識(shí)理解體系。

[2]  知識(shí)圖譜能夠帶來(lái)多個(gè)好處,包括:

  • 語(yǔ)義標(biāo)準(zhǔn)化:利用圖譜構(gòu)建技術(shù)提升實(shí)體、關(guān)系、概念等的標(biāo)準(zhǔn)化和歸一化水平。
  • 領(lǐng)域知識(shí)沉淀:基于語(yǔ)義、圖結(jié)構(gòu)實(shí)現(xiàn)知識(shí)表示和互聯(lián),從而積累豐富的領(lǐng)域知識(shí)。
  • 知識(shí)復(fù)用:構(gòu)建高質(zhì)量的螞蟻知識(shí)圖譜,通過(guò)融合、鏈接等服務(wù)多下游,為業(yè)務(wù)降本提效。
  • 知識(shí)推理發(fā)現(xiàn):基于圖譜推理技術(shù)發(fā)現(xiàn)更多長(zhǎng)尾知識(shí),服務(wù)風(fēng)控、信貸、理賠、商家運(yùn)營(yíng)、營(yíng)銷(xiāo)推薦等場(chǎng)景。

3、如何構(gòu)建知識(shí)圖譜的概覽

圖片

在構(gòu)建各類(lèi)業(yè)務(wù)知識(shí)圖譜的過(guò)程中,我們沉淀出了一套螞蟻知識(shí)圖譜的通用構(gòu)建范式,主要分為如下五個(gè)部分: 

  • 從業(yè)務(wù)數(shù)據(jù)出發(fā),作為圖譜冷啟動(dòng)的重要數(shù)據(jù)來(lái)源。
  • 他域的知識(shí)圖譜同現(xiàn)有圖譜進(jìn)行融合,通過(guò)實(shí)體對(duì)齊的技術(shù)來(lái)實(shí)現(xiàn)。
  • 業(yè)務(wù)領(lǐng)域結(jié)構(gòu)化的知識(shí)庫(kù)同現(xiàn)有的知識(shí)圖譜的進(jìn)行融合,也是通過(guò)實(shí)體對(duì)齊的技術(shù)實(shí)現(xiàn)。
  • 非結(jié)構(gòu)和半結(jié)構(gòu)化的數(shù)據(jù),例如文本會(huì)對(duì)其進(jìn)行信息抽取,通過(guò)實(shí)體鏈指技術(shù)實(shí)現(xiàn)對(duì)現(xiàn)有圖譜進(jìn)行更新。
  • 領(lǐng)域概念體系和專(zhuān)家規(guī)則的融入,將相關(guān)概念、規(guī)則與現(xiàn)有知識(shí)圖譜進(jìn)行鏈接。

圖片

有了通用的構(gòu)建范式后,就需要進(jìn)行體系化的建設(shè)。從兩個(gè)視角來(lái)看螞蟻知識(shí)圖譜的體系化建設(shè)。首先是從算法視角來(lái)看,有各種算法能力,比如知識(shí)推理、知識(shí)匹配等等。從落地視角來(lái)看,自下而上,最下面的基礎(chǔ)依賴(lài)包括圖計(jì)算引擎和認(rèn)知底座計(jì)算;其上是圖譜底座,包括NLP&多模平臺(tái)以及圖譜平臺(tái);往上是各種圖譜構(gòu)建技術(shù),基于此我們就可以構(gòu)建螞蟻知識(shí)圖譜;在知識(shí)圖譜的基礎(chǔ)上,我們可以做一些圖譜推理;再往上,我們提供一些通用的算法能力;最上面是業(yè)務(wù)應(yīng)用。

二、圖譜建設(shè)

接下來(lái)分享螞蟻集團(tuán)建設(shè)知識(shí)圖譜的一些核心能力,包括圖譜構(gòu)建、圖譜融合、圖譜認(rèn)知三個(gè)方面。

1、圖譜構(gòu)建

圖片

圖譜構(gòu)建的流程主要包括六步:

  • 數(shù)據(jù)源,獲取多元數(shù)據(jù)。
  • 知識(shí)建模,將海量數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù),從概念、實(shí)體和事件三個(gè)域來(lái)建模。
  • 知識(shí)獲取,搭建了知識(shí)加工研發(fā)平臺(tái)。
  • 知識(shí)存儲(chǔ),包括Ha3存儲(chǔ)和圖存儲(chǔ)等。
  • 知識(shí)運(yùn)營(yíng),包括知識(shí)編輯、在線查詢(xún)、抽取等。
  • 持續(xù)學(xué)習(xí),讓模型自動(dòng)地進(jìn)行迭代學(xué)習(xí)。

構(gòu)建過(guò)程中的三個(gè)經(jīng)驗(yàn)與技巧

融合專(zhuān)家知識(shí)的實(shí)體分類(lèi)

在構(gòu)建知識(shí)圖譜中,需要對(duì)輸入的實(shí)體進(jìn)行分類(lèi),在螞蟻場(chǎng)景下是一個(gè)大規(guī)模多標(biāo)簽分類(lèi)的任務(wù)。為了融合專(zhuān)家知識(shí)來(lái)進(jìn)行實(shí)體分類(lèi),主要做如下三點(diǎn)優(yōu)化:

  • 語(yǔ)義信息增強(qiáng):引入label語(yǔ)義圖表示學(xué)習(xí)的Embedding。
  • 對(duì)比學(xué)習(xí):加入層次label監(jiān)督的對(duì)比。
  • 邏輯規(guī)則約束:融入專(zhuān)家先驗(yàn)知識(shí)。

領(lǐng)域詞表注入的實(shí)體識(shí)別

圖片

在實(shí)體識(shí)別的基礎(chǔ)上,從字詞連邊的圖結(jié)構(gòu)出發(fā),讓模型學(xué)習(xí)到對(duì)連邊的合理賦權(quán),對(duì)噪聲詞連邊減小權(quán)重。提出了邊界對(duì)比學(xué)習(xí)和語(yǔ)義對(duì)比學(xué)習(xí)兩個(gè)模塊:

  • 邊界對(duì)比學(xué)習(xí),用來(lái)解決邊界沖突問(wèn)題。在詞表注入之后,構(gòu)建一個(gè)全連接圖,用GAT來(lái)學(xué)習(xí)每個(gè)token的表征,邊界分類(lèi)正確的部分構(gòu)建一個(gè)正例的圖,錯(cuò)誤的部分構(gòu)建負(fù)例的圖,通過(guò)對(duì)比讓模型學(xué)到每個(gè)token的邊界信息。
  • 語(yǔ)義對(duì)比學(xué)習(xí),用來(lái)解決語(yǔ)義沖突問(wèn)題。借鑒了原型學(xué)習(xí)思想,把label的語(yǔ)義的表征加進(jìn)來(lái),強(qiáng)化每個(gè)token與label語(yǔ)義之間的關(guān)聯(lián)關(guān)系。

邏輯規(guī)則約束的小樣本關(guān)系抽取

圖片

在領(lǐng)域問(wèn)題上我們的標(biāo)注樣本很少,會(huì)面臨few-shot或zero-shot的場(chǎng)景,在這種情況下進(jìn)行關(guān)系抽取的核心思想就是引入外部知識(shí)庫(kù),為了解決語(yǔ)義空間不同導(dǎo)致的性能下降問(wèn)題,設(shè)計(jì)了基于邏輯規(guī)則的推理模塊;為了解決實(shí)體類(lèi)型匹配導(dǎo)致的死記硬背問(wèn)題,設(shè)計(jì)了細(xì)微差異感知模塊。

2、圖譜融合

圖譜融合是指不同業(yè)務(wù)領(lǐng)域下圖譜之間的信息融合。

圖片

圖譜融合的好處:

  • 跨業(yè)務(wù)的知識(shí)復(fù)用:基于圖譜本體模型,實(shí)現(xiàn)跨業(yè)務(wù)的知識(shí)連接。
  • 減少無(wú)效數(shù)據(jù)拷貝:連接即可應(yīng)用,標(biāo)準(zhǔn)化知識(shí)服務(wù)鏈路。
  • 業(yè)務(wù)快速價(jià)值落地:減少業(yè)務(wù)找數(shù)據(jù)的成本,通過(guò)知識(shí)復(fù)用帶來(lái)更大業(yè)務(wù)價(jià)值,降本提效。

圖譜融合中的實(shí)體對(duì)齊

圖片

知識(shí)圖譜融合過(guò)程中一個(gè)核心技術(shù)點(diǎn)就是實(shí)體對(duì)齊,這里我們采用了SOTA算法BERT-INT,主要包括兩個(gè)模塊,一個(gè)是表示模塊,另一個(gè)是交互模塊。

算法的實(shí)現(xiàn)流程主要包括召回和排序:

召回:在表示模塊,利用標(biāo)題文本的 BERT向量相似度召回。

基于標(biāo)題+屬性+鄰居的排序模型:ü 利用表示模塊,完成對(duì)標(biāo)題、屬性和鄰居的向量表示:

  • 計(jì)算標(biāo)題的cos相似度。
  • 分別計(jì)算兩個(gè)實(shí)體的屬性和鄰居集合間的相似度矩陣,并提取一維相似度特征。
  • 將三個(gè)特征拼接為特征向量計(jì)算Loss。

3、圖譜認(rèn)知

圖片

這一部分,主要介紹一下螞蟻內(nèi)部的知識(shí)表示學(xué)習(xí)框架。

螞蟻提出了一個(gè)基于Encoder-Decoder框架的知識(shí)表示學(xué)習(xí)。其中Encoder是一些圖神經(jīng)的學(xué)習(xí)方法,Decoder是一些知識(shí)表示的學(xué)習(xí),比如鏈接預(yù)測(cè)。這套表示學(xué)習(xí)框架可以自監(jiān)督產(chǎn)出通用的實(shí)體/關(guān)系Embedding,有幾個(gè)好處:1)Embedding Size遠(yuǎn)小于原始特征空間,降低了存儲(chǔ)成本;2)低維向量更稠密,有效緩解數(shù)據(jù)稀疏問(wèn)題;3)同一向量空間學(xué)習(xí),對(duì)多源異質(zhì)數(shù)據(jù)的融合更自然;4)Embedding具有一定的普適性,方便下游業(yè)務(wù)使用。

三、圖譜應(yīng)用

接下來(lái)分享幾個(gè)在螞蟻集團(tuán)中知識(shí)圖譜的典型應(yīng)用案例。

1、圖譜的場(chǎng)景應(yīng)用模式

在介紹具體案例前,先來(lái)介紹一下螞蟻知識(shí)圖譜場(chǎng)景應(yīng)用的幾種模式,主要包括知識(shí)獲取、知識(shí)管理和推理,以及知識(shí)服務(wù)。如下圖所示。

圖片

2、一些典型的案例

案例1:基于知識(shí)圖譜的結(jié)構(gòu)化匹配召回

圖片

業(yè)務(wù)場(chǎng)景是支付寶主搜里面的小程序的內(nèi)容下掛,要解決的業(yè)務(wù)痛點(diǎn)是:

  • 商品實(shí)體,以及商品上下位關(guān)系匱乏。
  • 小程序商品級(jí)理解能力弱。

解決方案是,構(gòu)建了商家知識(shí)圖譜。結(jié)合商家圖譜的商品關(guān)系,實(shí)現(xiàn)對(duì)用戶(hù)query商品級(jí)別的結(jié)構(gòu)化理解。

案例2:用戶(hù)意圖實(shí)時(shí)預(yù)測(cè)在推薦系統(tǒng)應(yīng)用

圖片

這一案例是針對(duì)首頁(yè)推薦進(jìn)行用戶(hù)意圖實(shí)時(shí)預(yù)測(cè),構(gòu)建了AlipayKG,框架如上圖所示。相關(guān)工作也發(fā)表在頂會(huì)www 2023上,可以參考論文做更進(jìn)一步的理解。

案例3:融合知識(shí)表征的營(yíng)銷(xiāo)券推薦

圖片

這個(gè)場(chǎng)景是消費(fèi)券推薦的一個(gè)場(chǎng)景,業(yè)務(wù)面臨的痛點(diǎn)為:

  • 頭部效應(yīng)嚴(yán)重。
  • 用戶(hù)核銷(xiāo)領(lǐng)取行為稀疏。
  • 冷啟動(dòng)用戶(hù)和券很多,缺少對(duì)應(yīng)的足跡數(shù)據(jù)。

為了解決上述問(wèn)題,我們?cè)O(shè)計(jì)了融合動(dòng)態(tài)圖表征的深度向量召回算法。因?yàn)槲覀儼l(fā)現(xiàn)用戶(hù)消費(fèi)券的行為是有周期性的,靜態(tài)的單條邊是無(wú)法建模這種周期性行為的。為此我們首先構(gòu)建了動(dòng)態(tài)圖,接著采用團(tuán)隊(duì)自研的動(dòng)態(tài)圖算法來(lái)學(xué)習(xí)Embedding表征,得到表征之后再放到雙塔模型中去,進(jìn)行向量召回。

案例4:基于診療事件的智能理賠專(zhuān)家規(guī)則推理

圖片

最后一個(gè)案例是關(guān)于圖譜規(guī)則推理。以醫(yī)療保險(xiǎn)健康圖譜為例,包括醫(yī)學(xué)知識(shí)、理賠規(guī)則、“人”的健康的信息,進(jìn)行實(shí)體鏈指,再加上邏輯規(guī)則,來(lái)作為決策的依據(jù)。通過(guò)圖譜實(shí)現(xiàn)了專(zhuān)家理賠效率的提升。

四、圖譜與大模型

最后簡(jiǎn)單探討一下在當(dāng)前大模型快速發(fā)展的背景下知識(shí)圖譜的機(jī)遇。

1、知識(shí)圖譜與大模型的關(guān)系

圖片

知識(shí)圖譜與大模型各有優(yōu)缺點(diǎn),大模型的主要有通用知識(shí)建模和普適性等優(yōu)點(diǎn),而大模型的缺點(diǎn)正好是知識(shí)圖譜的優(yōu)點(diǎn)所能彌補(bǔ)的。圖譜的優(yōu)點(diǎn)包括準(zhǔn)確性很高、可解釋性強(qiáng)等。大模型和知識(shí)圖譜是能夠相互影響的。

圖譜和大模型的融合通常存在三種路線,一種是利用知識(shí)圖譜來(lái)增強(qiáng)大模型;第二種是利用大模型來(lái)增強(qiáng)知識(shí)圖譜;第三種是大模型和知識(shí)圖譜協(xié)同并進(jìn),優(yōu)勢(shì)互補(bǔ),大模型可以認(rèn)為是一種參數(shù)化的知識(shí)庫(kù),知識(shí)圖譜可以認(rèn)為是一種顯示化的知識(shí)庫(kù)。

2、大模型與知識(shí)圖譜相應(yīng)用的案例

大模型應(yīng)用于知識(shí)圖譜構(gòu)建

在知識(shí)圖譜構(gòu)建的過(guò)程中,可以利用大模型來(lái)進(jìn)行信息抽取、知識(shí)建模和關(guān)系推理。

如何利用大模型來(lái)應(yīng)用于知識(shí)圖譜的信息抽取

圖片

達(dá)摩院的這個(gè)工作將信息抽取問(wèn)題分解成了兩個(gè)階段:

  • 在第一階段,我們想要找到文本中存在的實(shí)體、關(guān)系或者事件類(lèi)型,以減小搜索空間和計(jì)算復(fù)雜度。
  • 在第二階段,我們根據(jù)前面抽取的類(lèi)型和給定的對(duì)應(yīng)列表,進(jìn)一步抽取出相關(guān)信息。

將知識(shí)圖譜應(yīng)用于大模型

圖片

將知識(shí)圖譜應(yīng)用于大模型主要包括三個(gè)方面:

將知識(shí)圖譜整合到大模型輸入中??梢岳弥R(shí)圖譜來(lái)進(jìn)行數(shù)據(jù)清洗,或利用知識(shí)圖譜直接顯式地進(jìn)行形式化拼接。

將知識(shí)圖譜融合到大模型訓(xùn)練中。比如同時(shí)進(jìn)行兩個(gè)任務(wù)的訓(xùn)練,知識(shí)圖譜可以做知識(shí)表示的任務(wù),大模型做MLM的預(yù)訓(xùn)練,兩者聯(lián)合建模。

將知識(shí)圖譜注入到大模型推理中。首先可以解決大模型的兩個(gè)問(wèn)題,一是將知識(shí)圖譜作為先驗(yàn)約束,來(lái)避免大模型“胡說(shuō)八道”;第二就是解決大模型時(shí)效性問(wèn)題。另一方面,基于知識(shí)圖譜,可以為大模型生成提供可解釋方案。

知識(shí)增強(qiáng)的問(wèn)答系統(tǒng)

圖片

主要包括兩類(lèi),一塊是知識(shí)圖譜增強(qiáng)的問(wèn)答系統(tǒng),即用大模型來(lái)優(yōu)化KBQA的模式;另一個(gè)是信息檢索增強(qiáng),類(lèi)似LangChain、GopherCite、New Bing等用大模型來(lái)做知識(shí)庫(kù)問(wèn)答的形式。

知識(shí)增強(qiáng)的生成式搜索問(wèn)答系統(tǒng),有如下優(yōu)勢(shì):

  • 通過(guò)接入搜索系統(tǒng),解決時(shí)效性問(wèn)題。
  • 通過(guò)提供Reference鏈接,可以進(jìn)行人工核查,以解決事實(shí)性錯(cuò)誤問(wèn)題。
  • 引入搜索結(jié)果,豐富上下文,增強(qiáng)大模型生成效果。

3、總結(jié)與展望

圖片

知識(shí)圖譜與大模型如何更好地交互協(xié)同共進(jìn),包括如下三個(gè)方向:

  • 推進(jìn)知識(shí)圖譜和大模型在NLP、問(wèn)答系統(tǒng)等領(lǐng)域的深入應(yīng)用。
  • 使用知識(shí)圖譜進(jìn)行大模型的幻覺(jué)檢測(cè)和去毒。
  • 結(jié)合知識(shí)圖譜的領(lǐng)域大模型研發(fā)。
責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2018-02-27 08:39:47

圖譜數(shù)據(jù)存儲(chǔ)

2019-05-07 10:01:49

Redis軟件開(kāi)發(fā)

2024-10-08 10:37:12

語(yǔ)言數(shù)據(jù)自然語(yǔ)言

2020-12-02 08:14:05

行業(yè)規(guī)模經(jīng)驗(yàn)

2022-08-11 14:11:14

知識(shí)圖譜人工智能

2023-07-10 07:42:38

2021-01-18 10:50:29

知識(shí)圖譜人工智能深度學(xué)習(xí)

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2021-01-19 10:52:15

知識(shí)圖譜

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2023-04-26 06:22:45

NLPPython知識(shí)圖譜

2023-10-17 07:54:43

AI算法

2023-06-29 07:27:26

知識(shí)圖譜Shopee

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2024-06-03 07:28:43

2024-02-26 00:00:00

RAG系統(tǒng)圖譜

2021-01-18 10:42:36

深度學(xué)習(xí)知識(shí)圖譜

2020-11-13 15:38:12

深度學(xué)習(xí)編程人工智能

2017-04-13 11:48:05

NLP知識(shí)圖譜
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)