自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從知識(shí)圖譜到知識(shí)推理,是否會(huì)成為AI的一個(gè)熱點(diǎn)

人工智能 知識(shí)圖譜
隨著大數(shù)據(jù)和AI人工智能的發(fā)展,知識(shí)圖譜成為一個(gè)新的熱點(diǎn),并在類似風(fēng)控和反欺詐,智能推薦引擎,智能知識(shí)問答等諸多的領(lǐng)域發(fā)揮作用。實(shí)際上也可以看到大數(shù)據(jù)和AI算法的發(fā)展都進(jìn)一步推動(dòng)知識(shí)圖譜的應(yīng)用和落地。

 [[384924]]

今天寫一篇知識(shí)圖譜方面的文章,算作是個(gè)人對(duì)知識(shí)圖譜的一個(gè)初步學(xué)習(xí)和認(rèn)識(shí)。對(duì)于知識(shí)圖譜最近幾年一直有人跟我談到這個(gè)詞,或者是自己在從事知識(shí)圖譜技術(shù)工作,或者在大數(shù)據(jù)平臺(tái)構(gòu)建完成后需要構(gòu)建知識(shí)圖譜等。

實(shí)際在在10多年前,在企業(yè)知識(shí)管理和知識(shí)庫(kù)構(gòu)建中,類似Autonomy知識(shí)管理軟件,當(dāng)時(shí)就談到了文本內(nèi)容的語(yǔ)義識(shí)別和語(yǔ)義網(wǎng)構(gòu)建,包括類似香農(nóng)理論和貝葉斯算法的使用等,也有基于知識(shí)圖譜的知識(shí)和學(xué)習(xí)路線規(guī)劃等。后來(lái)Autonomy被HP收購(gòu)了,反而是銷聲匿跡。

但是最近幾年,隨著大數(shù)據(jù)和AI人工智能的發(fā)展,知識(shí)圖譜成為一個(gè)新的熱點(diǎn),并在類似風(fēng)控和反欺詐,智能推薦引擎,智能知識(shí)問答等諸多的領(lǐng)域發(fā)揮作用。實(shí)際上也可以看到大數(shù)據(jù)和AI算法的發(fā)展都進(jìn)一步推動(dòng)知識(shí)圖譜的應(yīng)用和落地。

知識(shí)圖譜要構(gòu)建不能離開大數(shù)據(jù),海量自然數(shù)據(jù)的知識(shí)采集和抽象才能夠構(gòu)建一個(gè)完整的知識(shí)語(yǔ)義網(wǎng)絡(luò),但是只有網(wǎng)絡(luò)還不行,基于語(yǔ)義網(wǎng)絡(luò)你的知識(shí)推理邏輯和算法還得不斷提供技術(shù)支撐。

因此數(shù)據(jù)+算法兩個(gè)方面的發(fā)展才是推動(dòng)知識(shí)圖譜細(xì)分領(lǐng)域發(fā)展的關(guān)鍵。

知識(shí)圖譜概述

對(duì)于知識(shí)圖譜,從基本概念到構(gòu)建流程,方法工具,網(wǎng)上都有詳細(xì)的文章可以參考,在這里僅僅對(duì)知識(shí)圖譜的基礎(chǔ)概念做一個(gè)闡述。

知識(shí)圖譜(Knowledge Graph)的概念由谷歌2012年正式提出,旨在實(shí)現(xiàn)更智能的搜索引擎,并且于2013年以后開始在學(xué)術(shù)界和業(yè)界普及,并在智能問答、情報(bào)分析、反欺詐等應(yīng)用中發(fā)揮重要作用。

知識(shí)圖譜本質(zhì)上是一種叫做語(yǔ)義網(wǎng)絡(luò)(semantic network)的知識(shí)庫(kù),即具有有向圖結(jié)構(gòu)的一個(gè)知識(shí)庫(kù),其中圖的結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),而圖的邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系,比如說(shuō)兩個(gè)實(shí)體之間的相似關(guān)系。

當(dāng)在理解知識(shí)圖譜的時(shí)候,實(shí)體和概念必須要區(qū)分清楚,對(duì)于概念當(dāng)前本身又拆分為了概念和屬性兩個(gè)獨(dú)立的詞。

如果從IT和軟件開發(fā)來(lái)對(duì)比話,實(shí)體就類似于領(lǐng)域建模里面的實(shí)體對(duì)象,而概念類似于值對(duì)象,實(shí)體對(duì)象可以獨(dú)立存在,具有獨(dú)立生命周期,而概念或值對(duì)象則依托于實(shí)體,沒有實(shí)體單獨(dú)談概念對(duì)象或值沒有意義。

我們來(lái)舉例說(shuō)明下:

雷軍認(rèn)識(shí)林斌,是在2008年。當(dāng)時(shí)林斌想推動(dòng)Google和UCWEB之間的合作。雷軍驚訝的發(fā)現(xiàn),林斌有發(fā)自內(nèi)心對(duì)產(chǎn)品的熱愛,林斌在Google所做的工作和產(chǎn)品都非常投入,“下功夫”。那個(gè)時(shí)候,雷軍開始經(jīng)常去找林斌聊天,兩個(gè)大男人經(jīng)常在一起挑燈夜戰(zhàn),聊到凌晨一、兩點(diǎn)鐘。聊著聊著,兩人從合作伙伴聊成了好朋友。

從上面這段,我們至少可以得知。

雷軍和林斌是好朋友。

這個(gè)是典型的實(shí)體和實(shí)體間關(guān)系描述,可以用類似RDF三元組模型進(jìn)行抽象和建模,存儲(chǔ)到類似圖數(shù)據(jù)庫(kù)中。里面的核心元數(shù)據(jù)就是實(shí)體對(duì)象和實(shí)體關(guān)系。

可以看到雷軍和林斌兩個(gè)是獨(dú)立實(shí)體,具備獨(dú)立的生命周期,雖然兩者之間有關(guān)系,但是都可以獨(dú)立存在,而不受對(duì)方影響。

而對(duì)于概念和概念屬性呢?

則類似于進(jìn)一步對(duì)雷軍的個(gè)人屬性描述,比如身高,性別,年齡,民族等。概念和屬性最大的一個(gè)特點(diǎn)就是概念只是一個(gè)屬性列表或者值集合。這個(gè)值可以是連續(xù)的,如身高數(shù)值。也可以是不連續(xù)的,如56個(gè)民族。但是不管是哪種情況最終概念里面的都是一個(gè)最終的屬性值。如同實(shí)體不存在了,這個(gè)概念和屬性值本身沒有業(yè)務(wù)意義。

當(dāng)把這個(gè)理解清楚后,我們?cè)賮?lái)看。

雷軍畢業(yè)于湖北仙桃中學(xué),那么仙桃中學(xué)究竟是概念還是實(shí)體?實(shí)際上仙桃中學(xué)應(yīng)該作為實(shí)體獨(dú)立研究,因?yàn)閷?duì)于仙桃中學(xué)的描述,不是通過(guò)一系列連續(xù)或不連續(xù)的值來(lái)定義的。同時(shí)仙桃中學(xué)可以獨(dú)立存在,雷軍是否存在過(guò)并不影響到仙桃中學(xué)這個(gè)學(xué)校。

那么仙桃中學(xué)就應(yīng)該作為獨(dú)立的實(shí)體。

基于這個(gè)思路,整個(gè)關(guān)系圖可以變化為如下圖。

在這里我特意講概念和屬性值用了綠色方框進(jìn)行描述。

簡(jiǎn)單來(lái)說(shuō)概念是一個(gè)特殊類型的實(shí)體,這類實(shí)體不會(huì)進(jìn)一步展開,也不會(huì)直接和其它實(shí)體之間建立關(guān)系映射。

知識(shí)圖譜的構(gòu)建過(guò)程

[[384926]]


對(duì)于知識(shí)圖譜的構(gòu)建過(guò)程,網(wǎng)上有很多詳細(xì)的文章可以參考,在這類不再詳細(xì)描述。僅僅談下重點(diǎn)內(nèi)容。

在前面的簡(jiǎn)單舉例已經(jīng)可以看到,一個(gè)知識(shí)圖譜的構(gòu)建核心還是實(shí)體對(duì)象的識(shí)別,實(shí)體關(guān)系的建立。也就是需要從一個(gè)非結(jié)構(gòu)化的文本材料,乃至語(yǔ)音材料里面識(shí)別和抽象出對(duì)應(yīng)的實(shí)體,同時(shí)建立實(shí)體之間的關(guān)系。

人和物皆是關(guān)鍵的實(shí)體

在識(shí)別實(shí)體的時(shí)候可以看到,人和物本身都是重點(diǎn)要識(shí)別的實(shí)體對(duì)象。人本身既從屬于一個(gè)團(tuán)隊(duì),地點(diǎn)或組織,同時(shí)也設(shè)計(jì)或創(chuàng)造事物。

因此再擴(kuò)展的話,可以理解為物品,場(chǎng)所,人物,企業(yè)組織團(tuán)隊(duì),區(qū)域地點(diǎn)是重要可以識(shí)別的關(guān)鍵實(shí)體。這些實(shí)體本身又是一種可以向上聚合,向下展開的層次化結(jié)構(gòu)。

比如一個(gè)商場(chǎng)本身屬于一個(gè)區(qū)域,同時(shí)商場(chǎng)展開本身又包括多個(gè)門店。

抽象概念還是實(shí)例概念

當(dāng)分析實(shí)體的時(shí)候還得注意實(shí)體一般是實(shí)例化和特指的,而不是一個(gè)抽象的概念。比如當(dāng)你談到悲慘世界的時(shí)候,悲慘世界既可以指雨果的書籍,也可以是電影的某個(gè)版本,還可以是10周年的音樂劇。

那我們對(duì)實(shí)體的研究最好特指到具體的實(shí)例層級(jí),比如悲慘世界2012年電影版本。

當(dāng)理解清楚實(shí)體后,再來(lái)看關(guān)系的識(shí)別。

人或物隸屬于一個(gè)組織或區(qū)域

人創(chuàng)造發(fā)明或消費(fèi)使用某個(gè)物品

人和人之間的關(guān)系,如家人,同學(xué),同事,合伙人等

實(shí)體本身體現(xiàn)的層次關(guān)系展開和聚合

也就是大部分實(shí)體的關(guān)系都體現(xiàn)在上面列舉的各個(gè)方面展開。

知識(shí)圖譜的構(gòu)建

知識(shí)圖譜的構(gòu)建過(guò)程實(shí)際上相當(dāng)復(fù)雜,但是核心主要包括了知識(shí)的抽取,知識(shí)存儲(chǔ),實(shí)體對(duì)齊,知識(shí)建模和知識(shí)推理等幾個(gè)關(guān)鍵步驟。

對(duì)于知識(shí)的抽象,不論是結(jié)構(gòu)化數(shù)據(jù)還是文本等非結(jié)構(gòu)化數(shù)據(jù),最終都需要轉(zhuǎn)化為三元組數(shù)據(jù)結(jié)構(gòu),方便構(gòu)建知識(shí)圖譜模型。在知識(shí)抽取完成后,就涉及到知識(shí)的存儲(chǔ),當(dāng)前主流仍然是采用類似Neo4j等圖數(shù)據(jù)庫(kù)來(lái)完成。在關(guān)系型數(shù)據(jù)庫(kù)中所有的數(shù)據(jù)庫(kù)模式都需要提前定義,后續(xù)改動(dòng)代價(jià)高昂。而圖模型中,只需要重新增加模式定義, 再局部調(diào)整數(shù)據(jù),便可完成在原有的數(shù)據(jù)源上增加標(biāo)簽或添加屬性。

最近我在查看和學(xué)習(xí)知識(shí)圖譜的一些技術(shù)資料,發(fā)現(xiàn)一個(gè)大問題,即將知識(shí)體系和知識(shí)圖譜兩個(gè)概念混淆,將知識(shí)體系誤認(rèn)為知識(shí)圖譜,同時(shí)采用思維導(dǎo)圖來(lái)構(gòu)建知識(shí)圖譜,這是一個(gè)相當(dāng)錯(cuò)誤的做法。特別是思維導(dǎo)圖本身就是單節(jié)點(diǎn)為中心展開的,完全無(wú)法表達(dá)多實(shí)體之間的關(guān)系信息。

類似網(wǎng)上搜索到的這個(gè)圖,就是一個(gè)完全錯(cuò)誤的做法。

知識(shí)推理過(guò)程

知識(shí)圖譜在構(gòu)建完成后,更加重要的是進(jìn)行知識(shí)推理,而知識(shí)推理本身是基于構(gòu)建的推理模型進(jìn)行的,也就是是知識(shí)圖譜體現(xiàn)的人工智能本身是基于算法和推理模型進(jìn)行的,而非前面文章談到的基于統(tǒng)計(jì)學(xué)思維的人工智能。

那知識(shí)推理究竟是推理什么?

最常見的就是基于實(shí)體網(wǎng)絡(luò)已經(jīng)的實(shí)體關(guān)系來(lái)推理實(shí)體間的其它關(guān)系。比如一個(gè)實(shí)體三角,當(dāng)兩個(gè)關(guān)系已知的時(shí)候往往可以推理去未知的關(guān)系邊。

在實(shí)體關(guān)系里面,如果已知:

  • 雷軍創(chuàng)辦了小米科技
  • 林斌創(chuàng)辦了小米科技

那么則可以推理出雷軍和林斌兩個(gè)實(shí)體的關(guān)系,從好朋友增加了合伙人關(guān)系。

其次常見的就是異常風(fēng)險(xiǎn)檢測(cè)。

即通過(guò)知識(shí)抽取采集形成完整的知識(shí)圖譜后,你會(huì)發(fā)現(xiàn)在整個(gè)語(yǔ)義網(wǎng)絡(luò)里面實(shí)體之間的關(guān)系存在異常。在金融等反欺詐領(lǐng)域,經(jīng)常就會(huì)遇到類似的知識(shí)圖譜推理邏輯去發(fā)現(xiàn)相關(guān)的問題,比如常說(shuō)的多點(diǎn)共享信息,如下圖:

即李明,李飛和借款人三個(gè)實(shí)體共享多個(gè)實(shí)體信息,比如居住地址,銀行賬號(hào),畢業(yè)學(xué)校等完全相同,那么就存在金融欺詐的可能性。

還有串行邏輯推理,最常見的例子類似股權(quán)穿透

比如張三占A公司股權(quán)50%, 而A公司占B公司股權(quán)30%,那么股權(quán)穿透后張三實(shí)際占比A公司股權(quán)15%。當(dāng)然張三可能還通過(guò)C公司來(lái)占有了B公司股權(quán)。通過(guò)這種企業(yè)和人構(gòu)成的語(yǔ)義網(wǎng)絡(luò)就很容易分析計(jì)算出具體的公司實(shí)控人等信息。

就當(dāng)前來(lái)看,知識(shí)圖譜的推理本身已經(jīng)不是簡(jiǎn)單基于語(yǔ)義網(wǎng)絡(luò)的語(yǔ)義模型和規(guī)則約束進(jìn)行推理,而是和深度學(xué)習(xí)進(jìn)行結(jié)合。即將語(yǔ)義模型導(dǎo)入到深度學(xué)習(xí)模型中,強(qiáng)化深度學(xué)習(xí)的推理和預(yù)測(cè)能力。

我們舉個(gè)簡(jiǎn)單的例子,比如推薦系統(tǒng)和推薦引擎,實(shí)際核心仍然是基于采集的用戶大量行為數(shù)據(jù)作為基礎(chǔ),但是同時(shí)如果導(dǎo)入了用戶本身的朋友關(guān)系語(yǔ)義模型,那么整個(gè)推薦模型可能會(huì)更加準(zhǔn)確。

責(zé)任編輯:梁菲 來(lái)源: 今日頭條
相關(guān)推薦

2021-02-01 22:41:05

語(yǔ)義網(wǎng)知識(shí)圖譜

2021-04-12 11:47:21

人工智能知識(shí)圖譜

2024-11-07 13:19:03

2021-01-19 11:07:19

深度學(xué)習(xí)神經(jīng)+符號(hào)知識(shí)圖譜

2017-03-06 16:48:56

知識(shí)圖譜構(gòu)建存儲(chǔ)

2021-01-19 10:52:15

知識(shí)圖譜

2025-04-27 00:10:00

AI人工智能知識(shí)圖譜

2021-01-25 10:36:32

知識(shí)圖譜人工智能

2021-05-31 09:15:14

人工智能AI深度學(xué)習(xí)

2024-01-29 00:25:59

人工智能結(jié)構(gòu)化編碼

2019-01-18 16:02:33

知識(shí)圖譜圖數(shù)據(jù)庫(kù)AI

2021-01-18 10:50:29

知識(shí)圖譜人工智能深度學(xué)習(xí)

2017-04-13 11:48:05

NLP知識(shí)圖譜

2024-10-08 10:37:12

語(yǔ)言數(shù)據(jù)自然語(yǔ)言

2025-01-09 10:52:23

RAG知識(shí)圖譜人工智能

2025-04-18 12:49:58

知識(shí)圖譜大模型人工智能

2024-06-03 07:28:43

2021-04-12 11:41:09

人工智能知識(shí)圖譜

2012-03-06 10:09:51

2022-08-11 14:11:14

知識(shí)圖譜人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)