自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

知識圖譜掃盲

人工智能 知識圖譜
互聯(lián)網(wǎng)正從僅包含網(wǎng)頁和網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)(Document Web)轉變成包含大量描述各種實體和實體之間豐富關系的數(shù)據(jù)萬維網(wǎng)(Data Web)。在這個背景下,Google、百度和搜狗等搜索引擎公司紛紛以此為基礎構建知識圖譜,分別為Knowledge Graph、知心和知立方,來改進搜索質量,從而拉開了語義搜索的序幕。

近兩年來,隨著Linking Open Data等項目的全面展開,語義Web數(shù)據(jù)源的數(shù)量激增,大量RDF數(shù)據(jù)被發(fā)布?;ヂ?lián)網(wǎng)正從僅包含網(wǎng)頁和網(wǎng)頁之間超鏈接的文檔萬維網(wǎng)(Document Web)轉變成包含大量描述各種實體和實體之間豐富關系的數(shù)據(jù)萬維網(wǎng)(Data Web)。在這個背景下,Google、百度和搜狗等搜索引擎公司紛紛以此為基礎構建知識圖譜,分別為Knowledge Graph、知心和知立方,來改進搜索質量,從而拉開了語義搜索的序幕。

知識圖譜的表示和本質

正如Google的辛格博士在介紹知識圖譜時提到的:“The world is not made of strings , but is made of things.”,知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID來標識,稱為它們的標識符(identifier)。每個屬性-值對(attribute-value pair,又稱AVP)用來刻畫實體的內在特性,而關系(relation)用來連接兩個實體,刻畫它們之間的關聯(lián)。知識圖譜亦可被看作是一張巨大的圖,圖中的節(jié)點表示實體或概念,而圖中的邊則由屬性或關系構成。上述圖模型可用W3C提出的資源描述框架RDF[2] 或屬性圖(property graph)來表示。知識圖譜率先由Google提出,以提高其搜索的質量。

知識圖譜本質上是語義網(wǎng)絡,是一種基于圖的數(shù)據(jù)結構,由節(jié)點(Point)和邊(Edge)組成。在知識圖譜里,每個節(jié)點表示現(xiàn)實世界中存在的“實體”,每條邊為實體與實體之間的“關系”。知識圖譜是關系的最有效的表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個關系網(wǎng)絡。知識圖譜提供了從“關系”的角度去分析問題的能力。

知識圖譜的作用

為了讓用戶能夠更快更簡單的發(fā)現(xiàn)新的信息和知識,Google搜索將發(fā)布“知識圖譜”(Knowledge Graph)——可以將搜索結果進行知識系統(tǒng)化,任何一個關鍵詞都能獲得完整的知識體系。

比如搜索“Amazon”(亞馬遜河),一般的搜索結果會給出和Amazon最相關的信息。比如Amazon網(wǎng)站,因為網(wǎng)上關于它的信息最多,但Amazon并不僅僅是一個網(wǎng)站,它還是全球流量最大的Amazon河流。如果在追溯歷史,它可能還是希臘女戰(zhàn)士一族的代稱。而這些結果未來都會在Google搜索的“知識圖譜”中展現(xiàn)出來。

不管用戶搜索的關鍵詞是代表了地標、名人、城市、球隊名、電影、專業(yè)詞語還是一種菜的做法,Google的“知識圖譜”都可以將搜索結果的知識體系完整的呈現(xiàn)出來。

和之前的搜素結果相比,“知識圖譜”將在三個方面大幅度提高Google搜索的最終效果:

1 找到正確的結果。由于一個關鍵詞可能代表多重含義,所以知識圖譜會將最全面的信息展現(xiàn)出來,讓用戶找到自己最想要的那種含義。

2 最好的總結。有了知識圖譜,Google可以更好的理解用戶搜索的信息,并總結處相關的內容和主題。當你搜“瑪麗·居里”時,你不僅可以獲得這個關鍵詞的所有相關內容,還能獲得居里夫人的詳細生平介紹。

3 更深、更廣。由于“知識圖譜”會給出搜索結果的完整知識體系,所以用戶往往會發(fā)現(xiàn)很多不知道的東西(知識)。當你搜索一個即將去旅行的地方時,可能你會發(fā)現(xiàn)一個以此命名的餐館,甚至還可能發(fā)現(xiàn)還有一本小說就叫這個名字,并且已經(jīng)改編成了同名電影。

Google的“知識圖譜”不僅僅會從Freebase、維基百科或全球概覽中獲得專業(yè)的信息,同時還通過大規(guī)模的信息搜索分析來提高搜索結果的深度和廣度?,F(xiàn)在Google數(shù)據(jù)庫中包含超過5億個事物,不同事物之間的關系超過35億條。同時人們搜索的越多,Google獲得的信息也就越多越全面,整個知識圖譜也就會達到更好的效果。

知識圖譜的構建

1. 知識圖譜的規(guī)模

據(jù)不完全統(tǒng)計,Google知識圖譜到目前為止包含了5億個實體和35億條事實(形如實體-屬性-值,和實體-關系-實體)。其知識圖譜是面向全球的,因此包含了實體和相關事實的多語言描述。不過相比占主導的英語外,僅包含其他語言(如中文)的知識圖譜的規(guī)模則小了很多。與此不同的是,百度和搜狗主要針對中文搜索推出知識圖譜,其知識庫中的知識也主要以中文來描述,其規(guī)模略小于Google的。

2. 知識圖譜的表示

假設我們用知識圖譜來描述一個事實(Fact) - “張三是李四的父親”。這里的實體是張三和李四,關系是“父親”(is_father_of)。當然,張三和李四也可能會跟其他人存在著某種類型的關系(暫時不考慮)。當我們把電話號碼也作為節(jié)點加入到知識圖譜以后(電話號碼也是實體),人和電話之間也可以定義一種關系叫 has_phone,就是說某個電話號碼是屬于某個人。

另外,我們可以把時間作為屬性(Property)添加到 has_phone 關系里來表示開通電話號碼的時間。這種屬性不僅可以加到關系里,還可以加到實體當中,當我們把所有這些信息作為關系或者實體的屬性添加后,所得到的圖譜稱之為屬性圖 (Property Graph)。屬性圖和傳統(tǒng)的RDF格式都可以作為知識圖譜的表示和存儲方式。

3. 知識圖譜的存儲

知識圖譜是基于圖的數(shù)據(jù)結構,它的存儲方式主要有兩種形式:RDF存儲格式和圖數(shù)據(jù)庫(Graph Database)。

根據(jù)DB-Engines Ranking的排名, neo4j在整個圖存儲領域里占據(jù)著NO.1的地位,而且在RDF領域里Jena還是目前為止最為流行的存儲框架。

當然,如果需要設計的知識圖譜非常簡單,而且查詢也不會涉及到1度以上的關聯(lián)查詢,我們也可以選擇用關系型數(shù)據(jù)存儲格式來保存知識圖譜。但對那些稍微復雜的關系網(wǎng)絡(現(xiàn)實生活中的實體和關系普遍都比較復雜),知識圖譜的優(yōu)點還是非常明顯的。首先,在關聯(lián)查詢的效率上會比傳統(tǒng)的存儲方式有顯著的提高。當我們涉及到2,3度的關聯(lián)查詢,基于知識圖譜的查詢效率會高出幾千倍甚至幾百萬倍。其次,基于圖的存儲在設計上會非常靈活,一般只需要局部的改動即可。比如我們有一個新的數(shù)據(jù)源,我們只需要在已有的圖譜上插入就可以。于此相反,關系型存儲方式靈活性方面比較差,它所有的Schema都是提前定義好的,如果后續(xù)要改變,它的代價是非常高的。最后,把實體和關系存儲在圖數(shù)據(jù)結構是一種符合整個故事邏輯的最好的方式。

4. 知識圖譜的數(shù)據(jù)來源

為了提高搜索質量,特別是提供如對話搜索和復雜問答等新的搜索體驗,我們不僅要求知識圖譜包含大量高質量的常識性知識,還要能及時發(fā)現(xiàn)并添加新的知識。在這種背景下,知識圖譜通過收集來自百科類站點和各種垂直站點的結構化數(shù)據(jù)來覆蓋大部分常識性知識。這些數(shù)據(jù)普遍質量較高,更新比較慢。而另一方面,知識圖譜通過從各種半結構化數(shù)據(jù)(形如HTML表格)抽取相關實體的屬性-值對來豐富實體的描述。此外,通過搜索日志(query log)發(fā)現(xiàn)新的實體或新的實體屬性從而不斷擴展知識圖譜的覆蓋率。相比高質量的常識性知識,通過數(shù)據(jù)挖掘抽取得到的知識數(shù)據(jù)更大,更能反映當前用戶的查詢需求并能及時發(fā)現(xiàn)最新的實體或事實,但其質量相對較差,存在一定的錯誤。這些知識利用互聯(lián)網(wǎng)的冗余性在后續(xù)的挖掘中通過投票或其他聚合算法來評估其置信度,并通過人工審核加入到知識圖譜中。

a) 百科類數(shù)據(jù)

維基百科 ,通過協(xié)同編輯,已經(jīng)成為最大的在線百科全書,其質量與大英百科媲美??梢酝ㄟ^以下方式來從維基百科中獲取所需的內容:通過文章頁面(Article Page)抽取各種實體;通過重定向頁面(Redirect Page)獲得這些實體的同義詞(又稱Synonym);通過去歧義頁面(Disambiguation Page)和內鏈錨文本(Internal Link Anchor Text)獲得它們的同音異義詞(又稱Homonym);通過概念頁面(Category Page)獲得各種概念以及其上下位(subclass)關系;通過文章頁面關聯(lián)的開放分類抽取實體所對應的類別;通過信息框(Infobox)抽取實體所對應的屬性-值對和關系-實體對。類似地,從百度百科和互動百科抽取各種中文知識來彌補維基百科中文數(shù)據(jù)不足的缺陷。此外,F(xiàn)reebase[5] 是另一個重要的百科類的數(shù)據(jù)源,其包含超過3900萬個實體(其稱為Topics)和18億條事實,規(guī)模遠大于維基百科。對比之前提及的知識圖譜的規(guī)模,我們發(fā)現(xiàn)僅Freebase一個數(shù)據(jù)源就構成了Google知識圖譜的半壁江山。更為重要的是,維基百科所編輯的是各種詞條,這些詞條以文章的形式來展現(xiàn),包含各種半結構化信息,需要通過事先制定的規(guī)則來抽取知識;而Freebase則直接編輯知識,包括實體及其包含的屬性和關系,以及實體所屬的類型等結構化信息。因此,不需要通過任何抽取規(guī)則即可獲得高質量的知識。雖然開發(fā)Freebase的母公司MetaWeb于2010年被Google收購,F(xiàn)reebase還是作為開放的知識管理平臺獨立運行。所以百度和搜狗也將Freebase加入到其知識圖譜中。

b) 結構化數(shù)據(jù)

除了百科類的數(shù)據(jù),各大搜索引擎公司在構建知識圖譜時,還考慮其他結構化數(shù)據(jù)。其中,LOD項目在發(fā)布各種語義數(shù)據(jù)的同時,通過owl:sameAs將新發(fā)布的語義數(shù)據(jù)中涉及的實體和LOD中已有數(shù)據(jù)源所包含的潛在同一實體進行關聯(lián),從而實現(xiàn)了手工的實體對齊(entity alignment)。LOD不僅包括如DBpedia[6] 和YAGO[7] 等通用語義數(shù)據(jù)集,還包括如MusicBrainz 和DrugBank 等特定領域的知識庫。因此,Google等通過整合LOD中的(部分)語義數(shù)據(jù)提高知識的覆蓋率,尤其是垂直領域的各種知識。此外,Web上存在大量高質量的垂直領域站點(如電商網(wǎng)站,點評網(wǎng)站等),這些站點被稱為Deep Web[10]。它們通過動態(tài)網(wǎng)頁技術將保存在數(shù)據(jù)庫中的各種領域相關的結構化數(shù)據(jù)以HTML表格的形式展現(xiàn)給用戶。各大搜索引擎公司通過收購這些站點或購買其數(shù)據(jù)來進一步擴充其知識圖譜在特定領域的知識。這樣做出于三方面原因:其一、大量爬取這些站點的數(shù)據(jù)會占據(jù)大量帶寬,導致這些站點無法被正常訪問;其二、爬取全站點數(shù)據(jù)可能會涉及知識產(chǎn)權糾紛;最后,相比靜態(tài)網(wǎng)頁的爬取,Deep Web爬蟲需要通過表單填充(Form Filling)技術來獲取相關內容,且解析這些頁面中包含的結構化信息需要額外的自動化抽取算法,具體細節(jié)在下一節(jié)描述。

c) 半結構化數(shù)據(jù)挖掘AVP

雖然從Deep Web爬取數(shù)據(jù)并解析其中所包含的結構化信息面臨很大的挑戰(zhàn),各大搜索引擎公司仍在這方面投入了大量精力。一方面,Web上存在大量長尾的結構化站點,這些站點提供的數(shù)據(jù)與最主流的相關領域站點所提供的內容具有很強的互補性,因此對這些長尾站點進行大規(guī)模的信息抽取(尤其是實體相關的屬性-值對的抽取)對于知識圖譜所含內容的擴展是非常有價值的。另一方面,中文百科類的站點(如百度百科等)的結構化程度遠不如維基百科,能通過信息框獲得AVP的實體非常稀少,大量屬性-值對隱含在一些列表或表格中。一個切實可行的做法是構建面向站點的包裝器(Site-specific Wrapper)。其背后的基本思想是:一個Deep Web站點中的各種頁面由統(tǒng)一的程序動態(tài)生成,具有類似的布局和結構。利用這一點,我們僅需從當前待抽取站點采樣并標注幾個典型詳細頁面(Detailed Pages),利用這些頁面通過模式學習算法(Pattern Learning)自動構建出一個或多個以類Xpath表示的模式,然后將其應用在該站點的其他詳細頁面中從而實現(xiàn)自動化的AVP抽取。對于百科類站點,我們可以將具有相同類別的頁面作為某個“虛擬”站點,并使用類似的方法進行實體AVP的抽取。自動學習獲得的模式并非完美,可能會遺漏部分重要的屬性,也可能產(chǎn)生錯誤的抽取結果。為了應對這個問題,搜索引擎公司往往通過構建工具來可視化這些模式,并人工調整或新增合適的模式用于抽取。此外,通過人工評估抽取的結果,將那些抽取結果不令人滿意的典型頁面進行再標注來更新訓練樣本,從而達到主動學習(Active Learning)的目的。

d) 通過搜索日志進行實體和實體屬性等挖掘

搜索日志是搜索引擎公司積累的寶貴財富。一條搜索日志形如<查詢,點擊的頁面鏈接,時間戳>。通過挖掘搜索日志,我們往往可以發(fā)現(xiàn)最新出現(xiàn)的各種實體及其屬性,從而保證知識圖譜的實時性。這里側重于從查詢的關鍵詞短語和點擊的頁面所對應的標題中抽取實體及其屬性。選擇查詢作為抽取目標的意義在于其反映了用戶最新最廣泛的需求,從中能挖掘出用戶感興趣的實體以及實體對應的屬性。而選擇頁面的標題作為抽取目標的意義在于標題往往是對整個頁面的摘要,包含最重要的信息。據(jù)百度研究者的統(tǒng)計,90%以上的實體可以在網(wǎng)頁標題中被找到。為了完成上述抽取任務,一個常用的做法是:針對每個類別,挑選出若干屬于該類的實體(及相關屬性)作為種子(Seeds),找到包含這些種子的查詢和頁面標題,形成正則表達式或文法模式。這些模式將被用于抽取查詢和頁面標題中出現(xiàn)的其他實體及其屬性。如果當前抽取所得的實體未被包含在知識圖譜中,則該實體成為一個新的候選實體。類似地,如果當前被抽取的屬性未出現(xiàn)在知識圖譜中,則此屬性成為一個新的候選屬性。這里,我們僅保留置信度高的實體及其屬性,新增的實體和屬性將被作為新的種子發(fā)現(xiàn)新的模式。此過程不斷迭代直到?jīng)]有新的種子可以加入或所有的模式都已經(jīng)找到且無法泛化。在決定模式的好壞時,常用的基本原則是盡量多地發(fā)現(xiàn)屬于當前類別的實體和對應屬性,盡量少地抽取出屬于其他類別的實體及屬性。上述方法被稱為基于Bootstrapping的多類別協(xié)同模式學習。

5. 從抽取圖譜到知識圖譜

上述所介紹的方法僅僅是從各種類型的數(shù)據(jù)源抽取構建知識圖譜所需的各種候選實體(概念)及其屬性關聯(lián),形成了一個個孤立的抽取圖譜(Extraction Graphs)。為了形成一個真正的知識圖譜,我們需要將這些信息孤島集成在一起。

a) 實體對齊

實體對齊(Object Alignment)旨在發(fā)現(xiàn)具有不同ID但卻代表真實世界中同一對象的那些實體,并將這些實體歸并為一個具有全局唯一標識的實體對象添加到知識圖譜中。雖然實體對齊在數(shù)據(jù)庫領域被廣泛研究,但面對如此多異構數(shù)據(jù)源上的Web規(guī)模的實體對齊,這還是第一次嘗試。各大搜索引擎公司普遍采用的方法是聚類。聚類的關鍵在于定義合適的相似度度量。這些相似度度量遵循如下觀察:具有相同描述的實體可能代表同一實體(字符相似);具有相同屬性-值的實體可能代表相同對象(屬性相似);具有相同鄰居的實體可能指向同一個對象(結構相似)。在此基礎上,為了解決大規(guī)模實體對齊存在的效率問題,各種基于數(shù)據(jù)劃分或分割的算法被提出將實體分成一個個子集,在這些子集上使用基于更復雜的相似度計算的聚類并行地發(fā)現(xiàn)潛在相同的對象。另外,利用來自如LOD中已有的對齊標注數(shù)據(jù)(使用owl:sameAs關聯(lián)兩個實體)作為訓練數(shù)據(jù),然后結合相似度計算使用如標簽傳遞(Label Propagation)等基于圖的半監(jiān)督學習算法發(fā)現(xiàn)更多相同的實體對。無論何種自動化方法都無法保證100%的準確率,所以這些方法的產(chǎn)出結果將作為候選供人工進一步審核和過濾。

b) 知識圖譜schema構建

在之前的技術點介紹中,大部分篇幅均在介紹知識圖譜中數(shù)據(jù)層(Data Level)的構建,而沒有過多涉及模式層(Schema Level)。事實上,模式是對知識的提煉,而且遵循預先給定的schema有助于知識的標準化,更利于查詢等后續(xù)處理。為知識圖譜構建schema相當于為其建立本體(Ontology)。最基本的本體包括概念、概念層次、屬性、屬性值類型、關系、關系定義域(Domain)概念集以及關系值域(Range)概念集。在此基礎上,我們可以額外添加規(guī)則(Rules)或公理(Axioms)來表示模式層更復雜的約束關系。面對如此龐大且領域無關的知識庫,即使是構建最基本的本體,也是非常有挑戰(zhàn)的。Google等公司普遍采用的方法是自頂向下(Top-Down)和自底向上(Bottom-Up)相結合的方式。這里,自頂向下的方式是指通過本體編輯器(Ontology Editor)預先構建本體。當然這里的本體構建不是從無到有的過程,而是依賴于從百科類和結構化數(shù)據(jù)得到的高質量知識中所提取的模式信息。更值得一提的是,Google知識圖譜的Schema是在其收購的Freebase的schema基礎上修改而得。Freebase的模式定義了Domain(領域),Type(類別)和Topic(主題,即實體)。每個Domain有若干Types,每個Type包含多個Topics且和多個Properties關聯(lián),這些Properties規(guī)定了屬于當前Type的那些Topics需要包含的屬性和關系。定義好的模式可被用于抽取屬于某個Type或滿足某個Property的新實體(或實體對)。另一方面,自底向上的方式則通過上面介紹的各種抽取技術,特別是通過搜索日志和Web Table抽取發(fā)現(xiàn)的類別、屬性和關系,并將這些置信度高的模式合并到知識圖譜中。合并過程將使用類似實體對齊的對齊算法。對于未能匹配原有知識圖譜中模式的類別、屬性和關系作為新的模式加入知識圖譜供人工過濾。自頂向下的方法有利于抽取新的實例,保證抽取質量,而自底向上的方法則能發(fā)現(xiàn)新的模式。兩者是互補的。

c) 不一致性的解決

當融合來自不同數(shù)據(jù)源的信息構成知識圖譜時,有一些實體會同時屬于兩個互斥的類別(如男女)或某個實體所對應的一個Property[11] (如性別)對應多個值。這樣就會出現(xiàn)不一致性。這些互斥的類別對以及Functional Properties可以看作是模式層的知識,通常規(guī)模不是很大,可以通過手工指定規(guī)則來定義。而由于不一致性的檢測要面對大規(guī)模的實體及相關事實,純手工的方法將不再可行。一個簡單有效的方法充分考慮數(shù)據(jù)源的可靠性以及不同信息在各個數(shù)據(jù)源中出現(xiàn)的頻度等因素來決定最終選用哪個類別或哪個屬性值。也就是說,我們優(yōu)先采用那些可靠性高的數(shù)據(jù)源(如百科類或結構化數(shù)據(jù))抽取得到的事實。另外,如果一個實體在多個數(shù)據(jù)源中都被識別為某個類別的實例,或實體某個functional property在多個數(shù)據(jù)源中都對應相同的值,那么我們傾向于最終選擇該類別和該值。注:在統(tǒng)計某個類別在數(shù)據(jù)源中出現(xiàn)的頻率前需要完成類別對齊計算。類似地,對于數(shù)值型的屬性值我們還需要額外統(tǒng)一它們所使用的單位。

6. 知識圖譜上的挖掘

通過各種信息抽取和數(shù)據(jù)集成技術已經(jīng)可以構建Web規(guī)模的知識圖譜。為了進一步增加圖譜的知識覆蓋率,需要進一步在知識圖譜上進行挖掘。下面將介紹幾項重要的基于知識圖譜的挖掘技術。

a) 推理

推理(Reasoning或Inference)被廣泛用于發(fā)現(xiàn)隱含知識。推理功能一般通過可擴展的規(guī)則引擎來完成。知識圖譜上的規(guī)則一般涉及兩大類。一類是針對屬性的,即通過數(shù)值計算來獲取其屬性值。例如:知識圖譜中包含某人的出生年月,我們可以通過當前日期減去其出生年月獲取其年齡。這類規(guī)則對于那些屬性值隨時間或其他因素發(fā)生改變的情況特別有用。另一類是針對關系的,即通過(鏈式)規(guī)則發(fā)現(xiàn)實體間的隱含關系。例如,我們可以定義規(guī)定:岳父是妻子的父親。利用這條規(guī)則,當已知姚明的妻子(葉莉)和葉莉的父親(葉發(fā))時,可以推出姚明的岳父是葉發(fā)。

b) 實體重要性排序

搜索引擎識別用戶查詢中提到的實體,并通過知識卡片展現(xiàn)該實體的結構化摘要。當查詢涉及多個實體時,搜索引擎將選擇與查詢更相關且更重要的實體來展示。實體的相關性度量需在查詢時在線計算,而實體重要性與查詢無關可離線計算。搜索引擎公司將PageRank算法[12] 應用在知識圖譜上來計算實體的重要性。和傳統(tǒng)的Web Graph相比,知識圖譜中的節(jié)點從單一的網(wǎng)頁變成了各種類型的實體,而圖中的邊也由連接網(wǎng)頁的超鏈接(Hyperlink)變成豐富的各種語義關系。由于不同的實體和語義關系的流行程度以及抽取的置信度均不同,而這些因素將影響實體重要性的最終計算結果,因此,各大搜索引擎公司嵌入這些因素來刻畫實體和語義關系的初始重要性,從而使用帶偏的PageRank算法(Biased PageRank)。

c) 相關實體挖掘

在相同查詢中共現(xiàn)的實體,或在同一個查詢會話(Session)中被提到的其他實體稱為相關實體。一個常用的做法是將這些查詢或會話看作是虛擬文檔,將其中出現(xiàn)的實體看作是文檔中的詞條,使用主題模型(如LDA)發(fā)現(xiàn)虛擬文檔集中的主題分布。其中每個主題包含1個或多個實體,這些在同一個主題中的實體互為相關實體。當用戶輸入查詢時,搜索引擎分析查詢的主題分布并選出最相關的主題。同時,搜索引擎將給出該主題中與知識卡片所展現(xiàn)的實體最相關的那些實體作為“其他人還搜了”的推薦結果。

7. 知識圖譜的更新和維護

a) Type和Collection的關系

知識圖譜的schema為了保證其質量,由專業(yè)團隊審核和維護。以Google知識圖譜為例,目前定義的Type數(shù)在103-104的數(shù)量級。為了提高知識圖譜的覆蓋率,搜索引擎公司還通過自動化算法從各種數(shù)據(jù)源抽取新的類型信息(也包含關聯(lián)的Property信息),這些類型信息通過一個稱為Collection的數(shù)據(jù)結構保存。它們不是馬上被加入到知識圖譜schema中。有些今天生成后第二天就被刪除了,有些則能長期的保留在Collection中,如果Collection中的某一種類型能夠長期的保留,發(fā)展到一定程度后,由專業(yè)的人員進行決策和命名并最終成為一種新的Type。

b) 結構化站點包裝器的維護

站點的更新常常會導致原有模式失效。搜索引擎會定期檢查站點是否存在更新。當檢測到現(xiàn)有頁面(原先已爬取)發(fā)生了變化,搜索引擎會檢查這些頁面的變化量,同時使用最新的站點包裝器進行AVP抽取。如果變化量超過事先設定的閾值且抽取結果與原先標注的答案差別較大,則表明現(xiàn)有的站點包裝器失效了。在這種情況下,需要對最新的頁面進行重新標注并學習新的模式,從而構建更新的包裝器。

c) 知識圖譜的更新頻率

加入到知識圖譜中的數(shù)據(jù)不是一成不變的。Type對應的實例往往是動態(tài)變化的。例如,美國總統(tǒng),隨著時間的推移,可能對應不同的人。由于數(shù)據(jù)層的規(guī)模和更新頻度都遠超schema層,搜索引擎公司利用其強大的計算保證圖譜每天的更新都能在3個小時內完成,而實時的熱點也能保證在事件發(fā)生6個小時內在搜索結果中反映出來。

d) 眾包(Crowdsourcing)反饋機制

除了搜索引擎公司內部的專業(yè)團隊對構建的知識圖譜進行審核和維護,它們還依賴用戶來幫助改善圖譜。具體來說,用戶可以對搜索結果中展現(xiàn)的知識卡片所列出的實體相關的事實進行糾錯。當很多用戶都指出某個錯誤時,搜索引擎將采納并修正。這種利用群體智慧的協(xié)同式知識編輯是對專業(yè)團隊集中式管理的互補。

知識圖譜在搜索中的應用

1. 查詢理解

搜索引擎借助知識圖譜來識別查詢中涉及到的實體(概念)及其屬性等,并根據(jù)實體的重要性展現(xiàn)相應的知識卡片。搜索引擎并非展現(xiàn)實體的全部屬性,而是根據(jù)當前輸入的查詢自動選擇最相關的屬性及屬性值來顯示。此外,搜索引擎僅當知識卡片所涉及的知識的正確性很高(通常超過95%,甚至達到99%)時,才會展現(xiàn)。當要展現(xiàn)的實體被選中之后,利用相關實體挖掘來推薦其他用戶可能感興趣的實體供進一步瀏覽。

2. 問題回答

除了展現(xiàn)與查詢相關的知識卡片,知識圖譜對于搜索所帶來的另一個革新是:直接返回答案,而不僅僅是排序的文檔列表。要實現(xiàn)自動問答系統(tǒng),搜索引擎不僅要理解查詢中涉及到的實體及其屬性,更需要理解查詢所對應的語義信息。搜索引擎通過高效的圖搜索,在知識圖譜中查找連接這些實體及屬性的子圖并轉換為相應的圖查詢(如SPARQL )。這些翻譯過的圖查詢被進一步提交給圖數(shù)據(jù)庫進行回答返回相應的答案。

知識圖譜在互聯(lián)網(wǎng)金融中的應用

反欺詐

反欺詐是風控中非常重要的一道環(huán)節(jié)?;诖髷?shù)據(jù)的反欺詐的難點在于如何把不同來源的數(shù)據(jù)(結構化,非結構)整合在一起,并構建反欺詐引擎,從而有效地識別出欺詐案件(比如身份造假,團體欺詐,代辦包裝等)。而且不少欺詐案件會涉及到復雜的關系網(wǎng)絡,這也給欺詐審核帶來了新的挑戰(zhàn)。 知識圖譜,作為關系的直接表示方式,可以很好地解決這兩個問題。 首先,知識圖譜提供非常便捷的方式來添加新的數(shù)據(jù)源,這一點在前面提到過。其次,知識圖譜本身就是用來表示關系的,這種直觀的表示方法可以幫助我們更有效地分析復雜關系中存在的特定的潛在風險。

反欺詐的核心是人,首先需要把與借款人相關的所有的數(shù)據(jù)源打通,并構建包含多數(shù)據(jù)源的知識圖譜,從而整合成為一臺機器可以理解的結構化的知識。在這里,我們不僅可以整合借款人的基本信息(比如申請時填寫的信息),還可以把借款人的消費記錄、行為記錄、網(wǎng)上的瀏覽記錄等整合到整個知識圖譜里,從而進行分析和預測。這里的一個難點是很多的數(shù)據(jù)都是從網(wǎng)絡上獲取的非結構化數(shù)據(jù),需要利用機器學習、自然語言處理技術把這些數(shù)據(jù)變成結構化的數(shù)據(jù)。

不一致性驗證

不一致性驗證可以用來判斷一個借款人的欺詐風險,這個跟交叉驗證類似。比如借款人張三和借款人李四填寫的是同一個公司電話,但張三填寫的公司和李四填寫的公司完全不一樣,這就成了一個風險點,需要審核人員格外的注意。

再比如,借款人說跟張三是朋友關系,跟李四是父子關系。當我們試圖把借款人的信息添加到知識圖譜里的時候,“一致性驗證”引擎會觸發(fā)。引擎首先會去讀取張三和李四的關系,從而去驗證這個“三角關系”是否正確。很顯然,朋友的朋友不是父子關系,所以存在著明顯的不一致性。

不一致性驗證涉及到知識的推理。通俗地講,知識的推理可以理解成“鏈接預測”,也就是從已有的關系圖譜里推導出新的關系或鏈接。 比如在上面的例子,假設張三和李四是朋友關系,而且張三和借款人也是朋友關系,那我們可以推理出借款人和李四也是朋友關系。

組團欺詐

相比虛假身份的識別,組團欺詐的挖掘難度更大。這種組織在非常復雜的關系網(wǎng)絡里隱藏著,不容易被發(fā)現(xiàn)。當我們只有把其中隱含的關系網(wǎng)絡梳理清楚,才有可能去分析并發(fā)現(xiàn)其中潛在的風險。知識圖譜,作為天然的關系網(wǎng)絡的分析工具,可以幫助我們更容易地去識別這種潛在的風險。舉一個簡單的例子,有些組團欺詐的成員會用虛假的身份去申請貸款,但部分信息是共享的。下面的圖大概說明了這種情形。從圖中可以看出張三、李四和王五之間沒有直接的關系,但通過關系網(wǎng)絡我們很容易看出這三者之間都共享著某一部分信息,這就讓我們馬上聯(lián)想到欺詐風險。雖然組團欺詐的形式眾多,但有一點值得肯定的是知識圖譜一定會比其他任何的工具提供更佳便捷的分析手段。

異常分析(Anomaly Detection)

異常分析是數(shù)據(jù)挖掘研究領域里比較重要的課題。我們可以把它簡單理解成從給定的數(shù)據(jù)中找出“異常”點。在我們的應用中,這些”異常“點可能會關聯(lián)到欺詐。既然知識圖譜可以看做是一個圖 (Graph),知識圖譜的異常分析也大都是基于圖的結構。由于知識圖譜里的實體類型、關系類型不同,異常分析也需要把這些額外的信息考慮進去。大多數(shù)基于圖的異常分析的計算量比較大,可以選擇做離線計算。在我們的應用框架中,可以把異常分析分為兩大類: 靜態(tài)分析和動態(tài)分析,后面會逐一講到。

- 靜態(tài)分析

所謂的靜態(tài)分析指的是,給定一個圖形結構和某個時間點,從中去發(fā)現(xiàn)一些異常點(比如有異常的子圖)。下圖中我們可以很清楚地看到其中五個點的相互緊密度非常強,可能是一個欺詐組織。所以針對這些異常的結構,我們可以做出進一步的分析。

- 動態(tài)分析

所謂的動態(tài)分析指的是分析其結構隨時間變化的趨勢。我們的假設是,在短時間內知識圖譜結構的變化不會太大,如果它的變化很大,就說明可能存在異常,需要進一步的關注。分析結構隨時間的變化會涉及到時序分析技術和圖相似性計算技術。

失聯(lián)客戶管理

除了貸前的風險控制,知識圖譜也可以在貸后發(fā)揮其強大的作用。比如在貸后失聯(lián)客戶管理的問題上,知識圖譜可以幫助我們挖掘出更多潛在的新的聯(lián)系人,從而提高催收的成功率。

現(xiàn)實中,不少借款人在借款成功后出現(xiàn)不還款現(xiàn)象,而且玩“捉迷藏”,聯(lián)系不上本人。即便試圖去聯(lián)系借款人曾經(jīng)提供過的其他聯(lián)系人,但還是沒有辦法聯(lián)系到本人。這就進入了所謂的“失聯(lián)”狀態(tài),使得催收人員也無從下手。那接下來的問題是,在失聯(lián)的情況下,我們有沒有辦法去挖掘跟借款人有關系的新的聯(lián)系人? 而且這部分人群并沒有以關聯(lián)聯(lián)系人的身份出現(xiàn)在我們的知識圖譜里。如果我們能夠挖掘出更多潛在的新的聯(lián)系人,就會大大地提高催收成功率。舉個例子,在下面的關系圖中,借款人跟李四有直接的關系,但我們卻聯(lián)系不上李四。那有沒有可能通過2度關系的分析,預測并判斷哪些李四的聯(lián)系人可能會認識借款人。這就涉及到圖譜結構的分析。

智能搜索及可視化展示

基于知識圖譜,我們也可以提供智能搜索和數(shù)據(jù)可視化的服務。智能搜索的功能類似于知識圖譜在Google, Baidu上的應用。也就是說,對于每一個搜索的關鍵詞,我們可以通過知識圖譜來返回更豐富,更全面的信息。比如搜索一個人的身份證號,我們的智能搜索引擎可以返回與這個人相關的所有歷史借款記錄、聯(lián)系人信息、行為特征和每一個實體的標簽(比如黑名單,同業(yè)等)。另外,可視化的好處不言而喻,通過可視化把復雜的信息以非常直觀的方式呈現(xiàn)出來, 使得我們對隱藏信息的來龍去脈一目了然。

精準營銷

一個聰明的企業(yè)可以比它的競爭對手以更為有效的方式去挖掘其潛在的客戶。在互聯(lián)網(wǎng)時代,營銷手段多種多樣,但不管有多少種方式,都離不開一個核心 - 分析用戶和理解用戶。知識圖譜可以結合多種數(shù)據(jù)源去分析實體之間的關系,從而對用戶的行為有更好的理解。比如一個公司的市場經(jīng)理用知識圖譜來分析用戶之間的關系,去發(fā)現(xiàn)一個組織的共同喜好,從而可以有針對性的對某一類人群制定營銷策略。只有我們能更好的、更深入的(Deep understanding)理解用戶的需求,我們才能更好地去做營銷。

【本文為51CTO專欄作者“大數(shù)據(jù)和云計算”的原創(chuàng)稿件,轉載請通過微信公眾號獲取聯(lián)系和授權】

戳這里,看該作者更多好文

責任編輯:武曉燕 來源: 51CTO專欄
相關推薦

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2021-01-25 10:36:32

知識圖譜人工智能

2024-06-03 07:28:43

2021-01-18 10:50:29

知識圖譜人工智能深度學習

2017-04-13 11:48:05

NLP知識圖譜

2019-05-07 10:01:49

Redis軟件開發(fā)

2021-02-01 22:41:05

語義網(wǎng)知識圖譜

2017-05-04 13:18:18

深度學習知識圖譜

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2021-04-12 11:47:21

人工智能知識圖譜

2023-08-22 15:34:01

Python開發(fā)

2025-04-18 12:49:58

知識圖譜大模型人工智能

2022-08-11 14:11:14

知識圖譜人工智能

2022-03-01 15:14:36

圖數(shù)據(jù)庫知識圖譜

2021-01-19 10:16:00

AI大數(shù)據(jù)知識圖譜

2023-09-27 09:00:00

大型語言模型自然語言處理

2018-01-09 08:43:14

圖譜存儲系統(tǒng)

2019-07-17 14:14:28

WOT2019人工智能

2019-08-02 11:53:50

Android開發(fā)學習
點贊
收藏

51CTO技術棧公眾號