自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

行業(yè)規(guī)模的知識圖譜——經(jīng)驗(yàn)和挑戰(zhàn)

開發(fā) 開發(fā)工具 知識圖譜
如今,知識圖譜對許多企業(yè)來說至關(guān)重要——它們提供了結(jié)構(gòu)化數(shù)據(jù)和事實(shí)知識,以這些數(shù)據(jù)和知識驅(qū)動了許多產(chǎn)品,使它們更加智能化甚至“神奇”。

[[355133]]

【引子】

本文是石頭兄弟推薦的一篇關(guān)于知識圖譜綜述性文章,老碼對去年ACM上的這篇“Industry-Scale Knowledge Graphs: Lessons and Challenges”,Communications of the ACM, August 2019, Vol. 62 No. 8, Pages 36-43, 10.1145/3331166 進(jìn)行了翻譯整理。原文作者是Natasha Noy(Google), Yuqing Gao(MicroSoft), Anshu Jain(IBM), Anant Narayanan(Facebook), Alan Patterson(eBay)和Jamie Taylor(Google)。為了緩解閱讀的枯燥,點(diǎn)綴了一些風(fēng)景圖片。

如今,知識圖譜對許多企業(yè)來說至關(guān)重要——它們提供了結(jié)構(gòu)化數(shù)據(jù)和事實(shí)知識,以這些數(shù)據(jù)和知識驅(qū)動了許多產(chǎn)品,使它們更加智能化甚至“神奇”。

一般來說,知識圖譜描述了感興趣的對象和它們之間的聯(lián)系。例如,知識圖譜中可能包含電影節(jié)點(diǎn)、電影中的演員、導(dǎo)演等等。每個節(jié)點(diǎn)可能具有諸如參與者的名稱和年齡等屬性,可能存在涉及特定演員的多部電影的節(jié)點(diǎn)。然后,用戶可以遍歷知識圖表,收集演員出現(xiàn)的所有電影的信息,如果適用的話,也可以收集導(dǎo)演的信息。

許多知識圖譜的實(shí)際實(shí)現(xiàn)方案通過定義模式或本體對圖譜中的鏈接施加約束。例如,從電影到其導(dǎo)演的鏈接必須將 Movie 類型的對象連接到 Person 類型的對象。在某些情況下,鏈接本身可能具有自己的屬性,例如連接演員和電影的鏈接可能具有演員所扮演的特定角色的名稱。同樣,將政治家與政府中的特定角色聯(lián)系起來的鏈接可能包含政治家擔(dān)任這一角色的時間期限。

本文考察了五個不同的科技公司的知識圖譜,比較了他們各自建立圖譜和使用經(jīng)驗(yàn)的異同,并討論了當(dāng)今所有知識驅(qū)動型企業(yè)面臨的挑戰(zhàn)。這里討論的知識圖譜集合涵蓋了從搜索、產(chǎn)品描述到社交網(wǎng)絡(luò)的廣泛應(yīng)用:

  • 微軟的 Bing 知識圖譜和 Google搜索引擎的知識圖譜都支持搜索并回答搜索中以及談話中的問題。從人、地點(diǎn)、事物和組織的描述和聯(lián)系開始,這些圖譜包括了關(guān)于世界的一般知識。
  • Facebook 擁有世界上最大的社交圖譜,其中還包括音樂、電影、名人和 Facebook 用戶所關(guān)心的信息。
  • eBay 目前正在開發(fā)的產(chǎn)品知識圖譜,將對產(chǎn)品、實(shí)體以及它們與外部世界之間關(guān)系的語義知識進(jìn)行編碼。
  • IBM Watson Discovery 產(chǎn)品的知識圖譜框架解決了兩個需求: 一個側(cè)重于發(fā)現(xiàn)不明顯信息的用例,另一個側(cè)重于提供“構(gòu)建自己的知識圖譜”框架。

這里的目標(biāo)不是詳盡地描述這些知識圖譜,而是利用作者在當(dāng)今一些大型科技公司中構(gòu)建知識圖譜的實(shí)踐經(jīng)驗(yàn),作為任何企業(yè)級知識圖譜所面臨的挑戰(zhàn)以及需要進(jìn)行一些創(chuàng)新研究的支點(diǎn)。

什么是知識圖譜? ——設(shè)計上的決策

讓我們從描述五個知識圖譜和每個設(shè)計中的決策開始,并確定每個圖譜的范圍。盡管許多挑戰(zhàn)是所有企業(yè)共同面臨的,但是,每個應(yīng)用程序和產(chǎn)品目標(biāo)的不同導(dǎo)致了不同的方法和系統(tǒng)架構(gòu),附表總結(jié)了這些知識圖譜的性質(zhì)。

Microsoft

多年以來,微軟的工程師和科學(xué)家一直致力于大規(guī)模圖譜的研究。這項(xiàng)工作包括根據(jù)基礎(chǔ)研究來構(gòu)建端到端系統(tǒng),以及為數(shù)億用戶提供全球規(guī)模的服務(wù)。在整個公司,有幾個主要的圖譜系統(tǒng),每一個都帶來了圍繞創(chuàng)建圖譜和最新的具體挑戰(zhàn)。許多不同的產(chǎn)品都可以使用知識圖譜為消費(fèi)者帶來價值。以下是微軟的一些圖譜:

  • 必應(yīng)的知識圖譜包含了世界的信息和必應(yīng)上的問答功能。它包含人、地點(diǎn)、事物、組織、位置等實(shí)體,以及用戶可能采取的操作(例如,播放視頻或購買歌曲)。這是微軟最大的知識圖譜,因?yàn)樗哪繕?biāo)是包含關(guān)于整個世界的一般知識。
  • 學(xué)術(shù)圖譜是人員、出版物、研究領(lǐng)域、會議和地點(diǎn)等實(shí)體的集合。它允許用戶看到研究人員和研究方向之間的聯(lián)系,否則可能很難確定。
  • LinkedIn的知識圖譜包含人員、工作、技能、公司、地點(diǎn)等實(shí)體。LinkedIn 的經(jīng)濟(jì)圖譜基于5.9億會員和3千萬家公司,用于尋找國家和地區(qū)的經(jīng)濟(jì)層面的洞察力。

當(dāng)必應(yīng)搜索引擎在必應(yīng)知識圖譜中有額外的有用信息時,顯示一個知識面板。例如,搜索電影導(dǎo)演詹姆斯 · 卡梅隆可以找到他的出生日期、身高、他導(dǎo)演的電影和電視節(jié)目、他以前的戀人、他做過的 TED 演講、 Reddit 上的“問我任何事”問題和答案等信息。搜索不同類型的實(shí)體會返回完全不同的信息,例如,搜索“ Woodblock 餐廳”會得到菜單摘要、專業(yè)評論和用戶評論,以及預(yù)訂表格選項(xiàng)。

所有這些圖譜系統(tǒng)以及任何一個大型知識圖譜系統(tǒng),都可能會有關(guān)于質(zhì)量和有用性的三個關(guān)鍵的決定因素:

完備性

圖譜是否包含了所有需要的信息?實(shí)際上,答案總是否定的,因?yàn)殚_發(fā)人員總是在尋找新的方法來為用戶提供價值和新的信息來源。

正確性

信息是否正確?如何知道兩個信息來源實(shí)際上是否關(guān)于同一事實(shí),如果它們發(fā)生沖突,該怎么辦?回答這些問題本身就是一個巨大的研究和投資領(lǐng)域。

及時性

內(nèi)容是最新的嗎?它可能曾經(jīng)是正確的,但實(shí)際上已經(jīng)過時了。對于那些幾乎不斷變化的東西(股票價格) ,與那些變化很少的東西(一個國家的首都)相比,及時性會有所不同,其間夾雜著許多不同類型的信息。

為了生成關(guān)于世界的知識,數(shù)據(jù)有多個來源,這可能是非常嘈雜和矛盾的,必須整理成一個單一、一致且準(zhǔn)確的圖譜。用戶看到的最后一個事實(shí)只是冰山的一角,下面隱藏著大量的工作和復(fù)雜性。例如,僅在維基百科上就有200個威爾 · 史密斯,演員威爾 · 史密斯的必應(yīng)知識結(jié)果是由41個網(wǎng)站上的108,000個事實(shí)組成的。

知識圖譜具備強(qiáng)大的高級人工智能,從搜索到對話,允許將單個查詢變成一個持續(xù)的對話。具體來說,這允許用戶與系統(tǒng)進(jìn)行對話,并讓系統(tǒng)在對話的每一輪中維護(hù)上下文。例如,在未來的一個場景中,用戶可以對必應(yīng)說,“給我看看世界上現(xiàn)在溫度超過華氏70度的所有國家。”一旦系統(tǒng)返回答案,用戶還可以說,“給我看看兩個小時飛行之內(nèi)的那些國家。”

我們可以將同樣的想法進(jìn)一步推廣,從而獲得完整的對話體驗(yàn)。例如,用戶可以說,“我想在感恩節(jié)前兩天到紐約市旅行,并在那里停留一周” ,系統(tǒng)會使用基礎(chǔ)知識圖譜來理解查詢,然后請求那些缺失的信息片段。在這個例子中,系統(tǒng)需要知道“ NYC”可能意味著“ JFK 機(jī)場” ,而感恩節(jié)是11月22日。然后,它必須知道如何進(jìn)行航班搜索,這需要一個起點(diǎn)和目的地位置。然后,系統(tǒng)必須知道對話的下一輪必須確定出發(fā)地點(diǎn),所以它會說,“好的,預(yù)訂11月20日至27日飛往肯尼迪機(jī)場的航班。你從哪里飛過來? ”

Google

Google的知識圖譜數(shù)據(jù)庫有超過700億的斷言描述了10億個實(shí)體,涵蓋了廣泛的主題,是十多年來不同個體數(shù)據(jù)活動貢獻(xiàn)的結(jié)果,他們中的大多數(shù)都從未有過知識管理系統(tǒng)的經(jīng)驗(yàn)。

或許,更重要的是,知識圖譜作為一個長期穩(wěn)定的類和實(shí)體標(biāo)識的來源,許多Google的產(chǎn)品和功能在幕后使用它。外部用戶和開發(fā)人員在使用 YouTube 和 Google Cloud api 等服務(wù)時可以觀察到這些特性。這種對身份的關(guān)注使得Google的搜索結(jié)果轉(zhuǎn)變?yōu)?ldquo;事物而不是字符串”,知識圖譜不是簡單地返回傳統(tǒng)的“10個藍(lán)色鏈接” ,而是幫助谷歌產(chǎn)品將用戶的請求解釋為對用戶世界中概念的引用,并作出適當(dāng)?shù)捻憫?yīng)。

Google的知識圖譜應(yīng)用中可能最可見的是,當(dāng)用戶發(fā)出關(guān)于實(shí)體的查詢時,搜索結(jié)果包括了知識圖譜服務(wù)中的一系列事實(shí)實(shí)體。例如,對“ I.M.Pei”的查詢會在搜索結(jié)果中產(chǎn)生一個小面板,其中有包含關(guān)于建筑師的教育、獎項(xiàng)和他設(shè)計的重要結(jié)構(gòu)的信息。

知識圖譜還認(rèn)識到,某些類型的交互可以發(fā)生在不同的實(shí)體上。對“ The Russian Tea Room”的查詢提供了一個按鈕來預(yù)訂,而對“ Rita Ora”的查詢則提供了各種音樂服務(wù)的鏈接。

在 Google知識圖譜的范圍內(nèi),一個人無法記住整個圖譜中使用的詳細(xì)結(jié)構(gòu),更不用說管理了。為了確保系統(tǒng)隨著時間的推移保持一致,Google根據(jù)一組基本的底層結(jié)構(gòu)構(gòu)建了自己的知識圖譜。它在不同的抽象層次上復(fù)制了相似的結(jié)構(gòu)和推理機(jī)制,從概念上引導(dǎo)了許多基本斷言的結(jié)構(gòu)。例如,為了檢查特定的不變式結(jié)構(gòu),Google 利用了“類型本身就是類型的實(shí)例”這一思想來引入元類型的概念。然后,它可以推理元類型,以驗(yàn)證細(xì)粒度類型是否違反了它感興趣的不變量。證明了獨(dú)立于時間的恒等式不是結(jié)構(gòu)的子類,而是依賴于時間的。因?yàn)檫@種可伸縮的抽象級別基于相同的低級附加,所以相對容易地以開箱即用的方式來添加。

這個元級別模式還允許大規(guī)模的驗(yàn)證數(shù)據(jù)。例如,可以確認(rèn)畫家在他們的藝術(shù)作品創(chuàng)作之前就已經(jīng)存在,方法是將畫家確定為他們繪畫作品”產(chǎn)品”的”來源” ,并對這些元類之間的所有關(guān)系都可以進(jìn)行一般性檢查。

在稍高的概念層面上,知識圖譜“理解”作者與他們的創(chuàng)造性作品是不同的,即使這些實(shí)體經(jīng)常在口語表達(dá)中被混為一談。同樣,創(chuàng)造性作品可能有多種表達(dá)方式,而這些表達(dá)方式本身又是截然不同的。隨著圖譜的增長,這種本體論知識有助于維護(hù)實(shí)體的身份。

通過這些自描述層構(gòu)建的知識圖譜,不僅簡化了機(jī)器的一致性檢查,而且使內(nèi)部用戶更容易理解知識圖譜。一旦新的開發(fā)人員接受了知識圖譜組織的基礎(chǔ)知識培訓(xùn),他們就可以了解其結(jié)構(gòu)清單的全部內(nèi)容。類似地,通過將圖譜結(jié)構(gòu)與一些核心原則綁定在一起,并在模式中明確地揭示元關(guān)系,為內(nèi)部開發(fā)人員簡化了查找和理解新模式結(jié)構(gòu)的過程。

Facebook

Facebook 以擁有世界上最大的社交網(wǎng)絡(luò)而聞名。在過去的十年中,F(xiàn)acebook 的工程師們已經(jīng)開發(fā)出了能夠?qū)崿F(xiàn)人與人之間豐富聯(lián)系的技術(shù)?,F(xiàn)在,他們正在應(yīng)用同樣的技術(shù),不僅對人們,而且對人們關(guān)心的事情建立了更深刻的理解。

通過以一種結(jié)構(gòu)化的方式和規(guī)模來模擬世界,F(xiàn)acebook 的工程師們能夠解開社交圖譜本身無法滿足的用例。即使是看起來很簡單的事情,比如對音樂和歌詞的結(jié)構(gòu)性理解,再加上能夠檢測人們何時在軟件中使用它們,能夠讓人們在個人之間產(chǎn)生有意外收獲的時刻。今天,F(xiàn)acebook 產(chǎn)品中的許多經(jīng)驗(yàn),例如幫助人們在 Messenger 上規(guī)劃電影放映,都是由知識圖譜驅(qū)動的。

Facebook 知識圖譜關(guān)注的是最具社會相關(guān)性的實(shí)體,比如那些最常被用戶討論的實(shí)體: 名人、地點(diǎn)、電影和音樂。隨著 Facebook 知識圖譜的不斷增長,開發(fā)者們開始關(guān)注那些最有可能提供實(shí)用性和用戶體驗(yàn)愉悅的領(lǐng)域。

覆蓋范圍、正確性、結(jié)構(gòu)化和不斷的變化都驅(qū)動著 Facebook 知識圖譜的設(shè)計:

  • 覆蓋范圍意味著在正在建模的領(lǐng)域中要面面俱到。默認(rèn)的立場來自多個提供者,這意味著整個圖譜生成系統(tǒng)是在假設(shè)數(shù)據(jù)來自多個來源的基礎(chǔ)上構(gòu)建的,所有這些來源都提供了關(guān)于重疊實(shí)體集的信息(有時是相互沖突的)。知識圖譜以兩種方式來處理這些相互沖突的信息: 如果信息被認(rèn)為是足夠低的可信度,可以放棄; 或者通過保留出處和推斷出的關(guān)于斷言的可信度,將相互沖突的觀點(diǎn)合并到實(shí)體中。
  • 正確性并不意味著知識圖譜總是知道屬性的“正確”值,而是它總是能夠解釋為什么做出某個斷言。因此,它保存從數(shù)據(jù)采集到服務(wù)層流經(jīng)系統(tǒng)的所有數(shù)據(jù)起源。
  • 結(jié)構(gòu)化意味著知識圖譜必須是自描述的。如果一段數(shù)據(jù)不是強(qiáng)類型的,或者不符合描述實(shí)體的模式,那么圖譜會嘗試執(zhí)行以下操作之一: 將數(shù)據(jù)轉(zhuǎn)換為預(yù)期的類型(例如,執(zhí)行簡單的類型強(qiáng)制,處理格式不正確的日期) ; 在非結(jié)構(gòu)化文本上提取與類型相匹配的結(jié)構(gòu)化數(shù)據(jù)(例如,運(yùn)行自然語言處理) ,例如將用戶評論轉(zhuǎn)換為類型的槽位; 或者將其完全刪除。
  • 最后,F(xiàn)acebook 的知識圖譜是為不斷變化而設(shè)計的。圖譜不是數(shù)據(jù)庫中的單個表示形式,而是在接收到新信息時進(jìn)行更新。取而代之的是,每天都要從頭開始構(gòu)建圖譜,從源代碼開始,在最后由構(gòu)建系統(tǒng)生成一個完整的知識圖譜。

對Facebook 知識圖譜而言,一個顯而易見的起點(diǎn)是 Facebook 頁面生態(tài)系統(tǒng)。企業(yè)和個人在 Facebook 上創(chuàng)建的頁面代表了各種各樣的想法和興趣。此外,讓實(shí)體的所有者對其進(jìn)行斷言是一個有價值的數(shù)據(jù)源。然而,與任何來源廣泛的數(shù)據(jù)一樣,這也不是沒有挑戰(zhàn)的。

Facebook 頁面是非常公開的,每天都有數(shù)以百萬計的人與之互動。因此,頁面所有者的興趣并不總是與知識圖譜的需求保持一致。

最常見的是,頁面和實(shí)體沒有嚴(yán)格的1:1映射,因?yàn)轫撁婵梢员硎緦?shí)體的集合(例如,電影特許經(jīng)營權(quán))。數(shù)據(jù)也可能是不完整的或非結(jié)構(gòu)化的(文本塊) ,這使得它更難在知識圖譜的上下文中使用。

Facebook 最大的挑戰(zhàn)是利用其頁面上的數(shù)據(jù),并將其與其他更加結(jié)構(gòu)化的數(shù)據(jù)源結(jié)合起來,以實(shí)現(xiàn)一個干凈、結(jié)構(gòu)化知識圖譜的目標(biāo)。對于 Facebook 來說,一個有用的工具就是把圖譜看作一個模型,把 Facebook 頁面看作是圖譜中一個實(shí)體或一系列實(shí)體的視圖投影。

eBay

eBay 正在構(gòu)建自己的產(chǎn)品知識圖譜,這個圖譜將對產(chǎn)品、實(shí)體及其相互關(guān)系和外部世界的語義知識進(jìn)行編碼。這些知識對于理解賣家提供的產(chǎn)品和買家尋找的產(chǎn)品以及明智地將兩者聯(lián)系起來是非常關(guān)鍵的,而這正是 eBay 營銷技術(shù)的關(guān)鍵部分。

例如,eBay 的知識圖譜可以將產(chǎn)品與現(xiàn)實(shí)世界中的實(shí)體聯(lián)系起來,定義產(chǎn)品的身份以及為什么它對買家可能有價值。一件芝加哥公牛隊的籃球運(yùn)動衫是一個產(chǎn)品,但如果它是由邁克爾喬丹簽過名,它就是一個非常不同的產(chǎn)品。1940年巴黎的明信片可能只是一張明信片; 但如果知道巴黎在法國,而1940年是二戰(zhàn)期間,就完全改變了產(chǎn)品性質(zhì)。

知識圖譜中的實(shí)體也可以將產(chǎn)品相互關(guān)聯(lián)。如果用戶搜索梅西的紀(jì)念品,圖譜會顯示梅西效力于巴塞羅那足球俱樂部,那么,也許,該俱樂部的商品也很有意思。也許其他著名的巴塞羅那球員的紀(jì)念品會引起這位購物者的興趣。相關(guān)商品應(yīng)該包括以足球?yàn)榛A(chǔ)的產(chǎn)品,如有簽名的襯衫、條帶、靴子和足球。這種思想可以從體育延伸到音樂、電影、文學(xué)、歷史事件等等。

與實(shí)體關(guān)系同樣重要的是了解產(chǎn)品本身及其關(guān)系。知道一個產(chǎn)品是 iPhone,另一個是 iPhone 的外殼顯然是很重要的。但是,這種情況下可能適合一些手機(jī),而不是其他品類,所以eBay需要產(chǎn)品型號的零件和配件尺寸。了解產(chǎn)品的許多變體和關(guān)系也很重要: 哪些產(chǎn)品是一種產(chǎn)品的制造商變體?它們有不同的大小、容量或顏色嗎?哪些是相同的意思?是他們有相同的規(guī)格,但可能不同的品牌或顏色?該系統(tǒng)還需要了解那些組合在一起的產(chǎn)品,比如捆綁包、工具包,甚至是時裝。

與其他知識圖表一樣,eBay 必須處理規(guī)模性問題。在任何時候都可能有超過10億的活躍產(chǎn)品分布在成千上萬個類別中。這些列表可能包括數(shù)億個產(chǎn)品和為這些產(chǎn)品指定的數(shù)百億個屬性。

eBay 知識圖譜有幾個不同的用戶,這些用戶有非常不同的服務(wù)級別需求。當(dāng)搜索服務(wù)需要理解用戶的查詢時,知識圖譜必須支持需要毫秒級的答案。而在規(guī)?;牧硪欢?,大型圖譜的查詢可能需要數(shù)小時才能運(yùn)行完。

為了應(yīng)對這些挑戰(zhàn),eBay 的工程師設(shè)計了一個架構(gòu),提供靈活性的同時確保數(shù)據(jù)的一致性。知識圖譜使用一個復(fù)制的日志對圖譜進(jìn)行所有的寫入和編輯。日志提供了數(shù)據(jù)的一致有序視圖。此方法支持滿足不同用例的多個后端數(shù)據(jù)存儲。具體來說,有一個用于提供低延遲搜索查詢的扁平文檔存儲和一個用于進(jìn)行長時間運(yùn)行圖譜分析的圖存儲。這些存儲中的每一個都只是將其操作附加到寫日志中,并以保證的順序?qū)⑻砑雍途庉嬏砑拥綀D譜中。因此,每個商店將是一致的。

IBM

IBM 開發(fā)了知識圖譜框架,Watson Discovery Services 使用該框架并提供相關(guān)服務(wù),這些服務(wù)已經(jīng)部署在 IBM 以外的許多行業(yè)配置中。IBM Watson 以兩種不同的方式使用知識圖譜框架: 第一,該框架直接支持 Watson Discovery,它關(guān)注于使用結(jié)構(gòu)化和非結(jié)構(gòu)化的知識來發(fā)現(xiàn)新的、不明顯的信息,以及發(fā)現(xiàn)之上的相關(guān)垂直產(chǎn)品; 第二,該框架允許其他人以預(yù)先構(gòu)建的知識圖譜為核心構(gòu)建自己的知識圖譜。

Discovery 用例創(chuàng)建了領(lǐng)域文檔或數(shù)據(jù)源中不直接顯示的新知識。這種新知識可能是令人驚訝和反常的。雖然搜索和檢測工具可以獲取系統(tǒng)現(xiàn)有資源中已有的知識,但這些工具對于Discovery來說是必要的,但還不夠。不明顯的發(fā)現(xiàn)包括實(shí)體之間的新聯(lián)系(例如,藥物的新副作用、作為收購目標(biāo)的新興公司或銷售線索)、領(lǐng)域中潛在新的重要實(shí)體(例如,顯示技術(shù)的新材料、特定投資領(lǐng)域的新投資者) ,或改變現(xiàn)有實(shí)體的重要性(投資者在一個組織中持有越來越多的股份,或在情報收集場景中增加利益相關(guān)者與某些犯罪分子之間的互動)。

考慮到 IBM 在各個領(lǐng)域應(yīng)用認(rèn)知技術(shù)中廣泛的企業(yè)客戶基礎(chǔ),IBM 專注于為客戶和客戶團(tuán)隊創(chuàng)建一個框架,以構(gòu)建他們自己的知識圖譜。IBM 的行業(yè)團(tuán)隊利用這個框架來構(gòu)建特定領(lǐng)域的實(shí)例??蛻羯婕岸鄠€領(lǐng)域,從以消費(fèi)者為導(dǎo)向的銀行和金融、保險、 IT 服務(wù)、媒體和娛樂、零售和客戶服務(wù),到幾乎完全專注于深度發(fā)現(xiàn)特別是科學(xué)領(lǐng)域的行業(yè),如生命科學(xué)、石油和天然氣、化學(xué)品和石油、國防和太空探索。這種廣度要求框架具有客戶自己構(gòu)建和管理知識圖所需的所有機(jī)制??蚣苤袠?gòu)建的一些關(guān)鍵技術(shù)包括文檔轉(zhuǎn)換、文檔提取、通道存儲和實(shí)體規(guī)范化。

以下是 IBM 工程師從為 Watson Discovery 構(gòu)建知識圖譜和在其他行業(yè)系統(tǒng)部署中學(xué)到的一些重要見解和經(jīng)驗(yàn)教訓(xùn)。

  • IBM Watson 知識圖譜使用多態(tài)存儲,支持多個索引、數(shù)據(jù)庫結(jié)構(gòu)、內(nèi)存和圖存儲。這種體系結(jié)構(gòu)將實(shí)際數(shù)據(jù)(通常是冗余的)分割為一個或多個存儲,允許每個存儲解決特定的需求和工作負(fù)載。IBM 的工程師和研究人員解決了一些挑戰(zhàn),如保持這些多個商店同步,允許商店之間通過微服務(wù)通信,允許攝取新知識或重新處理原始數(shù)據(jù)的方式,而不需要重新加載或重建整個圖譜。
  • 證據(jù)對系統(tǒng)來說必須是原始的?,F(xiàn)實(shí)世界(開發(fā)人員經(jīng)常嘗試對其建模)和保存所提取知識的數(shù)據(jù)結(jié)構(gòu)之間的主要聯(lián)系是知識的“證據(jù)”。這種證據(jù)通常是原始文檔、數(shù)據(jù)庫、字典或圖像、文本和視頻文件,從中獲取知識。在發(fā)現(xiàn)過程中進(jìn)行有針對性的、有用的上下文查詢時,元數(shù)據(jù)和其他相關(guān)信息往往在知識推理中起著重要作用。因此,關(guān)鍵是不要丟失存儲在圖譜中的關(guān)系和這些關(guān)系的來源之間的聯(lián)系。
  • 通過上下文將實(shí)體解析推送到運(yùn)行時。解決對部分名稱、表面形式或具有相同名稱的多個實(shí)體所引用的實(shí)體不明確引用是自然語言理解中的一個典型問題。然而,在知識發(fā)現(xiàn)領(lǐng)域,開發(fā)人員經(jīng)常尋找一些不明顯的模式,其中一個實(shí)體的行為不是以其熟悉的形式或出現(xiàn)在一個新的上下文中。因此,在知識圖譜創(chuàng)建過程中過早地消除實(shí)體的歧義與發(fā)現(xiàn)的目標(biāo)相沖突。最好是讓多個實(shí)體來解析這些話術(shù)或消除它們的歧義,然后在運(yùn)行時使用查詢的上下文來解析實(shí)體名稱。

未來的挑戰(zhàn)

這里所討論的知識圖譜在需求、覆蓋范圍和體系結(jié)構(gòu)上有很大的不同,但是大多數(shù)實(shí)現(xiàn)中的許多挑戰(zhàn)都是一致的。這些挑戰(zhàn)包括規(guī)?;?、歧義消除、從異構(gòu)和非結(jié)構(gòu)化來源提取知識以及管理知識進(jìn)化。多年來,這些挑戰(zhàn)一直處于研究的前沿,然而它們?nèi)匀焕_著行業(yè)的從業(yè)人員。其中一些挑戰(zhàn)存在于一些系統(tǒng)中,但在其他環(huán)境中可能不那么重要。

實(shí)體消歧和管理身份

雖然實(shí)體消歧和解析是語義網(wǎng)中一個活躍的研究領(lǐng)域,已經(jīng)在知識圖譜中存在了好幾年,但幾乎令人驚訝的是,它仍然幾乎是整個行業(yè)的最大挑戰(zhàn)之一。最簡單形式的挑戰(zhàn)是給一個話語或一個提及的實(shí)體指定一個唯一的標(biāo)準(zhǔn)化身份和類型。許多自動提取的實(shí)體具有非常相似的表面形式,比如具有相同或相似名稱的人,或者具有相同或相似標(biāo)題的電影、歌曲和書籍。名稱相似的兩個產(chǎn)品可能指的是不同的列表。如果沒有正確的鏈接和歧義消除,實(shí)體將與錯誤的事實(shí)相關(guān)聯(lián),并導(dǎo)致不正確的推理。

雖然這些問題在較小的系統(tǒng)中可能看起來很明顯,但當(dāng)身份管理必須在異構(gòu)貢獻(xiàn)者基礎(chǔ)和規(guī)模上完成時,問題就變得更具挑戰(zhàn)性了。如何用不同團(tuán)隊能夠達(dá)成一致并且知道其他團(tuán)隊正在描述的方式來描述身份?開發(fā)者如何確保有足夠的人類可讀信息來裁決沖突?

類型成員和解析

多數(shù)現(xiàn)有的知識圖譜系統(tǒng)允許每個實(shí)體具有多種類型,特定的類型在不同的情況下可能很重要。例如,巴拉克 · 奧巴馬是一個人,但也是一個政治家和演員,一個受歡迎得多的政治家,而不是一個非常知名的演員。古巴可以是一個國家,也可以是一個政府。在某些情況下,知識圖系統(tǒng)將類型分配轉(zhuǎn)移到運(yùn)行時: 每個實(shí)體描述其屬性,應(yīng)用程序根據(jù)用戶任務(wù)來使用特定的類型和屬性集合。

雖然類成員關(guān)系的標(biāo)準(zhǔn)在早期可能很簡單,但隨著實(shí)例范圍的增長,在保持語義穩(wěn)定性的同時強(qiáng)制執(zhí)行這些標(biāo)準(zhǔn)變得具有挑戰(zhàn)性。例如,當(dāng)谷歌在其知識圖譜中定義“體育”的類別時,電子競技并不存在。那么,谷歌如何在保持體育類別身份的同時還包括電子競技呢?

管理不斷變化的知識

有效的實(shí)體鏈接系統(tǒng)還需要根據(jù)其不斷變化的輸入數(shù)據(jù)有機(jī)地發(fā)展。例如,公司可能會合并或分拆,新的科學(xué)發(fā)現(xiàn)可能會將一個現(xiàn)有的實(shí)體分裂成多個實(shí)體。當(dāng)一家公司收購另一家公司時,收購公司是否改變了身份?如果一個部門被分拆出去呢?身份是否伴隨著名稱變更而獲得呢?

雖然大多數(shù)知識圖譜框架在存儲知識圖譜的時間點(diǎn)版本,管理知識圖譜的瞬時變化,不斷演化圖譜正變得越來越有效,但在能夠管理圖譜中高度動態(tài)的知識方面還存在差距。此外,通過多個存儲(例如,IBM 的多態(tài)存儲)管理更新的能力是必要的。

關(guān)于更新過程的完整性、最終一致性、沖突的更新以及流暢的運(yùn)行時性能,有很多需要考慮的因素??赡苡袡C(jī)會考慮現(xiàn)有分布式數(shù)據(jù)存儲的不同變體,這些存儲設(shè)計用于處理增量的級聯(lián)更新。管理不斷變化的模式和類型系統(tǒng),而不與系統(tǒng)中已有的知識產(chǎn)生不一致,也是至關(guān)重要的。例如,Google 通過將元模型層概念化成多個層來解決這個問題。較低的基本層保持相當(dāng)穩(wěn)定,較高的層次是通過元類型(實(shí)際上是類型的實(shí)例)的概念構(gòu)建的,它可以用來類型豐富系統(tǒng)。

從多個結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源中抽取知識

盡管在自然語言理解方面取得了最新進(jìn)展,結(jié)構(gòu)化知識(包括實(shí)體、它們的類型、屬性和關(guān)系)的提取仍然是一個全面的挑戰(zhàn)。圖譜的大規(guī)模生長不僅需要人工方法,還需要在開放域中實(shí)現(xiàn)無監(jiān)督和半監(jiān)督的非結(jié)構(gòu)化數(shù)據(jù)知識提取。

例如,在 eBay 的產(chǎn)品知識圖譜中,許多圖譜關(guān)系是從列表和賣家目錄中的非結(jié)構(gòu)化文本中提取出來的; IBM 的Discovery知識圖譜依賴于文檔作為圖中表示的事實(shí)證據(jù)。傳統(tǒng)的有監(jiān)督機(jī)器學(xué)習(xí)框架需要勞動密集型的人工注釋來訓(xùn)練知識提取系統(tǒng)。采用完全無監(jiān)督的方法(矢量表示的聚類)或半監(jiān)督的方法(利用已有知識進(jìn)行遠(yuǎn)程監(jiān)督、多實(shí)例學(xué)習(xí)、主動學(xué)習(xí)等)可以減少或消除這種高成本。實(shí)體識別、分類、文本和實(shí)體嵌入都被證明是有用的工具,可以將非結(jié)構(gòu)化文本鏈接到我們所知道圖譜中的實(shí)體。

規(guī)?;芾?/strong>

這里所描述的所有知識圖譜系統(tǒng)都面臨著大規(guī)模管理的挑戰(zhàn),這可能并不令人驚訝。這個維度經(jīng)常使得在行業(yè)設(shè)置中以多種形式已經(jīng)被學(xué)術(shù)和研究團(tuán)體所解決的問題(如消除歧義和非結(jié)構(gòu)化數(shù)據(jù)提取)呈現(xiàn)出了新的挑戰(zhàn)。規(guī)?;芾硎侵苯佑绊懪c性能和工作量相關(guān)的若干業(yè)務(wù)的根本挑戰(zhàn)。它還會間接地影響到其他業(yè)務(wù),如管理大規(guī)模知識圖譜的快速增量更新(如 IBM) ,或管理不斷演變的大規(guī)模知識圖譜的一致性(如 Google)。

其他的關(guān)鍵挑戰(zhàn)

除了這些普遍存在的挑戰(zhàn)之外,對于本文中描述的工作,以下挑戰(zhàn)也是至關(guān)重要的。這些都是研究和學(xué)術(shù)團(tuán)體感興趣且有趣的課題。

知識圖譜的語義嵌入

利用大規(guī)模的知識圖譜,開發(fā)人員可以構(gòu)建實(shí)體和關(guān)系的高維表示。由此產(chǎn)生的嵌入將大大有益于許多機(jī)器學(xué)習(xí)、 NLP 和 AI 任務(wù),因?yàn)樗鼈兪翘匦院图s束的來源,并且可以為更復(fù)雜的推理和管理訓(xùn)練數(shù)據(jù)的方法奠定基礎(chǔ)。深度學(xué)習(xí)技術(shù)可以應(yīng)用于實(shí)體重復(fù)數(shù)據(jù)刪除和屬性推理的問題。

知識推理與驗(yàn)證

在構(gòu)建知識圖譜時,確保事實(shí)正確是一項(xiàng)核心任務(wù),而且在規(guī)模龐大的情況下,手動驗(yàn)證所有事實(shí)是根本不可能的。這就需要一種自動化的方法: 可以用先進(jìn)的知識表示、概率圖模型和自然語言推斷來構(gòu)建一個自動或半自動的系統(tǒng),用于一致性檢查和事實(shí)驗(yàn)證。

全球、特定領(lǐng)域和特定客戶知識的聯(lián)合

在類似于 IBM 客戶構(gòu)建定制知識圖譜的情況下,客戶不需要告訴圖譜關(guān)于基本知識的信息。例如,一個癌癥研究人員不會提供給我們這樣的一個知識圖譜,即皮膚是一種組織形式。這就是所謂的“常識” ,在常識圖譜中捕獲。

下一個層次的信息是領(lǐng)域內(nèi)任何人都知道的知識,例如,癌癥是一種病癥,或者 NHL 更經(jīng)常代表非霍奇金氏淋巴瘤,而不是國家冰球聯(lián)盟??蛻魬?yīng)該只需要輸入私人和機(jī)密的知識或系統(tǒng)尚不知道的任何知識?;緦雍皖I(lǐng)域?qū)拥母綦x、聯(lián)合和在線更新是由于這個需求而出現(xiàn)的一些主要問題。

個性化設(shè)備上知識圖譜的安全性和隱私性

按照定義,知識圖譜是巨大的,因?yàn)樗鼈兛释麨槭澜缟系拿總€名詞創(chuàng)建一個實(shí)體,因此只能合理地運(yùn)行在云服務(wù)中。然而,實(shí)際上,大多數(shù)人并不關(guān)心世界上存在的所有實(shí)體,而是關(guān)心與他們個人相關(guān)的一小部分或子集。在為個人用戶個性化知識圖譜的方向有很多前景,甚至可以縮小到一個足夠小的尺寸,可以交付到移動設(shè)備上。這將允許開發(fā)人員通過在本地的小型知識圖譜實(shí)例上進(jìn)行更多的設(shè)備學(xué)習(xí)和計算,以尊重隱私的方式繼續(xù)為用戶提供價值。

多語種知識系統(tǒng)

一個全面的知識圖譜必須涵蓋多種語言表達(dá)的事實(shí),并將這些語言表達(dá)的概念合并為一個內(nèi)聚的集合。除了從多語言資源中提取知識的挑戰(zhàn)之外,不同的文化可能以不同的微妙方式將世界概念化,這也對本體的設(shè)計提出了挑戰(zhàn)。

結(jié)論

我們在本文中討論的問題是,不同的知識圖譜是否有朝一日可以共享某些核心元素,如人、地點(diǎn)和類似實(shí)體的描述。分享這些描述的途徑之一是將它們作為一個共同的、多語言的核心貢獻(xiàn)給 Wikidata。

知識表示是一項(xiàng)在工作中很難學(xué)會的技能。發(fā)展的速度和知識表示的選擇對用戶和數(shù)據(jù)產(chǎn)生影響的程度,并不能促進(jìn)理解和探索其原則和替代辦法的環(huán)境。知識表示在不同的行業(yè)環(huán)境中的重要性,正如本文的討論所證明的,應(yīng)該強(qiáng)化這樣一種觀點(diǎn),即知識表示應(yīng)該是計算機(jī)科學(xué)課程的基本組成部分,就像數(shù)據(jù)結(jié)構(gòu)和算法一樣基礎(chǔ)。

最后,人工智能系統(tǒng)將為組織在如何與客戶互動方面開啟新的機(jī)遇,在他們的領(lǐng)域提供獨(dú)特的價值,并改變他們的運(yùn)作和勞動力。為了實(shí)現(xiàn)這個承諾,這些組織必須找出如何建立新的系統(tǒng)來解鎖知識,使他們成為真正的智能組織。

參考資料

H?ffner, K., Walter, S., Marx, E., Usbeck, R., Lehmann, J. and Ngonga Ngomo, A.C. Survey on challenges of question answering in the semantic Web. Semantic Web 8, 6 (2017), 895920.

Lin, Y., Liu, Z., Sun, M., Liu, Y. and Zhu, X. Learning entity and relation embeddings for knowledge graph completion. In Proceedings of the Assoc. Advancement of Artificial Intelligence 15, (2015), 21812187.

Nickel, M., Murphy, K., Tresp, V. and Gabrilovich, E. 2016. A review of relational machine learning for knowledge graphs. In Proceedings of the IEEE 104, 1 (2016), 1133.

Paulheim, H., Knowledge graph refinement: a survey of approaches and evaluation methods. Semantic Web 8, 3 (2017), 489508.

 

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2018-02-27 08:39:47

圖譜數(shù)據(jù)存儲

2017-03-06 16:48:56

知識圖譜構(gòu)建存儲

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2021-01-25 10:36:32

知識圖譜人工智能

2019-11-13 10:16:14

大數(shù)據(jù)架構(gòu)數(shù)據(jù)科學(xué)

2020-03-12 09:00:00

數(shù)據(jù)庫知識圖譜多模型數(shù)據(jù)庫

2021-01-18 10:50:29

知識圖譜人工智能深度學(xué)習(xí)

2017-04-13 11:48:05

NLP知識圖譜

2023-09-08 07:45:32

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2020-03-13 20:01:08

知識圖譜人工智能自然語言處理

2024-06-03 07:28:43

2019-05-06 13:42:13

大數(shù)據(jù)分布式架構(gòu)

2022-08-11 14:11:14

知識圖譜人工智能

2022-03-01 15:14:36

圖數(shù)據(jù)庫知識圖譜

2023-03-17 07:13:43

2025-04-18 12:49:58

知識圖譜大模型人工智能

2023-03-17 06:14:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號