自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從語義網(wǎng)到知識圖譜

開發(fā) 開發(fā)工具 知識圖譜
“語義網(wǎng)”(Semantic Web)和“人工智能”一樣,都指的是一個研究領(lǐng)域,而不是一個具體的產(chǎn)品。語義網(wǎng)是一個豐富的研究和應(yīng)用領(lǐng)域,借鑒了計算機科學(xué)內(nèi)部或鄰近的許多學(xué)科。

 [[379872]]

【引子】 “海內(nèi)存知己,天涯若比鄰”, 這是石頭兄弟推薦給我的一篇關(guān)于語義網(wǎng)的綜述性文章,刊載于《美國計算機學(xué)會通訊》第64卷第2期——“A Review of the Semantic Web Field”(https://cacm.acm.org/magazines/2021/2/250085-a-review-of-the-semantic-web-field/fulltext),作者是Pascal Hitzler。老碼農(nóng)認真研讀,頗有收獲,編譯成文。

 

“語義網(wǎng)”(Semantic Web)和“人工智能”一樣,都指的是一個研究領(lǐng)域,而不是一個具體的產(chǎn)品。語義網(wǎng)是一個豐富的研究和應(yīng)用領(lǐng)域,借鑒了計算機科學(xué)內(nèi)部或鄰近的許多學(xué)科。有時候,人們使用“語義網(wǎng)技術(shù)”這個術(shù)語被用來描述這一領(lǐng)域中出現(xiàn)的一系列方法和工具,以避免術(shù)語上的混淆。語義網(wǎng)領(lǐng)域不僅在研究和應(yīng)用的方法和目標(biāo)方面非常不同,而且有許多不同但又相互關(guān)聯(lián)的次級社區(qū),每個社區(qū)都可能對該領(lǐng)域的歷史和當(dāng)前狀況作出相當(dāng)不同的敘述。

那么,語義網(wǎng)是一個關(guān)于什么的研究領(lǐng)域呢?答案可能是主觀的,因為在這個領(lǐng)域里沒有明確的共識。

一種觀點認為,該領(lǐng)域的長期目標(biāo)是創(chuàng)建語義網(wǎng)產(chǎn)品 ,以及創(chuàng)建、維護和應(yīng)用所需的所有必要工具和方法。相對于目前大多數(shù)主要面向人類消費的網(wǎng)絡(luò),這里的語義網(wǎng)通常被設(shè)想為機器可理解的信息以及利用這些信息的服務(wù)(智能代理)來增強當(dāng)前的互聯(lián)網(wǎng)。這種觀點可以追溯到2001年《科學(xué)美國人》的一篇文章,可以說標(biāo)志著這個領(lǐng)域的誕生。在這種情況下,提供機器可理解的信息是通過為數(shù)據(jù)賦予元數(shù)據(jù)來完成的。在語義網(wǎng)中,這些元數(shù)據(jù)通常采用本體論的形式,或者至少是一種具有基于邏輯語義的形式語言,允許對數(shù)據(jù)的意義進行推理。如果再加上智能代理將利用這些信息的理解,會發(fā)現(xiàn)語義網(wǎng)領(lǐng)域與人工智能領(lǐng)域有著顯著的重疊。事實上,在過去大多數(shù)主要的人工智能會議上,都有明確的“語義網(wǎng)”的印記。

另一種更近期的觀點是,語義網(wǎng)領(lǐng)域的開發(fā)方法及工具與互聯(lián)網(wǎng)無關(guān)的應(yīng)用,即使不使用機器可理解的數(shù)據(jù)建立智能代理,這些應(yīng)用也能提供附加值。事實上,早期業(yè)界對這個領(lǐng)域的興趣,旨在將語義網(wǎng)技術(shù)應(yīng)用于信息集成和管理。從這個角度來看,可以說這個領(lǐng)域是關(guān)于建立高效的(即低成本的)數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的方法和工具,而互聯(lián)網(wǎng)在這方面可能只是數(shù)據(jù)傳輸?shù)墓ぞ?。這種理解使它更接近數(shù)據(jù)庫,或者數(shù)據(jù)科學(xué)的數(shù)據(jù)管理部分。

通過將語義網(wǎng)描述為以 W3C 標(biāo)準(zhǔn) RDF、 OWL 和 SPARQL 為核心來研究本體論、關(guān)聯(lián)數(shù)據(jù)和知識圖譜的基礎(chǔ)和應(yīng)用,可以對該領(lǐng)域進行限制,但實際上可能是相對精確的描述。

 

或許,這幾個視角都有各自的優(yōu)點,語義網(wǎng)的研究領(lǐng)域存在于它們的融合之中,本體論、關(guān)聯(lián)數(shù)據(jù)、知識圖譜是這個領(lǐng)域的關(guān)鍵概念,圍繞 RDF、 OWL 和 SPARQL 的 W3C 標(biāo)準(zhǔn)構(gòu)成了技術(shù)交流方式,它們在語法(在某種程度上是語義)層面上達成了統(tǒng)一; 語義網(wǎng)領(lǐng)域應(yīng)用的目的是建立有效的數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的方法(無論是否針對 Web) ; 作為驅(qū)動力的長期愿景是在的某個時刻,將語義網(wǎng)建立為一個完整的基于智能代理的應(yīng)用環(huán)境。

“治學(xué)先治史”,讓我們看看過去這些年語義網(wǎng)領(lǐng)域出現(xiàn)的關(guān)鍵概念、標(biāo)準(zhǔn)和突出成果。

語義網(wǎng)的發(fā)展階段

當(dāng)一個研究領(lǐng)域誕生時,確定任何特定的時間點當(dāng)然是有爭議的。然而,2001年 Berners-Lee 等人在《科學(xué)美國人》上發(fā)表的一篇文章是一個早期的里程碑,為這一新興領(lǐng)域提供了重要的線索。而且,那是在世紀(jì)之初,當(dāng)時語義網(wǎng)領(lǐng)域在社區(qū)規(guī)模、學(xué)術(shù)生產(chǎn)力和最初的產(chǎn)業(yè)興趣等方面處于非常重要的上升初期。

但是,已經(jīng)有人在早期做出了努力。從2000年運行到2006年的DAML項目,目標(biāo)是開發(fā)一種語義 Web 語言和相應(yīng)的工具。由歐盟資助的 On-To-Knowledge 項目,運行于2000-2002年,產(chǎn)生了 OIL 語言,后來與 DAML 合并,最終產(chǎn)生了網(wǎng)絡(luò)本體語言的W3C標(biāo)準(zhǔn)。為網(wǎng)絡(luò)數(shù)據(jù)賦予機器可讀或“可理解”的元數(shù)據(jù),這一更為普遍的想法可以追溯到互聯(lián)網(wǎng)本身的起源。例如,早在1997年就發(fā)表了資源描述框架(RDF)的初稿。

 

從21世紀(jì)初開始,可以分為三個相互重疊的階段,每個階段都由一個關(guān)鍵概念驅(qū)動,也就是說,語義網(wǎng)領(lǐng)域的主要焦點至少轉(zhuǎn)移了兩次。第一階段是由本體論驅(qū)動的,它跨越了21世紀(jì)初到21世紀(jì)中期; 第二階段是由關(guān)聯(lián)數(shù)據(jù)驅(qū)動的,一直延伸到21世紀(jì)10年代初。第三階段到現(xiàn)在都是由知識圖譜驅(qū)動的。

本體論

在21世紀(jì)的大部分時間里,這個領(lǐng)域的工作都以本體論為中心,當(dāng)然,這個概念有著更為古老的淵源。本體是共享概念化的一個正式的、明確的規(guī)范ーー盡管有人可能認為這個定義仍然需要解釋,但還是相當(dāng)通用的。在一個更精確的意義上 ,本體論實際上是一個概念(即,類型或類別,如“哺乳動物”和“胎生動物”)及其關(guān)系(如“哺乳動物產(chǎn)下胎生動物”)的知識庫,在一個基于形式邏輯的本體語言中指定。在語義網(wǎng)上下文中,本體是數(shù)據(jù)集成、共享和發(fā)現(xiàn)的主要工具,一個重要的思想是本體本身應(yīng)該可以被其他人重用。

2004年,網(wǎng)絡(luò)本體語言的OWL成為了W3C 標(biāo)準(zhǔn),為該領(lǐng)域提供了進一步的燃料。OWL的核心是基于描述邏輯,也就是說,基于一階謂詞邏輯的子語言,只使用一元謂詞和二元謂詞,限制使用量詞,設(shè)計的方式使得語言上的邏輯演繹推理是可判定的。

同樣在2004年,資源描述框架(RDF)也成為了W3C標(biāo)準(zhǔn)。本質(zhì)上,RDF是一種用于表達標(biāo)記化并類型化的有向圖的語法,它使用OWL指定類型及其關(guān)系的本體,然后在RDF圖中使用這些類型,并將這些關(guān)系作為邊。從這個角度來看,OWL本體可以作為RDF圖的模式(或類型邏輯)。

一個用于RDF查詢語言的 W3C 標(biāo)準(zhǔn),稱為 SPARQL,在2008年發(fā)布,在2013年進行了更新,3與 OWL 更加兼容。在RDF、 OWL和SPARQL周邊的其他標(biāo)準(zhǔn)已經(jīng)或正在開發(fā),其中一些已經(jīng)獲得了重大的進展,例如,語義傳感器網(wǎng)絡(luò)本體論或起源本體論,以及SKOS 簡單知識組織系統(tǒng)。

 

通過在W3C的所有這些關(guān)鍵標(biāo)準(zhǔn),與其他關(guān)鍵 W3C 標(biāo)準(zhǔn)之間的基本兼容性得到了維護。例如,XML 作為RDF和OWL的語法序列化和交換格式。所有 W3C 語義 Web 標(biāo)準(zhǔn)還使用 IRI 作為 RDF圖中的標(biāo)識符,并使用了OWL類名和數(shù)據(jù)類型標(biāo)識符等。

在語義網(wǎng)上下文中,本體是數(shù)據(jù)集成、共享和發(fā)現(xiàn)的主要工具,一個重要的思想是本體本身應(yīng)該可以被其他人重用。

DARPA的 DAML 項目在2006年結(jié)束,隨后在基礎(chǔ)語義網(wǎng)研究方面幾乎沒有大規(guī)模的資助項目。因此,大部分相應(yīng)的研究要么轉(zhuǎn)移到應(yīng)用領(lǐng)域,比如醫(yī)療保健或國防領(lǐng)域的數(shù)據(jù)管理,要么轉(zhuǎn)移到相鄰的領(lǐng)域。相比之下,歐盟的框架方案,特別是 FP6(2002-2006)和 FP7(2007-2013) ,為基礎(chǔ)和面向應(yīng)用的語義網(wǎng)研究提供了大量資金。在語義網(wǎng)研究社區(qū)的組成中,可以看到這個社區(qū)主要是歐洲人。社區(qū)的規(guī)模難以評估,但自2000年代中期以來,該領(lǐng)域的主要會議——“國際語義網(wǎng)會議”平均每年吸引了600多名參與者。

工業(yè)界的興趣從一開始就很大,但幾乎不可能描述關(guān)于工業(yè)活動相關(guān)水平的可靠數(shù)據(jù)。主要和較小的公司已經(jīng)參與了大規(guī)模的基礎(chǔ)或應(yīng)用研究項目,特別是根據(jù)歐盟 FP 6和7。工業(yè)界的興趣已經(jīng)改變了研究團體的焦點。

一些大規(guī)模的本體論(通常早于語義 Web 社區(qū))在這個時期成熟了。例如,于1998年開始的基因本體論,現(xiàn)在已經(jīng)是一個非常突出的資源。另一個例子是 SNOMED CT,它可以追溯到1960年,但現(xiàn)在已經(jīng)在OWL中完全正式化,并廣泛用于電子健康記錄。

 

正如計算機科學(xué)研究中經(jīng)常出現(xiàn)的情況一樣,在2005年前后,人們最初對短期取得突破性結(jié)果的期望開始降低,開始更為冷靜看待這一問題。大多數(shù)本體論是在這一時期開發(fā)的,其形式通常是基于臨時建模的意義,作為開發(fā)本體論的方法,但尚未產(chǎn)生具體的結(jié)果,結(jié)果是難以維護和重用。這一點,再加上當(dāng)時開發(fā)良好的本體論所需的大量前期成本,為研究團體轉(zhuǎn)移注意力鋪平了道路,這也許可以被理解為與21世紀(jì)初強烈的基于本體論的方法相對立。

關(guān)聯(lián)數(shù)據(jù)

2006年見證了“關(guān)聯(lián)數(shù)據(jù)”的誕生,如果重點是在免費許可下的開放、公開和可用性,則稱為“關(guān)聯(lián)開放數(shù)據(jù)”。關(guān)聯(lián)數(shù)據(jù)很快成為語義網(wǎng)研究和應(yīng)用程序的主要驅(qū)動力,并一直持續(xù)到2010年左右。

關(guān)聯(lián)數(shù)據(jù)由一組RDF圖組成,這些RDF圖是關(guān)聯(lián)的,因為圖中的許多IRI標(biāo)識符也出現(xiàn)在其他的圖中,可以是多個圖中。從某種意義上說,所有這些關(guān)聯(lián)的RDF圖集合可以理解為一個非常大的 RDF 圖。

如下圖所示,公開可用的關(guān)聯(lián)RDF圖的數(shù)量在第一個十年中在顯著增長; 數(shù)據(jù)來自關(guān)聯(lián)開放數(shù)據(jù)云網(wǎng)站,該網(wǎng)站并不包含所有RDF數(shù)據(jù)集。2015年的一篇論文報道了“來自超過65萬個數(shù)據(jù)文檔的超過370億個三元組”,這也只是所有可以在互聯(lián)網(wǎng)上自由訪問的 RDF三元組的集合。例如,大型數(shù)據(jù)提供者通常只提供基于SPARQL的查詢接口,或者使用RDF進行內(nèi)部數(shù)據(jù)組織,但只通過Web 頁面向外部提供服務(wù)。關(guān)聯(lián)開放數(shù)據(jù)云中的數(shù)據(jù)集覆蓋了各種各樣的主題,包括地理、政府、生命科學(xué)、語言學(xué)、媒體、科學(xué)出版物和社交網(wǎng)絡(luò)。

 

隨著時間的推移,關(guān)聯(lián)數(shù)據(jù)開放云中 RDF 圖的數(shù)量

其中最著名和最常用的關(guān)聯(lián)數(shù)據(jù)集是 DBpedia,這是從 Wikipedia (以及最近的 Wikidata)中提取的關(guān)聯(lián)數(shù)據(jù)集。2016年4月發(fā)布的數(shù)據(jù)集包括了約600萬個實體和約95億個RDF三元組。由于其廣泛的主題覆蓋(基本上是維基百科中的所有內(nèi)容) ,而且它是最早提供的鏈接數(shù)據(jù)集之一,DBpedia 在關(guān)聯(lián)數(shù)據(jù)開放云中發(fā)揮著核心作用: 許多其他數(shù)據(jù)集都會鏈接到它,因此它已成為關(guān)聯(lián)數(shù)據(jù)的樞紐。

從一開始,業(yè)界就對關(guān)聯(lián)數(shù)據(jù)產(chǎn)生了濃厚的興趣。例如,BBC是第一個重要的行業(yè)貢獻者,紐約時報公司和Facebook是早期采用者。然而,業(yè)界的興趣似乎主要在于利用關(guān)聯(lián)數(shù)據(jù)技術(shù)進行數(shù)據(jù)集成和管理,而這些數(shù)據(jù)往往不會在開放的互聯(lián)網(wǎng)上顯示出來。

在關(guān)聯(lián)數(shù)據(jù)的時代,本體論扮演了一個不那么重要的角色。它們通常被用作模式,可以告知RDF 數(shù)據(jù)集的內(nèi)部結(jié)構(gòu),然而,相對于本體論時代的過度承諾和深度研究,關(guān)聯(lián)數(shù)據(jù)云中的RDF圖中的信息是膚淺和相對簡單的。在這段時間里,人們有時會說本體論不能被重用,而且一種更簡單的方法,主要基于利用 RDF 和數(shù)據(jù)集之間的鏈接,對于數(shù)據(jù)集成、管理和線上線下的應(yīng)用程序有著更現(xiàn)實的作用。也正是在這個時期,基于RDF的數(shù)據(jù)組織詞匯表與本體的關(guān)系并不大。

 

也正是在這段時間(2011年)里,schema.org 登場了。最初由Bing、 Google 和雅虎推動,后來yandex也加入進來,公開了一個相對簡單的本體論體系,并建議網(wǎng)站提供商使用schema.org的詞匯表在各自的網(wǎng)站上注釋(即鏈接)實體。作為回報,schema.org背后的 Web 搜索引擎提供商承諾通過利用注釋作為元數(shù)據(jù)來改善搜索結(jié)果。在2015年,大約有超過30% 的頁面使用了schema.org的注釋。

2012年發(fā)起的另一個重要項目是Wikidata,該項目最初是德國wikimedia協(xié)會的一個項目,由谷歌、 Yandex 和Allen人工智能研究所等機構(gòu)資助。Wikidata 基于與維基百科類似的想法,即眾包信息。然而,維基百科提供了百科全書式的文本(以人類讀者為主要消費者) ,Wikidata 則是關(guān)于創(chuàng)建可用于程序或其他項目的結(jié)構(gòu)化數(shù)據(jù)。例如,許多其他wikimedia包括維基百科,使用Wikidata提供一些信息,然后呈現(xiàn)給人類讀者。Wikidata已經(jīng)擁有了超過6600萬個的數(shù)據(jù)項,自項目啟動以來已經(jīng)進行了超過10億次的編輯,并且有超過20000個活躍用戶。

在21世紀(jì)10年代早期,關(guān)聯(lián)數(shù)據(jù)的最初炒作開始讓位于一種更為冷靜的觀點。雖然關(guān)聯(lián)數(shù)據(jù)確實有一些突出的用途和應(yīng)用,但結(jié)果表明,集成和利用關(guān)聯(lián)數(shù)據(jù)需要比最初的預(yù)期付出更多的努力。可以說,用于關(guān)聯(lián)數(shù)據(jù)的淺顯的非表達性模式似乎是可重用性的一個主要障礙,最初期望數(shù)據(jù)集之間的相互聯(lián)系會以某種方式解釋這一弱點,但似乎并沒有實現(xiàn)。這不應(yīng)被理解為貶低了鏈接數(shù)據(jù)給該領(lǐng)域及其應(yīng)用帶來的重大進展: 僅僅以某種結(jié)構(gòu)化的格式提供數(shù)據(jù),遵循一個突出的標(biāo)準(zhǔn),就意味著可以使用現(xiàn)有工具訪問、集成和管理數(shù)據(jù),然后進行利用。這比以語法和概念上更加異構(gòu)的形式提供數(shù)據(jù)要容易得多。但是,尋求更有效的數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的方法當(dāng)然和以往一樣重要,而且正在開始。

知識圖譜

2012年,當(dāng)谷歌推出它的知識圖譜時,一個新的術(shù)語出現(xiàn)了。例如,可以通過在 google 網(wǎng)站上搜索知名實體來查看 Google知識圖譜的部分內(nèi)容: 在鏈接到網(wǎng)頁的搜索結(jié)果旁邊顯示一個所謂的信息框,顯示來自Google知識圖譜的信息。下圖給出了這種信息框的一個例子,搜索 Kofi Annan 就可以找到這個例子。人們可以通過跟隨一個超鏈接從這個節(jié)點導(dǎo)航到圖譜中的其他節(jié)點,例如,到 Nane Maria Annan,她與 Kofi Annan 節(jié)點有配偶關(guān)系。在這個鏈接之后,Nane Maria Annan 的一個新的信息框被顯示在同一個詞的搜索結(jié)果旁邊。

 

在 google 上搜索“ Kofi Annan”后的 Google知識圖譜節(jié)點

雖然 Google 沒有提供可下載的知識圖譜,但它提供了內(nèi)容訪問的API,這個API 使用標(biāo)準(zhǔn)的schema.org類型,并且滿足JSON-LD格式,這實際上是W3C RDF 標(biāo)準(zhǔn)化的另一種語法。

然而,考慮到語義網(wǎng)技術(shù)的歷史,特別是之前討論過的關(guān)聯(lián)數(shù)據(jù)和本體論,知識圖譜仿佛是一種直接來自語義網(wǎng)領(lǐng)域的新構(gòu)想,關(guān)注的重點發(fā)生了顯著轉(zhuǎn)變。

其中一個不同之處在于開放性: 正如關(guān)聯(lián)開放數(shù)據(jù)這個術(shù)語從一開始就暗示的那樣,語義網(wǎng)社區(qū)的關(guān)聯(lián)數(shù)據(jù)工作大多以開放共享數(shù)據(jù)為其目標(biāo)之一,這意味著關(guān)聯(lián)數(shù)據(jù)大多可以免費下載,或者由支持SPARQL的服務(wù)提供,并且重要的是在社區(qū)中使用非限制性許可。wikidata作為一個知識圖譜也是開放共享的。相比之下,圍繞知識圖譜的活動往往是由行業(yè)主導(dǎo)的,而主要的應(yīng)用并不是真正開放的。

另一個區(qū)別是集中控制與自下而上的社區(qū)貢獻: 在某種意義上,關(guān)聯(lián)數(shù)據(jù)云是目前已知最大的現(xiàn)有知識圖譜,但它不是一個簡潔的實體。相反,它由松散且相互關(guān)聯(lián)的單個子圖組成,每個子圖都由它自己的結(jié)構(gòu)、表示模式等控制。相比之下,知識圖譜通常被理解為更具內(nèi)部一致性和更嚴(yán)格控制的組件服務(wù)。因此,對于沒有嚴(yán)格質(zhì)量控制的外部圖表的價值受到質(zhì)疑,而內(nèi)容和/或基礎(chǔ)模式的質(zhì)量受到更多關(guān)注。

最大的區(qū)別可能是從學(xué)術(shù)研究到工業(yè)應(yīng)用的轉(zhuǎn)變。因此,圍繞知識圖譜的活動是由強大的工業(yè)用例及可感知的附加價值推動的,沒有公開的正式評估。

語義網(wǎng)與其他領(lǐng)域和學(xué)科的關(guān)系

與機器學(xué)習(xí)那樣的其他領(lǐng)域不同,語義網(wǎng)領(lǐng)域主要不是由該領(lǐng)域固有的某些方法驅(qū)動的。相反,它是由一個共同的愿景驅(qū)動的,因此,它根據(jù)需要借鑒了其他學(xué)科。

 

例如,語義網(wǎng)領(lǐng)域作為人工智能的一個子學(xué)科,與知識的表示有著密切的關(guān)系,因為知識圖譜和本體論來表示語言可以被理解,而且與知識表示的語言密切相關(guān),描述邏輯作為支撐網(wǎng)絡(luò)本體語言 OWL的邏輯學(xué),發(fā)揮著核心作用。語義網(wǎng)的應(yīng)用需求也推動或啟發(fā)了描述邏輯的研究,以及對不同知識表示方法(如規(guī)則和描述邏輯)之間橋接的研究。

數(shù)據(jù)庫領(lǐng)域顯然是密切相關(guān)的,如(元)數(shù)據(jù)管理和圖的結(jié)構(gòu)化數(shù)據(jù)有一個自然的家園,也是重要的語義網(wǎng)領(lǐng)域。然而,語義網(wǎng)研究的重點主要集中在異構(gòu)數(shù)據(jù)源的概念集成上;,例如,如何克服不同的數(shù)據(jù)組織方式; 在大數(shù)據(jù)術(shù)語中,語義網(wǎng)的重點主要是數(shù)據(jù)的多樣性。

自然語言處理作為一種應(yīng)用工具,在知識圖譜和本體集成、自然語言查詢應(yīng)答、文本知識圖譜或本體構(gòu)造等方面發(fā)揮著重要作用。

機器學(xué)習(xí),特別是深度學(xué)習(xí),正在改進語義網(wǎng)上下文中困難任務(wù)的處理能力,例如知識圖譜補全,數(shù)據(jù)清洗等等。與此同時,語義網(wǎng)技術(shù)正在研究提高人工智能的可解釋性。

在網(wǎng)絡(luò)物理系統(tǒng)和物聯(lián)網(wǎng)的某些方面也正在研究使用語義網(wǎng)技術(shù),例如,在智能制造(工業(yè)4.0)、智能能源網(wǎng)和智能建筑等等。

生命科學(xué)的一些領(lǐng)域受益于語義網(wǎng)技術(shù)已經(jīng)有相當(dāng)長的歷史了,例如,前面提到的 SNOMED-CT 和基因本體論。一般來說,生物醫(yī)學(xué)領(lǐng)域是語義網(wǎng)概念的早期采用者。另一個突出的例子是由語義網(wǎng)技術(shù)驅(qū)動的ICD開發(fā)。

語義網(wǎng)技術(shù)其他潛在的應(yīng)用領(lǐng)域可以是任何需要數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的場景,例如在地球科學(xué)或數(shù)字人文學(xué)科。

語義網(wǎng)的未來

毫無疑問,語義網(wǎng)領(lǐng)域的宏偉目標(biāo)尚未實現(xiàn),無論是將語義網(wǎng)作為一個產(chǎn)品來創(chuàng)建,還是為數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用提供解決方案,使其變得完全容易和輕松。正如關(guān)于知識圖譜、schema.org和生命科學(xué)本體論的討論所證明的那樣,這并不意味著中間結(jié)果沒有實際用途。

然而,為了向更大的目標(biāo)前進,幾乎每一個子領(lǐng)域的語義網(wǎng)都需要進一步的發(fā)展。例如,工業(yè)知識圖譜,本體匹配,信息抽取等等。與其重復(fù)些清單,不如讓把重點放在當(dāng)前的短期主要障礙的挑戰(zhàn)上。

 

在語義網(wǎng)社區(qū)及其應(yīng)用社區(qū)中,關(guān)于如何有效的處理數(shù)據(jù)管理問題有著豐富的軟硬知識。然而,剛剛采用語義網(wǎng)技術(shù)的人們經(jīng)常發(fā)現(xiàn)自己面臨著一種不和諧的聲音,面對不同方法的推銷,但幾乎沒有關(guān)于這些不同方法的利弊介紹。還有那些工具包,從不適合實踐的粗糙原型到針對特定子問題而精心設(shè)計的軟件,但同樣沒有什么指導(dǎo),到底哪種工具,哪種方法,將最有助于用戶實現(xiàn)自己的特定目標(biāo)。

因此,在這個階段,語義網(wǎng)領(lǐng)域最需要的可能是整合。作為一個固有的應(yīng)用驅(qū)動領(lǐng)域,這種合并會在其各個子領(lǐng)域進行,從而形成面向應(yīng)用的流程,這些流程的目標(biāo)和優(yōu)缺點都有詳細的文檔記錄,同時還有易于使用和支持整個流程的集成工具。一些著名的流行軟件,如OWL API,Wikidata的底層引擎Wikibase,或者ELK推理機,都是強大且非常有幫助的,但是在某些情況下,盡管它們都使用了 RDF 和 OWL 進行序列化,仍然不能輕松地相互協(xié)作。

誰可能是這種整合的驅(qū)動力呢?

對于學(xué)術(shù)界而言,開發(fā)并維護穩(wěn)定易用軟件的動機往往有限,因為學(xué)術(shù)成績(主要以出版物和獲得的外部資金總額衡量)往往與這些活動不相符。編寫高質(zhì)量的入門教科書是非常耗時且回報很少的學(xué)術(shù)成績。然而,通過開發(fā)各種范式之間的橋梁解決方案,以及通過與應(yīng)用領(lǐng)域合作開發(fā)和實現(xiàn)用例,學(xué)術(shù)界確實為整合提供了一個基礎(chǔ)。

在工業(yè)界,各種各樣的整合已經(jīng)發(fā)生,初創(chuàng)企業(yè)和跨國公司采用語義網(wǎng)技術(shù)就是明證。但是,不論是技術(shù)細節(jié)還是其內(nèi)部采用的軟件,通常是不共享的,大概都是為了保護自己的競爭優(yōu)勢。如果確實如此,那么相應(yīng)的軟件解決方案變得普及將只是時間的問題。

小結(jié)

在語義網(wǎng)存在的第一個近20年里,語義網(wǎng)領(lǐng)域已經(jīng)產(chǎn)生了豐富的關(guān)于數(shù)據(jù)共享、發(fā)現(xiàn)、集成和重用的高效數(shù)據(jù)管理的知識。通過語義網(wǎng)的應(yīng)用,可以很好的理解這個領(lǐng)域的主要貢獻,包括 Schema.org,工業(yè)知識圖譜,Wikidata,本體建模應(yīng)用等。這些應(yīng)用背后的關(guān)鍵科學(xué)發(fā)現(xiàn)是什么呢?然而,這個問題更難回答。語義網(wǎng)的進步需要許多計算機科學(xué)子領(lǐng)域的貢獻,而其中一個關(guān)鍵任務(wù)就是如何將這些貢獻整合起來,以便提供適用的解決方案。從這個意義上說,這些應(yīng)用展示了整個領(lǐng)域的主要進展。

主流工業(yè)界正在采用語義網(wǎng)技術(shù),然而,尋求更有效的數(shù)據(jù)管理解決方案遠遠沒有結(jié)束,仍然是該領(lǐng)域的驅(qū)動力。

 

責(zé)任編輯:武曉燕 來源: 51CTO專欄
相關(guān)推薦

2021-04-12 11:47:21

人工智能知識圖譜

2017-03-06 16:48:56

知識圖譜構(gòu)建存儲

2021-01-19 10:52:15

知識圖譜

2025-04-27 00:10:00

AI人工智能知識圖譜

2019-01-18 16:02:33

知識圖譜圖數(shù)據(jù)庫AI

2021-01-25 10:36:32

知識圖譜人工智能

2025-01-09 10:52:23

RAG知識圖譜人工智能

2021-03-03 13:55:42

人工智能知識圖譜

2024-06-03 07:28:43

2017-04-13 11:48:05

NLP知識圖譜

2019-05-07 10:01:49

Redis軟件開發(fā)

2021-01-18 10:50:29

知識圖譜人工智能深度學(xué)習(xí)

2017-05-04 13:18:18

深度學(xué)習(xí)知識圖譜

2024-10-08 10:37:12

語言數(shù)據(jù)自然語言

2021-01-19 11:07:19

深度學(xué)習(xí)神經(jīng)+符號知識圖譜

2021-01-19 10:35:37

知識圖譜大數(shù)據(jù)深度學(xué)習(xí)

2023-08-22 15:34:01

Python開發(fā)

2025-04-18 12:49:58

知識圖譜大模型人工智能

2022-08-11 14:11:14

知識圖譜人工智能

2022-03-01 15:14:36

圖數(shù)據(jù)庫知識圖譜
點贊
收藏

51CTO技術(shù)棧公眾號