知識(shí)圖譜火了,還不快來(lái)pick一下!
原創(chuàng)【51CTO.com原創(chuàng)稿件】 隨著移動(dòng)互聯(lián)網(wǎng)的發(fā)展,萬(wàn)物互聯(lián)成為了可能,這種互聯(lián)所產(chǎn)生的數(shù)據(jù)也在爆發(fā)式地增長(zhǎng),這些數(shù)據(jù)不僅為分析關(guān)系提供了有效原料,更為人工智能的飛速發(fā)展帶來(lái)了***的數(shù)據(jù)紅利。知識(shí)圖譜因此應(yīng)運(yùn)而生,成為近些年來(lái)的熱點(diǎn)技術(shù)。
今天就讓我們從知識(shí)圖譜的概念、表示、構(gòu)成及應(yīng)用四方面,對(duì)其進(jìn)行一個(gè)深入、全面的探究。
什么是知識(shí)圖譜
知識(shí)圖譜(KnowledgeGraph/Vault)又稱(chēng)為科學(xué)知識(shí)圖譜,是由Google公司在2012年提出來(lái)的一個(gè)新的概念?;诠雀柚R(shí)圖譜的架構(gòu),可以知識(shí)圖譜大致可以理解為一個(gè)語(yǔ)義網(wǎng),是與知識(shí)庫(kù)的密切關(guān)聯(lián)、但又有明顯差異的一個(gè)技術(shù)棧(Technology Stack),在谷歌的設(shè)計(jì)理念中,知識(shí)圖譜的目標(biāo)是解決信息過(guò)載問(wèn)題。
谷歌知識(shí)圖譜架構(gòu)
是不是覺(jué)得有點(diǎn)抽象?那我們換個(gè)角度,從實(shí)際應(yīng)用的角度出發(fā)其實(shí)可以簡(jiǎn)單地把知識(shí)圖譜理解成多關(guān)系圖(Multi-relational Graph),知識(shí)圖譜就是把所有不同種類(lèi)的信息(Heterogeneous Information)通過(guò)數(shù)據(jù)挖掘、信息處理、知識(shí)計(jì)量和圖形繪制等一系列方式,連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜提供了從“關(guān)系”的角度去分析問(wèn)題的能力。
知識(shí)圖譜的表示 知識(shí)圖譜應(yīng)用的前提是已經(jīng)構(gòu)建好了知識(shí)圖譜,也可以把它認(rèn)為是一個(gè)知識(shí)庫(kù)。這也是為什么它可以用來(lái)回答一些搜索相關(guān)問(wèn)題的原因,比如在百度搜索引擎里輸入“鹿晗的女朋友?”,我們直接可以得到答案-“關(guān)曉彤”。這是因?yàn)槲覀冊(cè)谙到y(tǒng)層面上已經(jīng)創(chuàng)建好了一個(gè)包含“鹿晗”和“關(guān)曉彤”的實(shí)體以及他倆之間關(guān)系的知識(shí)庫(kù)。所以,當(dāng)我們執(zhí)行搜索的時(shí)候,就可以通過(guò)關(guān)鍵詞提取("鹿晗", "關(guān)曉彤", "女朋友")以及知識(shí)庫(kù)上的匹配可以直接獲得最終的答案。這種搜索方式跟傳統(tǒng)的搜索引擎是不一樣的,一個(gè)傳統(tǒng)的搜索引擎它返回的是網(wǎng)頁(yè)、而不是最終的答案,所以就多了一層用戶(hù)自己篩選并過(guò)濾信息的過(guò)程。 在現(xiàn)實(shí)世界中,實(shí)體和關(guān)系也會(huì)擁有各自的屬性,比如人可以有“姓名”和“年齡”。當(dāng)一個(gè)知識(shí)圖譜擁有屬性時(shí),我們可以用屬性圖(Property Graph)來(lái)表示。下面的圖表示一個(gè)簡(jiǎn)單的屬性圖。劉二和劉強(qiáng)是父子關(guān)系,并且劉二擁有一個(gè)159開(kāi)頭的電話(huà)號(hào),這個(gè)電話(huà)號(hào)開(kāi)通時(shí)間是2018年,其中2018年就可以作為關(guān)系的屬性。類(lèi)似的,劉二本人也帶有一些屬性值比如年齡為35歲、職位是個(gè)體經(jīng)營(yíng)者等。
知識(shí)圖譜的構(gòu)成 構(gòu)建知識(shí)圖譜是一個(gè)迭代更新的過(guò)程,根據(jù)知識(shí)獲取的邏輯,每一輪迭代包含三個(gè)階段: 1信息抽?。簭母鞣N類(lèi)型的數(shù)據(jù)源中提取出實(shí)體、屬性以及實(shí)體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識(shí)表達(dá); 2知識(shí)融合:在獲得新知識(shí)之后,需要對(duì)其進(jìn)行整合,以消除矛盾和歧義,比如某些實(shí)體可能有多種表達(dá),某個(gè)特定稱(chēng)謂也許對(duì)應(yīng)于多個(gè)不同的實(shí)體等; 3知識(shí)加工(計(jì)算+應(yīng)用):對(duì)于經(jīng)過(guò)融合的新知識(shí),需要經(jīng)過(guò)質(zhì)量評(píng)估之后(部分需要人工參與甄別),才能將合格的部分加入到知識(shí)庫(kù)中,以確保知識(shí)庫(kù)的質(zhì)量。 知識(shí)圖譜架構(gòu)分析圖 知識(shí)圖譜的應(yīng)用 知識(shí)圖譜技術(shù)為不同的商業(yè)場(chǎng)景帶來(lái)了大量的智能應(yīng)用和成功案例,上面所提到的用于搜索引擎(國(guó)外的搜索引擎以谷歌的Google Search、微軟的Bing Search]最為典型;國(guó)內(nèi)的主流搜索引擎公司如百度、搜狗等)的例子只是冰山一角,接下來(lái)就和小編一起看看知識(shí)圖譜的其他應(yīng)用吧! 通過(guò)知識(shí)圖譜相關(guān)技術(shù)從招股書(shū)、年報(bào)、公司公告、券商研究報(bào)告、新聞等半結(jié)構(gòu)化表格和非結(jié)構(gòu)化文本數(shù)據(jù)中批量自動(dòng)抽取公司的股東、子公司、供應(yīng)商、客戶(hù)、合作伙伴、競(jìng)爭(zhēng)對(duì)手等信息,構(gòu)建出公司的知識(shí)圖譜。 在某個(gè)宏觀經(jīng)濟(jì)事件或者企業(yè)相關(guān)事件發(fā)生的時(shí)候,券商分析師、交易員、基金公司基金經(jīng)理等投資研究人員可以通過(guò)此圖譜做更深層次的分析和更好的投資決策,比如在美國(guó)限制向中興通訊出口的消息發(fā)布之后,如果我們有中興通訊的客戶(hù)供應(yīng)商、合作伙伴以及競(jìng)爭(zhēng)對(duì)手的關(guān)系圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國(guó)際國(guó)內(nèi)上市公司從而挖掘投資機(jī)會(huì)或者進(jìn)行投資組合風(fēng)險(xiǎn)控制。 知識(shí)圖譜技術(shù)可以幫助我們快速構(gòu)建一個(gè)法律知識(shí)圖譜,目前還缺乏法律知識(shí)圖譜的理論工作。跟其他領(lǐng)域的知識(shí)圖譜相比,法律知識(shí)圖譜需要考慮法律的邏輯,下面就是一個(gè)法律知識(shí)圖譜的片段: 從上面這個(gè)例子可以看出,每一個(gè)犯罪行為都有主體、客體、主觀要件和客觀要件,我們就需要從文本中去抽取這些信息,從而形成一個(gè)關(guān)于犯罪行為的圖譜,而通過(guò)對(duì)海量判決書(shū)的挖掘,可以建立犯罪行為之間的關(guān)聯(lián),比如說(shuō),防衛(wèi)過(guò)當(dāng)和故意傷害之間有一個(gè)關(guān)聯(lián),即誤判為的關(guān)系。通過(guò)這個(gè)圖譜,給定一個(gè)判決書(shū),可以輔助法官判的一個(gè)案件是否有誤判,是否需要補(bǔ)充信息。 通過(guò)融合來(lái)自不同數(shù)據(jù)源的信息構(gòu)成知識(shí)圖譜,同時(shí)引入領(lǐng)域?qū)<医I(yè)務(wù)專(zhuān)家規(guī)則。我們通過(guò)數(shù)據(jù)不一致性檢測(cè),利用繪制出的知識(shí)圖譜可以識(shí)別潛在的欺詐風(fēng)險(xiǎn)。比如借款人張 xx 和借款人吳 x 填寫(xiě)信息為同事,但是兩個(gè)人填寫(xiě)的公司名卻不一樣, 以及同一個(gè)電話(huà)號(hào)碼屬于兩個(gè)借款人,這些不一致性很可能有欺詐行為。 反欺詐情報(bào)分析 如教育科研,醫(yī)療,生物醫(yī)療以及需要進(jìn)行大數(shù)據(jù)分析的一些行業(yè)。這些行業(yè)對(duì)整合性和關(guān)聯(lián)性的資源需求迫切,知識(shí)圖譜可以為其提供更加精確規(guī)范的行業(yè)數(shù)據(jù)以及豐富的表達(dá),幫助用戶(hù)更加便捷地獲取行業(yè)知識(shí)。 知識(shí)圖譜的行業(yè)應(yīng)用 結(jié)語(yǔ) 知識(shí)圖譜是一個(gè)既充滿(mǎn)挑戰(zhàn)而且非常有趣的領(lǐng)域。相信在未來(lái)幾年時(shí)間內(nèi),知識(shí)圖譜毫無(wú)疑問(wèn)將是人工智能的前沿研究問(wèn)題。知識(shí)圖譜的重要性不僅在于它是一個(gè)全局知識(shí)庫(kù),更是支撐智能搜索和深度問(wèn)答等智能應(yīng)用的基礎(chǔ),而且在于它是一把鑰匙,能夠打開(kāi)人類(lèi)的知識(shí)寶庫(kù),為許多相關(guān)學(xué)科領(lǐng)域開(kāi)啟新的發(fā)展機(jī)會(huì)。從這個(gè)意義上來(lái)看,知識(shí)圖譜不僅是一項(xiàng)技術(shù),更是一項(xiàng)戰(zhàn)略資產(chǎn)。 當(dāng)然,還要強(qiáng)調(diào)一點(diǎn),知識(shí)圖譜工程本身還是業(yè)務(wù)為重心,以數(shù)據(jù)為中心,不能低估業(yè)務(wù)和數(shù)據(jù)的重要性哦。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文作者和出處為51CTO.com】