自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="bzkqr"></blockquote>

<legend id="bzkqr"></legend>

<thead id="bzkqr"><rt id="bzkqr"></rt></thead>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

需要知識(shí)的后深度學(xué)習(xí)時(shí)代，如何高效自動(dòng)構(gòu)建知識(shí)圖譜

作者：Synced Lab 2020-11-13 15:38:12

人工智能深度學(xué)習(xí) 新聞知識(shí)圖譜

知識(shí)圖譜可以做什么？如何自動(dòng)、高效地構(gòu)建知識(shí)圖譜？前沿的知識(shí)圖譜自動(dòng)構(gòu)建技術(shù)有哪些？這篇文章將逐一解答這些問題。

知識(shí)圖譜可以做什么？如何自動(dòng)、高效地構(gòu)建知識(shí)圖譜？前沿的知識(shí)圖譜自動(dòng)構(gòu)建技術(shù)有哪些？這篇文章將逐一解答這些問題。

日常生活中，我們經(jīng)常遇到以下兩種信息展現(xiàn)方式：

需要知識(shí)的后深度學(xué)習(xí)時(shí)代，如何高效自動(dòng)構(gòu)建知識(shí)圖譜？

二者展示的信息量是差不多的，但右邊這種看起來更加直觀。而且，隨著文本篇幅的增長，這種優(yōu)勢會(huì)體現(xiàn)得更加明顯。

和人一樣，機(jī)器也更加擅長利用右圖所示的數(shù)據(jù)。但矛盾之處在于，互聯(lián)網(wǎng)等數(shù)據(jù)平臺(tái)存儲(chǔ)的大多是左圖所示的數(shù)據(jù)。要把左圖轉(zhuǎn)換成右圖，機(jī)器需要經(jīng)歷一個(gè)「閱讀理解」的過程。

這個(gè)過程如何完成？這就要提到我們今天的主題——知識(shí)圖譜。

知識(shí)圖譜可以做什么？

知識(shí)圖譜的概念于 2012 年由 Google 提出，當(dāng)時(shí)主要被用來提高其搜索引擎質(zhì)量，改善用戶搜索體驗(yàn)。隨著大數(shù)據(jù)時(shí)代的到來和人工智能技術(shù)的進(jìn)步，知識(shí)圖譜的應(yīng)用邊界被逐漸拓寬，越來越多的企業(yè)開始將知識(shí)圖譜技術(shù)融入其已經(jīng)成型的數(shù)據(jù)分析業(yè)務(wù)，有的甚至使用知識(shí)圖譜作為其數(shù)據(jù)的基礎(chǔ)組織與存儲(chǔ)形式，成為其數(shù)據(jù)中臺(tái)的核心基建。

與谷歌類似，微軟將知識(shí)圖譜技術(shù)用于旗下必應(yīng)（Bing）搜索引擎，優(yōu)化搜索結(jié)果質(zhì)量和交互式搜索體驗(yàn)；LinkedIn 與 Facebook 利用知識(shí)圖譜挖掘其平臺(tái)上人、事、資訊等之間的相互關(guān)系，使得用戶更容易發(fā)現(xiàn)感興趣的內(nèi)容、找到志同道合的朋友；eBay、亞馬遜等電商平臺(tái)使用知識(shí)圖譜為用戶和產(chǎn)品建立聯(lián)系，執(zhí)行更精準(zhǔn)的產(chǎn)品推薦；IBM 則專注于企業(yè)服務(wù)，其 IBM Watson Discovery 產(chǎn)品能夠幫助用戶根據(jù)自身的特殊需求快速構(gòu)建自己的知識(shí)圖譜框架。

雖然知識(shí)圖譜的概念 2012 年才被提出，但其背后的思想本質(zhì)上是上個(gè)世紀(jì)的語義網(wǎng)絡(luò)（Semantic Network）知識(shí)表達(dá)形式，即一個(gè)由節(jié)點(diǎn)（Point）和邊（Edge）組成的有向圖結(jié)構(gòu)知識(shí)庫。其中，圖的節(jié)點(diǎn)代表現(xiàn)實(shí)世界中存在的“實(shí)體”，圖的邊則代表實(shí)體之間的“關(guān)系”。

需要知識(shí)的后深度學(xué)習(xí)時(shí)代，如何高效自動(dòng)構(gòu)建知識(shí)圖譜？

圖 1：傳統(tǒng)知識(shí)庫與知識(shí)圖譜示意圖 [1]

與傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算方式相比，知識(shí)圖譜技術(shù)更加側(cè)重于對(duì)非結(jié)構(gòu)化異構(gòu)數(shù)據(jù)的收集和處理，更擅長對(duì)于關(guān)系的表達(dá)和計(jì)算，可以處理復(fù)雜多樣的關(guān)聯(lián)分析、挖掘到更多隱藏知識(shí)。與此同時(shí)，知識(shí)圖譜的數(shù)據(jù)結(jié)構(gòu)與人工智能領(lǐng)域許多技術(shù)任務(wù)所基于的數(shù)據(jù)一脈相承（異質(zhì)結(jié)構(gòu)多關(guān)聯(lián)的大數(shù)據(jù)），可以為后續(xù)的機(jī)器學(xué)習(xí)和推理任務(wù)提供強(qiáng)有力的支持，幫助企業(yè)在智能搜索、智能問答、智能推薦、以及大數(shù)據(jù)分析這幾個(gè)方面提升性能。

智能搜索：傳統(tǒng)的搜索引擎依靠網(wǎng)頁之間的鏈接和權(quán)重進(jìn)行搜索排序，而知識(shí)圖譜提供了實(shí)體的分類、屬性和關(guān)系的描述，從而可以直接對(duì)事物進(jìn)行更精準(zhǔn)的語義搜索。

智能問答：基于知識(shí)圖譜的智能問答是目前產(chǎn)業(yè)界問答系統(tǒng)的主要技術(shù)路線之一，即對(duì)于給定的自然語言問題，利用知識(shí)圖譜技術(shù)進(jìn)行語義的解析、查詢、推理以得出答案。該技術(shù)常見于智能手機(jī)或音箱載體上的智能對(duì)話機(jī)器人，如 Siri、Google Assistant、Amazon Alexa、小愛同學(xué)、天貓精靈，以及微軟的小冰、小娜等，這些智能問答 agent 的背后都有相關(guān)企業(yè)各自積累的知識(shí)圖譜作為問答系統(tǒng)的支撐。

智能推薦：基于知識(shí)圖譜的推薦能更好將用戶與被推薦項(xiàng)目之間的各種相互聯(lián)系考慮進(jìn)來，可以增強(qiáng)數(shù)據(jù)的語義信息、挖掘隱藏的關(guān)聯(lián)信息，進(jìn)一步提高推薦的準(zhǔn)確度。

大數(shù)據(jù)分析：基于知識(shí)圖譜中實(shí)體的關(guān)聯(lián)信息和推理，我們能挖掘出傳統(tǒng)數(shù)據(jù)分析較難得到的隱含信息，該優(yōu)勢在存在大量異構(gòu)信息的數(shù)據(jù)集中更為顯著。基于知識(shí)圖譜的大數(shù)據(jù)關(guān)聯(lián)分析在金融風(fēng)控、反欺詐乃至安防等應(yīng)用場景中都有很好的效果。

近年來，知識(shí)圖譜的諸多優(yōu)勢和應(yīng)用前景使得面向特定領(lǐng)域的知識(shí)圖譜構(gòu)建在行業(yè)應(yīng)用中得到推廣，產(chǎn)生了如醫(yī)療知識(shí)圖譜、金融知識(shí)圖譜、電商圖譜等不同的垂直行業(yè)的知識(shí)圖譜形態(tài)。

需要知識(shí)的后深度學(xué)習(xí)時(shí)代，如何高效自動(dòng)構(gòu)建知識(shí)圖譜？

圖 2：行業(yè)知識(shí)圖譜應(yīng)用一覽 [2]

如何構(gòu)建知識(shí)圖譜？

一般來說，構(gòu)建一個(gè)知識(shí)圖譜通常會(huì)經(jīng)歷知識(shí)獲取、知識(shí)表示與建模、知識(shí)融合、知識(shí)存儲(chǔ)，以及構(gòu)建完成后的知識(shí)查詢和推理幾大要素：

知識(shí)獲取：從不同來源、不同結(jié)構(gòu)的數(shù)據(jù)中抽取知識(shí)（實(shí)體、關(guān)系以及屬性等信息），這是知識(shí)圖譜構(gòu)建的核心與前提條件。

知識(shí)表示與建模：為知識(shí)制定統(tǒng)一的數(shù)據(jù)架構(gòu)（data schema），將獲取到的知識(shí)依照統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)并形成知識(shí)庫，這是知識(shí)圖譜正式構(gòu)建的第一步，影響著后續(xù)的知識(shí)融合、存儲(chǔ)以及查詢推理可以使用的方法與效果。

知識(shí)融合：將不同源的知識(shí)以統(tǒng)一的框架規(guī)范進(jìn)行驗(yàn)證、消歧、加工等異構(gòu)數(shù)據(jù)整合工作，這是知識(shí)圖譜更新與合并的必經(jīng)之路，為不同知識(shí)圖譜間的交互融合提供可能性。

知識(shí)存儲(chǔ)：依據(jù)數(shù)據(jù)量的大小、數(shù)據(jù)特征以及應(yīng)用需求的不同，選取合適的存儲(chǔ)模式，將獲取到的數(shù)據(jù)存儲(chǔ)起來，形成知識(shí)圖譜。

知識(shí)查詢與推理：基于構(gòu)建完成的知識(shí)圖譜進(jìn)行查詢，或者進(jìn)一步推理挖掘出隱藏知識(shí)來豐富、擴(kuò)展知識(shí)圖譜，這是知識(shí)圖譜構(gòu)建的最終目的，與知識(shí)獲取共同影響著知識(shí)圖譜的應(yīng)用場景和范圍。

需要知識(shí)的后深度學(xué)習(xí)時(shí)代，如何高效自動(dòng)構(gòu)建知識(shí)圖譜？

圖 3：知識(shí)圖譜構(gòu)建的要素與示例流程

在執(zhí)行正式的知識(shí)獲取步驟之前，通常會(huì)首先確認(rèn)知識(shí)的建模表示方式，主要的方式有兩種：

先為知識(shí)圖譜設(shè)計(jì)數(shù)據(jù)模式（data schema），再依據(jù)設(shè)計(jì)好的數(shù)據(jù)模式進(jìn)行有針對(duì)性的數(shù)據(jù)抽取，這是自頂向下（top-down）的數(shù)據(jù)建模方法，一般適用于數(shù)據(jù)相對(duì)集中、知識(shí)結(jié)構(gòu)相對(duì)確定的垂直領(lǐng)域行業(yè)知識(shí)圖譜；

先進(jìn)行數(shù)據(jù)的收集和整理，再根據(jù)數(shù)據(jù)內(nèi)容總結(jié)、歸納其特點(diǎn)，提煉框架，逐步形成確定的數(shù)據(jù)模式，這是自底向上（bottom-up）的數(shù)據(jù)建模方法，一般適用于與涉及海量數(shù)據(jù)、內(nèi)容繁雜且架構(gòu)不清晰的公共領(lǐng)域通用知識(shí)圖譜。

需要知識(shí)的后深度學(xué)習(xí)時(shí)代，如何高效自動(dòng)構(gòu)建知識(shí)圖譜？

圖 4：知識(shí)圖譜數(shù)據(jù)建模方法 [3]

知識(shí)圖譜構(gòu)建的核心技術(shù)、局限與發(fā)展方向

知識(shí)獲取是構(gòu)建知識(shí)圖譜的核心與前提條件，也是自動(dòng)構(gòu)建知識(shí)圖譜最關(guān)鍵的影響要素和重點(diǎn)研究領(lǐng)域。除了純?nèi)斯さ闹R(shí)輸入之外，目前的知識(shí)獲取主要是指針對(duì)結(jié)構(gòu)化數(shù)據(jù)（如關(guān)系型數(shù)據(jù)庫）、半結(jié)構(gòu)化數(shù)據(jù)（如詞典、百科類標(biāo)記清晰的網(wǎng)頁數(shù)據(jù)）、或者非結(jié)構(gòu)化數(shù)據(jù)（如聲音、圖像和文字語料數(shù)據(jù)）這三類不同結(jié)構(gòu)的知識(shí)進(jìn)行的自動(dòng)或半自動(dòng)抽取。

對(duì)于結(jié)構(gòu)和半結(jié)構(gòu)化的數(shù)據(jù)，通常只需要簡單的預(yù)處理和映射即可以作為后續(xù)數(shù)據(jù)分析系統(tǒng)的輸入，相關(guān)技術(shù)已經(jīng)比較成熟。而非結(jié)構(gòu)化數(shù)據(jù)通常需要借助自然語言處理、信息抽取、乃至深度學(xué)習(xí)的技術(shù)來幫助提取有效信息，這也是目前知識(shí)抽取技術(shù)的主要難點(diǎn)和研究方向，包含實(shí)體抽取、關(guān)系抽取和事件抽取三個(gè)重要的子技術(shù)任務(wù)。

實(shí)體抽取：主要是指命名實(shí)體識(shí)別（Named Entity Recognition, NER）任務(wù)，即從純文本中自動(dòng)識(shí)別并提出特定類別的命名實(shí)體，如人物、組織、地點(diǎn)、時(shí)間、金額等。實(shí)體抽取是知識(shí)抽取中最基礎(chǔ)的步驟，早期主要是通過人工編寫規(guī)則的方式進(jìn)行抽取，但規(guī)則不易總結(jié)、成本高且移植性差，目前主要是作為補(bǔ)充方法使用。在這之后，實(shí)體抽取多采用基于特征的統(tǒng)計(jì)方法，使用如隱馬爾可夫（HMM）和條件隨機(jī)場（CRF）等模型，將實(shí)體抽取當(dāng)做序列標(biāo)注問題進(jìn)行預(yù)測標(biāo)注。而近年來，隨著深度學(xué)習(xí)的發(fā)展，目前較流行的方法是將統(tǒng)計(jì)方法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合，使用如長短期記憶網(wǎng)絡(luò)（LSTM）自動(dòng)提取特征，再結(jié)合 CRF 模型標(biāo)注提取實(shí)體，自動(dòng)化程度更高，適用范圍更廣。

關(guān)系抽取：指從文本中識(shí)別抽取實(shí)體之間的關(guān)系，抽取結(jié)果常使用 SPO 結(jié)構(gòu)（即主謂賓結(jié)構(gòu)）的三元組來表示。與實(shí)體抽取類似，早期主要使用基于模板的方法（觸發(fā)詞模板、依存句法分析模板等），近年來開始發(fā)展出半自動(dòng)的基于監(jiān)督學(xué)習(xí)的方法（CNN、RNN 等）和純自動(dòng)的基于弱監(jiān)督學(xué)習(xí)的方法（遠(yuǎn)程監(jiān)督、Boostrapping 等）。目前在關(guān)系抽取任務(wù)上取得最佳表現(xiàn)的模型大多融入了注意力機(jī)制，如 Attention CNNs 模型和 Attention BLSTM 模型等。

事件抽取：指識(shí)別文本中目標(biāo)事件的信息，并以結(jié)構(gòu)化的形式呈現(xiàn)。例如從投融資新聞中定位融資公司、融資金額、投資企業(yè)等信息；或是從恐怖襲擊事件的新聞報(bào)道中識(shí)別提取出襲擊發(fā)生的時(shí)間、地點(diǎn)和受害人信息等。事件抽取同時(shí)涉及到實(shí)體和關(guān)系抽取的相關(guān)技術(shù)。從宏觀的事件抽取思路上來看，事件抽取的方法可分為流水線抽取和聯(lián)合抽取兩大類方法。流水線抽取的思路是將事件抽取任務(wù)進(jìn)一步分解為事件識(shí)別、元素抽取、屬性分類等一條流水線上的多個(gè)子任務(wù)，分別使用相應(yīng)的機(jī)器學(xué)習(xí)分類器實(shí)現(xiàn)，這是目前事件抽取的主流方法。聯(lián)合抽取則主要是采用基于概率圖的模型進(jìn)行聯(lián)合建模，或基于深度學(xué)習(xí)的方法（如基于注意力機(jī)制的序列標(biāo)注模型），將事件的多個(gè)元素作為一個(gè)整體共同識(shí)別并提取。

移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、以及物聯(lián)網(wǎng)等技術(shù)的快速發(fā)展開啟了一個(gè)大規(guī)模生產(chǎn)、分析和應(yīng)用數(shù)據(jù)的大數(shù)據(jù)時(shí)代。然而，互聯(lián)網(wǎng)上只有少數(shù)的結(jié)構(gòu)或半結(jié)構(gòu)化的數(shù)據(jù)知識(shí)可方便直接地被機(jī)器解析。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)抽取尚達(dá)不到完全取代人工的準(zhǔn)確度要求，而依靠人工編輯的知識(shí)圖譜構(gòu)建有著高成本、低效率的問題。根據(jù)德國 Mannheim 大學(xué)的研究者估算 [5]，手動(dòng)創(chuàng)建一個(gè)三元組（即一條記錄）的成本在 2 到 6 美元之間。那么，使用純?nèi)斯さ姆绞綐?gòu)建一個(gè)大型知識(shí)圖譜的總成本就會(huì)在數(shù)百萬到數(shù)十億美元之間。相比較而言，自動(dòng)創(chuàng)建知識(shí)圖譜的成本可以降低 15 到 250 倍左右，即一個(gè)三元組需要 1 美分到 15 美分左右的成本。因此，如何應(yīng)用自動(dòng)化知識(shí)抽取技術(shù)，在廣泛的自由文本信息中自動(dòng)且準(zhǔn)確地提取高質(zhì)量、結(jié)構(gòu)化知識(shí)，將成為知識(shí)圖譜構(gòu)建的重要突破點(diǎn)。

需要知識(shí)的后深度學(xué)習(xí)時(shí)代，如何高效自動(dòng)構(gòu)建知識(shí)圖譜？

圖 5：每個(gè)三元組成本與錯(cuò)誤率之間的關(guān)系示意 [5]

前沿的知識(shí)圖譜自動(dòng)構(gòu)建技術(shù)

知識(shí)獲取是知識(shí)圖譜自動(dòng)構(gòu)建的核心，而非結(jié)構(gòu)化知識(shí)又是知識(shí)獲取里面最需要攻克的技術(shù)難點(diǎn)。近年來，深度學(xué)習(xí)和相關(guān)自然語言處理技術(shù)的迅猛發(fā)展使得非結(jié)構(gòu)化數(shù)據(jù)的自動(dòng)知識(shí)抽取少人化、乃至無人化成為了可能。與傳統(tǒng)方法相比，深度學(xué)習(xí)方法減少了對(duì)外部工具的依賴，能構(gòu)建端到端的系統(tǒng)直接進(jìn)行實(shí)體識(shí)別、關(guān)系抽取等任務(wù)，簡單高效。

在深度學(xué)習(xí)的基礎(chǔ)上，艾倫人工智能實(shí)驗(yàn)室和微軟的研究人員結(jié)合自然語言處理領(lǐng)域較為成功的預(yù)訓(xùn)練語言模型，提出了自動(dòng)知識(shí)圖譜構(gòu)建模型 COMET（COMmonsEnse Transformers）[8]。該模型可以根據(jù)已有常識(shí)庫中的自然語言內(nèi)容自動(dòng)生成豐富多樣的常識(shí)描述，在 Atomic 和 ConcepNet 兩個(gè)經(jīng)典常識(shí)圖譜上都取得了接近人類表現(xiàn)的高精度，證明了此類方法在常識(shí)知識(shí)圖譜自動(dòng)構(gòu)建和補(bǔ)全方面替代傳統(tǒng)方法的可行性。

需要知識(shí)的后深度學(xué)習(xí)時(shí)代，如何高效自動(dòng)構(gòu)建知識(shí)圖譜？

圖 6：COMET 從一個(gè)已有知識(shí)圖譜中學(xué)習(xí)（實(shí)線），并生成新的節(jié)點(diǎn)和邊（虛線） [8]

另一方面，IJCAI 2020 上一篇來自明略科學(xué)院知識(shí)工程實(shí)驗(yàn)室的論文另辟蹊徑，從傳統(tǒng)的基于文本的知識(shí)圖譜生成進(jìn)一步擴(kuò)展到了基于語音生成知識(shí)圖譜。其 HAO-Graph 系統(tǒng) [10] 設(shè)計(jì)并實(shí)現(xiàn)了實(shí)時(shí)的語音圖譜生成架構(gòu)，并且能夠根據(jù)演講者的主題變化在不同的圖譜之間切換。

需要知識(shí)的后深度學(xué)習(xí)時(shí)代，如何高效自動(dòng)構(gòu)建知識(shí)圖譜？

圖 7：結(jié)合摘要從一長段語音演講中提取出的知識(shí)圖譜示例 [10]

HAO-Graph 基于明略科技的 HAO 智能技術(shù)，是已知的首個(gè)公開發(fā)布的從語音中構(gòu)建知識(shí)圖譜的系統(tǒng)，實(shí)現(xiàn)了中文文本和語音知識(shí)圖譜的實(shí)時(shí)生成和可視化。與此同時(shí)，明略科技在最近的 WAIC 2020 上還進(jìn)一步開放了其 Text2KG API 接口，幫助相關(guān)從業(yè)人員進(jìn)行知識(shí)圖譜底層的數(shù)據(jù)收集、標(biāo)注、抽取、以及關(guān)聯(lián)等相關(guān)任務(wù)，避免了大量的重復(fù)工作，節(jié)省開發(fā)者的時(shí)間。

在深度學(xué)習(xí)發(fā)展進(jìn)入瓶頸的時(shí)期，結(jié)合知識(shí)成為了下一步人工智能技術(shù)突破的關(guān)鍵，而知識(shí)圖譜必然是核心驅(qū)動(dòng)力之一。我們期待這一技術(shù)在未來有更大、更廣的應(yīng)用。

責(zé)任編輯：張燕妮來源：機(jī)器之心Pro

深度學(xué)習(xí)編程人工智能

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="yvwyf"><i id="yvwyf"></i></blockquote>

<cite id="yvwyf"><rp id="yvwyf"></rp></cite>

<menuitem id="yvwyf"><sub id="yvwyf"><kbd id="yvwyf"></kbd></sub></menuitem>