自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

一種基于機(jī)器學(xué)習(xí)的自動(dòng)文檔標(biāo)簽圖譜技術(shù)

人工智能
本文主要詳細(xì)講解了是個(gè)方面,即:知識(shí)圖譜技術(shù)發(fā)展趨勢(shì)、基于機(jī)器學(xué)習(xí)的標(biāo)簽圖譜技術(shù)思路、關(guān)鍵技術(shù)分析、典型應(yīng)用案例分享。

 本期課程重點(diǎn)分為以下四個(gè)方面:知識(shí)圖譜技術(shù)發(fā)展趨勢(shì)、基于機(jī)器學(xué)習(xí)的標(biāo)簽圖譜技術(shù)思路、關(guān)鍵技術(shù)分析、典型應(yīng)用案例分享。

  一、知識(shí)圖譜技術(shù)發(fā)展趨勢(shì)

  1. 知識(shí)圖譜

 ?。?)定義

  知識(shí)圖譜:是一種規(guī)模非常大的語義網(wǎng)絡(luò)系統(tǒng),是海量文本知識(shí)挖掘最常見的手段之一。知識(shí)圖譜旨在描述真實(shí)世界中存在的各種實(shí)體或概念及其關(guān)系,一般用三元組表示。知識(shí)圖譜亦可被看作是一張巨大的圖,節(jié)點(diǎn)表示實(shí)體或概念,而邊則由屬性或關(guān)系構(gòu)成。

[[391855]]

(2)發(fā)展歷程

  知識(shí)圖譜的發(fā)展分為起源、發(fā)展、繁榮三個(gè)階段。

 ?。?)應(yīng)用

  目前,知識(shí)圖譜在金融、醫(yī)療、教育、司法等多個(gè)行業(yè)領(lǐng)域廣泛應(yīng)用。

  • 金融行業(yè):反洗錢、反欺詐等

 • 醫(yī)療行業(yè)

• 教育行業(yè)

• 司法:知識(shí)圖譜在司法中能解決證據(jù)索引、類案推送、結(jié)果預(yù)判、證據(jù)分析、文書生成和智慧調(diào)解

(4)重要作用

  知識(shí)圖譜具有獲取、表示和處理知識(shí)的能力,是人類心智區(qū)別于其它物種心智的重要特征,且已成為推動(dòng)機(jī)器基于人類知識(shí)來獲取認(rèn)知能力的重要途徑,并將逐漸成為未來智能社會(huì)的重要生產(chǎn)資料。

  知識(shí)圖譜是人工智能的基石,包括感知層與認(rèn)知層。知識(shí)圖譜推動(dòng)人工智能的應(yīng)用,是強(qiáng)人工智能發(fā)展的核心驅(qū)動(dòng)力之一。

 ?。?)知識(shí)圖譜的特點(diǎn)

  • 特點(diǎn):

  √ 適用范圍:面向文本知識(shí)和數(shù)據(jù)

  √ 數(shù)據(jù)方面:要求具備一定的數(shù)據(jù)量

  √ 知識(shí)內(nèi)容:對(duì)知識(shí)的寬度、深度有要求,視具體業(yè)務(wù)情況

  √ 要求數(shù)據(jù)標(biāo)注:機(jī)器學(xué)習(xí)的前提,越多越好

  √ 需要業(yè)務(wù)專家評(píng)估結(jié)果的準(zhǔn)確性

  √ 通用性較差:不同行業(yè)效果差異很大

  √ 技術(shù)復(fù)雜:涉及業(yè)務(wù)、信息、網(wǎng)絡(luò)、人工智能、算法、圖形和大數(shù)據(jù)等多個(gè)方面

  2. 知識(shí)圖譜面臨多方面的挑戰(zhàn)

 ?。?)數(shù)據(jù)方面的挑戰(zhàn):多源數(shù)據(jù)的歧義多、噪聲大,數(shù)據(jù)關(guān)聯(lián)性不明確

 ?。?)算法挑戰(zhàn):現(xiàn)有算法知識(shí)抽取準(zhǔn)確性、算法性能和算法可解釋性的挑戰(zhàn)(各行業(yè)不一樣)

  (3)基礎(chǔ)知識(shí)庫(kù)的挑戰(zhàn):知識(shí)庫(kù)融合、垂直領(lǐng)域知識(shí)庫(kù)構(gòu)建、基礎(chǔ)知識(shí)庫(kù)不開放

  (4)開發(fā)工具的挑戰(zhàn):全生命周期平臺(tái)的缺失、算法工具專家間人機(jī)協(xié)同需要提升、基于文本的知識(shí)圖譜構(gòu)建工具性能弱、跨語言語系的挑戰(zhàn)、知識(shí)圖譜中間件缺乏

  (5)隱私、安全方面的挑戰(zhàn)

 ?。?)測(cè)試認(rèn)證方面的挑戰(zhàn)

 ?。?)商業(yè)模式與人才相關(guān)的挑戰(zhàn)

 ?。?)標(biāo)準(zhǔn)化方面的挑戰(zhàn)

  3. 工業(yè)領(lǐng)域文檔知識(shí)特點(diǎn)

  知識(shí)圖譜在通用領(lǐng)域得到廣泛的應(yīng)用與發(fā)展,但在工業(yè)領(lǐng)域的應(yīng)用卻不是很多,這與工業(yè)領(lǐng)域的行業(yè)特點(diǎn)、專業(yè)性、保密性和復(fù)雜性有關(guān)。

  (1)原始文檔知識(shí)數(shù)據(jù)龐大、格式繁多:知識(shí)獲取很復(fù)雜、技術(shù)難度高、成本高、時(shí)間長(zhǎng)

 ?。?)年增長(zhǎng)速度很快、存儲(chǔ)分散

 ?。?)專業(yè)性太強(qiáng):與具體的場(chǎng)景關(guān)聯(lián)很強(qiáng)

  (4)公開的工業(yè)知識(shí)庫(kù)很少

 ?。?)保密性強(qiáng):知識(shí)傳播、共享有限制

 ?。?)專業(yè)學(xué)科多,知識(shí)應(yīng)用復(fù)雜:通用性不強(qiáng),成本高

  4. 工業(yè)領(lǐng)域知識(shí)圖譜面臨的問題

  與傳統(tǒng)通用領(lǐng)域不同,工業(yè)領(lǐng)域的知識(shí)圖譜在知識(shí)獲取、知識(shí)應(yīng)用方面存在較大的困難,總結(jié)起來主要有以下幾點(diǎn):

  • 工業(yè)知識(shí)獲取技術(shù)難度高、投入大、周期長(zhǎng)

  • 小批量、小樣本下的知識(shí)圖譜如何生成

  • 知識(shí)圖譜的準(zhǔn)確度問題

  • 與結(jié)構(gòu)化數(shù)據(jù)的知識(shí)融合問題

  • 缺乏標(biāo)準(zhǔn)化的知識(shí)圖譜平臺(tái):任意擴(kuò)展算法、語種、專業(yè)學(xué)科

  • 自主可控問題

  二、基于機(jī)器學(xué)習(xí)的標(biāo)簽圖譜技術(shù)思路

  1. 標(biāo)簽的定義與意義

 ?。?)標(biāo)簽定義:是知識(shí)內(nèi)容高度抽象、高度概括的具現(xiàn)化,是知識(shí)某個(gè)維度的特征。它具有豐富的含義和內(nèi)涵,內(nèi)容簡(jiǎn)單、明了。

 ?。?)標(biāo)簽作用:分類、快速查找、快速了解、用戶畫像、產(chǎn)品畫像……

 ?。?)標(biāo)簽在工業(yè)領(lǐng)域中的意義:

  • 具備常規(guī)標(biāo)簽功效和能力

  • 專業(yè)性:專業(yè)術(shù)語、詞匯、主題……

  • 是工業(yè)知識(shí)圖譜基于知識(shí)運(yùn)維模式的重要方法之一:標(biāo)簽可以認(rèn)為是關(guān)鍵詞、主題、事件

  2. 標(biāo)簽應(yīng)用

  標(biāo)簽應(yīng)用:非常廣泛,比如知識(shí)分類、信息關(guān)聯(lián)、用戶畫像、產(chǎn)品畫像、數(shù)據(jù)統(tǒng)計(jì)挖掘等。以客戶管理為例,客戶管理是制定六大目標(biāo)的相關(guān)標(biāo)簽體系,可以實(shí)現(xiàn)精確客戶營(yíng)銷,產(chǎn)生最大客戶價(jià)值。

  3. 標(biāo)簽體系構(gòu)建方法

 ?。?)三大原則:

  • 放棄大而全的框架,以業(yè)務(wù)場(chǎng)景倒推標(biāo)簽需求

  • 標(biāo)簽生成自動(dòng)化,解決效率和溝通成本

  • 有效的標(biāo)簽管理機(jī)制

 ?。?)建立一個(gè)完整的標(biāo)簽體系需要注重四點(diǎn)

4. 標(biāo)簽示例

電商標(biāo)簽體系示例

 知識(shí)三維標(biāo)簽體系示例

  5. 基于標(biāo)簽圖譜的技術(shù)思路

 ?。?)思路重點(diǎn):標(biāo)簽代替實(shí)體

 ?。?)影響準(zhǔn)確度的因素:

  • 預(yù)處理結(jié)果質(zhì)量

  • 標(biāo)簽實(shí)體識(shí)別

  • 關(guān)系抽取

  • AI算法優(yōu)化

  • 業(yè)務(wù)協(xié)同程度

 ?。?)基于知識(shí)運(yùn)維的知識(shí)圖譜特點(diǎn):原始數(shù)據(jù)少、通過迭代逐步豐富數(shù)據(jù)、通過迭代校正圖譜中的錯(cuò)誤、逐步把專家頭腦中的知識(shí)挖掘出來,特別注重人機(jī)協(xié)同。

 三、關(guān)鍵技術(shù)分析

  1. 智能標(biāo)簽技術(shù)

  (1)技術(shù)要點(diǎn):基于人工智能算法,從單個(gè)文檔里提取若干個(gè)內(nèi)容特征詞作為文檔的內(nèi)容標(biāo)簽

 ?。?)標(biāo)簽?zāi)康模簽橄乱徊絻?nèi)容標(biāo)簽實(shí)體處理、標(biāo)簽實(shí)體關(guān)系和標(biāo)簽應(yīng)用提取做準(zhǔn)備

 ?。?)專業(yè)要求:

  • 提供專業(yè)詞匯庫(kù)、術(shù)語庫(kù)、近義詞/同義詞庫(kù)可以提高專業(yè)性(必填項(xiàng))

  • 通過預(yù)設(shè)標(biāo)簽和編碼,可以規(guī)范標(biāo)簽名稱,縮小標(biāo)簽范圍

  • 通過預(yù)設(shè)關(guān)聯(lián)詞之間的關(guān)系和權(quán)重,可以精確語義理解,消除二義性

  • 通過人工標(biāo)注,可以提高準(zhǔn)確性(可選項(xiàng))

  • 在標(biāo)簽使用過程中,可以人工糾錯(cuò)(類似人工標(biāo)注,小樣本知識(shí)圖譜常用的手段)

  2. 標(biāo)簽關(guān)系抽取技術(shù)

  • 常規(guī)知識(shí)圖譜要素:實(shí)體、關(guān)系、方向

  • 標(biāo)簽知識(shí)圖譜要素:與常規(guī)知識(shí)圖譜類似

  √ 標(biāo)簽=實(shí)體

  √ 關(guān)系:按常規(guī)方法抽取

  √ 方向:按常規(guī)方法抽取

  √ 標(biāo)簽圖譜類似關(guān)鍵詞圖譜、主題圖譜

  √ 自動(dòng)化:輔以人工標(biāo)注(工作量小、簡(jiǎn)單)

  3. 標(biāo)簽圖譜存儲(chǔ)與可視化技術(shù)

  • 圖譜結(jié)構(gòu):三元關(guān)系,即對(duì)象A-關(guān)系-對(duì)象B

  • 圖譜存儲(chǔ):RDBMS數(shù)據(jù)庫(kù)或圖數(shù)據(jù)庫(kù)

  • 圖譜檢索:以標(biāo)簽為基礎(chǔ),也可以是一段文字

  • 可視化:ECHART圖表等,與具體的圖譜數(shù)據(jù)沒有直接關(guān)系,擴(kuò)展能力強(qiáng)

  四、典型應(yīng)用案例分享

  1. 基于試驗(yàn)知識(shí)文檔的標(biāo)簽知識(shí)圖譜需求

  • 背景:

  在某試驗(yàn)單位試驗(yàn)設(shè)計(jì)師的工作電腦上,存放著多年與試驗(yàn)相關(guān)的參考文檔。雖然已對(duì)其進(jìn)行初步分類,整理成多個(gè)分件夾和子文件夾,但有些文件夾下文檔比較多,而有些文件夾下僅有一個(gè)文檔,同時(shí)每年都在不停地更新,這會(huì)造成使用時(shí)的不便,我們可以將其歸納為以下幾點(diǎn)主要問題:

  √ 麻煩:每次查找資料時(shí)不能一下全部找到,需要按文件夾逐層往下找

  √ 效率低:每次查看文檔時(shí),必須要打開文檔大概看一遍,才知道里面是否有想要的內(nèi)容

  √ 專業(yè)性不精確:與試驗(yàn)相關(guān)的資料越來越多,專業(yè)性越來越強(qiáng),文件夾命名已不能體現(xiàn)文檔的內(nèi)容

  √ 信息孤島現(xiàn)象嚴(yán)重:想要的內(nèi)容分散在不同的文檔里,不能在多個(gè)文檔中快速找到想要的內(nèi)容

  • 需求:提供一個(gè)工具或方法,能快速解決上述問題

  2. 試驗(yàn)參考文檔分析

 ?。?)源文檔分析

  • 文檔總數(shù):3500多篇

  • 目錄個(gè)數(shù):82個(gè)

  • 二三級(jí)目錄有不少

  • 多種文件格式:WORD、PDF、TXT

  • 涉及專業(yè)比較寬:試驗(yàn)、大數(shù)據(jù)、云計(jì)算、試驗(yàn)件、試驗(yàn)方案和試驗(yàn)報(bào)告等

  • 試驗(yàn)相關(guān)的文獻(xiàn)占一半左右

 ?。?)試驗(yàn)類文檔分析

  • 業(yè)務(wù)類:31個(gè)目錄,647個(gè)文獻(xiàn)

  • 數(shù)據(jù)類:11個(gè)目錄,982個(gè)文獻(xiàn)

  • 文檔分布不均:有的多,有的少

 ?。?)技術(shù)思路

  • 總體思路:采用基于機(jī)器學(xué)習(xí)的自動(dòng)文檔標(biāo)簽圖譜技術(shù)來解決

  • 理由:

  √ 文檔覆蓋面比較寬,但細(xì)分類的文檔數(shù)量太少,最少的僅有一篇文檔,不適合大規(guī)模知識(shí)圖譜技術(shù)

  √ 文檔在不斷更新,但更新的數(shù)量不會(huì)很多

  √ 使用者是業(yè)務(wù)專家,有足夠的資歷、能力來協(xié)助工人智能自動(dòng)打標(biāo)簽、生成知識(shí)圖譜

  √ 使用者可以隨時(shí)糾正圖譜中的錯(cuò)誤

  • 主要步驟:

  √ 文本預(yù)處理

  √ 知識(shí)文檔語義化

  √ 智能自動(dòng)打標(biāo)簽

  √ 校正智能標(biāo)簽準(zhǔn)確性

  √ 自動(dòng)標(biāo)簽圖譜

  √ 校正標(biāo)簽圖譜的準(zhǔn)確性

  • 預(yù)處理要點(diǎn)與結(jié)果展示:

  √ 必須把文檔里的圖片、表格單獨(dú)抽取出來做特殊處理

  √ 注意論文豎排版面格式

  √ 表格里的數(shù)據(jù)需要單獨(dú)處理

3. 試驗(yàn)知識(shí)文檔智能標(biāo)簽

  智能自動(dòng)標(biāo)簽:預(yù)設(shè)標(biāo)準(zhǔn)化的試驗(yàn)標(biāo)簽與編碼,由人工智能根據(jù)文檔內(nèi)容來決定對(duì)標(biāo)預(yù)設(shè)的標(biāo)簽,通過多種標(biāo)簽提取算法綜合分析來決定合適的標(biāo)簽(默認(rèn)前10個(gè))。在試驗(yàn)專業(yè)術(shù)語、詞匯、同近義詞輔助下,準(zhǔn)確率高達(dá)90%以上。

  4. 試驗(yàn)標(biāo)簽知識(shí)圖譜

 ?。?)圖譜生成

  基于中文語法、詞性和句子成分,采用先進(jìn)、成熟的標(biāo)簽實(shí)體關(guān)系抽取算法來抽取關(guān)系,標(biāo)簽實(shí)體構(gòu)成圖譜“三元”關(guān)系?! ?/p>

地面模型試驗(yàn)圖譜示例

 ?。?)準(zhǔn)確性提升

  • 試驗(yàn)數(shù)據(jù)方面:

  √ 試驗(yàn)輔助詞庫(kù):專業(yè)術(shù)語、同義詞、近義詞、關(guān)聯(lián)詞

  √ 二義性消除:通過關(guān)聯(lián)詞權(quán)重規(guī)則

  √ 擴(kuò)大關(guān)聯(lián)詞范圍:人工給出小部分,大部分由人工智能給出,然后由人工確定是否選用為關(guān)聯(lián)詞

  √ 通過專業(yè)工具對(duì)兩豎排排版的文獻(xiàn)進(jìn)行單獨(dú)處理

  • 技術(shù)方面:

  √ 選用多種算法綜合比較分析,擇優(yōu)選擇標(biāo)簽并排序

  √ 輔助人工標(biāo)注、學(xué)習(xí),提升準(zhǔn)確性

責(zé)任編輯:梁菲 來源: 互聯(lián)網(wǎng)
相關(guān)推薦

2017-05-02 14:41:00

網(wǎng)絡(luò)釣魚機(jī)器學(xué)習(xí)社會(huì)工程

2017-10-27 18:40:01

機(jī)器學(xué)習(xí)終身機(jī)器學(xué)習(xí)遷移學(xué)習(xí)

2024-08-30 11:27:55

父文檔檢索RAG技術(shù)人工智能

2017-12-05 14:55:56

2009-06-03 15:38:37

Struts框架RBAC

2023-07-18 07:23:11

方案payloadrequest

2020-06-18 07:00:00

機(jī)器學(xué)習(xí)人工智能開源框架

2011-05-10 09:09:36

身份驗(yàn)證HID Global

2020-04-27 09:52:03

預(yù)測(cè)銷售機(jī)器學(xué)習(xí)ML

2021-07-27 08:00:00

機(jī)器學(xué)習(xí)開發(fā)工具

2023-06-13 10:00:21

自動(dòng)駕駛技術(shù)

2020-12-23 10:10:23

Pythonweb代碼

2022-06-22 09:44:41

Python文件代碼

2022-07-07 10:33:27

Python姿勢(shì)代碼

2020-12-09 10:15:34

Pythonweb代碼

2022-06-06 15:44:24

大數(shù)據(jù)數(shù)據(jù)分析思維模式

2023-09-12 14:46:24

人工智能自然語言

2018-12-29 09:25:05

區(qū)塊鏈數(shù)據(jù)經(jīng)濟(jì)區(qū)塊鏈技術(shù)

2009-12-15 19:18:39

Ruby源代碼

2018-05-29 09:00:00

LinuxBTFS文件系統(tǒng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)