自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

信息抽取里程碑式突破!NLP要迎來(lái)大規(guī)模落地了?

人工智能 新聞
信息抽取是一個(gè)行業(yè)應(yīng)用價(jià)值很高的技術(shù),卻因?yàn)槿蝿?wù)難度大,落地成本居高不下。

AI領(lǐng)域的工作突破通常有三類:

  1. 屠爆了學(xué)術(shù)界榜單,成為該領(lǐng)域?qū)W術(shù)層面的新SOTA
  2. 實(shí)現(xiàn)了大一統(tǒng),用一個(gè)架構(gòu)實(shí)現(xiàn)對(duì)該領(lǐng)域諸多子任務(wù)的統(tǒng)一建模,刷新建模認(rèn)知
  3. 將NB的學(xué)術(shù)界新SOTA變成一件人人可傻瓜式使用的開(kāi)源工具利器,帶領(lǐng)該領(lǐng)域大規(guī)模落地開(kāi)花

要單獨(dú)實(shí)現(xiàn)其中的任何一點(diǎn),都是一件很有挑戰(zhàn)的事情。如果我說(shuō),在信息抽取領(lǐng)域,不久前的一個(gè)工作同時(shí)做到了這三種突破呢?這次,先倒著講。先講第三點(diǎn)——

一個(gè)刷新認(rèn)知的信息抽取開(kāi)源工具

信息抽取是一個(gè)行業(yè)應(yīng)用價(jià)值很高的技術(shù),卻因?yàn)槿蝿?wù)難度大,落地成本居高不下。像金融、政務(wù)、法律、醫(yī)療等行業(yè),有大量的文檔信息需要人工處理,比如政務(wù)人員處理市民投訴,工作人員需要從中快速提取出被投訴方、事件發(fā)生地點(diǎn)、時(shí)間、投訴原因等結(jié)構(gòu)化信息,非常費(fèi)時(shí)費(fèi)力。若信息抽取技術(shù)能低成本、高性能的實(shí)現(xiàn)落地,可以大大提升諸多行業(yè)的生產(chǎn)效率,節(jié)約人力成本。如今這個(gè)想法,迎來(lái)了史無(wú)前例的可能性。話不多說(shuō),直接上代碼,上效果!

# 實(shí)體抽取
from pprint import pprint
from paddlenlp import Taskflow
schema = ['時(shí)間', '選手', '賽事名稱'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)
pprint(ie("2月8日上午北京冬奧會(huì)自由式滑雪女子大跳臺(tái)決賽中中國(guó)選手谷愛(ài)凌以188.25分獲得金牌!")) # Better print results using pprint
>>>
[{'時(shí)間': [{'end': 6, 'probability': 0.9857378532924486, 'start': 0, 'text': '2月8日上午'}],
'賽事名稱': [{'end': 23,'probability': 0.8503089953268272,'start': 6,'text': '北京冬奧會(huì)自由式滑雪女子大跳臺(tái)決賽'}],
'選手': [{'end': 31,'probability': 0.8981548639781138,'start': 28,'text': '谷愛(ài)凌'}]}]

僅用三行代碼就實(shí)現(xiàn)了精準(zhǔn)實(shí)體抽?。?/p>

再來(lái)試試更困難的事件抽取任務(wù):

事件抽取
schema = {'地震觸發(fā)詞': ['地震強(qiáng)度''時(shí)間''震中位置''震源深度']} # Define the schema for event extraction
ie.set_schema(schema) # Reset schema
ie('中國(guó)地震臺(tái)網(wǎng)正式測(cè)定:5月16日06時(shí)08分在云南臨滄市鳳慶縣(北緯24.34度,東經(jīng)99.98度)發(fā)生3.5級(jí)地震,震源深度10千米。')
>>> 
[{'地震觸發(fā)詞'
  [{'end'58,'probability'0.9987181623528585,'start'56,'text''地震',
    'relations'
      {'地震強(qiáng)度': [{'end'56,'probability'0.9962985320905915,'start'52,'text''3.5級(jí)'}],
      '時(shí)間': [{'end'22,'probability'0.9882578028575182,'start'11,'text''5月16日06時(shí)08分'}],
      '震中位置': [{'end'50,'probability'0.8551417444021787,'start'23,'text''云南臨滄市鳳慶縣(北緯24.34度,東經(jīng)99.98度)'}],
      '震源深度': [{'end'67,'probability'0.999158304648045,'start'63,'text''10千米'}]}
    }]
}]

同樣易用而精準(zhǔn)!感興趣的小伙伴可以通過(guò)以下傳送門(mén)自行安裝體驗(yàn)。

歡迎大家提前碼住鏈接,建議訪問(wèn)Github點(diǎn)個(gè)Star ?https://github.com/PaddlePaddle/PaddleNLP

當(dāng)然,我們?cè)谧孕袦y(cè)試的時(shí)候可能會(huì)覺(jué)得,短短的三行代碼就可以任意DIY抽取了,這未免有點(diǎn)夸大?

并不是,該接口實(shí)際上是向大家展示了一個(gè)通用的開(kāi)放域信息抽取范式,即一個(gè)開(kāi)放域信息抽取的API接口,也就是說(shuō),給定任意要抽取的實(shí)體、關(guān)系、事件等類型(schema),“提示”模型從文本中抽取出對(duì)應(yīng)的目標(biāo)。

例如在第一個(gè)示例中,我們希望從文本中抽取出時(shí)間、選手和賽事名稱這三種實(shí)體,將其作為schema參數(shù)傳給Taskflow后,將“提示”模型從文本中精準(zhǔn)抽取這三類實(shí)體。這樣,就做到了對(duì)任何信息抽取需求都能夠應(yīng)對(duì)自如。

這波操作放在2022年還是讓人感覺(jué)有點(diǎn)夢(mèng)幻了。要知道,市面上的信息抽取工具大多只能做特定領(lǐng)域的封閉域(有限預(yù)定義的schema)抽取,效果還很難保證,更不必說(shuō)打造成三行代碼即可完成調(diào)用的開(kāi)放域工具了。

這不禁讓人好奇,這個(gè)開(kāi)源工具的背后是怎么做到的呢?我找PaddleNLP內(nèi)部人士了解到,關(guān)鍵有二:

  1. 一個(gè)發(fā)表在ACL2022,屠遍信息抽取榜單的大一統(tǒng)信息抽取諸多子任務(wù)的技術(shù)UIE
  2. 首個(gè)知識(shí)增強(qiáng)語(yǔ)言模型——ERNIE 3.0

關(guān)于第一點(diǎn),本文的下一章會(huì)做重點(diǎn)闡述,在此稍留作懸念。關(guān)于第二點(diǎn),我們知道,知識(shí)對(duì)于信息抽取任務(wù)至關(guān)重要,而ERNIE 3.0不僅參數(shù)量大,還吸納了千萬(wàn)級(jí)別實(shí)體的知識(shí)圖譜,可以說(shuō)是中文NLP方面最有“知識(shí)量”的SOTA底座。在ERNIE 3.0的基礎(chǔ)上,如果再構(gòu)造一個(gè)面向開(kāi)放域信息抽取的二階段SOTA預(yù)訓(xùn)練上層建筑呢?強(qiáng)強(qiáng)聯(lián)合,便是這個(gè)工具帶來(lái)夢(mèng)幻體驗(yàn)的密碼。

需要注意的是,這個(gè)包含強(qiáng)大知識(shí)儲(chǔ)備的NLP基座和夢(mèng)幻的信息抽取架構(gòu)均集成到了PaddleNLP中,PaddleNLP卻又不止是一個(gè)SOTA收納箱,其還提供了非常易用的模型壓縮部署方案、大模型加速技術(shù)、產(chǎn)業(yè)場(chǎng)景應(yīng)用范例,做了扎實(shí)的易用性優(yōu)化和性能優(yōu)化。一句話總結(jié),打造中文NLP應(yīng)用的神器。

值得關(guān)注的是,UIE不僅具備驚艷的zero-shot開(kāi)放域信息抽取能力,還有強(qiáng)大的小樣本定制訓(xùn)練能力。

作者在互聯(lián)網(wǎng)、醫(yī)療、金融三個(gè)行業(yè)關(guān)系、事件抽取任務(wù)上測(cè)試了小樣本定制訓(xùn)練效果:

在金融場(chǎng)景,僅僅加了5條訓(xùn)練樣本,uie-base模型F1值提升了25個(gè)點(diǎn)。也就是說(shuō),即使工具在某些case或某些場(chǎng)景下表現(xiàn)欠佳,人工標(biāo)幾個(gè)樣本,丟給模型后就會(huì)有大幅的表現(xiàn)提升。這個(gè)強(qiáng)大的Few-Shot能力則是工具在大量長(zhǎng)尾場(chǎng)景落地的最后一公里保障。

挖掘該工具更多的潛力和驚喜,請(qǐng)進(jìn)傳送門(mén):

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

接下來(lái)還有第2點(diǎn)——

一個(gè)大一統(tǒng)信息抽取諸多子任務(wù)的架構(gòu)

信息抽取領(lǐng)域的任務(wù)繁多,從大的任務(wù)類型上,可分為實(shí)體抽取、關(guān)系抽取、事件抽取、評(píng)價(jià)維度抽取、觀點(diǎn)詞抽取、情感傾向抽取等,而若要具體到每個(gè)任務(wù)類型下的抽取domain和schema定義,則更是無(wú)窮無(wú)盡了。

因此,以往信息抽取的落地是非常困難、成本高昂的,公司不僅要為每個(gè)細(xì)分的任務(wù)類型和domain標(biāo)數(shù)據(jù)、開(kāi)發(fā)模型、專人維護(hù),而且部署起來(lái)也非常費(fèi)力且消耗大量機(jī)器資源。

此外,各個(gè)子任務(wù)也不是完全割裂的,傳統(tǒng)的子任務(wù)專用設(shè)計(jì)使得任務(wù)之間的通用知識(shí)難以共享,一座座“信息孤島”的力量總是有限的,甚至有偏的。但現(xiàn)在不是了。由中科院軟件所和百度共同提出的一個(gè)大一統(tǒng)諸多任務(wù)的開(kāi)放域信息抽取技術(shù)UIE,發(fā)表在ACL 2022的SOTA技術(shù),直接上圖:

簡(jiǎn)單來(lái)說(shuō),UIE借鑒近年來(lái)火熱的Prompt概念,將希望抽取的Schema信息轉(zhuǎn)換成“線索詞”(Schema-based Prompt)作為模型輸入的前綴,使得模型理論上能夠適應(yīng)不同領(lǐng)域和任務(wù)的Schema信息,并按需抽取出線索詞指向的結(jié)果,從而實(shí)現(xiàn)開(kāi)放域環(huán)境下的通用信息抽取。

例如上圖中,假如我們希望從一段文本中抽取出“人名”的實(shí)體和“工作于”的關(guān)系,便可以構(gòu)造[spot] person [asso] work for的前綴,連接要抽取的目標(biāo)文本[text] ,作為整體輸入到UIE中。

那么這里關(guān)鍵的UIE模型是如何訓(xùn)練得到的呢?

UIE作者在預(yù)訓(xùn)練模型MLM loss的基礎(chǔ)上又巧妙的構(gòu)造了2個(gè)任務(wù)/loss:

  • 文本-結(jié)構(gòu)預(yù)訓(xùn)練$L_{pair}$:給定一個(gè)<文本,結(jié)構(gòu)>對(duì),基于抽取出的schema通過(guò)隨機(jī)采樣spots和asso的方式來(lái)構(gòu)造schema負(fù)例,將schema負(fù)例與原始的schema(正例)拼接得到meta-schema,最后再拼接上文本,來(lái)預(yù)測(cè)結(jié)構(gòu)。作者表示這樣可以避免模型在預(yù)訓(xùn)練階段暴力記憶三元組,得到通用的文本-結(jié)構(gòu)的映射能力

  • 結(jié)構(gòu)生成預(yù)訓(xùn)練$L_{record}$:這個(gè)任務(wù)是為了訓(xùn)練decoder的結(jié)構(gòu)輸出能力,將輸出結(jié)構(gòu)SEL作為decoder的優(yōu)化目標(biāo),來(lái)學(xué)到嚴(yán)謹(jǐn)?shù)腟EL規(guī)則

通過(guò)2個(gè)loss的聯(lián)合預(yù)訓(xùn)練,便得到了強(qiáng)大的UIE模型。值得注意的是,盡管原論文使用了T5模型作為backbone,基于生成架構(gòu)。實(shí)際上為了發(fā)揮模型在中文任務(wù)上的最大潛力,且讓模型的推理效率變得可接受(畢竟生成任務(wù)還是太重了),在本文第一章提到的PaddleNLP信息抽取方案中,使用了強(qiáng)大的ERNIE 3.0模型+抽取式(閱讀理解)架構(gòu)。

因此在中文任務(wù)上效果更佳,推理速度更快。對(duì)更多細(xì)節(jié)感興趣的小伙伴,可以看原論文或在文末掃碼海報(bào)預(yù)約UIE講解直播~論文鏈接:?https://arxiv.org/pdf/2203.12277.pdf

最后講第1點(diǎn)——

不小心,刷了13個(gè)SOTA

UIE在各類IE任務(wù)的數(shù)據(jù)集上表現(xiàn)怎么樣呢?

首先是常規(guī)設(shè)定下,4類抽取任務(wù),13個(gè)經(jīng)典測(cè)試集與SOTA的對(duì)比:

表格右數(shù)第二列是未經(jīng)過(guò)UIE預(yù)訓(xùn)練的結(jié)果(基于T5+SEL直接微調(diào)),右數(shù)第一列是UIE預(yù)訓(xùn)練后微調(diào)的結(jié)果,可以看出SEL+強(qiáng)大生成模型就可以在信息抽取的統(tǒng)一建模方面取得很強(qiáng)的效果,而經(jīng)過(guò)UIE預(yù)訓(xùn)練后則進(jìn)一步提升了模型表現(xiàn)。

我們知道,模型經(jīng)過(guò)微調(diào),其實(shí)會(huì)弱化不同預(yù)訓(xùn)練策略帶來(lái)的模型差異。因此UIE預(yù)訓(xùn)練的價(jià)值在小樣本方面得到了更加酣暢淋漓的體現(xiàn):

經(jīng)過(guò)UIE預(yù)訓(xùn)練后,模型的小樣本學(xué)習(xí)能力得到了極大的提升,這便是UIE工具具備強(qiáng)大定制化能力,進(jìn)而實(shí)現(xiàn)中長(zhǎng)尾行業(yè)落地的關(guān)鍵。

責(zé)任編輯:張燕妮 來(lái)源: DataFunTalk
相關(guān)推薦

2012-11-06 09:20:21

軟件認(rèn)證管理云軟件認(rèn)證管理云環(huán)境

2011-09-10 19:23:22

2015-11-20 16:21:26

Windows操作系統(tǒng)

2024-02-29 19:37:44

網(wǎng)絡(luò)安全框架網(wǎng)絡(luò)安全CSF

2021-03-04 14:11:32

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2011-09-09 13:42:16

2015-02-11 16:11:23

微軟

2023-05-30 13:53:31

模型語(yǔ)言

2012-07-04 08:57:46

微軟Windows 8

2024-12-04 10:39:00

Linux內(nèi)核技術(shù)性

2020-11-05 16:52:16

數(shù)據(jù)庫(kù)騰訊云TcaplusDB

2021-02-01 12:14:02

SAP云基礎(chǔ)架構(gòu)解決方案

2022-07-27 12:07:58

云計(jì)算公有云云支出

2021-02-03 16:19:49

新基建SAP

2016-09-29 09:46:41

JavascriptWeb前端

2015-01-21 15:33:11

Windows 10

2017-12-26 00:06:13

5G無(wú)線技術(shù)網(wǎng)絡(luò)

2019-01-28 09:21:45

存儲(chǔ)

2010-10-11 10:52:58

Facebook
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)