自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

行業(yè)首個少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

新聞 人工智能
共包含來自維基百科的18萬條句子,49萬個實體和460萬標(biāo)注,并具有8個粗粒度(coarse-grained types)實體類型和66個細(xì)粒度(fine-grained types)實體類型的數(shù)據(jù)集來了。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

NER(命名實體識別)作為NLP的一項基本任務(wù),其日常是訓(xùn)練人工智能(zhang)對一段文本中的專有名詞(人名、地名、機(jī)構(gòu)名等)進(jìn)行識別和分類。

[[401469]]

△煙臺:我招誰惹誰了?

翻譯成計算機(jī)語言,就是從一段非結(jié)構(gòu)化的自然語言中找到各種實體,并將其分為合適的類別。且避免出現(xiàn)“江大橋同志到底就任了多少年南京市長”這樣的問題

但在數(shù)據(jù)缺乏,樣本不足的前提下,如何基于先驗知識進(jìn)行分類和學(xué)習(xí),這就是目前NLPer面臨的一道難題——少樣本(Few-Shot)。

雖然已有越來越多針對少樣本NER的研究出現(xiàn)(比如預(yù)訓(xùn)練語言模型BERT),但仍沒有一個專屬數(shù)據(jù)集以供使用。

而現(xiàn)在,共包含來自維基百科的18萬條句子,49萬個實體和460萬標(biāo)注,并具有8個粗粒度(coarse-grained types)實體類型和66個細(xì)粒度(fine-grained types)實體類型的數(shù)據(jù)集來了。

行業(yè)首個少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

△目前已被ACL-IJCNLP 2021接受

這就是清華大學(xué)聯(lián)合阿里達(dá)摩院共同開發(fā)的,行業(yè)內(nèi)第一個人工標(biāo)注(human-annotated)的少樣本NER數(shù)據(jù)集,FEW-NERD。

什么樣的數(shù)據(jù)集?

對比句子數(shù)量、標(biāo)記數(shù)、實體類型等統(tǒng)計數(shù)據(jù),F(xiàn)EW-NERD比相關(guān)領(lǐng)域內(nèi)已有的NER數(shù)據(jù)集都要更大。

行業(yè)首個少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

此外,它也是規(guī)模最大的人工標(biāo)注的數(shù)據(jù)集。

為實體命名常常需要聯(lián)系上下文,尤其是在實體類型很多時,注解難度將大大增加。

而FEW-NERD的注釋來自70位擁有語言學(xué)知識的注釋者,以及10位經(jīng)驗豐富的專家。

具體而言,每個段落會交由兩人獨立完成注釋,然后由專家審查,再對分批抽取數(shù)據(jù)進(jìn)行雙重檢查。這很好地保證了注釋的準(zhǔn)確性。

行業(yè)首個少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

比如上述“London is the fifth album by the British rock band…”這句話中的實體“London”,就被準(zhǔn)確標(biāo)注成了“Art-Music”。

而在以段落為單位進(jìn)行標(biāo)注時,因為樣本量并不多,所以FEW-NERD數(shù)據(jù)的類別分布預(yù)計是相對平衡的,這也是它與以往NER數(shù)據(jù)集的一個關(guān)鍵區(qū)別。

并且在實踐中,大多數(shù)未見的實體類型都是細(xì)粒度的。而傳統(tǒng)的NER數(shù)據(jù)集(如CoNLL’03、WNUT’17、OntoNotes)只包含4-18個粗粒度的類型。

這就難以構(gòu)建足夠多的N元任務(wù)(N-way metatasks),并訓(xùn)練學(xué)習(xí)相關(guān)特征。

相比之下,F(xiàn)EW-NERD共包含了112個實體標(biāo)簽, 并具有8個粗粒度實體類型,和66個細(xì)粒度實體類型。

行業(yè)首個少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

△內(nèi)圈代表粗粒度的實體類型,外圈代表細(xì)粒度的實體類型。

基準(zhǔn)的選擇

為了探索FEW-NERD所有實體類型之間的知識相關(guān)性(knowledge correlations),研究者進(jìn)行了實體類型相似性的實證研究。

行業(yè)首個少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

△方塊代表兩個實體類型的相似度。

從實驗結(jié)果得知,相同粗粒度類型的實體類型具有較大的相似性,從而使知識遷移更加容易。

這啟發(fā)了研究者從知識遷移的角度進(jìn)行基準(zhǔn)設(shè)定。最終設(shè)置了三個基準(zhǔn):

  • FEW-NERD (SUP)
    采用標(biāo)準(zhǔn)的監(jiān)督式NER設(shè)置,將70%的數(shù)據(jù)隨機(jī)分割為訓(xùn)練數(shù)據(jù),10%為驗證數(shù)據(jù),20%為測試數(shù)據(jù)。
行業(yè)首個少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)
  • FEW-NERD(INTRA)
    少樣本學(xué)習(xí)任務(wù),只包含粗粒度實體類型。
行業(yè)首個少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)
  • FEW-NRTD (INTER)
    少樣本學(xué)習(xí)任務(wù),包含60%的細(xì)粒度類型,20%的細(xì)粒度類型。
行業(yè)首個少樣本NER數(shù)據(jù)集,清華聯(lián)合阿里達(dá)摩院開發(fā)

實際的應(yīng)用

針對少樣本命名實體識別,F(xiàn)EW-NERD提供了一個同時包含粗粒度和細(xì)粒度,且統(tǒng)一基準(zhǔn)的大型數(shù)據(jù)集。

而作者也指出,由于精確的上下文標(biāo)注,F(xiàn)EW-NERD數(shù)據(jù)集不僅可以用于少樣本場景,在監(jiān)督學(xué)習(xí)、終身學(xué)習(xí)、開放信息抽取、實體分類等任務(wù)上也可以發(fā)揮作用。

此外,建立在FEW-NERD基礎(chǔ)上的模型和系統(tǒng),還能幫助構(gòu)建各個領(lǐng)域的知識圖譜(KGs),包括生物醫(yī)學(xué)、金融和法律領(lǐng)域,并進(jìn)一步促進(jìn)NLP在特定領(lǐng)域的應(yīng)用發(fā)展。

開發(fā)者還表示,將在未來增加跨域注釋、遠(yuǎn)距離注釋和更精細(xì)的實體類型來擴(kuò)展FEW-NERD。

數(shù)據(jù)集官網(wǎng)鏈接:
https://ningding97.github.io/fewnerd/
數(shù)據(jù)集下載:
https://github.com/thunlp/Few-NERD
論文地址:
https://arxiv.org/abs/2105.07464

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-04-22 11:22:47

達(dá)摩院阿里巴巴

2021-07-28 17:04:51

阿里云信通院云計算

2023-06-06 14:16:06

ChatGPTAI

2022-08-17 10:39:44

AI阿里達(dá)摩院文檔智能

2020-12-29 09:36:57

科技趨勢阿里

2020-01-02 11:19:55

阿里巴巴2020科技趨勢5G

2018-04-20 09:08:10

AI芯片阿里巴巴

2023-10-22 07:11:58

2017-10-11 20:03:51

阿里云南京云棲

2022-07-12 14:45:54

達(dá)摩院模型

2022-08-10 11:31:34

阿里達(dá)摩院虛擬電廠

2020-09-18 15:10:25

阿里達(dá)摩院數(shù)據(jù)

2023-02-09 09:29:53

ChatGPT

2017-10-12 13:30:33

2018-06-07 16:00:28

阿里巴巴語音識別開源

2022-07-19 14:01:44

阿里達(dá)摩院AI

2020-02-17 11:08:06

AI 數(shù)據(jù)人工智能

2013-01-29 11:12:52

藍(lán)訊CDN網(wǎng)絡(luò)加速網(wǎng)絡(luò)優(yōu)化

2023-07-05 09:57:11

2025-03-20 10:19:52

點贊
收藏

51CTO技術(shù)棧公眾號