自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

國(guó)內(nèi)外頂尖高校聯(lián)合發(fā)布首個(gè)「新冠NLP數(shù)據(jù)集」METS-CoV|NeurIPS 2022

新聞
對(duì)新冠的研究仍在繼續(xù)!在本文中,研究者構(gòu)建了首個(gè)面向新冠相關(guān)推文的醫(yī)學(xué)實(shí)體識(shí)別和情感分析數(shù)據(jù)集METS-CoV,該數(shù)據(jù)集從醫(yī)學(xué)研究的角度構(gòu)建。

來自浙江大學(xué)、北京大學(xué)、哈佛醫(yī)學(xué)院、劍橋大學(xué)及西湖大學(xué)的交叉研究團(tuán)隊(duì)在NeurIPS 2022 Datasets and Benchmarks 發(fā)布數(shù)據(jù)集METS-CoV,是首個(gè)從醫(yī)學(xué)角度標(biāo)注新冠社交媒體文本的命名實(shí)體(NER)和目標(biāo)實(shí)體情感分析(TSA)的數(shù)據(jù),可幫助研究人員使用自然語言處理模型從社交媒體文本中挖掘更有價(jià)值的醫(yī)學(xué)信息。

圖片

發(fā)表會(huì)議:NeurIPS 2022

論文地址:https://arxiv.org/abs/2209.13773

GitHub地址:https://github.com/YLab-Open/METS-CoV

實(shí)驗(yàn)室主頁:https://ylab.top

引言

近年來,新冠肺炎(COVID-19)的爆發(fā)對(duì)人們的生活產(chǎn)生了嚴(yán)重影響,給公共衛(wèi)生安全帶來了巨大挑戰(zhàn)。為了評(píng)估疫情對(duì)公眾的影響,流行病學(xué)專家及醫(yī)學(xué)研究人員一般通過臨床隨訪、問卷調(diào)查和應(yīng)用程序跟蹤等方式開展研究,但仍存在樣本規(guī)模小和即時(shí)性差等問題。

而社交媒體由于用戶群龐大、用戶參與度高且信息傳播速度快,已成為公眾發(fā)表其對(duì)新冠相關(guān)話題的評(píng)論和感受的重要渠道,使得開展大規(guī)模、低成本的新冠疫情追蹤研究成為可能。

進(jìn)一步地,通過社交媒體平臺(tái)(如Twitter)跟蹤和分析人們的觀點(diǎn),可以推動(dòng)醫(yī)學(xué)研究的發(fā)展及公共衛(wèi)生管理政策的指定,因此具有極大的研究?jī)r(jià)值。

然而,現(xiàn)有自然語言處理(NLP)工具一般面向通用領(lǐng)域開發(fā),對(duì)文本的質(zhì)量有著較為嚴(yán)格的要求,而社交媒體文本不同于正式文本,一般并不遵循嚴(yán)格的排版和語言規(guī)則,語言風(fēng)格更加隨意,這加大了現(xiàn)有NLP工具的分析難度,導(dǎo)致其準(zhǔn)確性下降。

此外,現(xiàn)有的NLP工具并非專門為醫(yī)學(xué)或公共衛(wèi)生研究而設(shè)計(jì),因此難以滿足流行病學(xué)專家對(duì)于新冠相關(guān)主題分析的需求。

換言之,目前NLP工具之所以在新冠相關(guān)社交媒體文本上表現(xiàn)不佳,其根本原因在于缺乏從醫(yī)學(xué)角度設(shè)計(jì)和標(biāo)注的新冠相關(guān)社交媒體文本數(shù)據(jù)集。

另一方面,對(duì)于在社交媒體文本上開展的新冠相關(guān)研究,最重要的分析目標(biāo)之一是找到用戶討論的實(shí)體(包括通用實(shí)體類型和醫(yī)學(xué)實(shí)體類型)及對(duì)它們的觀點(diǎn)或態(tài)度。

對(duì)應(yīng)于兩個(gè)基本的NLP任務(wù):命名實(shí)體識(shí)別(NER)和目標(biāo)實(shí)體情感分析(TSA)。

NER旨在從非結(jié)構(gòu)化文本中提取實(shí)體信息,而TSA旨在預(yù)測(cè)用戶對(duì)目標(biāo)實(shí)體的情感極性。盡管目前已有不少面向通用領(lǐng)域或者特定領(lǐng)域如新聞、電商的NER和TSA數(shù)據(jù)集,但面向醫(yī)療領(lǐng)域社交媒體文本的數(shù)據(jù)集仍然空缺,這也加大了在社交媒體文本上進(jìn)行細(xì)粒度分析并開展新冠相關(guān)研究的難度。

圖片

在本文中,來自浙江大學(xué)、北京大學(xué)、哈佛醫(yī)學(xué)院、劍橋大學(xué)及西湖大學(xué)的交叉研究團(tuán)隊(duì)在NeurIPS 2022 Datasets and Benchmarks 發(fā)布數(shù)據(jù)集METS-CoV,是首個(gè)從醫(yī)學(xué)角度標(biāo)注新冠社交媒體文本的命名實(shí)體(NER)和目標(biāo)實(shí)體情感分析(TSA)的數(shù)據(jù),旨在幫助研究人員使用自然語言處理模型從社交媒體文本中挖掘更有價(jià)值的醫(yī)學(xué)信息。

該數(shù)據(jù)集包含10,000條推文,對(duì)4種醫(yī)學(xué)實(shí)體類型(疾病、藥物、癥狀和疫苗)和3種通用實(shí)體類型(人、地點(diǎn)和組織)進(jìn)行了人工標(biāo)注。

此外,為了研究用戶對(duì)特定實(shí)體的態(tài)度,標(biāo)注人員還對(duì)人、組織、藥物和疫苗四種實(shí)體的情感極性進(jìn)行了標(biāo)注。

與其他NER和TSA數(shù)據(jù)集不同,METS-CoV是從公共衛(wèi)生研究的角度構(gòu)建的,有助于自然語言處理工具在醫(yī)療領(lǐng)域的定制化開發(fā),從而促進(jìn)計(jì)算社會(huì)科學(xué)(特別是流行病學(xué))研究的開展。

例如,使用基于METS-CoV數(shù)據(jù)集訓(xùn)練的NER和TSA模型,研究人員可以追蹤公眾對(duì)新冠疫苗接種的態(tài)度,以制定更有效的疫苗政策;可以追蹤公眾在新冠傳播的不同階段的心理狀況,提供解決全球心理健康危機(jī)的潛在解決方案等。

為了保證數(shù)據(jù)集的質(zhì)量,研究者設(shè)計(jì)了詳細(xì)的標(biāo)注指南,使用的標(biāo)注人員均具有醫(yī)學(xué)相關(guān)教育背景。

進(jìn)一步地,基于METS-CoV數(shù)據(jù)集,研究者對(duì)NER和TSA任務(wù)上所采用的經(jīng)典機(jī)器學(xué)習(xí)模型和最先進(jìn)的深度學(xué)習(xí)模型進(jìn)行了性能基準(zhǔn)測(cè)試。測(cè)試結(jié)果表明,現(xiàn)有模型在METS-CoV數(shù)據(jù)集上還有較大的提升空間。

數(shù)據(jù)集描述

數(shù)據(jù)收集與標(biāo)注

研究者收集了從2020年2月1日到2021年9月30日期間用戶發(fā)表的新冠推文,所有推文均通過Twitter的官方API獲取,嚴(yán)格遵守平臺(tái)的數(shù)據(jù)安全政策。

在進(jìn)行數(shù)據(jù)預(yù)處理時(shí),研究者首先刪除了非英語推文、轉(zhuǎn)推以及包含URL的推文(它們通常是第三方消息的重述,不能直接反映用戶的意圖和態(tài)度),然后,使用癥狀關(guān)鍵詞列表來篩選與醫(yī)學(xué)相關(guān)的推文。預(yù)處理完成后,還剩下2,208,676條推文。

METS-CoV的標(biāo)注過程可以劃分為兩個(gè)階段:命名實(shí)體標(biāo)注和目標(biāo)實(shí)體情感標(biāo)注。相應(yīng)的,METS-CoV數(shù)據(jù)集可以按照任務(wù)類型劃分為兩個(gè)數(shù)據(jù)子集,即METS-CoV-NER數(shù)據(jù)集和METS-CoV-TSA數(shù)據(jù)集。

所有標(biāo)注工作均通過YEDDA標(biāo)注平臺(tái)(https://github.com/jiesutd/YEDDA)完成,所有的標(biāo)注者都具有醫(yī)學(xué)教育背景,如醫(yī)學(xué)、公共衛(wèi)生和制藥科學(xué)等。

在進(jìn)行命名實(shí)體標(biāo)注時(shí),研究者首先根據(jù)公共衛(wèi)生研究的需求,定義了 7 種實(shí)體類型,包括 3 種通用實(shí)體類型和 4 種醫(yī)學(xué)實(shí)體類型,接著,從預(yù)處理的推文中隨機(jī)采樣了 6,000 條推文進(jìn)行命名實(shí)體標(biāo)注。

然后使用這 6,000 條已標(biāo)注數(shù)據(jù)訓(xùn)練基于 BERT 的命名實(shí)體識(shí)別模型,由該模型完成其余推文的標(biāo)注。為了在數(shù)據(jù)集中包括更多的醫(yī)學(xué)實(shí)體,研究者從模型標(biāo)注的推文中篩選了 4,000 條包含藥物或疫苗實(shí)體的推文,由標(biāo)注人員進(jìn)行人工校驗(yàn)并加入到數(shù)據(jù)集中。

最終,構(gòu)建好的METS-CoV-NER數(shù)據(jù)集中一共包含了 10,000 條推文。

進(jìn)一步地,研究者選擇了人、組織、藥物和疫苗四種實(shí)體作為目標(biāo)實(shí)體并從METS-CoV-NER數(shù)據(jù)集中篩選出包含目標(biāo)實(shí)體的推文,標(biāo)注人員根據(jù)目標(biāo)實(shí)體所在的上下文標(biāo)注其情感極性。

情感極性標(biāo)簽一共有3種:積極、消極和中性。最終,METS-CoV-TSA數(shù)據(jù)集中一共包含5,278條推文。

數(shù)據(jù)集統(tǒng)計(jì)信息

大多數(shù)推文的長(zhǎng)度都小于80個(gè)token。其中,長(zhǎng)度為50左右的推文占比最高。

圖片

METS-CoV中推文長(zhǎng)度的分布情況

推文總數(shù)為10,000條, 一共標(biāo)注了19,057個(gè)實(shí)體,平均每個(gè)推文中包含了1.91個(gè)實(shí)體。在所有實(shí)體中,癥狀實(shí)體的出現(xiàn)頻率最高,這是由于在預(yù)處理階段使用了癥狀關(guān)鍵詞列表進(jìn)行數(shù)據(jù)預(yù)過濾。

除了癥狀實(shí)體以外,其他六種實(shí)體類型的比例均衡。

圖片

METS-CoV-NER數(shù)據(jù)集的統(tǒng)計(jì)信息

在METS-CoV-TSA數(shù)據(jù)集的統(tǒng)計(jì)信息中可以發(fā)現(xiàn),中性情感占據(jù)的比例最高。對(duì)于藥物實(shí)體來說,用戶的正面情感明顯高于負(fù)面情感,而對(duì)于疫苗實(shí)體,用戶的正負(fù)面情感比例相近。

模型基準(zhǔn)測(cè)試

在本文中,研究者系統(tǒng)評(píng)估了統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型、神經(jīng)網(wǎng)絡(luò)、通用領(lǐng)域大規(guī)模預(yù)訓(xùn)練語言模型(PLM)以及新冠相關(guān)的PLM四大類模型在METS-CoV-NER和METS-CoV-TSA上的性能,并進(jìn)行了深入的分析和討論。

命名實(shí)體識(shí)別

baseline模型

包括CRF、WLSTM、CCNN、CLSTM、BERT、RoBERTa、BART、BERTweet-covid19和COVID-TWITTER-BERT。所有實(shí)驗(yàn)使用NCRF++(https://github.com/jiesutd/NCRFpp)完成。模型的超參數(shù)使用Yang等人(2018a)的默認(rèn)設(shè)置。

數(shù)據(jù)處理

按照70:15:15的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,統(tǒng)計(jì)結(jié)果見表1。

實(shí)驗(yàn)結(jié)果:研究者使用micro-F1來評(píng)估所有的模型,表3展示了測(cè)試結(jié)果。從該表中可以發(fā)現(xiàn),COVID-TWITTER-BERT性能表現(xiàn)最佳,平均micro-F1值為83.88,顯著優(yōu)于基于CRF或BiLSTM(及其變體)的傳統(tǒng)NER模型和通用領(lǐng)域PLM。

進(jìn)一步地,研究者從統(tǒng)計(jì)機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、通用領(lǐng)域PLM和新冠相關(guān)PLM四大類別中選擇每個(gè)類別中表現(xiàn)最佳的模型,即CRF、WLSTM+CCNN+CRF、RoBERTa-large和COVID-TWITTER-BERT,采用Span F1和Type Accuracy(Type Acc.)兩大指標(biāo)來評(píng)估它們的性能。

Span F1表示NER中實(shí)體范圍的正確性,而Type Acc.指標(biāo)則表示預(yù)測(cè)實(shí)體中范圍和類型均預(yù)測(cè)正確的實(shí)體占所有預(yù)測(cè)實(shí)體的比例。

如表4和表5所示,COVID-TWITTER-BERT在兩個(gè)指標(biāo)上的平均表現(xiàn)最佳,其次是RoBERTa-large。

圖片


具體來說,COVID-TWITTER-BERT在人物和組織實(shí)體上的表現(xiàn)比RoBERTa-large更好,在Span F1方面分別提高了3.72%和2.53%。對(duì)于Type Acc指標(biāo),COVID-TWITTER-BERT在四種實(shí)體類型(人物、地點(diǎn)、組織和藥物)上的表現(xiàn)最好。這些結(jié)果驗(yàn)證了在新冠相關(guān)推文上對(duì)語言模型進(jìn)行增量預(yù)訓(xùn)練的有效性。

此外,研究者還探究了推文長(zhǎng)度對(duì)模型性能的影響:如圖3所示,當(dāng)推文長(zhǎng)度較短(少于40個(gè)token)時(shí),所有模型的表現(xiàn)都更好,而處理的推文越長(zhǎng),模型的性能越差。研究者還計(jì)算了COVID-TWITTER-BERT模型在測(cè)試集上的混淆矩陣。

從圖4中可以發(fā)現(xiàn),在大多數(shù)情況下,COVID-TWITTER-BERT可以正確提取實(shí)體。但是,在識(shí)別癥狀和疾病實(shí)體時(shí)容易出現(xiàn)混淆,因?yàn)檫@兩類實(shí)體通常具有相似的表達(dá)和上下文語境。以上實(shí)驗(yàn)和分析表明,COVID-TWITTER-BERT可以被視為METS-CoV- NER數(shù)據(jù)集的一個(gè)強(qiáng)基線模型,盡管如此,現(xiàn)有模型在該數(shù)據(jù)集上的性能表現(xiàn)仍有很大的提升空間。例如,疾病和組織實(shí)體的F1值仍然較低。

目標(biāo)實(shí)體情感分析

baseline模型

SVM、ASGCN、LSTM、TDLSTM、MemNet、IAN、MGAN、TNet-LF、BERT-base-uncased+AEN/LCF/BERT-SPC/depGCN/kumaGCN/dotGCN,COVID-TWITTER-BERT+BERT-SPC/depGCN/kumaGCN/dotGCN。模型的超參數(shù)均采用與原論文一致的設(shè)置。

數(shù)據(jù)處理

TSA訓(xùn)練數(shù)據(jù)集是NER訓(xùn)練數(shù)據(jù)集的子集,僅保留包含目標(biāo)實(shí)體的推文。采用類似的方式可以構(gòu)建TSA的開發(fā)集和測(cè)試集。

實(shí)驗(yàn)結(jié)果:研究者使用正確率(Acc.)和F1值來評(píng)估所有的基線模型,實(shí)驗(yàn)結(jié)果如表6所示:將COVID-TWITTER-BERT作為特征提取器的模型明顯優(yōu)于其他類型的模型。

圖片

具體來說,與基于BERT的depGCN相比,基于COVID-TWITTER-BERT的depGCN模型在人物實(shí)體上表現(xiàn)最佳,其Acc.和F1值分別提高了8.46%和10.35%。

對(duì)于組織實(shí)體,基于COVID-TWITTER-BERT的depGCN模型性能最優(yōu),準(zhǔn)確率和F1值相較于其他模型至少提高了5.4%和8.32%。

對(duì)于藥物實(shí)體,基于COVID-TWITTER-BERT的depGCN模型顯著優(yōu)于其他模型,與基于BERT的depGCN相比,其準(zhǔn)確率和F1值分別提高了13.31%和18.03%。

對(duì)于疫苗實(shí)體,基于COVID-TWITTER-BERT的BERT-SPC模型表現(xiàn)最佳,與其他模型相比其準(zhǔn)確率和F1值分別提高了1.6%和11.4%。

研究者從各類模型中篩選出最佳模型,即SVM,MemNet,depGCN(BERT-base)和depGCN(COVID-TWITTER-BERT)并探索了推文長(zhǎng)度對(duì)這四種模型的影響。

如圖5所示,推文長(zhǎng)度對(duì)不同TSA模型的影響存在明顯差異。對(duì)于SVM和TNET,F(xiàn)1值隨著推文長(zhǎng)度的增加而逐漸下降。對(duì)于dotGCN,當(dāng)推文長(zhǎng)度在20到40之間時(shí),F(xiàn)1值會(huì)有一定程度的波動(dòng),之后,F(xiàn)1值會(huì)隨著推文長(zhǎng)度的增加而提高。對(duì)于depGCN(COVID-TWITTER-BERT),當(dāng)推文長(zhǎng)度小于50時(shí),F(xiàn)1值保持穩(wěn)定,然后增加到0.8,最后降至約0.6。

最后研究者對(duì)平均性能表現(xiàn)最佳的模型,即depGCN(COVID-TWITTER-BERT),進(jìn)行了深入分析,計(jì)算其在測(cè)試集上的混淆矩陣(圖6)。

結(jié)果顯示,對(duì)于所有的目標(biāo)實(shí)體,大部分的混淆是由于積極(消極)和中性之間的誤分類引起的。

總而言之,雖然可以利用在新冠推文上增量預(yù)訓(xùn)練的模型(例如COVID-TWITTER-BERT)來進(jìn)一步改善現(xiàn)有TSA模型在METS-CoV-TSA數(shù)據(jù)集上的性能,但是情感極性的區(qū)分效果欠佳,亟需開發(fā)更加強(qiáng)大且穩(wěn)健的TSA模型以更加準(zhǔn)確地識(shí)別出目標(biāo)實(shí)體的情感極性。

結(jié)論

在本文中,研究者構(gòu)建了首個(gè)面向新冠相關(guān)推文的醫(yī)學(xué)實(shí)體識(shí)別和情感分析數(shù)據(jù)集METS-CoV,該數(shù)據(jù)集從醫(yī)學(xué)研究的角度構(gòu)建。

充分考慮了醫(yī)學(xué)領(lǐng)域的特點(diǎn),因此可以幫助研究人員使用自然語言處理模型從推文中挖掘有價(jià)值的醫(yī)學(xué)信息。

此外,研究者以該數(shù)據(jù)集為基礎(chǔ),對(duì)目前最先進(jìn)的NER模型和TSA模型進(jìn)行了全面的性能評(píng)估。

實(shí)驗(yàn)結(jié)果表明,METS-CoV是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集,現(xiàn)有模型尚未在該數(shù)據(jù)集上取得令人滿意的性能表現(xiàn)。

除了數(shù)據(jù)集之外,研究者還開源了標(biāo)注指南、基準(zhǔn)模型和源代碼,希望借此鼓勵(lì)更多的研究人員參與到醫(yī)學(xué)相關(guān)數(shù)據(jù)集和模型的構(gòu)建工作中來,為推動(dòng)醫(yī)學(xué)社交媒體研究的發(fā)展貢獻(xiàn)力量。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2013-07-29 10:45:51

BaaS后端即服務(wù)云存儲(chǔ)

2023-04-28 15:17:04

2020-05-03 12:42:23

數(shù)據(jù)泄露漏洞信息安全

2009-06-15 09:11:12

Java論壇Java

2023-06-16 13:38:37

上海昇思AI框架昇思

2023-08-28 13:37:00

前端技術(shù)前端技術(shù)大會(huì)

2019-09-12 08:42:38

工具可視化BI系統(tǒng)

2010-08-09 17:04:25

綠色數(shù)據(jù)中心能耗測(cè)量指

2014-12-23 17:46:27

2022-09-15 10:09:22

Byte Camp推薦算法

2009-01-06 11:10:44

2012-09-07 09:43:23

云計(jì)算

2012-11-22 09:55:05

云計(jì)算云計(jì)算概念云應(yīng)用

2025-04-09 09:34:00

2013-02-18 10:05:47

數(shù)據(jù)中心建設(shè)規(guī)模對(duì)比

2024-11-13 15:00:00

模型數(shù)據(jù)

2015-10-14 09:39:22

物聯(lián)網(wǎng)云巨頭

2013-12-11 10:54:35

硬件創(chuàng)業(yè)創(chuàng)業(yè)環(huán)境創(chuàng)業(yè)

2011-08-23 14:46:59

云計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)