信息抽取哪家強(qiáng)?ChatGLM3、Qwen、Baichuan2、ChatGPT
信息抽取中文開源大模型評(píng)測(cè)
信息提?。↖E)在自然語言處理(NLP)中扮演著至關(guān)重要的角色,它通過從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化信息,從而促進(jìn)與依賴結(jié)構(gòu)化數(shù)據(jù)的各種現(xiàn)實(shí)世界應(yīng)用的無縫集成。深入探討了主流中文開源LLMs在處理IE任務(wù)時(shí)的表現(xiàn),特別是零樣本條件下,即模型未針對(duì)特定任務(wù)進(jìn)行微調(diào)。
模型選擇:共選擇了5個(gè)大型語言模型(LLMs)進(jìn)行實(shí)驗(yàn):ChatGLM3-6B、Qwen-7BChat和Qwen-14B-Chat、Baichuan2-13B-Chat以及ChatGPT2。除了ChatGPT外,所有其他大型語言模型都是開源的。
實(shí)驗(yàn)設(shè)置:所有的實(shí)驗(yàn)都可以在1個(gè)A40 GPU上完成。
數(shù)據(jù)集:
NER實(shí)驗(yàn)結(jié)果:
在MSRA和微博數(shù)據(jù)集上進(jìn)行的零樣本實(shí)驗(yàn)的結(jié)果。加粗的值代表了在相同數(shù)據(jù)集上所有大型語言模型(LLMs)和開源大型語言模型中最高的分?jǐn)?shù)。
- 在所有大型語言模型中,ChatGPT-3.5-Turbo表現(xiàn)最佳,在所有數(shù)據(jù)集和方法中實(shí)現(xiàn)了最高的F1分?jǐn)?shù)。在所有開源大型語言模型中,Qwen-14B-Chat在MSRA數(shù)據(jù)集上取得了最高的F1分?jǐn)?shù),而Baichuan-13B-Chat在微博數(shù)據(jù)集上記錄了最高的F1分?jǐn)?shù)。
- 在所有開源大型語言模型中,具有13B/14B參數(shù)的LLM一致性地在相同方法和數(shù)據(jù)集的準(zhǔn)確性上超過了具有6B/7B參數(shù)的LLM。除了Baichuan13B-Chat在微博數(shù)據(jù)集上使用2-Stage方法得到的F1分?jǐn)?shù)比Qwen-7B-Chat低0.55之外,所有具有13B/14B參數(shù)的模型在相同方法和數(shù)據(jù)集上都展示了比具有6B/7B參數(shù)的模型更好的F1分?jǐn)?shù)。背后的可能原因是更大的LLM可能包含更多與實(shí)體識(shí)別相關(guān)的知識(shí),從而帶來更準(zhǔn)確的分類結(jié)果。
- 在模型保持不變的情況下,MSRA數(shù)據(jù)集上的F1分?jǐn)?shù)高于微博數(shù)據(jù)集。這種差異可以歸因于幾個(gè)因素。首先,兩個(gè)數(shù)據(jù)集的固有難度水平不同。其次,MSRA數(shù)據(jù)集的來源是報(bào)紙媒體,包含書面語言,而微博數(shù)據(jù)集來源于社交媒體,更加口語化。在這些因素中,模型的內(nèi)在知識(shí)與書面語言更為一致,使其更擅長(zhǎng)從書面文本中提取信息。
RE實(shí)驗(yàn)結(jié)果:
零樣本關(guān)系抽取在DuIE2.0數(shù)據(jù)集的20000個(gè)子集上的實(shí)驗(yàn)結(jié)果(%)。對(duì)于每個(gè)大型語言模型(LLM),我們用加粗標(biāo)記更好的結(jié)果,以比較兩個(gè)框架。
- 大多數(shù)大型語言模型(LLMs)在使用類型約束時(shí)表現(xiàn)良好,但沒有類型約束時(shí)性能顯著下降。沒有類型約束時(shí),每個(gè)LLM需要從50種關(guān)系類型中選擇一個(gè),而約束可以減少LLMs的大量干擾信息。值得注意的是,在某些實(shí)體對(duì)上,只保留了唯一正確的關(guān)系和NoTA(無上述關(guān)系)關(guān)系。
- 在傳統(tǒng)的Vanilla框架上的性能優(yōu)于QA4RE框架。一方面,DuIE2.0數(shù)據(jù)集的關(guān)系抽?。≧E)任務(wù)對(duì)LLMs來說可能并不十分困難,而引入問答(QA)增加了理解的難度。另一方面,在無約束實(shí)驗(yàn)中,向提示中添加了許多不合理的選項(xiàng)(例如,Alice是Bob的出版商)。這些信息干擾了LLMs對(duì)關(guān)系類型的選擇。
?
EE實(shí)驗(yàn)結(jié)果:
零樣本事件抽?。‥E)實(shí)驗(yàn)的結(jié)果。加粗的值代表了所有大型語言模型(LLMs)中的最高分?jǐn)?shù)。
考慮到EE任務(wù)對(duì)模型閱讀理解能力的更高要求,只有兩階段分解方法能夠產(chǎn)生更清晰的回答。ChatGPT繼續(xù)在所有LLMs中以最高的F1分?jǐn)?shù)領(lǐng)先,這在很大程度上歸功于其在提示中把握復(fù)雜輸出格式要求的卓越能力。在開源模型中,Baichuan2-13B-Chat展示了最佳性能;然而,其F1分?jǐn)?shù)仍然比ChatGPT低31.22分。
NER、EE、RE的Prompt模板
https://arxiv.org/pdf/2406.02079
Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks
兼看開源IE大模型:YAYI-UIE
雅意信息抽取統(tǒng)一大模型 (YAYI-UIE)在百萬級(jí)人工構(gòu)造的高質(zhì)量信息抽取數(shù)據(jù)上進(jìn)行指令微調(diào),統(tǒng)一訓(xùn)練信息抽取任務(wù)包括命名實(shí)體識(shí)別(NER),關(guān)系抽?。≧E)和事件抽?。‥E),實(shí)現(xiàn)通用、安全、金融、生物、醫(yī)療、商業(yè)、個(gè)人、車輛、電影、工業(yè)、餐廳、科學(xué)等場(chǎng)景下結(jié)構(gòu)化抽取。
訓(xùn)練數(shù)據(jù),百萬級(jí)語料中文54%,英文46%;其中數(shù)據(jù)集包括12個(gè)領(lǐng)域包括金融,社會(huì),生物,商業(yè),工業(yè)制造,化學(xué),車輛,科學(xué),疾病醫(yī)療,個(gè)人生活,安全和通用。覆蓋數(shù)百個(gè)場(chǎng)景
指令樣例/Sample Prompts
實(shí)體抽取任務(wù)/NER task
文本:xx
【實(shí)體抽取】抽取文本中可能存在的實(shí)體,并以json{人物/機(jī)構(gòu)/地點(diǎn):[實(shí)體]}格式輸出。
Text:
From the given text, extract all the entities and types. Please format the answer in json {person/organization/location:[entities]}.
關(guān)系抽取任務(wù)/RE tasks
文本:xx
【關(guān)系抽取】已知關(guān)系列表是[注資,擁有,糾紛,自己,增持,重組,買資,簽約,持股,交易]。根據(jù)關(guān)系列表抽取關(guān)系三元組,按照json[{'relation':'', 'head':'', 'tail':''}, ]的格式輸出。
Text:
From the given text, extract the possible head entities (subjects) and tail entities (objects) and give the corresponding relation triples.The relations are [country of administrative divisions,place of birth,location contains]. Output the result in json[{'relation':'', 'head':'', 'tail':''}, ].
事件抽取任務(wù)/EE tasks
文本:xx
已知論元角色列表是[質(zhì)押方,披露時(shí)間,質(zhì)權(quán)方,質(zhì)押物,質(zhì)押股票/股份數(shù)量,事件時(shí)間,質(zhì)押物所屬公司,質(zhì)押物占總股比,質(zhì)押物占持股比],請(qǐng)根據(jù)論元角色列表從給定的輸入中抽取可能的論元,以json{角色:論元,}格式輸出。
Text:
Given the text and the role list [seller, place, beneficiary, buyer], identify event arguments and roles, provide your answer in the format of json{role:name}.
github:https://github.com/wenge-research/YAYI-UIE
模型:https://huggingface.co/wenge-research/yayi-uie
數(shù)據(jù)集:https://huggingface.co/datasets/wenge-research/yayi_uie_sft_dat
本文轉(zhuǎn)載自??PaperAgent??
