自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DSARE:當(dāng)傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路 精華

發(fā)布于 2024-7-22 11:03
瀏覽
0收藏

1. 背景

關(guān)系提取是指通過自然語言處理技術(shù)從非結(jié)構(gòu)化文本中確定兩個(gè)實(shí)體之間的關(guān)系。

DSARE:當(dāng)傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路-AI.x社區(qū)圖片

如上圖所示,大多數(shù)傳統(tǒng)的關(guān)系提?。≧elation Extraction,RE)方法是為RE任務(wù)量身定制,但是這些方法往往缺乏特定領(lǐng)域的先驗(yàn)知識。特別是當(dāng)可供配置資源空間太少的時(shí)候,比如Few Shot Relation Extraction(FSRE)場景。

另一方面,基于LLM的新方法卻存在相反的問題,盡管隨著模型規(guī)模和語料庫的增大,LLMs擁有大量先驗(yàn)知識,但是由于LLMs往往是為通用用途設(shè)計(jì)的,所以他們?nèi)狈﹃P(guān)系提取任務(wù)的特定能力。

所以今天這篇論文的作者提出了一種新方法,將傳統(tǒng)關(guān)系抽取方法和大語言模型相結(jié)合,提出了一種用于小樣本關(guān)系抽取的雙系統(tǒng)增強(qiáng)提取器(Dual-System Augmented Relation Extractor, DSARE),這種方法結(jié)合了兩種系統(tǒng)的優(yōu)勢來彌補(bǔ)各自的缺陷。

2. 什么是DSARE?

DSARE:當(dāng)傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路-AI.x社區(qū)圖片

DSARE包含三個(gè)關(guān)鍵組件:

-(a)LLM增強(qiáng)的RE模塊:通過設(shè)計(jì)提示詞,使LLM生成額外的領(lǐng)域內(nèi)標(biāo)注數(shù)據(jù),以提升傳統(tǒng)RE模型的訓(xùn)練效果,從而將LLM的先驗(yàn)知識有效注入傳統(tǒng)RE方法。

-(b)RE增強(qiáng)的LLM模塊:利用訓(xùn)練好的RE模型識別并檢索訓(xùn)練數(shù)據(jù)中最有價(jià)值的樣本。這些樣本隨后作為上下文學(xué)習(xí)的示例,增強(qiáng)LLM在RE任務(wù)中的特定能力。

-(c)綜合預(yù)測模塊:綜合考慮LLM增強(qiáng)RE和RE增強(qiáng)LLM模塊的預(yù)測結(jié)果。當(dāng)兩者預(yù)測不一致時(shí),激活一個(gè)專門設(shè)計(jì)的選擇器來做出最終決策。

2.1 LLM增強(qiáng)的RE模塊

2.1.1 利用LLM進(jìn)行數(shù)據(jù)擴(kuò)充

設(shè)計(jì)了提示,向LLM注入關(guān)系抽取訓(xùn)練樣本的核心要素,包括上下文文本、主體實(shí)體、客體實(shí)體、主體類型、客體類型及其關(guān)系。隨后,引導(dǎo)LLM生成更多模擬的關(guān)系抽取樣本。

然后制定規(guī)則,如正則表達(dá)式,將LLM輸出的關(guān)系抽取數(shù)據(jù)整理成期望的格式。

2.1.2 經(jīng)典關(guān)系抽取模型

通過擴(kuò)充的數(shù)據(jù)集,獲得了更豐富的數(shù)據(jù)資源,用以訓(xùn)練經(jīng)典的關(guān)系抽取模型。

使用了帶類型標(biāo)記的實(shí)體標(biāo)記(Typed Entity Marker)方法,用以標(biāo)注實(shí)體及其上下文。

用“@”和“#”符號標(biāo)記主體和客體實(shí)體的起始和結(jié)束,同時(shí)使用“?”和“∧”符號來指明主體和客體的類型。

2.2 增強(qiáng)型LLM關(guān)系抽取

2.2.1 KNN展示

上文構(gòu)建了一個(gè)經(jīng)典的關(guān)系抽取模型,接下來運(yùn)用k最近鄰(KNN)搜索技術(shù),從訓(xùn)練集中提取更具價(jià)值的樣本。

使用捕獲的實(shí)體表示?s和?o 來標(biāo)識每個(gè)樣本,并從訓(xùn)練集中提取出表示和標(biāo)簽對?s和?o ,將其命名為數(shù)據(jù)集D。

在對新樣本x進(jìn)行推理時(shí),利用其實(shí)體表示 ?x 在 D中進(jìn)行查詢,依據(jù)歐氏距離找出 k個(gè)最接近的鄰居:N={(hi, yi)},這些將作為LLM推理的參考示例。

2.2.2 LLM推理過程

當(dāng)獲取到有效的示例,將這些示例用于構(gòu)建提示詞的示例。先通過在提示詞中明確關(guān)系抽取任務(wù)的目標(biāo)。接著,展示當(dāng)前樣本的k個(gè)最近鄰N={(hi, yi)}的示例作為學(xué)習(xí)樣本。

2.3 綜合預(yù)測

DSARE:當(dāng)傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路-AI.x社區(qū)圖片

上文中分別使用了傳統(tǒng)方法和LLM方法兩個(gè)視角進(jìn)行關(guān)系抽取。

當(dāng)兩個(gè)結(jié)果一致時(shí),即 R(LLM)=R(RE),模型將直接輸出預(yù)測的關(guān)系。若結(jié)果出現(xiàn)分歧,設(shè)計(jì)了一個(gè)選擇機(jī)制,讓LLM在這兩種關(guān)系中做出決斷。為提升選擇機(jī)制的有效性,直接從訓(xùn)練集中檢索與這兩種關(guān)系相關(guān)的k個(gè)樣本。

然后,采用LLM推理部分介紹的方法,引導(dǎo)LLM得出最終的預(yù)測結(jié)果。如果LLM未能進(jìn)行推理,或其輸出無法映射到預(yù)定義的關(guān)系類別,將得出主體與客體實(shí)體間不存在關(guān)系的結(jié)論。

3. 效果測評

為了對比DSARE的效果,作者與當(dāng)前領(lǐng)先的少樣本關(guān)系抽取技術(shù)進(jìn)行了對比。根據(jù)這些方法的架構(gòu)設(shè)計(jì),可劃分為三大類:傳統(tǒng)關(guān)系抽取技術(shù)(①至④)、基于LLM的技術(shù)和混合技術(shù)(⑧)。

  • ? ① TYP Marker:建議將實(shí)體表示與類型標(biāo)記融合,這一創(chuàng)新在關(guān)系抽取任務(wù)上取得了卓越成效。
  • ? ② PTR:設(shè)計(jì)了一種規(guī)則化的提示調(diào)整機(jī)制,通過邏輯規(guī)則構(gòu)建由多個(gè)子提示組成的提示。
  • ? ③ KnowPrompt:創(chuàng)造性地將關(guān)系標(biāo)簽蘊(yùn)含的隱含知識,通過可訓(xùn)練的虛擬類型詞和答案詞,注入到提示構(gòu)建中。
  • ? ④ GenPT:提出一種創(chuàng)新的生成式提示調(diào)整方法,將關(guān)系分類問題轉(zhuǎn)化為填充問題,充分利用了實(shí)體和關(guān)系類型的深層語義。
  • ? ⑤ GPT-3.5 ⑥ LLama-2,⑦ Zephyr 代表當(dāng)前高級的LLM技術(shù)。使用了GPT-3.5的API,并選擇了LLama-2(llama-2-7b-chat-hf)和Zephyr(zephyr-7b-alpha)的7B版本進(jìn)行實(shí)驗(yàn)。還采用了中的提示來執(zhí)行上下文學(xué)習(xí)。
  • ? ⑧ Unleash  引入了一種通過LLMs進(jìn)行的受約束數(shù)據(jù)生成技術(shù),這一方法顯著增強(qiáng)了現(xiàn)有關(guān)系抽取技術(shù)(如KnowPrompt),使其取得了更具競爭力的成果。

DSARE:當(dāng)傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路-AI.x社區(qū)圖片

如上表所示,DSARE模型在各項(xiàng)指標(biāo)上均超越了所有對比基準(zhǔn)。特別是在TACRED和TACREV數(shù)據(jù)集上表現(xiàn)尤為突出。

為了驗(yàn)證DSARE模型各部分的有效性,作者實(shí)施了消融實(shí)驗(yàn)。

首先移除了集成預(yù)測模塊,由此產(chǎn)生了兩種簡化版本:LLM增強(qiáng)型關(guān)系抽取與關(guān)系抽取增強(qiáng)型LLM。

DSARE:當(dāng)傳統(tǒng)NLP遇到LLM后的關(guān)系提取新思路-AI.x社區(qū)圖片

如上表所示,集成預(yù)測模塊的效果明顯比其他兩個(gè)簡化版本都提升的明顯。

接下來,進(jìn)一步對LLM增強(qiáng)型關(guān)系抽取去掉了LLM數(shù)據(jù)增強(qiáng)部分,對關(guān)系抽取增強(qiáng)型LLM去掉了KNN展示部分。產(chǎn)生了另外兩個(gè)版本,即純凈的關(guān)系抽取和純凈的LLM4。

這兩種版本的表現(xiàn)都不盡如人意,尤其是純凈LLM。這些結(jié)果進(jìn)一步證實(shí)了我們設(shè)計(jì)方案的合理性和必要性,它們并非多余。

本文轉(zhuǎn)載自 ??大語言模型論文跟蹤??,作者:HuggingAGI

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦