自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

IdentifyMe:一個具有挑戰(zhàn)性的長文本指代消解基準(zhǔn)測試

發(fā)布于 2024-11-20 14:48
瀏覽
0收藏

1 引言

共指消解(CR)是文本理解的一個基本任務(wù)。盡管LLMs在廣泛的NLP任務(wù)上取得了巨大進展,但它們在CR上的表現(xiàn)相對不盡人意,甚至在指稱檢測上也面臨困難。通過廣泛分析,Gan等人(2024)的工作已經(jīng)確定,在典型的CR設(shè)置中,由于基于跨度的輸出格式不適合LLMs,因此低估了LLMs出色的指稱理解能力。他們建議調(diào)整CR數(shù)據(jù)集和任務(wù)指標(biāo),以支持LLMs的評估。

沿著這些思路,我們創(chuàng)建了IdentifyMe基準(zhǔn)測試,用于MCQ格式的指稱消解,這種格式通常用于LLMs的評估。為了構(gòu)建基準(zhǔn)測試,我們使用了來自兩個長文本共指基準(zhǔn)測試LitBank和FantasyCoref的注釋。為了使基準(zhǔn)測試具有挑戰(zhàn)性,我們限制了它只包括代詞和名詞指稱,并為每種指稱類型應(yīng)用了一些啟發(fā)式方法,以過濾掉容易解決的案例。每個MCQ實例都包含了標(biāo)記有感興趣指稱的文本,選項包括文本中經(jīng)常出現(xiàn)的實體和“以上都不是”(NoA)選項。圖1展示了從LitBank派生的IdentifyMe中的一個示例。

我們對閉源和開源模型進行了評估。平均而言,LLMs在代詞指稱上的表現(xiàn)比名詞指稱要差,代詞指稱由于其有限的表面信息而更難識別。對于所有模型來說,“以上都不是”作為正確答案的實例尤其具有挑戰(zhàn)性,開源模型的準(zhǔn)確率下降了超過50%。在嵌套指稱的情況下,LLMs往往會在具有重疊指稱的實體之間產(chǎn)生混淆。得分最高的模型GPT-4o在IdentifyMe上獲得了81.9%的準(zhǔn)確率,突顯了前沿LLMs在指稱能力方面的強大實力,同時也表明在這一領(lǐng)域仍有很大的改進空間。

2 IdentifyMe基準(zhǔn)測試

IdentifyMe是一個基于MCQ的基準(zhǔn)測試,給定一個帶有標(biāo)記指稱的文檔,任務(wù)是識別它所指的實體。我們從專注于文學(xué)文本的兩個共指數(shù)據(jù)集LitBank和FantasyCoref中派生了這些指稱。這些數(shù)據(jù)集提供了長篇上下文(FantasyCoref平均為1700個詞,LitBank為2000個詞),并具有多個實體及其豐富的相互依賴性(例如,Mr. 和 Mrs. Pett),這使得解決指稱變得更加具有挑戰(zhàn)性。雖然LitBank提供了多樣的寫作風(fēng)格和語言結(jié)構(gòu),但FantasyCoref包括的實體通常會采取不同的形式(例如,偽裝和變形),或者在其頭銜上發(fā)生變化(例如,Prince Rudolph在加冕后被稱為The Emperor),這進一步增加了實體映射的復(fù)雜性。

共指注釋將指向同一實體的指稱分組為未標(biāo)記的簇。然而,為了創(chuàng)建一個以實體為選項的MCQ,我們需要為每個簇分配一個代表性短語。我們使用GPT-4o-mini(見表8)根據(jù)它們的提及和頻率為每個實體生成短語。這些注釋經(jīng)過手動審查,以確保每個實體都有一個獨特的短語。

為了防止混淆,我們丟棄并避免標(biāo)記那些:(i)包含注釋錯誤的簇(例如,由于簇合并或分裂);(ii)太?。?lt;3個提及)或難以/模糊標(biāo)記的簇(例如,像some這樣的實體);(iii)復(fù)數(shù)實體,因為它們通常缺乏可以從提及中派生的明確表面形式。

使用標(biāo)記簇中的提及,從文檔中創(chuàng)建一個MCQ,所有標(biāo)記的實體都作為選項提供。為了創(chuàng)建一個高質(zhì)量的基準(zhǔn)測試,我們排除了短上下文文檔(<1000個詞)或那些被丟棄的實體占超過50%提及的文檔。

2.1 選擇IdentifyMe的指稱

基于之前利用基于規(guī)則的語言模式來執(zhí)行(Zhou and Su, 2004; Lee et al., 2013)或分析(Haghighi and Klein, 2009; Otmazgin et al., 2023)共指消解的工作,我們提出了一種兩步啟發(fā)式方法來識別具有挑戰(zhàn)性的指稱。

步驟1:丟棄簡單指稱。我們應(yīng)用兩個標(biāo)準(zhǔn)來過濾掉由于句法相似性而可以輕松解決的指稱:

A. 名詞模糊分?jǐn)?shù)計算名詞指稱與相應(yīng)實體的代表性短語之間的模糊相似度(靈活對待順序和子集擾動)。得分為75%或更高的指稱被丟棄,因為我們期望它們更容易被正確識別。

B. 網(wǎng)絡(luò)干擾分?jǐn)?shù)。我們根據(jù)性別、數(shù)量和活性等屬性對代詞指稱進行分類(LingMess)。附近具有相同類別的代詞指稱(代詞),并且指向同一實體的,可能有助于輕松識別標(biāo)記指稱。另一方面,那些來自不同類別但同一實體或同一類別但不同實體的指稱可能使其更難識別。我們將標(biāo)記指稱的網(wǎng)絡(luò)干擾分?jǐn)?shù)定義為阻礙識別的相鄰代詞數(shù)量減去有助于識別的數(shù)量。我們丟棄得分為≤0的指稱。

步驟2:按難度對指稱進行排名。過濾后的指稱從最難到最易進行排名:對于名詞,較低的名詞模糊分?jǐn)?shù)是首選;對于代詞,較高的網(wǎng)絡(luò)干擾分?jǐn)?shù)是首選。此外,標(biāo)記指稱與同一實體的其他指稱之間的距離也表明了難度。我們考慮距離最近的指稱、最近的名詞指稱和最近的類似于代表性短語的指稱作為進一步排名的標(biāo)準(zhǔn)。所有這些單獨的標(biāo)準(zhǔn)結(jié)合使用Copeland的方法(Copeland, 1951),通過評估成對勝負(fù)來確定最終排名。

2.2 數(shù)據(jù)集統(tǒng)計

IdentifyMe包括基于上述排名方法選出的1800個最難的問題。這些問題來自159篇文檔(LitBank 64篇,F(xiàn)antasyCoref 95篇)。其中,隨機選取的600個問題用作提示調(diào)整和消融實驗的驗證集。所有問題都包含一個“以上都不是”(NoA)選項,以鼓勵模型以更大的確定性做出回應(yīng)。為了評估模型是否可以選擇NoA作為正確答案,我們從10%的問題中移除了原始的正確實體。數(shù)據(jù)集在驗證和測試分割中都是跨源數(shù)據(jù)集和指稱類型(代詞和名詞)平衡的。

2.3 IdentifyMe是否包含難指稱?

我們進行了一項實驗,以評估我們的指稱選擇過程的有效性。我們沒有采用上述方法,而是隨機挑選指稱并評估模型識別它們的能力。Mistral-7B的性能差距為9.5%,而更為穩(wěn)健的GPT-4o-mini的性能差距為7.2%,這表明IdentifyMe包含了更具挑戰(zhàn)性的指稱。

3 實驗

3.1 模型

在閉源模型中,我們評估了GPT-4o、GPT-4o-mini和Gemini-1.5-Flash。由于計算限制,我們將開源模型的評估限制在10B以下的變體:Llama-3.1-8B和Mistral-7B。

3.2 MCQ設(shè)置

選定的指稱在原文中用特殊標(biāo)記括起來。零樣本提示指導(dǎo)模型從給定的實體集合和NoA中檢索并重新解決指稱,并識別它所指的人或事物。

3.3 推理細(xì)節(jié)

對于開源模型,我們使用regex-based受限解碼來限制答案僅為特定的實體代表性短語。我們還嘗試了鏈?zhǔn)剿季S(CoT)方法,指導(dǎo)模型在回答問題之前解釋其推理過程。結(jié)果表明,使用CoT可以提高模型性能。

3.4 結(jié)果

表3展示了LLMs在IdentifyMe測試集上的整體表現(xiàn),以及按名詞和代詞指稱類型的細(xì)分。隨機基線在基準(zhǔn)測試中的準(zhǔn)確率為8%。盡管所有LLMs都優(yōu)于隨機基線,但開源模型仍有很大的改進空間,Llama-3.1-8B的準(zhǔn)確率僅為53.3%。GPT-4o是表現(xiàn)最好的模型,準(zhǔn)確率為81.9%。同時,GPT-4o-mini作為一個經(jīng)濟實惠的閉源選項,超越了較小的開源模型,但仍落后于GPT-4o和Gemini-1.5-Flash等頂級表現(xiàn)者。

3.5 錯誤分析

比較實體與NoA。表5提供了當(dāng)正確選項為實體(Ent)與NoA時的準(zhǔn)確率分布。此外,我們將錯誤分為三類:(a)真實值是實體而模型選擇了另一個實體(Ent-Ent),(b)真實值是實體但模型預(yù)測了NoA(Ent-NoA),以及(c)真實值是NoA但模型選擇了實體(NoA-Ent)。開源模型在NoA子集上的表現(xiàn)極差,導(dǎo)致高NoA-Ent錯誤。在閉源模型中,Gemini-1.5-Flash在NoA MCQs上的表現(xiàn)較差(下降48.3%),并傾向于在選擇NoA時選擇實體(83/120)。有趣的是,GPT-4o和GPT-4o-mini在NoA問題上更具彈性,分別僅下降了9.6%和0.9%。

嵌套指稱。數(shù)據(jù)集中包含352個嵌套指稱實例,其中一個指稱的范圍與另一個重疊。表6顯示,嵌套指稱的準(zhǔn)確率與整體準(zhǔn)確率相當(dāng)。然而,當(dāng)模型在解決這些指稱時出錯時,約40%的錯誤是因為預(yù)測的實體對應(yīng)于重疊的指稱。

優(yōu)點與創(chuàng)新

  1. 新的評估基準(zhǔn):引入了IdentifyMe,一個以多項選擇題(MCQ)格式呈現(xiàn)的提及解析新基準(zhǔn),適用于評估大型語言模型(LLMs)。
  2. 長文本和多樣化提及類型:IdentifyMe包含長文本(平均1700詞)和多種提及類型及其對應(yīng)的實體,允許對模型性能進行細(xì)粒度分析。
  3. 排除易識別的提及:使用啟發(fā)式方法排除容易識別的提及,創(chuàng)建更具挑戰(zhàn)性的任務(wù)。
  4. 顯著的性能差距:在IdentifyMe上評估了閉源和開源LLMs,發(fā)現(xiàn)最先進的亞10B開放模型與閉源模型之間存在20-30%的性能差距。
  5. 高得分模型:最高得分的模型GPT-4o達到了81.9%的準(zhǔn)確率,突顯了前沿LLMs的強大指代能力,同時也表明仍有改進空間。
  6. 鏈?zhǔn)剿季S提示:實驗中使用鏈?zhǔn)剿季S(CoT)方法提高了模型性能,特別是在處理“無答案”選項時。

不足與反思

  1. 領(lǐng)域限制:IdentifyMe僅限于文學(xué)領(lǐng)域,提及類型覆蓋有限(僅有名詞性和代詞性提及),且實體類型不包括復(fù)數(shù)實體。
  2. 數(shù)據(jù)集來源:使用的數(shù)據(jù)集可在線獲取,初步調(diào)查顯示LLMs無法重現(xiàn)整個故事的CoNLL注釋,盡管進行了大量處理,但仍有可能存在污染。

關(guān)鍵問題及回答

問題1:IdentifyMe基準(zhǔn)測試是如何構(gòu)建的?其獨特之處是什么?

IdentifyMe基準(zhǔn)測試是基于多個選擇問題(MCQ)格式構(gòu)建的,旨在評估大型語言模型(LLMs)在共指消解任務(wù)中的表現(xiàn)。其獨特之處包括:

  1. 長文本上下文:IdentifyMe使用了LitBank和FantasyCoref兩個長文本共指消解數(shù)據(jù)集中的注釋,這些數(shù)據(jù)集提供了平均1700到2000詞的上下文,使得任務(wù)更具挑戰(zhàn)性。
  2. 多樣化的提及類型:基準(zhǔn)測試僅限于代詞性和名詞性提及,并對每種提及類型應(yīng)用了一些啟發(fā)式規(guī)則以過濾掉容易解決的案例。
  3. 精心設(shè)計的MCQ:每個MCQ實例由一段帶有標(biāo)記提及的文本組成,選擇項包括文本中頻繁出現(xiàn)的實體和“以上都不是”選項。
  4. 手動審核:為了確保每個實體的代表短語是獨特的,使用了GPT-4o-mini生成短語,并由人工審核。
  5. 排除易解決的案例:通過名詞模糊得分和凈干擾得分篩選出難以解決的提及,并按難度進行排序。

問題2:IdentifyMe基準(zhǔn)測試的結(jié)果顯示LLMs在哪些方面存在困難?

  1. 代詞性提及的消解:LLMs在處理沒有明確表面形式線索的代詞性提及時表現(xiàn)較差,尤其是那些缺乏足夠上下文信息的代詞。
  2. 選擇“以上都不是”:當(dāng)問題要求模型拒絕所有錯誤選項并選擇“以上都不是”時,LLMs的表現(xiàn)尤其糟糕,開源模型在這一子集上的準(zhǔn)確率下降超過50%。
  3. 嵌套提及:在處理嵌套提及時,LLMs容易混淆重疊的提及。盡管嵌套提及的準(zhǔn)確性與整體準(zhǔn)確性相當(dāng),但模型在解決這些提及時的錯誤中有約40%是因為預(yù)測的實體對應(yīng)于重疊的提及。

問題3:IdentifyMe基準(zhǔn)測試對未來的研究和模型改進有何啟示?

  1. 改進評估方法:IdentifyMe展示了傳統(tǒng)共指消解評估方法和輸出格式無法充分捕捉LLMs的指代理解能力,提示需要開發(fā)更適合LLMs的評估方法。
  2. 增強模型訓(xùn)練:LLMs在處理代詞性提及和嵌套提及時的困難表明,需要在模型訓(xùn)練中加強對這些復(fù)雜指代關(guān)系的理解和生成能力。
  3. 更多樣化和復(fù)雜的基準(zhǔn)測試:IdentifyMe的成功表明,設(shè)計多樣化和復(fù)雜的基準(zhǔn)測試可以更好地評估和改進LLMs的性能,特別是在處理長文本和多種提及類型時。

本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企

標(biāo)簽
已于2024-11-20 16:53:46修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦