港中文提出CLongEval中文基準(zhǔn)測試集,準(zhǔn)確評估大模型長上下文能力
論文題目:
ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models
論文地址:
??https://arxiv.org/abs/2403.03514??
代碼地址:
??https://github.com/zexuanqiu/CLongEval??
01 研究背景和貢獻
為了使 LLM 能夠支持更復(fù)雜和多樣化的應(yīng)用,越來越多的研究致力于擴展 LLM 能夠處理的上下文窗口。為了評估這些 long context LLM 支持長上下文能力,目前英文領(lǐng)域有幾個數(shù)據(jù)集被提出(如 LongBench, L-Eval, LooGLE)。
然而,在中文領(lǐng)域,對于 long context LLM 能力評估的研究還有些滯后。目前只有一個雙語基準(zhǔn) LongBench 可用,中文部分僅有平均長度約 13K 個字符的 1000 個測試實例?;谥形念I(lǐng)域缺乏高質(zhì)量評估數(shù)據(jù)集的現(xiàn)狀,這篇論文提出了一個基準(zhǔn)測試集,以準(zhǔn)確評估 LLM 在中文領(lǐng)域的長文本上下文處理能力。
論文提出了 CLongEval,一個包含了 7 種 NLP 任務(wù)、覆蓋 4 個能力維度的中文長文本能力測試集。以確保對模型能力的綜合評估,作者首先對 LLM 處理長文本所需的關(guān)鍵能力進行了拆解。
如下圖所示的框架,基于于人類自身解決問題的范式,作者將 LLM 在解決長上下文任務(wù)時所用的基礎(chǔ)能力分解為:1)在部分上下文(Partial Context)或者全部上下文(Full Context)中識別和獲取關(guān)鍵信息的能力;2)基于獲取的全部信息,以抽取式(Extractive)或者抽象式(Abstractive)推理出答案的能力。
在這些基礎(chǔ)能力的維度上,作者構(gòu)建了了 CLongEval 基準(zhǔn)測試集。該測試集包含了 7 個任務(wù)共 7,267 個測試樣本,包括長篇故事問答(Long Story QA)、長對話記憶(Long Conversation Memory)、長篇故事摘要(Long Story Summarization)、新聞標(biāo)注(Stacked News Labeling)、錯別字檢測(Stacked Typo Detection)、段落檢索(Key-Passage Retrieval)和表格查詢(Table Querying)。
其中,長篇故事問答和長對話記憶均為全新標(biāo)注的數(shù)據(jù)。長篇故事摘要由 GPT-4 進行輔助標(biāo)注。其余 4 個任務(wù)由公共數(shù)據(jù)集重構(gòu)得來。
由于目前 LLM 支持的文本長度窗口(context window)差異較大,為了確?;鶞?zhǔn)測試集的適用性,CLongEval 按照輸入文本的長度構(gòu)建了三個子集:small set、medium set 和 large set。small set 主要包括長度在 1K 到 16K 個 token 之間的測試數(shù)據(jù),medium set 是 16K 到 50K 個 token 之間,而 large set 包含的數(shù)據(jù)擴展到 50K 到 100K 個 token。下表展示了數(shù)據(jù)集的具體統(tǒng)計信息。
02 數(shù)據(jù)集構(gòu)建
以下是 CLongEval 包含的測試任務(wù)。每個任務(wù)針對測試一種上文提到的基礎(chǔ)能力。
- 長篇故事問答: 該任務(wù)要求模型根據(jù)長篇故事中的部分上下文來回答問題,考察模型能否利用部分上下文信息進行閱讀理解。模型需要在輸入中找到有關(guān)的上下文并進行抽象推理來得到正確答案。作者在 153 本中國敘事小說中提取了 200 個不重復(fù)的故事,并根據(jù)故事長度分配了相應(yīng)數(shù)量的問題。最終共標(biāo)注了約 1K 個問答對。
- 長對話記憶:這個任務(wù)旨在評估模型的長期記憶能力,考察模型能否利用部分上下文信息進行閱讀理解。該任務(wù)的輸入為用戶和伴侶聊天機器人之間連續(xù)多天的對話記錄,模型需要準(zhǔn)確地回答關(guān)于特定日期對話內(nèi)容相關(guān)的問題。數(shù)據(jù)包含 80 個虛擬用戶和伴侶聊天機器人之間的 140 天對話記錄,和人工標(biāo)注的約 1K 個問答對。
- 長篇故事摘要:作為自然語言處理的經(jīng)典任務(wù),摘要生成需要模型能夠正確理解完整的長上下文并進行信息整合。作者首先將 BOOKSUM 數(shù)據(jù)集翻譯成了中文,之后使用 GPT-4 輔助將 BOOKSUM 數(shù)據(jù)集中每個片段的摘要整合成總摘要。該任務(wù)包含 1K 個測試樣例。
- 新聞標(biāo)注:該測試任務(wù)要求模型能對輸入的新聞做正確的分類。目標(biāo)是評估語言模型能否理解完整的輸入,并進行信息抽取。每個樣例的輸入包含多篇新聞以及對應(yīng)的索引,輸出是對每篇新聞的類別標(biāo)簽。該任務(wù)包含約 1K 個測試樣例。
- 錯別字檢測:該任務(wù)要求模型識別出長篇輸入中存在的所有拼寫錯誤。目標(biāo)是評估語言模型能否理解完整的輸入,并進行信息抽取。錯別字構(gòu)造來自于日常打字常見錯誤類型:同音錯字。錯字的數(shù)量和輸入的長度成正比:small set 為 10 個錯字,medium set 為 20 個錯字,large set 為 30 個錯字。該任務(wù)包含約 1K 個測試樣例。
- 段落檢索:該任務(wù)是為了考察模型在長上下文中抽取所需信息的能力,尤其是準(zhǔn)確返回復(fù)雜搜索結(jié)果的能力。數(shù)據(jù)集中每個樣例都是一個被序列化為字符串的 JSON 對象,其中包含多個鍵-段落(key-passage)對。這個任務(wù)和常見的鍵-值檢索任務(wù)類似,區(qū)別在于這里檢索對象是具有實際語義的自然語言文本,而不是隨機生成的 128 位 UUID 字符串,因此更具有挑戰(zhàn)性。該任務(wù)包含約 1K 個測試樣例。
- 表格查詢:該任務(wù)是為了考察模型在長上下文中抽取所需信息的能力,尤其是在長上下文中執(zhí)行復(fù)雜查詢的能力。數(shù)據(jù)集中每個樣例由多個使用 Markdown 格式排列的表格組成;期待模型可以在長上下文中定位到目標(biāo)表格,并根據(jù)查詢條件從該表格中得到輸出。該任務(wù)包含約 1K 個測試樣例。
03 實驗結(jié)果
下表為主實驗結(jié)果,展示了 6 個開源模型和 2 個閉源模型(GPT-4-Turbo 和 Moonshot-v1)在 CLongEval 上的表現(xiàn)。
作者分析了參考答案在上下文中的對應(yīng)位置對模型性能的影響,結(jié)果如下圖所示。作者在需要部分上下文的四個任務(wù)上進行實驗,發(fā)現(xiàn)在長篇故事問答和長對話記憶這兩個任務(wù)中,“Lost in the middle” 這一現(xiàn)象較為明顯。
下面的兩張圖展示了 GPT-4-Turbo 與 Moonshot-v1 在新聞標(biāo)注這個任務(wù)中不同位置與不同深度的分類準(zhǔn)確率的可視化分析??梢园l(fā)現(xiàn),Moonshot-v1 的表現(xiàn)更加穩(wěn)定。
更多實驗結(jié)果以及分析請參考原文。
本文轉(zhuǎn)自 PaperWeekly ,作者:讓你更懂AI的
