答案抽取正確率達(dá)96.88%,xFinder斷了大模型「作弊」的小心思
本文第一作者和通訊作者均來(lái)自上海算法創(chuàng)新研究院。其中,通訊作者李志宇博士畢業(yè)于中國(guó)人民大學(xué)計(jì)算機(jī)專業(yè),并曾在阿里巴巴、小紅書(shū)等互聯(lián)網(wǎng)公司從事算法落地與研究工作,曾參與了包括千億級(jí)商品知識(shí)圖譜、用戶圖譜和輿情圖譜的研發(fā)工作,累計(jì)發(fā)表論文四十余篇。李志宇當(dāng)前在上海算法創(chuàng)新研究院大模型部門(由熊飛宇博士帶領(lǐng))負(fù)責(zé)整體的技術(shù)研發(fā)工作。研究院主頁(yè):https://www.iaar.ac.cn/
大語(yǔ)言模型(LLM)的迅速發(fā)展,引發(fā)了關(guān)于如何評(píng)估其公平性和可靠性的熱議。
盡管現(xiàn)有的評(píng)估框架如 OpenCompass、LM Eval Harness 和 UltraEval 以及各種 Benchmark 推動(dòng)了行業(yè)進(jìn)步,但專注于這些評(píng)估框架核心組件可信度或可靠性度量的團(tuán)隊(duì)卻為數(shù)不多。
近日,上海算法創(chuàng)新研究院和中國(guó)人民大學(xué)的研究團(tuán)隊(duì)發(fā)布了一篇名為《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的論文。這篇論文深入分析了LLM評(píng)估框架的整體流程,重點(diǎn)評(píng)估了答案抽取器組件在大模型評(píng)估中的可靠性和一致性。
- 論文地址:
????https://arxiv.org/abs/2405.11874??? - Github鏈接:
????https://github.com/IAAR-Shanghai/xFinder??? - Huggingface鏈接:
????https://huggingface.co/collections/IAAR-Shanghai/xfinder-664b7b21e94e9a93f25a8412???
當(dāng)前的評(píng)估框架主要依賴正則表達(dá)式(RegEx)來(lái)抽取答案,但這種方法存在明顯缺陷。人工復(fù)核結(jié)果顯示,其最佳抽取正確率僅為74.38%,評(píng)估結(jié)果極不可靠。
此外,RegEx方法容易被有意或無(wú)意地?cái)M合,增加了「作弊」的可能性,從而影響評(píng)估結(jié)果的可靠性和一致性。下圖展示了LLM評(píng)估框架中RegEx組件抽取錯(cuò)誤的情況。
為了有效解決這一問(wèn)題,上海算法創(chuàng)新研究院和中國(guó)人民大學(xué)的研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為 xFinder 的新模型,用于更準(zhǔn)確地抽取關(guān)鍵答案。
xFinder 具有以下優(yōu)勢(shì):
(1)不要求特定格式的答案輸出,具備較強(qiáng)的答案抽取魯棒性,抽取準(zhǔn)確率高達(dá)95.18%,顯著優(yōu)于目前最佳LLM評(píng)估框架中的RegEx方法。
(2)支持多樣化題型,能夠?qū)⒆帜高x擇題自動(dòng)轉(zhuǎn)換為問(wèn)答題,并支持不同題型的混排評(píng)估,從而降低測(cè)試者擬合題型的可能性。
方法介紹
xFinder的實(shí)現(xiàn)過(guò)程主要包括LLM響應(yīng)內(nèi)容的生成、KAF數(shù)據(jù)集的標(biāo)注和xFinder的訓(xùn)練。為了實(shí)現(xiàn) xFinder 模型的有效訓(xùn)練,團(tuán)隊(duì)構(gòu)建了一個(gè)專門的數(shù)據(jù)集——關(guān)鍵答案查找(KAF)數(shù)據(jù)集。該數(shù)據(jù)集包含 26,900 個(gè)訓(xùn)練樣本、4,961 個(gè)測(cè)試樣本和 4,482 個(gè)泛化樣本,涵蓋多種評(píng)估任務(wù)。
大語(yǔ)言模型響應(yīng)生成
首先,研究團(tuán)隊(duì)從現(xiàn)有的主要評(píng)估基準(zhǔn)和報(bào)告中挑選了多個(gè)典型的評(píng)估任務(wù)數(shù)據(jù)集,這些任務(wù)被分類為四種類型:字母選項(xiàng)任務(wù)、短文本選項(xiàng)任務(wù)、分類標(biāo)簽任務(wù)和數(shù)學(xué)任務(wù)。
接著,團(tuán)隊(duì)使用不同系列的 LLM(如 Qwen、InternLM、ChatGLM 等)生成這些任務(wù)的數(shù)據(jù)對(duì)。通過(guò)多種 LLM,團(tuán)隊(duì)生成了豐富多樣的數(shù)據(jù)對(duì),為 xFinder 模型的訓(xùn)練提供了充分的數(shù)據(jù)支持。
自動(dòng)標(biāo)注與人工復(fù)核
團(tuán)隊(duì)使用了一種策略,從 LLM 響應(yīng)中提取關(guān)鍵答案并將其用作標(biāo)簽,以構(gòu)建高質(zhì)量的 KAF 數(shù)據(jù)集。為提高訓(xùn)練集的標(biāo)注效率,他們采用了半自動(dòng)化流程,通過(guò)不同提示使用 GPT-4 生成了兩組標(biāo)注,并利用自一致性策略篩選出標(biāo)注不一致的項(xiàng)和所有數(shù)學(xué)問(wèn)題,提交給人工復(fù)查。為了確保測(cè)試集和泛化集的有效性和可靠性,所有標(biāo)簽都經(jīng)過(guò)兩輪手動(dòng)注釋。
訓(xùn)練 xFinder
為了增強(qiáng) KAF 數(shù)據(jù)集的多樣性和模型的泛化能力,研究團(tuán)隊(duì)采用了兩種數(shù)據(jù)增強(qiáng)策略:
(1)模擬 LLM 響應(yīng):對(duì) KAF 訓(xùn)練集中 50% 的字母選項(xiàng)問(wèn)題進(jìn)行修改,增加或刪除一到兩個(gè)選項(xiàng),以模擬 LLM 的多樣化響應(yīng)。
(2)豐富提示形式:提取包含關(guān)鍵答案句子的 LLM 響應(yīng)的 10%,替換其中的提示部分,例如將「The final answer is A」替換為「Based on the context of the question, A is the most likely answer」。
此外,團(tuán)隊(duì)使用 XTuner 工具和 QLoRA 方法,對(duì) Llama 系列、Qwen 系列和 Gemma 系列等基座模型進(jìn)行微調(diào),最終獲得 xFinder。
實(shí)驗(yàn)結(jié)果
該團(tuán)隊(duì)進(jìn)行了廣泛的實(shí)驗(yàn),評(píng)估xFinder在不同任務(wù)上的表現(xiàn),并與現(xiàn)有的RegEx方法進(jìn)行了對(duì)比。
KAF 測(cè)試集上的結(jié)果
在 KAF 測(cè)試集上,xFinder-qwen1505 的平均提取準(zhǔn)確率達(dá)到了 96.88%,顯著高于最佳評(píng)估框架中的 RegEx 方法的 74.38%。
具體來(lái)看,xFinder-qwen1505 在字母選項(xiàng)任務(wù)中的提取準(zhǔn)確率為 97.35%;在短文本選項(xiàng)任務(wù)中為 96.83%;在分類標(biāo)簽任務(wù)中為98.05%;在數(shù)學(xué)選項(xiàng)任務(wù)中為 92.76%。這些結(jié)果表明,xFinder 在各類任務(wù)中均表現(xiàn)出色,顯著提升了評(píng)估的準(zhǔn)確性和可靠性。
KAF 泛化集上的結(jié)果
在全新的 KAF 泛化集上(該泛化集使用了與 KAF 數(shù)據(jù)集中的訓(xùn)練集和測(cè)試集不同的 LLM 和測(cè)試任務(wù)生成的樣例構(gòu)造的),xFinder-qwen1505 展現(xiàn)了卓越的性能,平均提取準(zhǔn)確率達(dá)到了 93.42%。
實(shí)驗(yàn)結(jié)果表明,xFinder 的表現(xiàn)不僅優(yōu)于其他基于 RegEx 的評(píng)估框架,甚至顯著優(yōu)于 GPT-4,充分展示了其高魯棒性和泛化能力。
在現(xiàn)實(shí)世界場(chǎng)景中的評(píng)估
研究團(tuán)隊(duì)使用 xFinder 和傳統(tǒng)評(píng)估框架對(duì) 10 種 LLM 進(jìn)行了綜合評(píng)估。評(píng)估任務(wù)涵蓋了 CommonsenseQA、BoolQ 和 GSM8K 等。通過(guò)對(duì) 10 種不同的 LLM 應(yīng)用五種答案提取方案,進(jìn)行了一系列對(duì)比實(shí)驗(yàn)。
概括起來(lái),實(shí)驗(yàn)結(jié)果主要揭示了三個(gè)關(guān)鍵發(fā)現(xiàn):
(1)同一模型在不同框架下的排名常常出現(xiàn)較大差異,難以準(zhǔn)確反映模型的真實(shí)能力,顯示出一致性較低。
(2)不同的 xFinder 在這些實(shí)驗(yàn)中顯示出了高度的一致性,并且在提取答案的準(zhǔn)確率上也超越了其他評(píng)測(cè)框架,表明 xFinder 是一種更加可靠的評(píng)測(cè)方法。
(3)與傳統(tǒng)的字母選項(xiàng)設(shè)置相比,直接使用選項(xiàng)文本能顯著提升排名的一致性,反映了字母選項(xiàng)設(shè)置的不穩(wěn)定性。更多的細(xì)節(jié)和實(shí)驗(yàn)結(jié)果已在附錄中展示,這些內(nèi)容進(jìn)一步證實(shí)了上述發(fā)現(xiàn)的有效性。
結(jié)語(yǔ)
總的來(lái)說(shuō),xFinder通過(guò)優(yōu)化關(guān)鍵答案提取模塊,提高了LLM評(píng)估的準(zhǔn)確性和可靠性。實(shí)驗(yàn)結(jié)果表明,xFinder在多種任務(wù)上均表現(xiàn)出色,具備較高的魯棒性和泛化能力。未來(lái),該研究團(tuán)隊(duì)將繼續(xù)優(yōu)化xFinder,并研究其他評(píng)估關(guān)鍵問(wèn)題,為L(zhǎng)LM性能的可靠評(píng)估提供堅(jiān)實(shí)基礎(chǔ)。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
