自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型性能摻水嚴重?北大交出答卷:交互評估+動態(tài)出題,死記硬背也沒用 | ACL 2024

人工智能 新聞
當前大語言模型(LLM)的評估方法受到數(shù)據(jù)污染問題的影響,導致評估結(jié)果被高估,無法準確反映模型的真實能力。北京大學等提出的KIEval框架,通過知識基礎(chǔ)的交互式評估,克服了數(shù)據(jù)污染的影響,更全面地評估了模型在知識理解和應用方面的能力。

當人工智能領(lǐng)域被GPT-4、Claude 3等大語言模型的驚人表現(xiàn)所震撼時,一個關(guān)鍵問題悄然浮現(xiàn):我們是否真的客觀評估了這些模型的能力?事實上,當前大模型的評估正面臨著數(shù)據(jù)污染的陰霾。

數(shù)據(jù)污染,即模型在訓練過程中接觸到評測基準的測試集數(shù)據(jù),導致其在自動評測基準的表現(xiàn)被高估。這一問題在業(yè)界尚未得到充分重視。許多大模型的訓練數(shù)據(jù)來源復雜,難以完全避免測試數(shù)據(jù)以及答案的泄露。

一些模型甚至直接在測試集上進行訓練,以獲得更高的評估分數(shù)。這不僅人為地夸大了模型的性能,也可能誤導相關(guān)研究的方向。

面對數(shù)據(jù)污染問題,盡管已有工作提出基于同分布數(shù)據(jù)困惑度平均差值[1]以及模型輸出的log-likelihood分布特征[2]檢測大模型數(shù)據(jù)污染情況的存在性,但這些方法應用場景和實際效果受限,特別是難以檢測大模型在SFT階段的數(shù)據(jù)泄露問題。

圖片

北京大學等發(fā)布的最新實驗結(jié)果表明,這些方法在檢測預訓練階段的數(shù)據(jù)泄露相對有效,但在檢測SFT階段數(shù)據(jù)泄露的準確率接近隨機,亦有同期工作[3]得到了相似的結(jié)論。因此,構(gòu)建不易受數(shù)據(jù)污染影響的評測方法,對于全面而客觀地評估大模型性能十分重要。

圖片

論文鏈接:https://arxiv.org/abs/2402.15043

項目主頁 & 開源代碼:https://zhuohaoyu.github.io/KIEval/

除了數(shù)據(jù)污染,當前主流的大模型自動評估方法在全面評估模型的真實能力與泛化性能方面也存在不足。

最為主流的基于靜態(tài)的數(shù)據(jù)集的評估方法,往往只需大模型生成對于QA任務或選擇題的選項答案,這一點不僅與目前大型語言模型的開放式文本生成的主要用途并不匹配,亦無法考察模型在回答質(zhì)量等方面的表現(xiàn)。

面對這些挑戰(zhàn),需要一種新的評估范式,能夠在排除數(shù)據(jù)污染影響的同時,全面考察模型在知識理解、推理、生成等方面的真實水平,判斷模型是具備對于問題的深入理解,還是僅僅「記住」了測試數(shù)據(jù)的答案。

目前,KIEval已被ACL 2024主會錄用,論文已于arXiv公開,團隊已經(jīng)開源了KIEval的全部代碼并提供了復現(xiàn)環(huán)境,僅需簡單修改被評估模型的配置即可快速運行KIEval的完整流程。

KIEval:動態(tài)交互式評估框架

KIEval是一個基于知識的動態(tài)交互式評估框架,旨在通過引入多輪對話交互,重點考察模型知識的泛化和應用能力,而非簡單的模式匹配或知識記憶。

KIEval的核心理念是通過大模型生成的動態(tài)的多輪對話,考察被評估大模型在知識泛化和應用方面的能力。

與傳統(tǒng)的靜態(tài)數(shù)據(jù)集評估不同,KIEval引入了一個「交互者」大模型,與被評估模型進行多輪對話。在每一輪交互中,「交互者」根據(jù)先前的對話歷史,動態(tài)生成新的、更為深入的問題,引導被評估模型靈活運用其知識,生成連貫、相關(guān)的回復。

圖片

具體而言,KIEval的評估流程如下:首先,從現(xiàn)有的高質(zhì)量數(shù)據(jù)集中選取一個初始問題,作為對話的起點。被評估模型需要根據(jù)這個問題生成一個回答。

接下來,「交互者」根據(jù)這個回答和問題,生成一個后續(xù)問題,進一步探究模型在這個話題上的知識深度。這個過程重復多輪,形成一個連貫的對話。

在對話過程中,作者引入「評估者」大模型,重點關(guān)注模型回復的相關(guān)性、連貫性、邏輯性等指標,而非僅僅考察其回復是否與參考答案匹配。

這種動態(tài)交互的評估方式有幾個優(yōu)勢:

首先,它能夠有效降低數(shù)據(jù)污染的影響。由于每一輪的問題都是動態(tài)生成的,即使模型在訓練時見過了初始問題,它也難以簡單地「背誦」后續(xù)回復。

其次,多輪對話能夠更全面地考察模型在知識運用、邏輯推理、語言生成等方面的綜合能力,而非僅僅依賴模式匹配。

此外,KIEval可以方便地擴展到不同的領(lǐng)域和語言,只需要選取相應領(lǐng)域的高質(zhì)量數(shù)據(jù)集作為知識源即可。

KIEval揭示洞見與實驗分析

通過KIEval框架,作者對大模型的評估有了新的認識。這些認識不僅深化了對現(xiàn)有評估方法的理解,也為未來大模型的評估提供了一些啟發(fā)。

圖片

圖片

首先,KIEval的實驗結(jié)果表明,傳統(tǒng)的基準測試往往低估了模型之間的真實性能差距。

在靜態(tài)數(shù)據(jù)集上,不同模型的得分差異可能并不明顯。但將這些模型置于 KIEval的動態(tài)對話場景中時,它們在知識運用、邏輯推理等方面的差距被顯著放大。這提醒我們,僅依賴靜態(tài)數(shù)據(jù)集的評估可能掩蓋了模型的真實水平。

KIEval的實驗也揭示了數(shù)據(jù)污染對大模型理解和泛化能力的影響。作者構(gòu)造了若干「作弊」模型,將評測數(shù)據(jù)集的一部分測試樣本加入到「作弊」模型的訓練集中。

作者發(fā)現(xiàn),這些在訓練時接觸過測試集的模型,雖然在對應的測試集上取得了很高的分數(shù),但在KIEval的動態(tài)對話中卻表現(xiàn)平平,并未在「作弊」訓練中得到正向提升。

這說明,數(shù)據(jù)污染可能只是提高了模型對特定答案的記憶,而非真正增強其知識理解和運用的能力。

除此之外,作者亦測試了兩種對大模型數(shù)據(jù)污染檢測的算法[1,2],發(fā)現(xiàn)其雖然可以一定程度上檢測出預訓練階段中引入的數(shù)據(jù)污染問題,其在檢測微調(diào)階段的數(shù)據(jù)泄露準確率接近隨機水平。

圖片

圖片

相比之下,可以通過觀察KIEval分數(shù)與靜態(tài)評估數(shù)據(jù)集準確率的分數(shù)關(guān)系,推測數(shù)據(jù)泄露的存在。

當模型在數(shù)據(jù)集準確率上表現(xiàn)十分優(yōu)秀,但在交互過程中無法有效地回答根據(jù)數(shù)據(jù)集題目動態(tài)生成的問題時,說明其僅僅掌握了題目的答案而并非具備回答問題所需的知識或能力。

這表明,在大模型評估中,可以從單純地檢測數(shù)據(jù)泄露的存在性或是單純考察模型回答固定問題的能力,轉(zhuǎn)向更全面地評估模型知識理解的深度。

為了驗證KIEval評估結(jié)果的有效性,作者對比KIEval分數(shù)以及若干傳統(tǒng)評估方法結(jié)果,與人類評估結(jié)果的對齊程度。

通過對人類評分與主流的多種自動評估方法的相關(guān)性分析,可以得出KIEval的評分與人類評分的相關(guān)性顯著高于其他自動評估方法這一結(jié)論。

這表明,KIEval更為貼近人類在多輪對話場景下,針對對話質(zhì)量的主觀判斷。

圖片

最后,考慮到大模型本身可能具有一定偏向性(例如GPT系列模型可能更傾向于自身的輸出),作者對大模型本身偏向性對于評估結(jié)果的影響亦進行探究。

得益于KIEval設計中分開了「交互者」和「評估者」這兩個角色,只需對于一組相同的被評估模型使用相同的交互者,即可通過貪心解碼,確保交互的雙方輸出保持不變。

針對相同的交互輸出,僅需使用不同的評估者對被評估模型的輸出進行重復評價,即可得到不同模型針對同一被試模型的評估結(jié)果。

實驗表明,盡管在樣本級別上,這一偏向性確實存在,但在總體評估分數(shù)上,不同評估者模型給出的分數(shù)具有較強的正相關(guān)性,因此大模型的偏向性不易影響總體的結(jié)論。

圖片

圖片

FreeEval:靈活高效可靠的大模型評估工具包

為了高效實現(xiàn)KIEval的動態(tài)評估流程,并與其他多種評估方法作出公平的比較,還需要一個高效、靈活的評估工具。

這就是作者開發(fā)FreeEval的初衷。FreeEval是一個模塊化的大模型評估工具包,旨在為研究者快速高效構(gòu)建新的評估方法并檢驗評估結(jié)果的有效性提供支持。

KIEval就是基于FreeEval構(gòu)建的評估方法,充分利用了FreeEval的靈活性和效率,并在詳盡的實驗基礎(chǔ)上證明其可靠性以及評估結(jié)果的有效性。

圖片

FreeEval的設計理念可以用四個關(guān)鍵詞概括:模塊化、高效率、可信任。

FreeEval將評估流程解構(gòu)為「數(shù)據(jù)集」和「評估步驟」兩種類型的自由組合,每個模塊都有統(tǒng)一的接口定義。這種設計使得不同模塊可以靈活自由組合,研究者可通過FreeEval提供的接口快速實現(xiàn)新的評估步驟或是通過對已有數(shù)據(jù)集和評估步驟的自由組合,輕松定制自己的評估流程。

這樣的模塊化設計給予了FreeEval極強的可擴展性。FreeEval也提供了完善的開發(fā)文檔和示例代碼,幫助研究者快速上手開發(fā)。

對于評估方法的研發(fā)過程,提高評估效率是降低成本的關(guān)鍵。FreeEval在效率上做了深度優(yōu)化,支持開源模型的高效推理和閉源模型的快速調(diào)用。

對于開源模型,F(xiàn)reeEval支持在多節(jié)點、多GPU上并行評估以及負載均衡,可以充分利用計算資源。

對于閉源模型,F(xiàn)reeEval支持快速的并發(fā)調(diào)用。同時,F(xiàn)reeEval還實現(xiàn)了緩存機制,避免了不必要的重復計算或接口調(diào)用。在完全相同的機器環(huán)境下,F(xiàn)reeEval的性能較先前工作具有較大提升。

圖片

FreeEval還包含了一系列元評估(Meta-evaluation)工具作為「評估步驟」,來確保評估的可信性。它提供了數(shù)據(jù)污染檢測、人類評估標注、評估結(jié)果可視化、評估結(jié)果相關(guān)性分析等模塊,幫助研究者判斷評估結(jié)果的有效性、可靠性,識別和消除評估中的潛在風險。

FreeEval還支持全流程的日志記錄和結(jié)果復現(xiàn),對于全過程中產(chǎn)生的模型請求和推理結(jié)果、推理參數(shù)等均會保存,保證了評估的透明性和可復現(xiàn)性。

目前,F(xiàn)reeEval已經(jīng)開源并將持續(xù)完善:https://github.com/WisdomShell/FreeEval

總結(jié)與展望

在當前人工智能和大語言模型快速發(fā)展的背景下,評估模型的真實能力和泛化性能變得越來越重要。KIEval和FreeEval的提出,正是為了應對現(xiàn)有評估方法在數(shù)據(jù)污染和評估全面性方面的挑戰(zhàn),提供一種更加動態(tài)、靈活和可信的評估方式。

KIEval是一種新的大模型評估范式,核心理念是通過知識驅(qū)動的多輪對話和交互評估,降低數(shù)據(jù)污染的影響,并深入考察模型在知識理解、邏輯推理和語言生成等方面的綜合能力。

實驗結(jié)果表明,KIEval不僅揭示了模型在靜態(tài)數(shù)據(jù)集上表現(xiàn)不顯著的性能差距,還可觀察出數(shù)據(jù)污染對模型理解和泛化能力的影響。相比傳統(tǒng)評估方法,KIEval的評估結(jié)果與人類評分的相關(guān)性更高,顯示出更好的評估有效性和可靠性。

FreeEval則提供了一個高效、靈活和可信任的工具包,用于構(gòu)建和驗證新的評估方法。其模塊化設計、高效的計算優(yōu)化和全面的評估工具,使研究者能夠快速構(gòu)建和定制評估流程,并確保評估結(jié)果的有效性和可靠性。

FreeEval的性能優(yōu)化和完善的日志記錄機制,為大規(guī)模模型評估提供了強有力的支持。

通過KIEval和FreeEval的結(jié)合,可以更加全面地評估大模型的真實能力,并為未來的模型改進和研究提供重要的見解。KIEval通過多輪對話評估模型的綜合能力,揭示了傳統(tǒng)靜態(tài)評估方法的不足;而FreeEval則通過其高效和靈活的設計,簡化了評估流程,提升了評估效率。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-07-02 09:47:40

人工智能技術(shù)教育

2023-08-14 08:15:44

谷歌模型

2025-02-14 10:23:00

LLM模型谷歌

2017-09-21 11:43:14

JavascriptHtml5Html

2024-07-23 09:26:20

2023-09-18 16:18:36

AICgen數(shù)據(jù)

2024-08-07 09:30:00

2023-05-10 14:40:40

AI模型算力

2025-01-02 14:30:00

AI訓練模型

2009-07-30 14:18:34

2022-06-07 10:28:53

云遷移云計算

2022-11-17 08:47:20

Go特性標準庫

2014-04-28 16:13:11

Unix目錄結(jié)構(gòu)

2020-04-16 10:55:03

Java虛擬機字節(jié)碼

2021-02-22 07:48:35

Excel數(shù)據(jù)分析快捷方式

2011-06-20 16:03:03

Qt 控件 鼠標

2020-09-10 07:04:30

JSJavaScript 原型鏈

2020-09-07 19:40:44

網(wǎng)絡運維

2013-07-24 17:42:55

華為銷售收入
點贊
收藏

51CTO技術(shù)棧公眾號