自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MMLU-Pro:新的 LLM 評估基準

發(fā)布于 2024-7-8 08:04
瀏覽
0收藏

一、背景

上一篇文章(???LLM 評估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎???)我們簡單匯總了一些常見的 LLM 評估指標,以及在收集這些指標時遇到的問題。最近在看 [2405.19327] MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series 時發(fā)現(xiàn)其提到了 MMLU-Pro 評估集,之前沒有接觸到,與此同時又正好看到了對應的 Paper,這里簡單進行介紹。MAP-Neo 和 MMLU-Pro 的部分作者是相同的。

對應的 Paper:[2406.01574] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

對應的數(shù)據(jù)集:TIGER-Lab/MMLU-Pro · Datasets at Hugging Face

對應的 Leaderboard:MMLU Pro - a Hugging Face Space by TIGER-Lab

二、摘要

在 LLM 的發(fā)展歷程中,MMLU 這樣的基準測試在推動 AI 在不同領域的語言理解和推理方面起到關鍵作用。然而,隨著模型的不斷改進,這些基準測試的性能開始趨于穩(wěn)定,辨別不同模型能力的差異變得越來越困難。

因此作者創(chuàng)建了 MMLU-Pro,這是一個增強的數(shù)據(jù)集,旨在集成更具挑戰(zhàn)性、以推理為主的問題,并將多項選擇的選項從 4 個擴展到 10 個,以此來擴展廣泛使用的 MMLU 基準。作者從 MMLU中刪除了不重要問題和噪聲問題。

實驗表明,與 MMLU 相比,MMLU-Pro 進一步降低了不同模型的精度指標,還擴大了差距,各個模型的 MMLU-Pro 精度指標相比 MMLU 下降 16%-33%;此外,也在不同的提示下表現(xiàn)出更高的穩(wěn)定性。通過測試 24 中不同風格的 Prompt,模型分數(shù)對 Prompt 變化的敏感性從 MMLU 的 4%-5% 下降到 MMLU-Pro 的 2%。最后,作者發(fā)現(xiàn)使用 CoT(思維鏈) 推理與直接回答相比,模型在 MMLU-Pro 上取得了更好的性能,這與原始 MMLU 中的表現(xiàn)形成鮮明對比,表明 MMLU-Pro 包含更復雜的推理問題。

三、引言

3.1 指標區(qū)分度

我們在之前的文章中梳理了各種 LLM 評估指標,可以發(fā)現(xiàn)很多模型在 MMLU,GSM-8K,BBH,HellaSwag 和 ARC-C 上的指標已經(jīng)很高,尤其是 Top 的模型。如下圖所示,其中 MMLU、HellaSwag,ARC-C 以及 GSM-8K 尤其明顯,很多指標都到了 90 左右:

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

3.2 評估穩(wěn)定性

在 DeepSeek-V2([2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model)中,作者使用內(nèi)部評估工具進行評估,其部分指標和其它論文中看到的不一致,有些甚至差距很大,這也就導致很難進行公平的比較。出現(xiàn)這種問題很可能是配置未對齊,比如使用了不同的 Prompt:

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

四、MMLU-Pro 數(shù)據(jù)集

4.1 概述

如下圖 Figure 3 所示,新的 MMLU-Pro 數(shù)據(jù)集包含 14 個子集,總共 12032 個問題,左圖為各個子集的占比。右圖為各個數(shù)據(jù)集的來源,可以看出,56.5% 的問題來源于原始的 MMLU 數(shù)據(jù)集,然后又從 STEM Website、TheoremQA 和 Scibench 中收集了一部分數(shù)據(jù)。

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

3.2 數(shù)據(jù)集構建

MMLU-Pro 數(shù)據(jù)集的收集過程如下圖 Figure 2 所示,主要包含如下幾個步驟:

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

3.2.1 Initial Filtering

原始的 MMLU 數(shù)據(jù)集包含 57 個主題,作者將其合并到 14 個。然后使用 8 個小模型來評估(LLaMA2-7B、LLaMA2-7B-Chat、LLaMA2-13B、LLaMA2-13B-Chat、Mistral-7B、Gemma-7B、Yi-6B 和 Yi-6B-Chat),如果超過 4 個模型回答正確,則認為相應的問題太簡單,從數(shù)據(jù)集刪除。經(jīng)過該步驟總共過濾掉 5886 個問題,具體如下圖 Table 4 所示:

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

3.2.2 Question Collection and Integration

為了擴充數(shù)據(jù)集,作者從 STEM Website(Index of /subjects)、TheoremQA 和 SciBench 中收集了一部分數(shù)據(jù)。然后使用 GPT-4 Turbo 對上述數(shù)據(jù)進行了整理,以便與 MMLU 中過濾的數(shù)據(jù)保持一致,同時作者也進行了必要的人工校驗,以刪除 GPT-4 Turbo 處理異常的問題。

3.2.3 Option Augmentation

上述問題都是多項選擇題,有 4 個選項。作者使用 GPT-4 Turbo 對問題進行了擴展,將 4 個選項擴展為 10 個選項。這些新增的選項也具有一定的迷惑性,可以幫助識別模型的推理能力,降低模型猜對的可能性,因此也使得評估更加魯棒。此外,作者也進一步通過實驗驗證,使用 GPT-4 Turbo 來擴展并不會使得這個評估對 GPT-4 Turbo 更有利。

3.2.4 Expert Review

Expert Review 包含兩個階段:

  • 驗證答案的正確性,并刪除不適合作為多項選擇題的問題,或者缺乏必要文本信息的問題,比如包含圖片,表格。
  • 使用 Gemini-1.5-Pro 重新評估所有答案選項來識別 false negative,也就是正確答案被標記為錯誤答案的情況。并且會使用人類專家來嚴格審查這些問題。

如下圖 Table 1 所示為篩選出來的問題:

  • Incorrect Answer:答案錯誤的情況。主要來源為 MMLU 中本身答案是錯誤,以及 STEM Website 中錯誤提取。
  • False Negative Options:這個問題主要來源為將單個答案問題轉換為 4 個選項,以及 4 個選項進一步擴展為 10 個選項的階段。通過專家 Review 會刪除 False Negative 的選項,因此最終 83% 的問題有 10 個選項,17% 的問題選項少于 10 個,平均有 9.47 個選項。
  • Bad Questions:比如不包含文本信息,缺乏文本信息,或者開放性問題。?

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

如下圖 Table 5 所示為最終問題的分布:

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

五、實驗

5.1 Few-Shot CoT 評估

如下圖 Table 2 所示,作者基于提出的 MMLU-Pro 評估了常見的 LLM(除了 Gemini-1.5 Pro 和 Gemini-1.5-Flash 為 0-shot 外,其它都是 5-shot,并且都用了 CoT)??梢钥闯觯]源模型相比開源模型還是有比較明顯的優(yōu)勢,其中 GPT-4o 性能最優(yōu),而在開源模型中,LLaMA-3-70B-Instruct 性能最優(yōu):

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

5.2 與 MMLU 對比

如下圖 Figure 4 所示,作者對比了同樣模型在 MMLU-Pro 和 MMLU 上的指標??梢钥闯鲈?MMLU-Pro 上的精度明顯低于 MMLU,并且在 MMLU-Pro 上的區(qū)分度更大,這也證明 MMLU-Pro 更加有挑戰(zhàn):

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

如下圖所示為我們收集到的一些對比數(shù)據(jù):

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

5.3 不同 Prompt 的影響

如下圖 Figure 5 所示,作者進一步在 MMLU 和 MMLU-Pro 上驗證了不同 Prompt 對評估結果的影響,可以看出在 MMLU-Pro 上的評估差異更小,也證明其評估集更加魯棒:

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

5.3 CoT 的影響

如下圖 Table 3 所示,作者進一步在 MMLU 和 MMLU-Pro 上驗證了直接問答以及使用 CoT 的差異,可以看出,在 MMLU-Pro 上使用 CoT 和不使用 CoT 的差異更大,可以證明 MMLU-Pro 數(shù)據(jù)集需要更強的推理能力:

MMLU-Pro:新的 LLM 評估基準-AI.x社區(qū)

六、參考鏈接

  1. ???https://arxiv.org/abs/2405.19327???
  2. ???https://arxiv.org/abs/2406.01574???
  3. ???https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro???
  4. ???https://huggingface.co/spaces/TIGER-Lab/MMLU-Pro???
  5. ???https://arxiv.org/abs/2405.04434???
  6. ???https://stemez.com/subjects???

本文轉載自 ??AI閑談??,作者: AI閑談

收藏
回復
舉報
回復
相關推薦