自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型權(quán)威測(cè)試被曝翻車!更偏袒GPT-4等閉源模型,連提示詞都區(qū)別對(duì)待

人工智能 新聞
此前MMLU原始版本早已經(jīng)被各家大模型刷爆了,誰考都是高分,對(duì)前沿模型已經(jīng)沒有了區(qū)分度。

大模型權(quán)威測(cè)試,翻車了?!

HuggingFace都在用的MMLU-PRO,被扒出評(píng)測(cè)方法更偏向閉源模型,被網(wǎng)友直接在GitHub Issue提出質(zhì)疑。

圖片

此前MMLU原始版本早已經(jīng)被各家大模型刷爆了,誰考都是高分,對(duì)前沿模型已經(jīng)沒有了區(qū)分度

號(hào)稱更強(qiáng)大、更具挑戰(zhàn)線性多任務(wù)語言基準(zhǔn)MMLU-Pro,成了業(yè)界對(duì)大模型性能的重要參考。

但結(jié)果沒想到的是,現(xiàn)在有人扒出其在采樣參數(shù)、系統(tǒng)提示和答案提取等方面設(shè)置不公平,存在一些令人震驚的差異。

隨便對(duì)系統(tǒng)提示詞做了個(gè)小修改,直接將開源陣營(yíng)的Llama-3-8b-q8的性能提高了10分?!

圖片

emmm……就問大模型跑分到底還能不能信了?

被扒偏向閉源模型

這是源于Reddit上一位ML/AI愛好者的意外發(fā)現(xiàn)。

還特意做了個(gè)免責(zé)聲明,自己只是感興趣,并不是ML研究員(Doge)

圖片

出于好奇想了解它是如何工作的,于是檢查了原始repo中的代碼以及每個(gè)模型使用的提示和響應(yīng)。

不看不知道,一看嚇一跳。

首先,他們不會(huì)對(duì)所有模型使用相同的參數(shù)。

圖片

其次,給每個(gè)大模型的Prompt差別也挺大啊喂?!

跟GPT-4o說:

您是知識(shí)專家,您應(yīng)該回答多選題,得出最終答案為「答案是 ….」

跟GPT-4說:

以下是有關(guān){主題}的選擇題(含答案)。請(qǐng)逐步思考,然后在最后以 “答案是 (X) ”作為輸出。

……
圖片

更離譜的是Claude3,沒有系統(tǒng)提示詞??。?!

此外,這位網(wǎng)友還發(fā)現(xiàn),模型必須按照指令輸出準(zhǔn)確的短語和格式,這點(diǎn)至關(guān)重要。

否則,模型的答案就不會(huì)被認(rèn)可,而是會(huì)為模型隨機(jī)生成一個(gè)答案。

于是乎他進(jìn)行了一個(gè)小小的測(cè)試。

通過調(diào)整系統(tǒng)提示,來強(qiáng)調(diào)格式的重要性,結(jié)果模型分?jǐn)?shù)顯著提高。

比如給llama-3-8b-q8說了這些話,結(jié)果它在一些類別中得分提高了10分以上。

圖片

作為一名知識(shí)淵博的專家,你的任務(wù)是回答只有一個(gè)正確答案的多項(xiàng)選擇題。清楚地解釋你對(duì)每道題的思考過程,提供全面、逐步的推理,說明你是如何得出最終答案的。如果沒有一個(gè)選項(xiàng)完全符合,請(qǐng)選擇最接近的一個(gè)。用準(zhǔn)確的短語和格式結(jié)束每個(gè)回答至關(guān)重要: 答案是 (X),其中 X 代表字母選項(xiàng),即使選擇最接近的選項(xiàng)也是如此。

此外對(duì)各個(gè)模型答案提取regex也不一樣。

圖片

此事一出,大家一片嘩然。他去團(tuán)隊(duì)GitHub頁面底下反應(yīng),也得到了官方回復(fù)。

官方回應(yīng):對(duì)結(jié)果影響不超過1%

大概有這么幾個(gè)意思。

首先,關(guān)于采樣參數(shù)和系統(tǒng)提示,我們建議使用我們 git 倉(cāng)庫(kù)中的 evaluate_from_api.py 和 evaluate_from_local.py,因?yàn)檫@些設(shè)置與我們論文中報(bào)告的結(jié)果一致。

至于像那些閉源模型的結(jié)果,因?yàn)槭遣煌献髡咄瑫r(shí)運(yùn)行的,所以會(huì)有些細(xì)微差別。

不過他們表示,有進(jìn)行抽樣測(cè)試,發(fā)現(xiàn)對(duì)結(jié)果的影響很小,不超過 1%。

另外,他們?cè)谡撐闹羞€強(qiáng)調(diào)了 MMLU-Pro 的魯棒性,因此從節(jié)約成本的角度出發(fā),我們選擇了不重新運(yùn)行所有項(xiàng)目。

對(duì)于答案提取regex問題,團(tuán)隊(duì)承認(rèn):這的確是一個(gè)重要問題。

因?yàn)橄?GPT-4o 和 Gemini 這樣的高性能模型來說,影響微乎其微。但對(duì)于較小規(guī)模的模型來說,影響可能會(huì)更大。

他們正計(jì)劃引入召回率更高的答案提取詞法,并將相應(yīng)地進(jìn)行標(biāo)準(zhǔn)化和重新提取答案。

此前還被爆出MMLU-Pro以數(shù)學(xué)為主

今年5月,來自滑鐵盧大模型老虎實(shí)驗(yàn)室陳文虎團(tuán)隊(duì)推出MMLU-Pro版。

當(dāng)時(shí)強(qiáng)調(diào)它主要有這些特點(diǎn):

1、隨機(jī)猜測(cè)的空間更小。Pro版使用 10 個(gè)選項(xiàng)而不是 4 個(gè)選項(xiàng)。

2、更復(fù)雜:MMLU-Pro 添加了更多不同學(xué)科的大學(xué)水平問題,共計(jì)12K個(gè)問題。

3、MMLU-Pro 更穩(wěn)健,對(duì)不同提示的敏感度更低。

結(jié)果 GPT-4o(71%)實(shí)際上比 GPT-4-turbo(62%)提高了 9%在原始 MMLU 上,改進(jìn)只有 2% 左右。

圖片

但使用之后發(fā)現(xiàn),有人反饋說MMLU-Pro以數(shù)學(xué)能力為主,但此前MMLU的價(jià)值在于知識(shí)和推理。

很多問題都需要多步驟的思維鏈CoT推理來解決應(yīng)用數(shù)學(xué)問題。

這樣的話對(duì)大模型來說太難了,大部分都集中在低端,這樣評(píng)估也就沒有意義。

圖片

好了對(duì)于這件事你怎么看呢?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-08-27 12:54:59

GPT-4神秘版本Code

2010-04-25 23:11:23

負(fù)載均衡設(shè)置

2023-09-02 20:19:10

2023-06-05 12:32:48

模型論文

2012-12-14 11:00:02

VDI桌面虛擬化

2023-07-05 09:57:11

2023-06-08 08:09:43

2009-04-01 14:38:36

聯(lián)通勞務(wù)正式工

2015-02-12 09:29:48

2024-06-17 07:46:01

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2024-06-24 17:45:16

2024-04-25 16:56:14

GPT-4大模型人工智能

2024-02-26 13:48:00

模型數(shù)據(jù)

2023-12-26 08:17:23

微軟GPT-4

2023-09-11 13:28:00

AI模型

2025-03-11 08:42:04

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)