自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

專治大模型“刷題”!賈佳亞團(tuán)隊(duì)新基準(zhǔn)讓模型只挑錯(cuò)不做題,GPT-4得分不到50

人工智能 新聞
賈佳亞團(tuán)隊(duì)聯(lián)合多家知名高校提出了一種全新的測(cè)評(píng)方法,讓一些模型立馬現(xiàn)出了原型。

大模型測(cè)試能拿高分,實(shí)際場(chǎng)景中卻表現(xiàn)不佳的問(wèn)題有解了。

賈佳亞團(tuán)隊(duì)聯(lián)合多家知名高校提出了一種全新的測(cè)評(píng)方法,讓一些模型立馬現(xiàn)出了原型。

這下不用擔(dān)心大模型“刷題”太多,測(cè)試集無(wú)法體現(xiàn)真實(shí)水平了。

圖片

這個(gè)新的測(cè)評(píng)數(shù)據(jù)集叫做MR-Ben,利用的是GSM8K、MMLU等數(shù)據(jù)集中的現(xiàn)有題目。

只不過(guò),大模型在測(cè)試中的身份從“答題學(xué)生”變成了“閱卷老師”,任務(wù)是要給已有的解答步驟指出錯(cuò)誤

這樣一來(lái),模型無(wú)法再通過(guò)背誦或猜測(cè)撞對(duì)題目,測(cè)試題泄露也無(wú)需擔(dān)心了。

利用MR-Ben,賈佳亞團(tuán)隊(duì)評(píng)測(cè)了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等許多開(kāi)源和閉源模型。

目前,該數(shù)據(jù)集涉及的所有代碼和數(shù)據(jù)均已開(kāi)源。

熟悉的試題,全新的任務(wù)

目前,大模型測(cè)試的主流方向是使用人類的標(biāo)準(zhǔn)化考試——選擇題和填空題的方式去進(jìn)行大模型評(píng)測(cè)。

這套測(cè)試方式的優(yōu)點(diǎn)是標(biāo)準(zhǔn)明確、指標(biāo)直觀,且量化結(jié)果天然具有話題性。

但作者認(rèn)為,由于現(xiàn)在的大模型普遍采用逐步作答的思維鏈方式生成最終答案,導(dǎo)致這種方式并不“靠譜”。

預(yù)訓(xùn)練模型在預(yù)訓(xùn)練時(shí)早已見(jiàn)過(guò)數(shù)以萬(wàn)億級(jí)別的token,很難判斷被評(píng)測(cè)的模型是否早已見(jiàn)過(guò)相應(yīng)的數(shù)據(jù),從而通過(guò)“背題”的方式回答正確。

而因?yàn)樵u(píng)測(cè)的方式主要靠檢查最終的答案,因此模型是否是基于正確的理解推理選出正確的選項(xiàng),也不得而知。

盡管學(xué)術(shù)界不斷地對(duì)諸如GSM8K、MMLU等數(shù)據(jù)集進(jìn)行升級(jí)改造,如在GSM8K上引入多語(yǔ)言版本的MGSM數(shù)據(jù)集,在MMLU的基礎(chǔ)上引入更難的題目等,依然無(wú)法擺脫選擇或填空的窠臼。

并且,這些數(shù)據(jù)集都已面臨著嚴(yán)重的飽和問(wèn)題,大語(yǔ)言模型在這些指標(biāo)上的數(shù)值已經(jīng)見(jiàn)頂,并逐漸喪失了區(qū)分度。

為此,賈佳亞團(tuán)隊(duì)聯(lián)合MIT、清華、劍橋等多家知名高校,與國(guó)內(nèi)頭部標(biāo)注公司合作,標(biāo)注了一個(gè)針對(duì)復(fù)雜問(wèn)題推理過(guò)程的評(píng)測(cè)數(shù)據(jù)集MR-Ben。

圖片

MR-Ben基于GSM8K、MMLU、LogiQA、MHPP等大模型預(yù)訓(xùn)練必測(cè)數(shù)據(jù)集的題目,進(jìn)行了“閱卷式”的范式改造,生成的新數(shù)據(jù)集更難、更有區(qū)分度,更能真實(shí)地反映模型推理能力!

不用重新找題出卷,也不用把題目變形來(lái)測(cè)試模型的魯棒性,MR-Ben直接讓模型從“答題者”變成“閱卷者”,對(duì)數(shù)據(jù)集中已有的答題過(guò)程進(jìn)行評(píng)判,通過(guò)讓大模型當(dāng)老師來(lái)測(cè)試它對(duì)知識(shí)點(diǎn)的掌握情況!

具體來(lái)說(shuō),賈佳亞團(tuán)隊(duì)針對(duì)市面上主流的評(píng)測(cè)數(shù)據(jù)集GSM8K、MMLU、LogiQA、MHPP等數(shù)據(jù)集進(jìn)行整理,并分成了數(shù)理化生、代碼、邏輯、醫(yī)藥等多個(gè)類別,同時(shí)區(qū)分了不同的難度等級(jí)。

針對(duì)每個(gè)類別、收集到的每個(gè)問(wèn)題,團(tuán)隊(duì)精心收集了對(duì)應(yīng)的分步解題過(guò)程,并經(jīng)由專業(yè)的碩博標(biāo)注者進(jìn)行培訓(xùn)和標(biāo)注。

標(biāo)注過(guò)程中,解題過(guò)程是否正確、出錯(cuò)的位置、出錯(cuò)的原因都會(huì)被細(xì)致指出,比對(duì)大模型的閱卷結(jié)果和人類專家的閱卷結(jié)果,就能知道模型對(duì)知識(shí)點(diǎn)的掌握情況。

圖片

從評(píng)測(cè)方式來(lái)看,MR-Ben所提出的方法,需要模型對(duì)于解題過(guò)程的每一個(gè)步驟的前提、假設(shè)、邏輯都進(jìn)行細(xì)致分析,并對(duì)推理過(guò)程進(jìn)行預(yù)演來(lái)判斷當(dāng)前步驟是否能導(dǎo)向正確答案。

這種“閱卷”式的評(píng)測(cè)方式從難度上遠(yuǎn)超于僅答題的評(píng)測(cè)方式,但可有效避免模型背題所導(dǎo)致的分?jǐn)?shù)虛高問(wèn)題。而只會(huì)背題的學(xué)生很難成為一名合格的閱卷老師。

GPT4-Turbo表現(xiàn)最佳

賈佳亞團(tuán)隊(duì)針對(duì)目前幾款知名的大模型進(jìn)行了評(píng)測(cè),部分模型有多個(gè)版本參與測(cè)試。

圖片

可以看到,閉源模型中,GPT4-Turbo的表現(xiàn)最佳(雖然在“閱卷”時(shí)未能發(fā)現(xiàn)計(jì)算錯(cuò)誤),在絕大部分的科目里,有demo(k=1)和無(wú)demo(k=0)的設(shè)置下都領(lǐng)先于其他模型。

智譜團(tuán)隊(duì)的GLM模型表現(xiàn)在榜單中位列第二,超過(guò)了Claude最新的3.5-Sonnet。

不過(guò)不同模型間的區(qū)分度較大,最強(qiáng)的GPT4-Turbo在MR-Ben數(shù)據(jù)集上獲得的成績(jī)也不到50分,可以看出其表現(xiàn)仍未飽和。

圖片

另外,一些表現(xiàn)較強(qiáng)的開(kāi)源模型,效果已經(jīng)趕上了部分商用模型。

圖片

除此之外,MR-Ben團(tuán)隊(duì)在工作過(guò)程中還發(fā)現(xiàn)了一些有意思的現(xiàn)象,例如:

  • 低資源場(chǎng)景下,小模型也有不少亮點(diǎn),MR-Ben評(píng)測(cè)中Phi-3-mini在一眾小模型里脫穎而出,甚至高于或持平幾百億參數(shù)的大模型,展現(xiàn)出了微調(diào)數(shù)據(jù)的重要性。
  • MR-Ben場(chǎng)景包含復(fù)雜的邏輯解析和逐步推斷,F(xiàn)ew-shot模式下過(guò)長(zhǎng)的上下文反而會(huì)使得模型困惑,造成水平下降的后果。
  • MR-Ben評(píng)測(cè)了不少生成-反思-重生成的消融實(shí)驗(yàn),查看不同提示策略的差異,發(fā)現(xiàn)對(duì)低水平的模型沒(méi)有效果,對(duì)高水平的模型如GPT4-Turbo效果也不明顯。反而對(duì)中間水平的模型因?yàn)榭偘彦e(cuò)的改對(duì),對(duì)的改錯(cuò),效果反而略有提升。
  • 將MR-Ben評(píng)測(cè)的科目粗略劃分成知識(shí)型、邏輯型、計(jì)算型、算法型后,不同的模型在不同的推理類型上各有優(yōu)劣。

賈佳亞團(tuán)隊(duì)已在github上傳一鍵評(píng)測(cè)的方式,測(cè)試一次消耗的token量大約為12M,開(kāi)發(fā)者可以在自家的模型上評(píng)測(cè)并提交,MR-Ben團(tuán)隊(duì)會(huì)及時(shí)更新相應(yīng)的leaderboard。

論文地址:https://arxiv.org/abs/2406.13975
項(xiàng)目主頁(yè):https://randolph-zeng.github.io/Mr-Ben.github.io/
Github Repo:https://github.com/dvlab-research/Mr-Ben

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-07-08 08:38:00

模型推理

2023-10-04 10:38:38

模型方法

2023-07-05 09:57:11

2023-08-09 17:38:47

模型AI

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)

2024-04-15 12:54:39

2024-04-15 12:28:00

AI模型

2023-08-24 13:59:57

模型數(shù)據(jù)

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2023-07-09 14:50:48

模型調(diào)優(yōu)

2023-05-15 15:38:59

AI模型

2024-04-01 08:00:00

AI模型

2023-10-14 13:09:53

谷歌模型

2023-12-26 08:17:23

微軟GPT-4

2023-10-14 17:24:49

2023-07-23 18:55:20

ChatGPTGPT-4

2024-06-12 11:50:23

2023-06-05 12:32:48

模型論文

2024-05-09 08:33:33

2023-05-29 09:29:52

GPT-4語(yǔ)言模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)