AI大牛karpathy點贊SEAL榜單,LLM評估的狀況過去是非常糟糕的!
lmsys.org的一個嚴(yán)肅的競爭對手已經(jīng)加入了對LLMs(大型語言模型)評估的討論中:SEAL Leaderboards——對領(lǐng)先前沿模型進行的私密、專家評估。
SEAL Leaderboards的設(shè)計原則:
??私密 + 無法被利用。在評估上不會過度擬合!
??領(lǐng)域?qū)<以u估
??持續(xù)更新,包含新數(shù)據(jù)和模型
https://x.com/karpathy/status/179587366648140201
Andrej Karpathy(原OpenAI的創(chuàng)始成員和研究科學(xué)家,也是特斯拉人工智能和自動駕駛部門(Autopilot)原負(fù)責(zé)人)的一些觀點:
- LLM評估正在改進,但不久前它們的狀況非常糟糕,因為定性體驗經(jīng)常與定量排名不符。
- 好的評估很難構(gòu)建——在特斯拉,Karpathy可能花了1/3的時間在數(shù)據(jù)上,1/3在評估上,還有1/3在其他所有事情上。它們必須全面、代表性強、質(zhì)量高,并測量梯度信號(即不要太容易,也不要太困難),在定性和定量評估一致之前,有很多細(xì)節(jié)需要考慮和正確處理。
- 任何公開(非私有)的測試數(shù)據(jù)集不可避免地會滲透到訓(xùn)練集中。這是人們強烈直覺上懷疑的事情,也是為什么最近的GSM1k引起了轟動。https://arxiv.org/html/2405.00332。
- 即使LLM開發(fā)者盡了最大努力,防止測試集滲透到訓(xùn)練集中(以及答案被記?。┮彩抢щy的。當(dāng)然,你可以盡力過濾掉完全匹配的項。你也可以過濾掉近似匹配的項,比如使用n-gram重疊等。但是你如何過濾掉合成數(shù)據(jù)重寫,或者有關(guān)數(shù)據(jù)的相關(guān)在線討論呢?一旦我們開始常規(guī)地訓(xùn)練多模態(tài)模型,你如何過濾掉數(shù)據(jù)的圖像/截圖?你如何防止開發(fā)者,例如,向量嵌入測試集,并特別針對與測試集在嵌入空間中高度一致的數(shù)據(jù)進行訓(xùn)練?
- 大家關(guān)心的并非所有LLM任務(wù)都可以自動評估(例如,想想摘要等),在這種情況下,你希望涉及人類。當(dāng)你這樣做時,你如何控制所有涉及的變量,比如人們有多關(guān)注實際答案,或者長度,或者風(fēng)格,或者如何處理拒絕等。
- 好的評估出人意料地困難,工作量巨大,但非常重要。
SEAL Leaderboards一些大模型評估結(jié)果,包括一些領(lǐng)先大模型:
- GPT-4o - GPT-4 Turbo - Claude 3 Opus - Gemini 1.5 Pro - Gemini 1.5 Flash - Llama3 - Mistral Large
圖片
圖片
圖片
SEAL Leaderboards https://scale.com/leaderboard