自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

AI大牛karpathy點贊SEAL榜單，LLM評估的狀況過去是非常糟糕的！

作者：PaperAgent 2024-05-30 13:06:40

即使LLM開發(fā)者盡了最大努力，防止測試集滲透到訓(xùn)練集中（以及答案被記住）也是困難的。當(dāng)然，你可以盡力過濾掉完全匹配的項。你也可以過濾掉近似匹配的項，比如使用n-gram重疊等。但是你如何過濾掉合成數(shù)據(jù)重寫，或者有關(guān)數(shù)據(jù)的相關(guān)在線討論呢？

lmsys.org的一個嚴(yán)肅的競爭對手已經(jīng)加入了對LLMs（大型語言模型）評估的討論中：SEAL Leaderboards——對領(lǐng)先前沿模型進行的私密、專家評估。

SEAL Leaderboards的設(shè)計原則：

??私密 + 無法被利用。在評估上不會過度擬合！

??領(lǐng)域?qū)＜以u估

??持續(xù)更新，包含新數(shù)據(jù)和模型

https://x.com/karpathy/status/179587366648140201

Andrej Karpathy（原OpenAI的創(chuàng)始成員和研究科學(xué)家，也是特斯拉人工智能和自動駕駛部門(Autopilot)原負(fù)責(zé)人）的一些觀點：

LLM評估正在改進，但不久前它們的狀況非常糟糕，因為定性體驗經(jīng)常與定量排名不符。
好的評估很難構(gòu)建——在特斯拉，Karpathy可能花了1/3的時間在數(shù)據(jù)上，1/3在評估上，還有1/3在其他所有事情上。它們必須全面、代表性強、質(zhì)量高，并測量梯度信號（即不要太容易，也不要太困難），在定性和定量評估一致之前，有很多細(xì)節(jié)需要考慮和正確處理。
任何公開（非私有）的測試數(shù)據(jù)集不可避免地會滲透到訓(xùn)練集中。這是人們強烈直覺上懷疑的事情，也是為什么最近的GSM1k引起了轟動。https://arxiv.org/html/2405.00332。
即使LLM開發(fā)者盡了最大努力，防止測試集滲透到訓(xùn)練集中（以及答案被記?。┮彩抢щy的。當(dāng)然，你可以盡力過濾掉完全匹配的項。你也可以過濾掉近似匹配的項，比如使用n-gram重疊等。但是你如何過濾掉合成數(shù)據(jù)重寫，或者有關(guān)數(shù)據(jù)的相關(guān)在線討論呢？一旦我們開始常規(guī)地訓(xùn)練多模態(tài)模型，你如何過濾掉數(shù)據(jù)的圖像/截圖？你如何防止開發(fā)者，例如，向量嵌入測試集，并特別針對與測試集在嵌入空間中高度一致的數(shù)據(jù)進行訓(xùn)練？
大家關(guān)心的并非所有LLM任務(wù)都可以自動評估（例如，想想摘要等），在這種情況下，你希望涉及人類。當(dāng)你這樣做時，你如何控制所有涉及的變量，比如人們有多關(guān)注實際答案，或者長度，或者風(fēng)格，或者如何處理拒絕等。
好的評估出人意料地困難，工作量巨大，但非常重要。

SEAL Leaderboards一些大模型評估結(jié)果，包括一些領(lǐng)先大模型：

- GPT-4o - GPT-4 Turbo - Claude 3 Opus - Gemini 1.5 Pro - Gemini 1.5 Flash - Llama3 - Mistral Large

圖片

圖片

圖片

SEAL Leaderboards  https://scale.com/leaderboard

責(zé)任編輯：武曉燕來源： PaperAgent

AI LLM 開發(fā)者

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="2yy3g"></cite>

<cite id="2yy3g"></cite>

<sub id="2yy3g"></sub>