自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)模型評測框架lmms-eval發(fā)布!全面覆蓋,低成本,零污染

人工智能 新聞
來自南洋理工大學 LMMs-Lab 的研究人員聯(lián)合開源了 LMMs-Eval,這是一個專為多模態(tài)大型模型設(shè)計的評估框架,為多模態(tài)模型(LMMs)的評測提供了一站式、高效的解決方案。

隨著大模型研究的深入,如何將其推廣到更多的模態(tài)上已經(jīng)成為了學術(shù)界和產(chǎn)業(yè)界的熱點。最近發(fā)布的閉源大模型如 GPT-4o、Claude 3.5 等都已經(jīng)具備了超強的圖像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等開源領(lǐng)域模型也展現(xiàn)出了越來越接近閉源的性能。

在這個「畝產(chǎn)八萬斤」,「10 天一個 SoTA」的時代,簡單易用、標準透明、可復(fù)現(xiàn)的多模態(tài)評估框架變得越來越重要,而這并非易事。

為解決以上問題,來自南洋理工大學 LMMs-Lab 的研究人員聯(lián)合開源了 LMMs-Eval,這是一個專為多模態(tài)大型模型設(shè)計的評估框架,為多模態(tài)模型(LMMs)的評測提供了一站式、高效的解決方案。

圖片

  • 代碼倉庫: https://github.com/EvolvingLMMs-Lab/lmms-eval
  • 官方主頁: https://lmms-lab.github.io/
  • 論文地址: https://arxiv.org/abs/2407.12772
  • 榜單地址:https://huggingface.co/spaces/lmms-lab/LiveBench

自 2024 年 3 月發(fā)布以來, LMMs-Eval 框架已經(jīng)收到了來自開源社區(qū)、公司和高校等多方的協(xié)作貢獻?,F(xiàn)已在 Github 上獲得 1.1K Stars,超過 30+ contributors,總計包含 80 多個數(shù)據(jù)集和 10 多個模型,并且還在持續(xù)增加中。

圖片

標準化測評框架

為了提供一個標準化的測評平臺,LMMs-Eval 包含了以下特性:

  1. 統(tǒng)一接口:  LMMs-Eval 在文本測評框架 lm-evaluation-harness 的基礎(chǔ)上進行了改進和擴展,通過定義模型、數(shù)據(jù)集和評估指標的統(tǒng)一接口,方便了使用者自行添加新的多模態(tài)模型和數(shù)據(jù)集。
  2. 一鍵式啟動:LMMs-Eval 在 HuggingFace 上托管了 80 多個(且數(shù)量不斷增加)數(shù)據(jù)集,這些數(shù)據(jù)集精心從原始來源轉(zhuǎn)換而來,包括所有變體、版本和分割。用戶無需進行任何準備,只需一條命令,多個數(shù)據(jù)集和模型將被自動下載并測試,等待幾分鐘時間即可獲得結(jié)果。
  3. 透明可復(fù)現(xiàn):LMMs-Eval 內(nèi)置了統(tǒng)一的 logging 工具,模型回答的每一題以及正確與否都會被記錄下來, 保證了可復(fù)現(xiàn)性和透明性。同時也方便比較不同模型的優(yōu)勢與缺陷。

LMMs-Eval 的愿景是未來的多模態(tài)模型不再需要自行編寫數(shù)據(jù)處理、推理以及提交代碼。在當今多模態(tài)測試集高度集中的環(huán)境下,這種做法既不現(xiàn)實,測得的分數(shù)也難以與其他模型直接對比。通過接入 LMMs-Eval,模型訓練者可以將更多精力集中在模型本身的改進和優(yōu)化上,而不是在評測和對齊結(jié)果上耗費時間。

評測的「不可能三角」

LMMs-Eval 的最終目標是找到一種 1. 覆蓋廣 2. 成本低 3. 零數(shù)據(jù)泄露 的方法來評估 LMMs。然而,即使有了 LMMs-Eval,作者團隊發(fā)現(xiàn)想同時做到這三點困難重重,甚至是不可能的。

如下圖所示,當他們將評估數(shù)據(jù)集擴展到 50 多個時,執(zhí)行這些數(shù)據(jù)集的全面評估變得非常耗時。此外,這些基準在訓練期間也容易受到污染的影響。為此, LMMs-Eval 提出了 LMMs-Eval-Lite 來兼顧廣覆蓋和低成本。他們也設(shè)計了 LiveBench 來做到低成本和零數(shù)據(jù)泄露。

圖片

LMMs-Eval-Lite: 廣覆蓋輕量級評估

圖片

在評測大模型時,往往龐大的參數(shù)量和測試任務(wù)會使得評測任務(wù)的時間和成本急劇上升,因此大家往往會選擇使用較小的數(shù)據(jù)集或是使用特定的數(shù)據(jù)集進行評測。然而,有限的評測往往會使得對于模型能力的理解有所缺失,為了同時兼顧評測的多樣性和評測的成本,LMMs-Eval 推出了 LMMs-Eval-Lite

圖片

LMMs-Eval-Lite 旨在構(gòu)建一個簡化的基準測試集,以在模型開發(fā)過程中提供有用且快速的信號,從而避免現(xiàn)在測試的臃腫問題。如果我們能夠找到現(xiàn)有測試集的一個子集,在這上面的模型之間的絕對分數(shù)和相對排名與全集保持相似,那么我們可以認為修剪這些數(shù)據(jù)集是安全的。

為了找到數(shù)據(jù)集中的數(shù)據(jù)顯著點,LMMs-Eval 首先使用 CLIP 和 BGE 模型將多模態(tài)評測數(shù)據(jù)集轉(zhuǎn)換為向量嵌入的形式并使用 k-greedy 聚類的方法找到了數(shù)據(jù)顯著點。在測試中,這些規(guī)模較小的數(shù)據(jù)集仍然展現(xiàn)出與全集相似的評測能力。

圖片

隨后 LMMs-Eval 使用了相同的方法制作了涵蓋更多數(shù)據(jù)集的 Lite 版本,這些數(shù)據(jù)集旨在幫助人們節(jié)省開發(fā)中的評測成本,以便快速判斷模型性能

圖片

LiveBench: LMMs 動態(tài)測試

傳統(tǒng)基準側(cè)重于使用固定問題和答案的靜態(tài)評估。隨著多模態(tài)研究的進展,開源模型在分數(shù)比較往往優(yōu)于商用模型,如 GPT-4V,但在實際用戶體驗中卻有所不及。動態(tài)的、用戶導向的 Chatbot Arenas 和 WildVision 在模型評估中越來越受歡迎,但是它們需要收集成千上萬的用戶偏好,評估成本極高。

LiveBench 的核心思想是在一個不斷更新的數(shù)據(jù)集上評估模型的性能,以實現(xiàn)零污染且保持低成本。作者團隊從網(wǎng)絡(luò)上收集評估數(shù)據(jù),并構(gòu)建了一條 pipeline,自動從新聞和社區(qū)論壇等網(wǎng)站收集最新的全球信息。為了確保信息的及時性和真實性,作者團隊從包括 CNN、BBC、日本朝日新聞和中國新華社等 60 多個新聞媒體,以及 Reddit 等論壇中選擇來源。具體步驟如下:

  1. 捕捉主頁截圖并去除廣告和非新聞元素。
  2. 使用當前最強大的多模態(tài)模型(如 GPT4-V、Claude-3-Opus 和 Gemini-1.5-Pro)設(shè)計問題和答案集。由另一模型審查和修訂
  3. 問題,確保準確性和相關(guān)性。
  4. 人工審查最終的問答集,每月收集約 500 個問題,保留 100-300 個作為最終的 \livebench 問題集。
  5. 采用 LLaVA-Wilder 和 Vibe-Eval 的評分標準 -- 評分模型根據(jù)提供的標準答案評分,得分范圍為 [1, 10]。默認評分模型為 GPT-4o,還包括 Claude-3-Opus 和 Gemini 1.5 Pro 作為備選。最終的報告結(jié)果將基于得分轉(zhuǎn)換為 0 到 100 的準確率指標。

圖片

未來也可以在我們動態(tài)更新的榜單里查看多模態(tài)模型在每個月動態(tài)更新的最新評測數(shù)據(jù),以及在榜單上的最新評測的結(jié)果。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-01-08 08:21:16

2024-01-11 09:37:58

模型AI

2024-05-06 08:44:25

FrugalGPT大型語言模型LLM

2009-02-27 10:16:16

微軟Windows Ser低成本

2023-05-19 13:01:10

ChatGPT模型

2022-12-09 14:07:11

框架開源

2025-03-13 09:47:29

2023-12-25 09:07:50

AI人工智能Ferret

2023-05-15 12:14:02

ChatGPT語音模型

2024-10-14 14:10:00

大模型AI開源

2025-04-07 00:00:00

多模態(tài)大模型

2023-12-07 12:38:09

架構(gòu)低成本開發(fā)

2024-11-13 09:39:13

2024-12-18 18:57:58

2025-03-19 09:30:00

2021-07-20 11:54:14

物聯(lián)網(wǎng)零售節(jié)能IoT

2025-02-12 10:12:00

視頻模型AI

2022-06-13 11:57:04

谷歌模型計算
點贊
收藏

51CTO技術(shù)棧公眾號