自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自動化、可復現,基于大語言模型群體智能的多維評估基準Decentralized Arena來了

人工智能 新聞
研究者們已經并陸續(xù)構建了成千上萬的大規(guī)模語言模型(LLM),這些模型的各項能力(如推理和生成)也越來越強。因此,在多樣的應用場景中對其進行性能基準測試已成為了一項重大挑戰(zhàn)。

Maitrix.org 是由 UC San Diego, John Hopkins University, CMU, MBZUAI 等學術機構學者組成的開源組織,致力于發(fā)展大語言模型 (LLM)、世界模型 (World Model)、智能體模型 (Agent Model) 的技術以構建 AI 驅動的現實。Maitrix.org 此前成功開發(fā)了 Pandora 視頻-語言世界模型、LLM Reasoners,以及 MMToM-QA 評測(ACL 2024 Outstanding Paper Award)。

研究者們已經并陸續(xù)構建了成千上萬的大規(guī)模語言模型(LLM),這些模型的各項能力(如推理和生成)也越來越強。因此,在多樣的應用場景中對其進行性能基準測試已成為了一項重大挑戰(zhàn)。目前最受歡迎的基準測試是 Chatbot Arena,它通過收集用戶對模型輸出的偏好來對 LLM 進行綜合排名。然而,隨著 LLM 逐漸落地于眾多應用場景,無論是針對工業(yè)生產目標,還是科學場景輔助需求,評估 LLM 在精細化維度上的能力都是至關重要的,例如:

  • 數學及其專門分支領域,如代數、幾何、概率和微積分。
  • 不同類型的推理能力,例如符號推理、類比推理、反事實推理和社會推理。
  • 不同編程語言的編碼能力,如 Python、C++、JavaScript 和 SQL。
  • 各種科學領域,如物理學、生物學和化學。
  • 以及任何與開發(fā)者實際應用相關的具體問題。

如此大規(guī)模且精細化(甚至定制化)的評估對于依賴于人群眾包的 Chatbot Arena 或類似的基準測試來說是一大挑戰(zhàn) —— 在成百上千個維度上為數千對模型(或數萬對模型)收集足夠的用戶投票是不切實際的。此外,由于人類查詢和投票過程存在噪聲以及個人主觀因素,評估結果往往難以復現。

最近,研究者們還探索了其他的自動評估方案,通過選擇一個(或幾個)“最強” 模型(通常是 GPT-4)作為評委來評估所有其他模型。然而,評委模型可能存在偏見,例如更傾向于選擇與其自身風格相似的輸出?;谶@種評估進行模型優(yōu)化可能會導致所有模型過度擬合 GPT-4 的偏見。

為了結合這兩種方案的優(yōu)勢,通過利用 “群體智能”(Chatbot Arena 依賴于人群智慧)來實現更穩(wěn)健且更少偏見的評估,同時使該過程自動化且可擴展到多維度能力比較,Maitrix.org 發(fā)布了 Decentralized Arena。

圖片

  • 原文地址: https://de-arena.maitrix.org
  • Leaderboards: https://huggingface.co/spaces/LLM360/de-arena

圖 1 展示了這些基準測試范式之間的主要區(qū)別。Decentralized Arena 的核心理念是利用所有 LLM 的集體智能進行相互評估和比較。這形成了一個去中心化、民主化的系統(tǒng),在該系統(tǒng)中,所有被評估的 LLM 同時也是能夠評估其他模型的評審者,與依賴于中心化的 “權威” 模型作為評審相比,Decentralized Arena 能夠實現更公平的排名。

圖片

圖 1:Open-ended 場景下 LLM 評估的不同范式,Decentralized Arena 結合了兩者的優(yōu)點,即去中心化與自動化。

圖片

圖 2:Decentralized Arena 與 Chatbot Arena 的 “整體” 排名表現出最強的相關性。

Decentralized Arena 的關鍵優(yōu)勢包括:

  • 穩(wěn)健且無偏:去中心化避免了單個或少數評委模型所帶來的偏見,并且不容易通過過擬合評委模型進行操控。參與競技場的 LLM 越多,評估越穩(wěn)健(圖 4)。此外,Decentralized Arena 在 50 多個模型的 “整體” 維度上與 Chatbot Arena 達到了非常高的相關性(95%,圖 2)。
  • 自動化、易于擴展且可定制到任何評估維度:由于用戶投票的數量有限,Chatbot Arena 只能評估少數維度,而 Decentralized Arena 由于完全自動化的設計,其能夠擴展到無限的評估維度,并且還提供了自動選擇特定維度問題以實現定制化評估的方案。
  • 快速、即時的新模型排名:同樣,由于自動化和高效的二分搜索排名算法,Decentralized Arena 能夠即時獲得新模型的評估結果,無需等待數周以收集用戶投票。
  • 透明且完全可復現:所有算法、實現和輸入 / 輸出都會公開,使得結果完全可復現。
  • 值得信賴:憑借其穩(wěn)健性、與現有人類評估結果的高度一致性、精細的維度分析以及透明度,Decentralized Arena 最終旨在提供一個值得社區(qū)信賴的基準。

圖 3 展示了最終排行榜的截圖。研究團隊正在繼續(xù)添加更多的模型和維度,歡迎來自社區(qū)的貢獻和提交!

圖片

圖 3:Decentralized Arena 排行榜,包括不同維度的排名。

方法:通過大語言模型的群體智能進行基準測試

去中心化的概念是通過讓所有 LLM 充當評審,對每一對模型(即決定哪個模型的輸出 “獲勝”,類似于 Chatbot Arena 中的人類評審)進行投票。一個簡單的做法是讓每個模型對所有其他模型對進行投票,其復雜度為 O (n^3*k),其中 n 是模型數量,k 是查詢數量。當 n 和 k 都很大時,這種方法的速度會非常慢。因此,研究團隊設計了一種基于增量排名、二分搜索插入和由粗到精調整的更高效的方法。

該研究從一小組 “種子” 模型(例如 15 個)開始,利用上述簡單方法迅速對它們進行排名。然后,其他模型一個接一個地通過粗篩和精排的步驟被增量插入到排名列表中。排名列表中的所有模型都將作為評審幫助新模型找到其位置。視頻 1 說明了這一過程。

視頻 1: 演示大語言模型插入過程。

  • 步驟 1: 基于二分搜索插入的粗略排名。該步驟旨在找到新模型在當前排名中的大致位置,其核心思想是使用二分搜索快速縮小位置范圍。在比較新模型與現有模型時,排名中的其他模型將作為評審,該二分搜索的時間復雜度為 O (k*n*logn)。
  • 步驟 2: 窗口內精細排名和滑動。為了進一步細化新模型的排名,該研究將它與排名中相鄰的模型進行比較(例如,排名中前后兩個模型)。這些相鄰的 LLM 往往是最難區(qū)分的,因此需要進行更細致的比較。窗口外的所有其他模型將作為評審,如果窗口內的比較導致新模型的位置發(fā)生變化,則在更新后的窗口內重復該過程,直到排名穩(wěn)定下來。此過程類似于一個滑動窗口,指導 LLM 群體關注最具模糊性的 LLM 比較對,確保精確排名并最小化計算成本。

在上述排名過程中,該研究收集了模型的成對比較結果,然后使用 Bradley-Terry (BT) 方法來估計每個模型在排名中的得分。這些得分用于在模型作為評審時賦予它們不同的權重 —— 得分較高的模型在評估其他模型對時影響更大(該研究還使用了其他簡單的加權方法,例如基于模型排名的線性遞減權重,這將在即將發(fā)布的技術報告中進一步討論)。這些得分在整個排名過程中會自動調整,最終得分在排名完成時確定。

去中心化評估系統(tǒng)的一個關鍵優(yōu)勢是,隨著更多模型的參與,排名將變得更加穩(wěn)定,如圖 4。

圖片

圖 4: 隨著模型數量的增加,排名中的方差(陰影區(qū)域)逐漸減小,表明排名變得越來越穩(wěn)健。

通過將上述自動化評估方法應用于多個評估維度,以獲得流行 LLM 的精細排名 (參見排行榜頁面)。

該方法與依賴大量人工評審的 Chatbot Arena 取得了高度的相關性(“整體” 維度的相關性為 95%)。圖 2 和圖 5 展示了這些相關性,表明 Decentralized Arena 優(yōu)于其他流行的基準測試,并展示了不同維度的排名之間的關系。

圖片

圖 5: 不同維度排名之間的相關性 (底部)。

構建自定義維度:選擇高價值問題集

Decentralized Arena 的另一個關鍵優(yōu)勢是其可擴展性,以便于增加任意新評估維度對 LLM 進行基準測試。用戶可以輕松地為自己關心的新維度創(chuàng)建排名。作為演示,該研究為數學、推理、科學和編程等多個維度創(chuàng)建了維度排名 (排行榜)。

要為新維度建立排名,需要為該維度準備一組問題集,然后在此問題集上對 LLM 進行比較。對于某一新維度(例如數學 - 代數),需要先從各種相關的開源數據集中提取并合并了一個大型初始問題集,然后進一步從中抽取少量核心問題以實現高效排名。最簡單的方法是從初始問題集中隨機抽取問題,其抽取的問題越多,最終排名就越穩(wěn)定。 

為了在較少的問題集下獲得穩(wěn)定的排名(從而提高排名效率),該研究還設計了一種新的自動問題集選擇的方法,如圖 6 所示。其核心思路是利用 LLM 的群體智能選擇出能夠在一小組 LLM 上產生一致排名的問題集,研究團隊將在即將發(fā)布的技術報告中介紹更多細節(jié)。

圖片

圖 6: 新維度的自動查詢選擇。

圖 7 顯示,其查詢選擇方法比隨機查詢抽樣產生了更好且更一致的排名。

圖片

圖 7: 使用其方法選擇的問題集比隨機抽樣的問題集實現了更高的相關性和更低的方差。

更多的結果

該研究做了更多的分析來以深入理解 Decentralized Arena 的結果。

圖 8 展示了排名中 LLM 的得分及其置信區(qū)間。

圖片

圖 8: LLM 的得分和置信區(qū)間。

該研究對排名過程中每一對 LLM 的勝率和比較次數分布進行了可視化處理(“Overall” 維度)。

如圖 9 和圖 10 所示,LLM 的群體智能自動集中在難以區(qū)分的鄰近 LLM 對上(在圖 10 中靠近對角線的模型,或在圖 9 中勝率接近 50% 的模型)。相比之下,性能差距較大的 LLM 之間的比較較為稀少(甚至被省略),從而降低了整體計算成本。

圖片

圖 9: 勝率分布圖。

圖片

圖 10: 對比次數分布圖。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-08 15:36:50

模型AI

2024-07-12 11:35:20

2023-11-05 15:09:35

模型AI

2020-12-09 10:15:52

智能自動化數字化轉型自動化

2024-04-11 14:12:53

2024-03-19 13:12:36

自動駕駛模型

2025-02-07 16:07:39

2023-08-17 08:29:22

2023-12-08 16:23:45

2023-11-01 10:23:13

2020-04-29 11:28:54

智能自動化機器人流程自動化AI

2022-02-18 13:12:49

人工智能自動化技術

2022-02-17 17:37:17

超級自動化人工智能AI

2022-02-10 12:04:45

網絡安全自動化

2024-06-14 20:38:37

Testin云測

2023-03-08 10:24:05

智能自動化數字策略

2025-03-11 13:49:20

2024-05-27 12:45:53

2011-04-18 13:45:59

自動化測試測試管理
點贊
收藏

51CTO技術棧公眾號