自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

UC伯克利發(fā)布大語言模型排行榜!Vicuna奪冠,清華ChatGLM進前5

人工智能 新聞
萬萬沒想到,現(xiàn)在大語言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了!據(jù)說,那些閉源模型們很快也會被拉出來溜溜。

最近,來自LMSYS Org(UC伯克利主導(dǎo))的研究人員又搞了個大新聞——大語言模型版排位賽!

顧名思義,「LLM排位賽」就是讓一群大語言模型隨機進行battle,并根據(jù)它們的Elo得分進行排名。

然后,我們就能一眼看出,某個聊天機器人到底是「嘴強王者」還是「最強王者」。

劃重點:團隊還計劃把國內(nèi)和國外的這些「閉源」模型都搞進來,是騾子是馬溜溜就知道了!(GPT-3.5現(xiàn)在就已經(jīng)在匿名競技場里了)

圖片

匿名聊天機器人競技場長下面這樣:

很明顯,模型B回答正確,拿下這局;而模型A連題都沒讀懂……

圖片

項目地址:https://arena.lmsys.org/

在當前的排行榜中,130億參數(shù)的Vicuna以1169分穩(wěn)居第一,同樣130億參數(shù)的Koala位列第二,LAION的Open Assistant排在第三。

清華提出的ChatGLM,雖然只有60億參數(shù),但依然沖進了前五,只比130億參數(shù)的Alpaca落后了23分。

相比之下,Meta原版的LLaMa只排到了第八(倒數(shù)第二),而Stability AI的StableLM則獲得了唯一的800+分,排名倒數(shù)第一。

團隊表示,之后不僅會定期更新排位賽榜單,而且還會優(yōu)化算法和機制,并根據(jù)不同的任務(wù)類型提供更加細化的排名。

圖片

目前,所有的評估代碼以及數(shù)據(jù)分析均已公布。

拉著LLM打排位

在這次的評估中,團隊選擇了目前比較出名的9個開源聊天機器人。

每次1v1對戰(zhàn),系統(tǒng)都會隨機拉兩個上場PK。用戶則需要同時和這兩個機器人聊天,然后決定哪個聊天機器人聊的更好。

可以看到,頁面下面有4個選項,左邊(A)更好,右邊(B)更好,一樣好,或者都很差。

當用戶提交投票之后,系統(tǒng)就會顯示模型的名稱。這時,用戶可以繼續(xù)聊天,或者選擇新的模型重新開啟一輪對戰(zhàn)。

不過,團隊在分析時,只會采用模型是匿名時的投票結(jié)果。在經(jīng)過差不多一周的數(shù)據(jù)收集之后,團隊共收獲了4.7k個有效的匿名投票。

圖片

在開始之前,團隊先根據(jù)基準測試的結(jié)果,掌握了各個模型可能的排名。

根據(jù)這個排名,團隊會讓模型去優(yōu)先選擇更合適的對手。

然后,再通過均勻采樣,來獲得對排名的更好總體覆蓋。

在排位賽結(jié)束時,團隊又引入了一種新模型fastchat-t5-3b。

以上這些操作最終導(dǎo)致了非均勻的模型頻率。

圖片

每個模型組合的對戰(zhàn)次數(shù)

從統(tǒng)計數(shù)據(jù)來看,大多數(shù)用戶所用的都是英語,中文排在第二位。

圖片

排名前15的語言的對戰(zhàn)次數(shù)

評估LLM,真的很難

自從ChatGPT爆火之后,經(jīng)過指令跟隨微調(diào)的開源大語言模型如雨后春筍一般大量涌現(xiàn)??梢哉f,幾乎每周都有新的開源LLM在發(fā)布。

但問題是,評估這些大語言模型非常難。

具體來說,目前用來衡量一個模型好不好的東西基本都是基于一些學(xué)術(shù)的benchmark,比如在一個某個NLP任務(wù)上構(gòu)建一個測試數(shù)據(jù)集,然后看測試數(shù)據(jù)集上準確率多少。

然而,這些學(xué)術(shù)benchmark(如HELM)在大模型和聊天機器人上就不好用了。其原因在于:

1. 由于評判聊天機器人聊得好不好這件事是非常主觀的,因此現(xiàn)有的方法很難對其進行衡量。

2. 這些大模型在訓(xùn)練的時候就幾乎把整個互聯(lián)網(wǎng)的數(shù)據(jù)都掃了一個遍,因此很難保證測試用的數(shù)據(jù)集沒有被看到過。甚至更進一步,用測試集直接對模型進行「特訓(xùn)」,如此一來表現(xiàn)必然更好。

3. 理論上我們可以和聊天機器人聊任何事情,但很多話題或者任務(wù)在現(xiàn)存的benchmark里面根本就不存在。

圖片

那如果不想采用這些benchmark的話,其實還有一條路可以走——花錢請人來給模型打分。

實際上,OpenAI就是這么搞的。但是這個方法明顯很慢,而且更重要的是,太貴了……

為了解決這個棘手的問題,來自UC伯克利、UCSD、CMU的團隊發(fā)明了一種既好玩又實用的全新機制——聊天機器人競技場(Chatbot Arena)。

相比而言,基于對戰(zhàn)的基準系統(tǒng)具有以下優(yōu)勢:

  • 可擴展性(Scalability)

當不能為所有潛在的模型對收集足夠的數(shù)據(jù)時,系統(tǒng)應(yīng)能擴展到盡可能多的模型。

  • 增量性(Incrementality)

系統(tǒng)應(yīng)能夠使用相對較少的試驗次數(shù)評估新模型。

  • 唯一順序(Unique order)

系統(tǒng)應(yīng)為所有模型提供唯一順序。給定任意兩個模型,我們應(yīng)該能夠判斷哪個排名更高或它們是否并列。

Elo評分系統(tǒng)

Elo等級分制度(Elo rating system)是一種計算玩家相對技能水平的方法,廣泛應(yīng)用在競技游戲和各類運動當中。其中,Elo評分越高,那么就說明這個玩家越厲害。

比如英雄聯(lián)盟、Dota 2以及吃雞等等,系統(tǒng)給玩家進行排名的就是這個機制。

舉個例子,當你在英雄聯(lián)盟里面打了很多場排位賽后,就會出現(xiàn)一個隱藏分。這個隱藏分不僅決定了你的段位,也決定了你打排位時碰到的對手基本也是類似水平的。

而且,這個Elo評分的數(shù)值是絕對的。也就是說,當未來加入新的聊天機器人時,我們依然可以直接通過Elo的評分來判斷哪個聊天機器人更厲害。

具體來說,如果玩家A的評分為Ra,玩家B的評分為Rb,玩家A獲勝概率的精確公式(使用以10為底的logistic曲線)為:

圖片

然后,玩家的評分會在每場對戰(zhàn)后線性更新。

假設(shè)玩家A(評分為Ra)預(yù)計獲得Ea分,但實際獲得Sa分。更新該玩家評分的公式為:

圖片

1v1勝率

此外,作者還展示了排位賽中每個模型的對戰(zhàn)勝率以及使用Elo評分估算的預(yù)測對戰(zhàn)勝率。

結(jié)果顯示,Elo評分確實可以相對準確地進行預(yù)測

圖片

所有非平局A對B戰(zhàn)斗中模型A勝利的比例

圖片

在A對B戰(zhàn)斗中,使用Elo評分預(yù)測的模型A的勝率

作者介紹

「聊天機器人競技場」由前小羊駝作者機構(gòu)LMSYS Org發(fā)布。

該機構(gòu)由UC伯克利博士Lianmin Zheng和UCSD準教授Hao Zhang創(chuàng)立,目標是通過共同開發(fā)開放的數(shù)據(jù)集、模型、系統(tǒng)和評估工具,使每個人都能獲得大型模型。

圖片

Lianmin Zheng

Lianmin Zheng是加州大學(xué)伯克利分校EECS系的博士生,他的研究興趣包括機器學(xué)習(xí)系統(tǒng)、編譯器和分布式系統(tǒng)。

Hao Zhang

Hao Zhang目前是加州大學(xué)伯克利分校的博士后研究員。他將于2023年秋季開始在加州大學(xué)圣地亞哥分校Hal?c?o?lu數(shù)據(jù)科學(xué)研究所和計算機系擔(dān)任助理教授。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-16 13:32:23

模型排行

2024-05-30 14:23:00

2023-04-04 13:17:00

GPUCMU開源

2023-08-05 13:45:46

模型AI

2023-04-07 09:28:31

模型訓(xùn)練

2023-05-26 14:10:00

模型AI

2023-03-31 13:55:00

模型智能

2025-04-18 08:42:52

模型推理AI

2024-11-26 13:40:00

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2025-01-22 15:21:00

2021-05-06 23:11:20

編程語言數(shù)據(jù)Python

2023-05-26 17:20:29

模型工具

2024-03-04 08:15:00

2024-12-02 08:20:00

2023-12-16 09:49:18

2017-02-10 09:45:00

編程語言排行榜Scratch

2015-04-14 14:37:06

編程語言4月編程語言排行

2024-09-23 14:46:27

2014-11-26 10:49:32

編程語言
點贊
收藏

51CTO技術(shù)棧公眾號