自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中國大模型頭名易主:全球盲測榜單上,Yi-Large與GPT-4o中文并列第一

人工智能 新聞
由開放研究組織 LMSYS Org (Large Model Systems Organization)發(fā)布的 Chatbot Arena 已經(jīng)成為 OpenAI、Anthropic、Google、Meta 等國際大廠 “龍爭虎斗” 的當紅擂臺,以最開放與科學的評測方法,在大模型進入第二年之際開放群眾投票。

上周,一個名為 “im-also-a-good-gpt2-chatbot” 的神秘模型突然現(xiàn)身大模型競技場 Chatbot Arena,排名直接超過 GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b 等各家國際大廠的當家基座模型。隨后 OpenAI 揭開 “im-also-a-good-gpt2-chatbot” 神秘面紗 —— 正是 GPT-4o 的測試版本,OpenAI CEO Sam Altman 也在 Gpt-4o 發(fā)布后親自轉(zhuǎn)帖引用 LMSYS arena 盲測擂臺的測試結(jié)果。

圖片

由開放研究組織 LMSYS Org (Large Model Systems Organization)發(fā)布的 Chatbot Arena 已經(jīng)成為 OpenAI、Anthropic、Google、Meta 等國際大廠 “龍爭虎斗” 的當紅擂臺,以最開放與科學的評測方法,在大模型進入第二年之際開放群眾投票。

時隔一周,在最新更新的排名中,類 “im-also-a-good-gpt2-chatbot” 的黑馬故事再次上演,這次排名飛速上漲的模型正是由中國大模型公司零一萬物提交的 “Yi-Large” 千億參數(shù)閉源大模型。

在 LMSYS 盲測競技場最新排名中,零一萬物的最新千億參數(shù)模型 Yi-Large 總榜排名世界模型第 7,中國大模型中第一,已經(jīng)超過 Llama-3-70B、Claude 3 Sonnet;其中文分榜更是與 GPT4o 并列世界第一。

零一萬物也由此成為了總榜上唯一一個自家模型進入排名前十的中國大模型企業(yè)。在總榜上,GPT 系列占了前 10 的 4 個,以機構(gòu)排序,零一萬物 01.AI 僅次于 OpenAI, Google, Anthropic 之后,以開放金標準正式進擊國際頂級大模型企業(yè)陣營。 

美國時間 2024 年 5 月 20 日剛刷新的 LMSYS Chatboat Arena 盲測結(jié)果,來自至今積累超過 1170 萬的全球用戶真實投票數(shù):

圖片

值得一提的是,為了提高 Chatbot Arena 查詢的整體質(zhì)量,LMSYS 還實施了重復(fù)數(shù)據(jù)刪除機制,并出具了去除冗余查詢后的榜單。這個新機制旨在消除過度冗余的用戶提示,如過度重復(fù)的 “你好”。這類冗余提示可能會影響排行榜的準確性。LMSYS 公開表示,去除冗余查詢后的榜單將在后續(xù)成為默認榜單。

在去除冗余查詢后的總榜中, Yi-Large 的 Elo 得分更進一步,與 Claude 3 Opus、GPT-4-0125-preview 并列第四

圖片

LMSYS 中文榜

GPT-4o 和 Yi-Large  并列第一

值得國人關(guān)注的是,國內(nèi)大模型廠商中,智譜 GLM4、阿里 Qwen Max、Qwen 1.5、零一萬物 Yi-Large、Yi-34B-chat 此次都有參與盲測,在總榜之外,LMSYS 的語言類別上新增了英語、中文、法文三種語言評測,開始注重全球大模型的多樣性。

Yi-Large 的中文語言分榜上拔得頭籌,與 OpenAI 官宣才一周的地表最強 GPT4o 并列第一,Qwen-Max 和 GLM-4 在中文榜上也都表現(xiàn)不凡。

圖片

“最燒腦” 公開評測

Yi-Large 位居全球第二

在分類別的排行榜中,Yi-Large 同樣表現(xiàn)亮眼。編程能力、長提問及最新推出的 “艱難提示詞” 的三個評測是 LMSYS 所給出的針對性榜單,以專業(yè)性與高難度著稱,可稱作大模型 “最燒腦” 的公開盲測。

在編程能力(Coding)排行榜上,Yi-Large 的 Elo 分數(shù)超過 Anthropic 當家旗艦?zāi)P?Claude 3 Opus,僅低于 GPT-4o,與 GPT-4-Turbo、GPT-4 并列第二。

圖片

長提問(Longer Query)榜單上,Yi-Large 同樣位列全球第二,與 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列。

圖片

艱難提示詞(Hard Prompts)則是 LMSYS 為了響應(yīng)社區(qū)要求,于此次新增的排行榜類別。這一類別包含來自 Arena 的用戶提交的提示,這些提示則經(jīng)過專門設(shè)計,更加復(fù)雜、要求更高且更加嚴格。LMSYS 認為,這類提示能夠測試最新語言模型面臨挑戰(zhàn)性任務(wù)時的性能。

在這一榜單上,Yi-Large 處理艱難提示的能力也得到印證,與 GPT-4-Turbo、GPT-4、Claude 3 Opus 并列第二。

圖片

LMSYS Chatbot Arena

后 benchmark 時代的風向標

如何為大模型給出客觀公正的評測一直是業(yè)內(nèi)廣泛關(guān)注的話題。為了在固定題庫中取得一份亮眼的評測分數(shù),業(yè)內(nèi)出現(xiàn)了各式各樣的 “刷榜” 方法:將各種各樣的評測基準訓(xùn)練集直接混入模型訓(xùn)練集中、用未對齊的模型跟已經(jīng)對齊的模型做對比等等,對嘗試了解大模型真實能力的人,的確呈現(xiàn) “眾說紛紜” 的現(xiàn)場,更讓大模型的投資人摸不著北。

在經(jīng)過 2023 年一系列錯綜復(fù)雜、亂象叢生的大模型評測浪潮之后,業(yè)界對于評測集的專業(yè)性和客觀性給予了更高的重視。而 LMSYS Org 發(fā)布的 Chatbot Arena 憑借其新穎的 “競技場” 形式、測試團隊的嚴謹性,成為目前全球業(yè)界公認的基準標桿,連 OpenAI 在 GPT-4o 正式發(fā)布前,都在 LMSYS 上匿名預(yù)發(fā)布和預(yù)測試。

在海外大廠高管中,不只 Sam Altman,Google DeepMind 首席科學家 Jeff Dean 也曾引用 LMSYS Chatbot Arena 的排名數(shù)據(jù),來佐證 Bard 產(chǎn)品的性能。

圖片

OpenAI 創(chuàng)始團隊成員 Andrej Karpathy 甚至公開表示,Chatbot Arena is “awesome”。

圖片

自身的旗艦?zāi)P桶l(fā)布后第一時間提交給 LMSYS,這一行為本身就展現(xiàn)了海外頭部大廠對于 Chatbot Arena 的極大尊重。這份尊重既來自于 LMSYS 作為研究組織的權(quán)威背書,也來自于其新穎的排名機制。

公開資料顯示,LMSYS Org 是一個開放的研究組織,由加州大學伯克利分校的學生和教師、加州大學圣地亞哥分校、卡耐基梅隆大學合作創(chuàng)立。雖然主要人員出自高校,但 LMSYS 的研究項目卻十分貼近產(chǎn)業(yè),他們不僅自己開發(fā)大語言模型,還向業(yè)內(nèi)輸出多種數(shù)據(jù)集(其推出的 MT-Bench 已是指令遵循方向的權(quán)威評測集)、評估工具,此外還開發(fā)分布式系統(tǒng)以加速大模型訓(xùn)練和推理,提供線上 live 大模型打擂臺測試所需的算力。

在形式上,Chatbot Arena 借鑒了搜索引擎時代的橫向?qū)Ρ仍u測思路。它首先將所有上傳評測的 “參賽” 模型隨機兩兩配對,以匿名模型的形式呈現(xiàn)在用戶面前。隨后號召真實用戶輸入自己的提示詞,在不知道模型型號名稱的前提下,由真實用戶對兩個模型產(chǎn)品的作答給出評價,在盲測平臺 https://arena.lmsys.org/ 上,大模型們兩兩相比,用戶自主輸入對大模型的提問,模型 A、模型 B 兩側(cè)分別生成兩 PK 模型的真實結(jié)果,用戶在結(jié)果下方做出投票四選一:A 模型較佳、B 模型較佳,兩者平手,或是兩者都不好。提交后,可進行下一輪 PK。

圖片

通過眾籌真實用戶來進行線上實時盲測和匿名投票,Chatbot Arena 一方面減少偏見的影響,另一方面也最大概率避免基于測試集進行刷榜的可能性,以此增加最終成績的客觀性。在經(jīng)過清洗和匿名化處理后,Chatbot Arena 還會公開所有用戶投票數(shù)據(jù)。得益于 “真實用戶盲測投票” 這一機制,Chatbot Arena 被稱為大模型業(yè)內(nèi)最有用戶體感的奧林匹克。

在收集真實用戶投票數(shù)據(jù)之后,LMSYS Chatbot Arena 還使用 Elo 評分系統(tǒng)來量化模型的表現(xiàn),進一步優(yōu)化評分機制,力求公平反應(yīng)參與者的實力。

Elo 評分系統(tǒng),是一項基于統(tǒng)計學原理的權(quán)威性評價體系,由匈牙利裔美國物理學家 Arpad Elo 博士創(chuàng)立,旨在量化和評估各類對弈活動的競技水平。作為當前國際公認的競技水平評估標準,Elo 等級分制度在國際象棋、圍棋、足球、籃球、電子競技等運動中都發(fā)揮著至關(guān)重要的作用。

更通俗地來講,在 Elo 評分系統(tǒng)中,每個參與者都會獲得基準評分。每場比賽結(jié)束后,參與者的評分會基于比賽結(jié)果進行調(diào)整。系統(tǒng)會根據(jù)參與者評分來計算其贏得比賽的概率,一旦低分選手擊敗高分選手,那么低分選手就會獲得較多的分數(shù),反之則較少。通過引入 Elo 評分系統(tǒng),LMSYS Chatbot Arena 在最大程度上保證了排名的客觀公正。

圖片

Chatbot Arena 的評測過程涵蓋了從用戶直接參與投票到盲測,再到大規(guī)模的投票和動態(tài)更新的評分機制等多個方面,這些因素共同作用,確保了評測的客觀性、權(quán)威性和專業(yè)性。毫無疑問,這樣的評測方式能夠更準確地反映出大模型在實際應(yīng)用中的表現(xiàn),為行業(yè)提供了一個可靠的參考標準。

Yi-Large 以小搏大緊追國際第一陣營

登頂國內(nèi)大模型盲測 

此次 Chatbot Arena 共有 44 款模型參賽,既包含了頂尖開源模型 Llama3-70B,也包含了各家大廠的閉源模型。

圖片

以最新公布的 Elo 評分來看,GPT-4o 以 1287 分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 0pus、Yi-Large 等模型則以 1240 左右的評分位居第二梯隊;其后的 Bard (Gemini Pro)、Llama-3-70b-Instruct、Claude 3 sonnet 的成績則斷崖式下滑至 1200 分左右。

值得一提的是,排名前 6 的模型分別歸屬于海外巨頭 OpenAI、Google、Anthropic,零一萬物位列全球第四機構(gòu),且 GPT-4、Gemini 1.5 Pro 等模型均為萬億級別超大參數(shù)規(guī)模的旗艦?zāi)P?,其他模型也都在大幾千億參數(shù)級別。Yi-Large “以小搏大” 以僅僅千億參數(shù)量級緊追其后, 5 月 13 日一經(jīng)發(fā)布便沖上世界排名第七大模型,與海外大廠的旗艦?zāi)P吞幱谕惶蓐?。?LMSYS Chatbot Arena 截至 5 月 21 日的總榜上,阿里巴巴的 Qwen-Max 大模型 Elo 分數(shù)為 1186,排名第 12;智譜 AI 的 GLM-4 大模型 Elo 分數(shù)為 1175,排名第 15。

在當前大模型步入商業(yè)應(yīng)用的浪潮中,模型的實際性能亟需通過具體應(yīng)用場景的嚴格考驗,以證明其真正的價值和潛力。過去那種僅要求表面光鮮的 “作秀式” 評測方式已不再具有實際意義。為了促進整個大模型行業(yè)的健康發(fā)展,整個行業(yè)必須追求一種更為客觀、公正且權(quán)威的評估體系。

在這樣的背景下,一個如 Chatbot Arena 這樣能夠提供真實用戶反饋、采用盲測機制以避免操縱結(jié)果、并且能夠持續(xù)更新評分體系的評測平臺,顯得尤為重要。它不僅能夠為模型提供公正的評估,還能夠通過大規(guī)模的用戶參與,確保評測結(jié)果的真實性和權(quán)威性。

無論是出于自身模型能力迭代的考慮,還是立足于長期口碑的視角,大模型廠商應(yīng)當積極參與到像 Chatbot Arena 這樣的權(quán)威評測平臺中,通過實際的用戶反饋和專業(yè)的評測機制來證明其產(chǎn)品的競爭力。

這不僅有助于提升廠商自身的品牌形象和市場地位,也有助于推動整個行業(yè)的健康發(fā)展,促進技術(shù)創(chuàng)新和產(chǎn)品優(yōu)化。相反,那些選擇作秀式的評測方式,忽視真實應(yīng)用效果的廠商,模型能力與市場需求之間的鴻溝會越發(fā)明顯,最終將難以在激烈的市場競爭中立足。

  • LMSYS Chatbot Arena 盲測競技場公開投票地址:https://arena.lmsys.org/ 
  • LMSYS Chatbot Leaderboard 評測排行(滾動更新):https://chat.lmsys.org/?leaderboard
責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-03-28 14:26:51

人工智能

2024-11-22 15:00:00

模型數(shù)據(jù)

2024-05-24 14:04:04

2024-11-21 09:58:12

2024-08-09 12:50:02

2024-05-21 12:23:17

2024-06-05 13:09:26

2025-04-08 02:26:00

2024-03-25 08:30:00

AI數(shù)據(jù)

2024-06-05 08:29:35

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-05-14 11:29:15

2024-11-22 12:39:56

2024-05-15 17:34:15

2024-07-29 15:37:17

AI訓(xùn)練

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-09-19 17:44:04

2024-12-26 07:10:00

2016-10-28 20:26:57

曙光
點贊
收藏

51CTO技術(shù)棧公眾號