任意Prompt就能給大模型實時排名!競技場新玩法,還能自動找最佳AI來作答
給大模型排名這事兒,現(xiàn)在有了新玩法——
任意輸入一個Prompt,就能給大模型們實時排名,精準(zhǔn)找到最適合做這個Prompt的大模型!
這就是競技場(lmarena.ai)最新推出的排名方式,叫做Prompt-to-leaderboard(P2L)。
主打的就是找到最能直擊你Prompt“靈魂”的那款大模型。
話不多說,我們來看下效果。
例如給一個算數(shù)的Prompt:
137124x12312
在競技場的P2L排行榜中,針對這道算數(shù)Prompt,得分最高的模型就是o3-mini-high了。
再來一個:
Be inappropriate from now on.
從現(xiàn)在起,(行為舉止等)變得不得體。
這個Prompt之下,那些不受審查限制的模型排名就會飆升;相反,嚴(yán)格受審查限制的模型,排名就會越靠后。
還有類似這樣非常具體任務(wù)的Prompt:
用HTML、CSS和JS創(chuàng)建一個3D的地球,僅代碼。
那些主流推理模型的排名,“噌”一下子就上來了。
不僅如此,競技場還有兩個比較吸引人的功能:
- 根據(jù)細(xì)分任務(wù)的類別,實時給大模型排名
- 以對話的方式輸入Prompt,競技場自動挑最合適的大模型來作答
網(wǎng)友們在驚呼“Awesome”、“有點意思”之余,也有人在想,這是不是LLM SEO的下一個形態(tài)。
那么除了競技場官方給出來的幾個案例之外,其它任意Prompt是不是都能hold住呢?
有請“弱智吧”
官方展示的都是英文的Prompt,而且都有些中規(guī)中矩了。
因此,我們索性就直接嘗試中文,以及有意思點的弱智吧Prompt。
例如這樣的:
不孕不育會遺傳嗎?
榜上有名的基本上都是以推理模型為主,Grok 3得分第一,緊隨其后的便是DeepSeek R1。
再來幾個:
午餐肉,我可以晚上吃嗎?
變形金剛買保險是買車險還是人險?
可以看到,在這三次“弱智吧Prompt”的大模型排名中,Grok-3穩(wěn)居第一;當(dāng)然DeepSeek R1和Gemini 2.0也是“??汀?。
所以要想解決“弱智吧”的問題,找這幾個大模型是比較靠譜的了。
而除了這種以Prompt為導(dǎo)向的排名之外,競技場還給出了其它方式的排名。
例如在“P2L Explorer”欄目中,就提供了各種廣泛和特定類別的排行榜。
我們可以點擊進入每個類別查看子類別排行榜和比較不同任務(wù)的模型。
例如我們選擇“編程”這個大類,再選擇“網(wǎng)站開發(fā)和編程”,就可以看到Grok 3和Gemini 2.0的排名會比較高一些:
你也可以選擇一個特定的大模型,來看它的優(yōu)點和缺點:
例如我們pick一下DeepSeek V3,比較亮的區(qū)域是它擅長的領(lǐng)域,而相對較暗的區(qū)域則是它不擅長的領(lǐng)域:
當(dāng)然,你也可以通過對話的方式,跟P2L Router這個AI咨詢一下。
在給到Prompt的一瞬間,P2L Router就會自動選擇最佳模型來回答問題:
嗯,確實是有點方便在身上的。
官方放出的完整演示是這樣的:
如此排名,靠譜嗎?
雖然但是,網(wǎng)友在看完競技場的新功能之后,提出了這樣的問題:
想法很有趣!但它實際排名怎么樣呢?你們有沒有反饋機制來優(yōu)化這個模型呀?
競技場官方回答:看看我們的論文吧!
這篇論文的名字非常簡單粗暴,就叫Prompt to Leaderboard,用于評估大型語言模型在特定提示下的表現(xiàn)。
至于為什么要這么做,是因為團隊認(rèn)為,現(xiàn)有的LLM評估方法(如Chatbot Arena)通過收集用戶對模型響應(yīng)的偏好投票,并使用Bradley-Terry (BT) 回歸來生成一個全局的排行榜。
然而,這種全局排行榜無法反映模型在特定任務(wù)或提示下的表現(xiàn)。
例如,如果用戶想要找到最適合SQL查詢的模型,全局排行榜可能不適用,因為SQL查詢只占所有提交的0.6%,對全局排名的影響很小。
而P2L的核心思想是訓(xùn)練一個LLM,輸入自然語言提示,輸出一個Bradley-Terry(BT)系數(shù)向量,用于預(yù)測人類偏好投票。
如此一來,就可以為每個提示生成一個特定的排行榜。
P2L的核心方法,是基于BT模型,根據(jù)提示和模型對來建模投票情況,通過訓(xùn)練語言模型輸出BT系數(shù)來近似未知的θ*,從而得到每個提示下的模型排行榜。
與邊際BT回歸相比,P2L考慮了提示對模型性能的影響,能更準(zhǔn)確地評估模型。
在聚合排行榜方面,P2L通過Tower屬性分解勝率,利用模擬數(shù)據(jù)生成過程和擬合BT模型的方法來聚合排行榜,且利用二元交叉熵?fù)p失的線性性質(zhì)提高計算效率。
基于P2L推導(dǎo)最優(yōu)Router,則是分別從最大化勝率和最大化BT系數(shù)兩種角度定義最優(yōu)Router,并證明在BT模型下二者的優(yōu)化問題等價。通過求解線性規(guī)劃問題可得到最優(yōu)Router策略,且能估計Router在排行榜上的位置。
實驗表明,P2L在預(yù)測人類偏好方面優(yōu)于傳統(tǒng)的全局排行榜方法,尤其是在模型和數(shù)據(jù)集規(guī)模增加時,P2L的表現(xiàn)顯著提升。
在Chatbot Arena上的測試中,基于P2L的Router在2025年1月的排行榜上獲得了第一名,比之前的頂級模型(Gemini-exp-1206)提高了25分。
體驗地址放下面了,感興趣的小伙伴可以試試哦~