眾包新玩法!LLM競(jìng)技場(chǎng)誕生基準(zhǔn)測(cè)試,嚴(yán)格分離學(xué)渣學(xué)霸
大模型排行榜哪家強(qiáng)?還看LLM競(jìng)技場(chǎng)~
截至此刻,已有共計(jì)90名LLM加入戰(zhàn)斗,用戶總投票數(shù)超過了77萬。
圖片
然而,在網(wǎng)友們吃瓜調(diào)侃新模型沖榜、老模型喪失尊嚴(yán)的同時(shí),
人家競(jìng)技場(chǎng)背后的組織LMSYS,已經(jīng)悄悄完成了成果轉(zhuǎn)化:從實(shí)戰(zhàn)中誕生的最有說服力的基準(zhǔn)測(cè)試——Arena-Hard。
圖片
而Arena-Hard所展現(xiàn)出的四項(xiàng)優(yōu)勢(shì),也正是當(dāng)前的LLM基準(zhǔn)測(cè)試最需要的:
-可分離性(87.4%)明顯優(yōu)于MT-bench(22.6%);
-與Chatbot Arena的排名最相近,達(dá)到89.1%;
-運(yùn)行速度快,價(jià)格便宜(25美元)
-頻繁更新實(shí)時(shí)數(shù)據(jù)
中譯中一下就是,首先這個(gè)大模型的考試要有區(qū)分度,不能讓學(xué)渣也考到90分;
其次,考試的題目應(yīng)該更貼合實(shí)際,并且打分的時(shí)候要嚴(yán)格對(duì)齊人類偏好;
最后一定不能泄題,所以測(cè)試數(shù)據(jù)要經(jīng)常更新,保證考試的公平;
——后兩項(xiàng)要求對(duì)于LLM競(jìng)技場(chǎng)來說,簡(jiǎn)直像是量身定做。
我們來看一下新基準(zhǔn)測(cè)試的效果:
圖片
上圖中將Arena Hard v0.1,與之前的SOTA基準(zhǔn)測(cè)試MT Bench進(jìn)行了比較。
我們可以發(fā)現(xiàn),Arena Hard v0.1與MT Bench相比,具有更強(qiáng)的可分離性(從22.6%飆升到了87.4%),并且置信區(qū)間也更窄。
另外,看下這個(gè)排名,與下面最新的LLM競(jìng)技場(chǎng)排行榜是基本一致的:
圖片
這說明Arena Hard的評(píng)測(cè)非常接近人類的偏好(89.1%)。
——Arena Hard也算是開辟了眾包的新玩法:
網(wǎng)友獲得了免費(fèi)的體驗(yàn),官方平臺(tái)獲得了最有影響力的排行榜,以及新鮮的、高質(zhì)量的數(shù)據(jù)——沒有人受傷的世界完成了。
給大模型出題
下面看下如何構(gòu)建這個(gè)基準(zhǔn)測(cè)試。
簡(jiǎn)單來說,就是怎么從競(jìng)技場(chǎng)的20萬個(gè)用戶提示(問題)中,挑出來一些比較好的。
這個(gè)「好」體現(xiàn)在兩方面:多樣性和復(fù)雜性。下圖展示了Arena-Hard的工作流:
圖片
總結(jié)一波:首先對(duì)所有提示進(jìn)行分類(這里分了4000多個(gè)主題),然后人為制定一些標(biāo)準(zhǔn),對(duì)每個(gè)提示進(jìn)行打分,同一類別的提示算平均分。
得分高的類別可以認(rèn)為復(fù)雜性(或者質(zhì)量)高——也就是Arena-Hard中「Hard」的含義。
選取前250個(gè)得分最高的類別(250保證了多樣性),每個(gè)類別隨機(jī)抽2位幸運(yùn)提示,組成最終的基準(zhǔn)測(cè)試集(500 prompts)。
下面詳細(xì)展開:
多樣性
研究人員首先使用OpenAI的text-embedding-3-small轉(zhuǎn)換每個(gè)提示,使用UMAP減少維度,并使用基于分層的聚類算法(HDBSCAN)來識(shí)別聚類,然后使用GPT-4-turbo進(jìn)行匯總。
復(fù)雜性
通過下表的七個(gè)關(guān)鍵標(biāo)準(zhǔn)來選擇高質(zhì)量的用戶查詢:
圖片
1.提示是否要求提供特定的輸出?
2.是否涵蓋一個(gè)或多個(gè)特定領(lǐng)域?
3.是否具有多個(gè)級(jí)別的推理、組件或變量?
4.是否直接讓AI展示解決問題的能力?
5.是否涉及一定程度的創(chuàng)造力?
6.是否要求響應(yīng)的技術(shù)準(zhǔn)確性?
7.是否與實(shí)際應(yīng)用相關(guān)?
對(duì)于每個(gè)提示,使用LLM(GPT-3.5-Turbo、GPT-4-Turbo)標(biāo)注其滿足了多少個(gè)標(biāo)準(zhǔn)(打分0到7),然后,計(jì)算每組提示(聚類)的平均分?jǐn)?shù)。
下圖展示了部分聚類的平均分排序:
圖片
我們可以觀察到,得分較高的聚類通常是比較有挑戰(zhàn)性的主題(比如游戲開發(fā)、數(shù)學(xué)證明),而分?jǐn)?shù)較低的聚類則屬于瑣碎或模棱兩可的問題。
有了這個(gè)復(fù)雜性,就可以拉開學(xué)霸與學(xué)渣之間的差距,我們看下面的實(shí)驗(yàn)結(jié)果:
圖片
在上面的3個(gè)比較中,假設(shè)GPT-4比Llama2-70b強(qiáng)、Claude的大杯比中杯強(qiáng),Mistral-Large比Mixtral強(qiáng),
我們可以看到,隨著(復(fù)雜性)分?jǐn)?shù)的增加,更強(qiáng)的模型的勝率也在提高——學(xué)霸獲得區(qū)分、學(xué)渣獲得過濾。
因?yàn)榉謹(jǐn)?shù)越好高(問題越復(fù)雜),區(qū)分度越好,所以最終選取了250 個(gè)平均得分>=6分(滿分7分)的高質(zhì)量分類。
然后,隨機(jī)抽取每個(gè)類別的2個(gè)提示,形成了這版基準(zhǔn)測(cè)試—— Arena-Hard-v0.1。
判卷老師靠譜嗎?
試卷出完了,誰來判卷是個(gè)問題。
人工當(dāng)然是最準(zhǔn)的,而且因?yàn)檫@是「Hard模式」,很多涉及領(lǐng)域知識(shí)的問題還需要專家前來評(píng)估——這顯然不行。
那么退而求其次,選擇目前公認(rèn)的最聰明的模型GPT-4來當(dāng)判卷老師。
比如上面的那些圖表中,涉及打分的環(huán)節(jié),都是交給GPT-4來做的。另外,研究人員使用CoT提示LLM,在做出判決之前先生成答案。
GPT-4 判出的結(jié)果
下面使用gpt-4-1106-preview作為判斷模型,用于比較的基線采用gpt-4-0314。
圖片
上表中比較并計(jì)算了每個(gè)模型的Bradley-Terry系數(shù),并轉(zhuǎn)換為相對(duì)于基線的勝率作為最終分?jǐn)?shù)。95%置信區(qū)間是通過100輪引導(dǎo)計(jì)算得出的。
克勞德表示不服
——我Claude-3 Opus也是排行榜并列第一啊,憑啥讓GPT當(dāng)判卷老師?
于是,研究人員比較GPT-4-1106-Preview和Claude-3 Opus作為判卷老師的表現(xiàn)。
一句話總結(jié):GPT-4是嚴(yán)父,Claude-3是慈母。
圖片
當(dāng)使用GPT-4打分時(shí),跨模型的可分離性更高(范圍從23.0到78.0)。
而當(dāng)使用Claude-3時(shí),模型的得分大多都提高了不少:自家的模型肯定要照顧,開源模型也很喜歡(Mixtral、Yi、Starling),gpt-4-0125-preview也確實(shí)比我更好。
Claude-3甚至愛gpt-3.5-0613勝過gpt-4-0613。
下表使用可分離性和一致性指標(biāo)進(jìn)一步比較了GPT-4和Claude-3:
圖片
從結(jié)果數(shù)據(jù)來看,GPT-4在所有指標(biāo)上都明顯更好。
通過手動(dòng)比較了GPT-4和Claude-3之間的不同判斷示例,可以發(fā)現(xiàn),當(dāng)兩位LLM意見不一致時(shí),通??梢苑譃閮纱箢悾?/span>
保守評(píng)分,以及對(duì)用戶提示的不同看法。
Claude-3-Opus在給分時(shí)比較寬容,給出苛刻分?jǐn)?shù)的可能性要小得多——它特別猶豫是否要宣稱一個(gè)回答比另一個(gè)回答「好得多」。
相比之下,GPT-4-Turbo會(huì)識(shí)別模型響應(yīng)中的錯(cuò)誤,并以明顯較低的分?jǐn)?shù)懲罰模型。
另一方面,Claude-3-Opus有時(shí)會(huì)忽略較小的錯(cuò)誤。即使Claude-3-Opus確實(shí)發(fā)現(xiàn)了這些錯(cuò)誤,它也傾向于將它們視為小問題,并在評(píng)分過程中非常寬容。
即使是在編碼和數(shù)學(xué)問題中,小錯(cuò)誤實(shí)際上會(huì)完全破壞最終答案,但Claude-3-Opus仍然對(duì)這些錯(cuò)誤給予寬大處理,GPT-4-Turbo則不然。
圖片
對(duì)于另外一小部分提示,Claude-3-Opus和GPT-4-Turbo以根本不同的角度進(jìn)行判斷。
例如,給定一個(gè)編碼問題,Claude-3-Opus傾向于不依賴外部庫(kù)的簡(jiǎn)單結(jié)構(gòu),這樣可以為用戶提供最大教育價(jià)值的響應(yīng)。
而GPT-4-Turbo可能會(huì)優(yōu)先考慮提供最實(shí)用答案的響應(yīng),而不管它對(duì)用戶的教育價(jià)值如何。
雖然這兩種解釋都是有效的判斷標(biāo)準(zhǔn),但GPT-4-Turbo的觀點(diǎn)可能與普通用戶更接近。
有關(guān)不同判斷的具體例子,參見下圖,其中許多都表現(xiàn)出這種現(xiàn)象。
圖片
局限性測(cè)試
LLM喜歡更長(zhǎng)的回答嗎?
下面繪制了在MT-Bench和Arena-Hard-v0.1上,每個(gè)模型的平均token長(zhǎng)度和分?jǐn)?shù)。從視覺上看,分?jǐn)?shù)和長(zhǎng)度之間沒有很強(qiáng)的相關(guān)性。
圖片
為了進(jìn)一步檢查潛在的冗長(zhǎng)偏差,研究人員使用GPT-3.5-Turbo對(duì)三種不同的系統(tǒng)提示(原始、健談、詳細(xì))進(jìn)行了消融。
結(jié)果表明,GPT-4-Turbo和Claude-3-Opus的判斷都可能受到更長(zhǎng)輸出的影響,而Claude受到的影響更大(因?yàn)镚PT-3.5-Turbo對(duì)GPT-4-0314的勝率超過40%)。
有趣的是,「健談」對(duì)兩位裁判的勝率影響不大,這表明輸出長(zhǎng)度不是唯一的因素,更詳細(xì)的答案也可能受到LLM評(píng)委的青睞。
圖片
實(shí)驗(yàn)使用的提示:
detailed: You are a helpful assistant who thoroughly explains things with as much detail as possible.
chatty: You are a helpful assistant who is chatty.
GPT-4 判斷的方差
研究人員發(fā)現(xiàn),即使溫度=0,GPT-4-Turbo仍可能產(chǎn)生略有不同的判斷。
下面對(duì)gpt-3.5-turbo-0125的判斷重復(fù)三次并計(jì)算方差。
圖片
由于預(yù)算有限,這里只對(duì)所有模型進(jìn)行一次評(píng)估。不過作者建議使用置信區(qū)間來確定模型分離。