自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

27歲華裔天才少年對(duì)打UC伯克利，首發(fā)SEAL大模型排行榜！Claude 3 Opus數(shù)學(xué)封神

作者：新智元 2024-05-30 14:23:00

人工智能新聞

一直以來(lái)，UC伯克利團(tuán)隊(duì)的LMSYS大模型排行榜，深受AI圈歡迎。如今，最有實(shí)力的全新大模型排行榜SEAL誕生，得到AI大佬的轉(zhuǎn)發(fā)。它最大的特點(diǎn)是在私有數(shù)據(jù)上，由專家嚴(yán)格評(píng)估，并隨時(shí)間不斷更新數(shù)據(jù)集和模型。

前段時(shí)間，由27歲的華裔創(chuàng)始人Alexandr Wang領(lǐng)導(dǎo)的Scale AI剛剛因?yàn)槿谫Y圈了一波關(guān)注。

今天，他又在推特上官宣推出全新LLM排行榜——SEAL，對(duì)前沿模型開展專業(yè)評(píng)估。

SEAL排行榜主打三個(gè)特色：

- 私有數(shù)據(jù)

Scale AI的專有私有評(píng)估數(shù)據(jù)集無(wú)法被操控，確保了結(jié)果的公正性和無(wú)污染。

- 不斷發(fā)展

定期使用新的數(shù)據(jù)集和模型更新排行榜，營(yíng)造一個(gè)動(dòng)態(tài)的競(jìng)賽環(huán)境。

- 專家評(píng)估

評(píng)估由經(jīng)過(guò)嚴(yán)格審查的專家進(jìn)行，確保最高的質(zhì)量和可信度。

榜單地址：https://scale.com/leaderboard

這篇推特獲得了Jim Fan大佬的轉(zhuǎn)發(fā)，他認(rèn)為SEAL是LMSys的非常好的補(bǔ)充和參照，提供公開模型的私密、安全、可信的第三方評(píng)估。

對(duì)此，Andrej Karpathy也深以為然。

代碼

在代碼任務(wù)中，GPT-4 Turbo Preview位列第一，然后是GPT-4o、Gemini 1.5 Pro（Post-I/O）。

而專門訓(xùn)練的代碼模型CodeLlama 34B Instruct排在了第11位。

Scale AI編碼提示集包含1,000個(gè)提示，涵蓋各種編程語(yǔ)言、學(xué)科和編程任務(wù)，從調(diào)試到代碼優(yōu)化，從文檔生成到理解復(fù)雜代碼庫(kù)，等等。

諸如HumanEva、Pass@k、MBPP、SWE-Bench、LiveCodeBench等評(píng)估基準(zhǔn)在首次出現(xiàn)時(shí)很有用，但隨著模型開始過(guò)擬合，它們已經(jīng)變得不那么有價(jià)值了。

此外，這些模型與這些基準(zhǔn)進(jìn)行評(píng)估的方法往往不標(biāo)準(zhǔn)化，缺乏跨測(cè)試或隨時(shí)間比較分?jǐn)?shù)的核心要求。

Scale編碼評(píng)估提供了一個(gè)標(biāo)準(zhǔn)化的LLM評(píng)估框架，能夠跨模型進(jìn)行比較并識(shí)別其優(yōu)缺點(diǎn)。目前，它涵蓋了最常請(qǐng)求的編程語(yǔ)言的用例集。

代碼生成：根據(jù)給定的自然語(yǔ)言規(guī)范或描述創(chuàng)建新代碼。
代碼修復(fù)：識(shí)別并糾正現(xiàn)有代碼中的錯(cuò)誤。例如，調(diào)試、解決語(yǔ)法錯(cuò)誤和修復(fù)邏輯錯(cuò)誤。
代碼理解：解釋、闡明或澄清現(xiàn)有代碼。例如，闡明某些代碼段的工作原理，分解復(fù)雜算法。
代碼修改：對(duì)現(xiàn)有代碼進(jìn)行更改或調(diào)整以滿足新要求或條件。例如，更改功能，更新或增強(qiáng)特性。
代碼優(yōu)化：提高現(xiàn)有代碼的性能。例如，提高效率，減少資源消耗（如內(nèi)存或處理時(shí)間）。
學(xué)習(xí)輔助：幫助學(xué)習(xí)或理解編程概念、語(yǔ)言或工具。例如，提供最佳實(shí)踐指導(dǎo)，解釋編程概念。
代碼翻譯：將代碼從一種編程語(yǔ)言轉(zhuǎn)換為另一種語(yǔ)言，并根據(jù)目標(biāo)語(yǔ)言的最佳實(shí)踐調(diào)整代碼結(jié)構(gòu)、風(fēng)格和習(xí)慣用法。
建議提供：提供關(guān)于編碼實(shí)踐、工具、庫(kù)或框架的建議或意見(jiàn)。
注釋改進(jìn)：在現(xiàn)有代碼中添加或改進(jìn)注釋。
測(cè)試開發(fā)：開發(fā)、增強(qiáng)或修復(fù)現(xiàn)有代碼的測(cè)試。

用例分布

編碼語(yǔ)言分布

為了確保評(píng)估過(guò)程的徹底性和可靠性，每個(gè)任務(wù)由不同的人工注釋員并行執(zhí)行了三次。

評(píng)分經(jīng)過(guò)兩個(gè)階段的審查：初步審查層和最終審查層。

這種評(píng)估方法不僅生成總體排名，還有助于突出模型在不同領(lǐng)域的優(yōu)勢(shì)和劣勢(shì)，并回答以下問(wèn)題：

- 模型在SQL、Java、HTML/CSS和C++提示上的表現(xiàn)如何？

- 模型在復(fù)雜場(chǎng)景中的競(jìng)爭(zhēng)力如何？

評(píng)估方法

測(cè)試?yán)踝?/span>

結(jié)果分析

模型通常在「注釋」和「理解」任務(wù)中表現(xiàn)良好，但在「翻譯」和「生成」任務(wù)中常遇到困難。

此外，「正確性/功能性」和「可讀性/文檔」也是所有模型的兩個(gè)主要錯(cuò)誤來(lái)源。

- GPT

兩個(gè)GPT-4模型在各種用例中表現(xiàn)最為一致。其中，較新的gpt-4o-2024-05-13相比gpt-4-0125-preview更容易出現(xiàn)可讀性問(wèn)題，有時(shí)會(huì)不必要地重復(fù)提示中的代碼，導(dǎo)致響應(yīng)更加冗長(zhǎng)。

- Gemini

所有三個(gè)Gemini模型在建議任務(wù)中表現(xiàn)出色，分別排名第1、第2和第3，但在測(cè)試任務(wù)中表現(xiàn)較差。新的gemini-1.5-pro-preview-0514相比之前的gemini-1.5-pro-preview-0409有顯著提升，特別是在「正確性/功能性」和「可讀性/文檔」方面。

- Claude

claude-3-opus-20240229通常比claude-3-sonnet-20240229表現(xiàn)更好，特別是在「正確性/功能性」類別中錯(cuò)誤更少，除了某些翻譯任務(wù)。

數(shù)學(xué)

在數(shù)學(xué)分類榜中，Claude 3 Opus竟打敗了GPT-4 Turbo Preview霸占榜首，然后第三名是GPT-4o.

另外，Claude 3的「中杯」模型Sonnet，都超過(guò)了Gemini系列的模型。

不得不說(shuō)，在數(shù)學(xué)這塊，還是Claude3是王者。

數(shù)學(xué)和推理仍然是當(dāng)前大語(yǔ)言模型（LLM）面臨的主要未解決問(wèn)題之一。然而，現(xiàn)有的公共基準(zhǔn)如GSM8k卻存在著致命的數(shù)據(jù)污染問(wèn)題。

為全面評(píng)估模型的各方面能力，Scale AI設(shè)計(jì)了一個(gè)全新的數(shù)學(xué)和推理數(shù)據(jù)集——GSM1k。

GSM1k基于GSM8k基準(zhǔn)的分布和難度，并引入全新的一組問(wèn)題。其中，包含了一系列相當(dāng)于五年級(jí)數(shù)學(xué)考試水平的數(shù)學(xué)問(wèn)題。

它的構(gòu)建花了不到3周的時(shí)間，標(biāo)注團(tuán)隊(duì)的成員包括小學(xué)數(shù)學(xué)教育者和具有教育、數(shù)據(jù)分析、計(jì)算機(jī)科學(xué)、物理和經(jīng)濟(jì)學(xué)背景的專家。

值得注意的是，GSM1k的數(shù)據(jù)收集過(guò)程并沒(méi)有用到LLM的幫助。

此外，為了防止模型在GSM1k上過(guò)擬合，團(tuán)隊(duì)決定僅公開1,000個(gè)問(wèn)題中的50個(gè)樣本。

測(cè)試?yán)踝?/span>

指令跟隨

針對(duì)模型指令跟隨測(cè)試，GPT-4o、GPT-4 Turbo Preview、Llama 3 70B Instruct分別躍居前三。

同時(shí)，Mistral Large的實(shí)力也不輸其他的模型。

這說(shuō)明在能否準(zhǔn)確遵循人類提示方面，GPT-4系列模型還是更厲害些。

Scale AI精確指令跟隨提示數(shù)據(jù)集包含1,054個(gè)指令跟隨提示，目的是評(píng)估AI模型解釋和執(zhí)行詳細(xì)命令的能力，重點(diǎn)在于精確性和具體性，并解決過(guò)擬合問(wèn)題。

數(shù)據(jù)集中的提示共分為9類，包括「扮演……的角色」、內(nèi)容創(chuàng)作和頭腦風(fēng)暴，并涵蓋指令跟隨任務(wù)的實(shí)際應(yīng)用和用例。

它由一個(gè)40多名人工標(biāo)注員組成的多樣化團(tuán)隊(duì)生成，并通過(guò)五個(gè)步驟的開發(fā)，確保提示能夠測(cè)試模型理解和執(zhí)行具體指令的能力。

最終，實(shí)現(xiàn)對(duì)模型對(duì)這些提示集的響應(yīng)進(jìn)行人工評(píng)估。

測(cè)試?yán)踝?/span>

西班牙語(yǔ)

在西班牙語(yǔ)測(cè)試上，GPT-4o霸榜第一，而Gemini 1.5 Pro（Post-I/O）超過(guò)了GPT-4 Turbo Preview。

隨后，Gemini另外兩個(gè)模型也進(jìn)入榜單前五。

在Scale AI多語(yǔ)言提示數(shù)據(jù)集中，每個(gè)語(yǔ)種都包含1,000個(gè)提示，目的是提升模型在多種語(yǔ)言中的交互能力。

數(shù)據(jù)集特別針對(duì)西班牙用戶，包括來(lái)自西班牙、墨西哥和拉丁美洲其他地區(qū)的用戶。

雖然排行榜目前只包含西班牙語(yǔ)，但在未來(lái)的更新中，會(huì)擴(kuò)展到更多語(yǔ)言。

方法

如何計(jì)算Elo評(píng)分排名

在評(píng)估過(guò)程中，人工評(píng)審會(huì)比較兩個(gè)模型對(duì)同一提示的回答，并在多個(gè)方面評(píng)估哪個(gè)更好。根據(jù)這些評(píng)分，便可以確定哪個(gè)模型贏了、哪個(gè)輸了，或者打平。

此外，團(tuán)隊(duì)還采用了與Chatbot Arena相同的方法，使用Bradley-Terry模型對(duì)我們的數(shù)據(jù)點(diǎn)進(jìn)行重新權(quán)重的最大似然估計(jì)。

首先是一些定義：

對(duì)于??個(gè)模型，用??={(??,??′):??<??′, and ??,??′∈[??]}表示比較數(shù)據(jù)集。

在??∈??時(shí)，向人工評(píng)審提供一對(duì)模型????∈??，并記錄評(píng)審的回應(yīng)????∈[0,0.5,1]。

其中，1表示模型??優(yōu)于模型??′，而0.5則表示兩個(gè)模型同樣受歡迎。

通過(guò)Bradley-Terry，利用邏輯關(guān)系來(lái)模擬這種情況發(fā)生的概率：

其中，??是一個(gè)M長(zhǎng)的BT系數(shù)向量。然后，通過(guò)最小化二元交叉熵?fù)p失來(lái)估計(jì)BT系數(shù)：

其中，??是二進(jìn)制交叉熵?fù)p失：

??(?,??)=?(?log?(??)+(1??)log?(1???))

此外，還需使用反向加權(quán)??(????)來(lái)最小化這一損失，目標(biāo)是使分?jǐn)?shù)在??上呈現(xiàn)均勻分布。盡管這種反向加權(quán)并不是絕對(duì)必要的，因?yàn)槟Ｐ椭g的成對(duì)比較已經(jīng)非常接近相等。

接著，使用下面的公式來(lái)計(jì)算最終的BT分?jǐn)?shù)：

其中????~??。利用簡(jiǎn)單轉(zhuǎn)換1000+??(??^)×400將該分?jǐn)?shù)轉(zhuǎn)換為Elo評(píng)分，然后進(jìn)行排序，得出最終排名。

置信區(qū)間

為了更好地理解Elo評(píng)分的Bradley-Terry評(píng)級(jí)的可靠性，團(tuán)隊(duì)使用自舉法（Bootstrapping）來(lái)估計(jì)置信區(qū)間。自舉法是一種重采樣技術(shù)，通過(guò)從數(shù)據(jù)中反復(fù)抽樣來(lái)評(píng)估估計(jì)值的變異性。

1. 生成自舉樣本：從數(shù)據(jù)集中反復(fù)抽樣，生成多個(gè)自舉樣本。每個(gè)樣本的大小與原始數(shù)據(jù)集相同，但由于重采樣的特性，樣本中會(huì)包含一些重復(fù)的觀測(cè)值。

2. 計(jì)算每個(gè)樣本的Elo評(píng)分：對(duì)于每個(gè)自舉樣本，使用前面提到的最大似然估計(jì)方法來(lái)計(jì)算Elo評(píng)分。

3. 匯總結(jié)果：在計(jì)算了大量自舉樣本的Elo評(píng)分（例如1000輪）后，匯總這些結(jié)果，估計(jì)每個(gè)模型的Elo評(píng)分分布。

4. 估計(jì)置信區(qū)間：根據(jù)匯總的自舉結(jié)果，確定每個(gè)模型的Elo評(píng)分的置信區(qū)間。

LLM評(píng)估的重要性

Karpathy在轉(zhuǎn)發(fā)Wang的推特時(shí)，打了很長(zhǎng)一段文字，描述LLM評(píng)估的困難與重要性。

LLM評(píng)估正在改進(jìn)，但不久前他們的狀態(tài)非常黯淡，定性經(jīng)驗(yàn)常常與定量排名不一致。
這是因?yàn)榱己玫脑u(píng)估非常難以構(gòu)建。
在特斯拉，我可能將1/3的時(shí)間花在數(shù)據(jù)上，1/3的時(shí)間花在評(píng)估上，1/3 的時(shí)間花在其他事情上。評(píng)估必須全面、有代表性、高質(zhì)量，并測(cè)量梯度信號(hào)（即梯度下降不能太容易，也不能太難）。而且將定性和定量評(píng)估對(duì)齊之前，需要解決很多細(xì)節(jié)，其中有一些微妙的地方。
另一個(gè)不容易發(fā)現(xiàn)的地方是，任何開放（非私有）測(cè)試數(shù)據(jù)集都不可避免地泄漏到訓(xùn)練集中。人們直覺(jué)上的強(qiáng)烈懷疑這一點(diǎn)，這也是最近GSM1k流行的原因。
即使LLM開發(fā)人員盡最大努力，防止測(cè)試集滲透到訓(xùn)練集（以及模型記住答案）也很困難。當(dāng)然，你可以盡力過(guò)濾掉訓(xùn)練集中與測(cè)試集完全匹配的內(nèi)容，還可以過(guò)濾掉n-gram識(shí)別的近似匹配。但是，如何過(guò)濾掉合成數(shù)據(jù)重寫或網(wǎng)上對(duì)數(shù)據(jù)的討論內(nèi)容？如果定期訓(xùn)練多模態(tài)模型，如何過(guò)濾數(shù)據(jù)的圖像/屏幕截圖？如何防止開發(fā)人員將訓(xùn)練數(shù)據(jù)（比如embedding）放到測(cè)試集中，并專門使用與測(cè)試集高度對(duì)齊（在向量空間）的數(shù)據(jù)進(jìn)行訓(xùn)練？
最后一點(diǎn)是，并非所有我們關(guān)心的LLM任務(wù)都是可自動(dòng)評(píng)估的（例如思考總結(jié)等），此時(shí)你希望讓人類參與進(jìn)來(lái)。但如何控制所有涉及的變量？例如人類評(píng)估者在多大程度上關(guān)注實(shí)際答案內(nèi)容，或者長(zhǎng)度、文字風(fēng)格，或者如何看待模型拒絕回答的行為等等。
不管怎樣，反直覺(jué)的一點(diǎn)是，良好的評(píng)估是困難的，且需要高度密集的工作，但非常重要，所以我很高興看到更多的組織加入，努力做好這件事。

Karpathy指路了一個(gè)GitHub博客，探討了為什么在Eleuther AI創(chuàng)建的公開LLM排行榜上，Llama模型得到的MMLU測(cè)評(píng)分?jǐn)?shù)低于論文提供的數(shù)字。

項(xiàng)目地址：https://github.com/huggingface/blog/blob/main/open-llm-leaderboard-mmlu.md

此外，他談到的測(cè)試數(shù)據(jù)泄露問(wèn)題，Open AI研究員Jason Wei在最新的一篇博客中也提到過(guò)。

文章地址：https://www.jasonwei.net/blog/evals

而且最近的一篇論文中有比較充分的證據(jù)。

論文地址：https://arxiv.org/html/2405.00332

他們發(fā)現(xiàn)，許多公開的模型在GSM-8K數(shù)據(jù)集上有明顯的過(guò)擬合表現(xiàn)，而且在同類的GSK-1K上測(cè)試時(shí)，多數(shù)模型都會(huì)有很大程度的性能下降。

論文地址：https://arxiv.org/html/2405.00332

責(zé)任編輯：張燕妮來(lái)源：新智元

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="6tjti"><i id="6tjti"><video id="6tjti"></video></i></blockquote>

<cite id="6tjti"></cite>

<sub id="6tjti"><p id="6tjti"></p></sub>