自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最強(qiáng)代碼模型刷新:Mistral新品上線即登頂,上下文窗口增至256k

人工智能
據(jù)介紹,新版 Codestral(2501)使用了更高效的架構(gòu)和分詞器,生成速度比前一代大約快了 2 倍。在多個(gè) Benchmark 當(dāng)中,2501 版本都取得了 SOTA 的成績(jī),代碼補(bǔ)全(FIM)能力也可圈可點(diǎn)。

“歐洲版 OpenAI” Mistral 的代碼模型 CodeStral,又上新了!

而且與 DeepSeek V2.5 和 Claude 3.5 平起平坐,共同位列 Copilot 競(jìng)技場(chǎng)第一名。

上下文窗口也增長(zhǎng)到了之前的 8 倍,達(dá)到了 256k。

圖片

據(jù)介紹,新版 Codestral(2501)使用了更高效的架構(gòu)和分詞器,生成速度比前一代大約快了 2 倍。

在多個(gè) Benchmark 當(dāng)中,2501 版本都取得了 SOTA 的成績(jī),代碼補(bǔ)全(FIM)能力也可圈可點(diǎn)。

Mistral 的合作方 Continue.dev 聯(lián)創(chuàng) Ty Dunn 還表示,Codestral 2501 標(biāo)志著FIM領(lǐng)域的重大進(jìn)步。

登頂代碼模型競(jìng)技場(chǎng),多種編程語(yǔ)言均是SOTA

在代碼模型競(jìng)技場(chǎng) Copilot Arena 上,CodeStral 2501 取得了第一名,與 Deepseek V2.5 以及 Claude 3.5 Sonnet 并列。

之后是 CodeStral 的上一個(gè)版本(2405),新版得分相比這一版提高了 12 分(1.2%)。

Llama 3.1、Gemini 1.5 Pro 和 GPT-4o 的排名則還要再靠后。

不過(guò)榜單當(dāng)中沒(méi)有 o1,如果加進(jìn)來(lái)對(duì)話可能形勢(shì)還會(huì)有所改變。

圖片

Copilot Arena 由卡內(nèi)基梅隆大學(xué)和 UC 伯克利的研究人員與 LMArena 合作于去年 11 月推出。

它和我們更熟悉的 LLM 競(jìng)技場(chǎng)很類似,由用戶出題并讓系統(tǒng)隨機(jī)選擇兩個(gè)模型匿名輸出,然后用戶根據(jù)輸出選擇優(yōu)勝方。

Copilot Arena 可以看做是 LLM 競(jìng)技場(chǎng)的代碼專用版本,不過(guò)同時(shí)它也是一款開源編程工具,可以在 VSCode 中同時(shí)讓多個(gè)模型同時(shí)生成,方便用戶“貨比三家”。

目前已經(jīng)有 12 個(gè)代碼模型在 Copliot Arena 中進(jìn)行過(guò) PK,總共進(jìn)行了 1.7 萬(wàn)余場(chǎng)battle。

圖片

而根據(jù) Mistral 官方曬出的成績(jī)單,CodeStral 2501 在 HumanEval 等傳統(tǒng)測(cè)試當(dāng)中的多個(gè)指標(biāo)上,也取得了 SOTA 的成績(jī)。

(按照 Mistral 的說(shuō)法,選擇參與對(duì)比的模型是參數(shù)量 100B 以下且在 FIM 任務(wù)當(dāng)中普遍被認(rèn)為表現(xiàn)較好的模型。)

并且窗口長(zhǎng)度也從 2405(參數(shù)量 22B)的 32k 增長(zhǎng)到了 256k。

在 Python 語(yǔ)言和 SQL 數(shù)據(jù)庫(kù)的測(cè)試中,CodeStral 2501 在多個(gè)測(cè)試指標(biāo)上都位列第一,其余位列第二。

圖片

其他語(yǔ)言方面(據(jù)宣傳 CodeStral 共支持 80+ 種語(yǔ)言),CodeStral 的 HumanEval 平均分為 71.4%,比第二名高出近 6 個(gè)百分點(diǎn)。

具體來(lái)看,在 Python、C+、JS 等多種常用語(yǔ)言中也都是 SOTA,并且實(shí)現(xiàn)了 C# 語(yǔ)言得分過(guò)半。

不過(guò)有意思的是,在 Java 上 CodeStral 2501 的成績(jī)相比前一代出現(xiàn)了下降。

圖片

除了生成,Mistral 團(tuán)隊(duì)也發(fā)布了 CodeStral 2501 的 FIM 表現(xiàn)(單行精確匹配)

結(jié)果平均成績(jī)以及 Python、Java 和 JS 三個(gè)單項(xiàng)相比前一代均進(jìn)步明顯,且優(yōu)于 OpenAI FIM API(最新版是3.5 Turbo)等其他模型(不過(guò)緊隨其后的 DeepSeek 咬得很緊)。

圖片

在 FIM 的 pass@1 當(dāng)中,表現(xiàn)也是類似:

圖片

目前,CodeStral 2501 可以通過(guò) Mistral 的合作方 Continue,在 VSCode 或 Jetbrains 系列 IDE 中使用。

當(dāng)然動(dòng)手能力強(qiáng)的用戶,也可以通過(guò) API 自己來(lái)部署,價(jià)格是 0.3/0.9 美元或歐元每百萬(wàn)輸入/輸出 token。

參考鏈接:
[1]https://x.com/lmarena_ai/status/1878872916596806069。
[2]https://mistral.ai/news/codestral-2501/。

責(zé)任編輯:姜華 來(lái)源: 量子位
相關(guān)推薦

2023-07-11 10:02:23

2024-03-25 00:05:00

開源模型AI

2024-03-29 12:49:00

AI訓(xùn)練開源

2024-01-08 12:47:02

代碼模型Mistral

2023-10-11 13:21:12

模型數(shù)據(jù)

2024-07-19 12:45:23

2025-03-18 08:14:05

2023-08-10 14:04:15

代碼模型

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2024-05-17 14:06:09

2024-03-14 08:11:45

模型RoPELlama

2024-01-29 08:49:36

RAG模型檢索

2012-12-31 10:01:34

SELinuxSELinux安全

2025-03-18 09:10:00

MCPAI模型上下文協(xié)議

2022-09-14 13:13:51

JavaScript上下文

2025-01-08 11:10:46

2023-11-22 16:51:53

2023-07-28 12:13:28

模型語(yǔ)言性能

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2023-10-04 10:38:38

模型方法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)