自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最強(qiáng)開源CodeLLM模型深夜來襲!320億參數(shù),Qwen2.5-Coder新模型超越GPT-4o

人工智能 新聞
Qwen2.5-Coder-32B正式發(fā)布,霸氣拿下多個(gè)主流基準(zhǔn)測(cè)試SOTA,徹底登上全球最強(qiáng)開源編程模型寶座。

一夜之間,AI編程模型的開源王座易主了!

圖片

Qwen2.5-Coder-32B正式發(fā)布,霸氣拿下多個(gè)主流基準(zhǔn)測(cè)試SOTA,徹底登上全球最強(qiáng)開源編程模型寶座。

更重要的是,在代碼能力的12個(gè)主流基準(zhǔn)上,Qwen2.5-Coder-32B與GPT-4o對(duì)決,斬獲9勝,一舉掀翻閉源編程模型的絕對(duì)統(tǒng)治。

不用一行代碼,只要輸入最直接、夠詳細(xì)的自然語言prompt,它就能給你整全套:

比如,做個(gè)簡單的模擬三體運(yùn)動(dòng)的HTML網(wǎng)頁吧!

生成個(gè)game of life的小游戲,也是手拿把掐:

哪怕是完全不懂編程的小白,也能輕松上手。比如我們體驗(yàn)了一把用一句大白話生成計(jì)算器:

圖片

很快就搞定了,計(jì)算器可以直接使用。

圖片

還有更多好玩又實(shí)用的應(yīng)用,比如不到20秒生成一個(gè)音樂播放器。

圖片

做簡歷也易如反掌:

圖片

怪不得開發(fā)者們都說,太恐怖了,超越了4o,與Sonnet、o1都能掰手腕!

圖片

圖片

圖片

圖片

更讓人驚喜的是,這次Qwen2.5-Coder上新,共開源0.5B/1.5B/3B/7B/14B/32B共6個(gè)尺寸的全系列模型,每種尺寸都取得同規(guī)模下SOTA

而且大部分版本都是采用非常寬松的Apache 2.0許可。

圖片

△藍(lán)色為此次新發(fā)布版本

要知道,自從CodeQwen1.5推出以來,該系列模型就成為開發(fā)者社區(qū)最關(guān)注的開源編程模型之一。

9月發(fā)布的Qwen2.5-Coder-7B版本,更是一騎絕塵,不少人表示它足以替代GPT-4和Sonnet 3.5成為日常主力工具。

圖片

當(dāng)時(shí)還預(yù)告了32B的發(fā)布,從此,網(wǎng)友一直催更。

圖片

這次,32B和更多尺寸的全系列Qwen2.5-Coder如約而至,這個(gè)看起來能用code生萬物的最強(qiáng)開源代碼模型,到底厲害在哪兒呢?

超越GPT-4o,人人都能用

首先,我們?yōu)槭裁搓P(guān)注編程模型?因?yàn)榇a能力對(duì)大模型的推理很重要,大模型對(duì)代碼的理解通常被認(rèn)為是其邏輯能力的基礎(chǔ)來源之一。

代碼思維鏈(program-of-thought) 將復(fù)雜問題分解為可執(zhí)行的代碼片段,并且利用代碼執(zhí)行器逐步解決子問題,可以較大程度提升基于大型語言模型的推理能力。

DeepMind斯坦福UC伯克利聯(lián)手發(fā)表的一項(xiàng)研究中提到,使用代碼鏈(Chain of Code),不僅可以提升模型基于代碼的推理能力,也給模型自然語言任務(wù)、數(shù)學(xué)計(jì)算方面帶來積極影響。

圖片

https://arxiv.org/abs/2312.04474

Qwen2.5-Coder也采用了類似原理。它基于Qwen2.5基礎(chǔ)大模型進(jìn)行初始化,使用源代碼、文本代碼混合數(shù)據(jù)、合成數(shù)據(jù)等5.5T tokens的數(shù)據(jù)持續(xù)訓(xùn)練,實(shí)現(xiàn)了代碼生成、代碼推理、代碼修復(fù)等核心任務(wù)性能的顯著提升。

最新發(fā)布中,Qwen2.5-Coder全系列共開源6個(gè)尺寸模型,每個(gè)規(guī)模包含base和Instruct兩個(gè)版本。

Base模型為開發(fā)者可以自行微調(diào)的基座模型,Instruct模型是可以直接聊天的官方對(duì)齊模型。

團(tuán)隊(duì)評(píng)估了不同尺寸Qwen2.5-Coder在所有數(shù)據(jù)集上的表現(xiàn),不但均取得同等規(guī)模下最佳性能(無論開閉源),并且還驗(yàn)證了Scaling Law依舊奏效。

圖片

其中,Qwen2.5-Coder-32B-Instruct是本次開源的旗艦?zāi)P?/strong>。

在編程大模型主要關(guān)注的5個(gè)方面上,它都實(shí)現(xiàn)了對(duì)GPT-4o的超越:

  • 代碼生成
  • 代碼修復(fù)
  • 代碼推理
  • 多編程語言
  • 人類偏好對(duì)齊

首先來看編程模型最核心的能力——代碼生成。

Qwen2.5-Coder-32B-Instruct在多個(gè)流行的代碼生成基準(zhǔn)上都取得了開源SOTA。

而且在HumanEval、McEval、Spider、EvalPlus、BigCodeBench等基準(zhǔn)上,都超越了閉源的GPT-4o和Claude 3.5 Sonnet。

圖片

其次,代碼修復(fù)方面,在主流基準(zhǔn)Aider上,Qwen2.5-Coder-32B-Instruct略勝GPT-4o。

第三,代碼推理方面,在CRUXEval基準(zhǔn)上,32B版本較7B版本有了明顯提升,甚至達(dá)到了和GPT-4o、Claude 3 Opus相當(dāng)?shù)乃健?/p>

圖片

第四,在對(duì)多編程語言的掌握上,Qwen2.5-Coder支持92種編程語言。Qwen2.5-Coder-32B-Instruct在其中40多種語言上表現(xiàn)出色。

在Haskell、Racket等語言上表現(xiàn)格外突出,打敗4o等閉源模型同時(shí)取得了超高分?jǐn)?shù)。

通過在預(yù)訓(xùn)練階段進(jìn)行獨(dú)特?cái)?shù)據(jù)清洗和配比,它在McEval上取得65.9分,

圖片

在多編程語言的代碼修復(fù)基準(zhǔn)MdEval上,同樣表現(xiàn)突出,取得75.2分,位列所有開源模型第一。

最后,為了檢驗(yàn)Qwen2.5-Coder-32B-Instruct在人類偏好上的對(duì)齊表現(xiàn)。通義千問團(tuán)隊(duì)還構(gòu)建了一個(gè)來自內(nèi)部標(biāo)注的代碼偏好評(píng)估基準(zhǔn)Code Arena,可以理解為編程大模型競(jìng)技場(chǎng)。

這一部分,Qwen2.5-Coder-32B-Instruct和閉源模型正面PK,通過讓兩個(gè)模型在同樣問題下PK,計(jì)算最終勝負(fù)比,以此來評(píng)判模型表現(xiàn)。

實(shí)驗(yàn)結(jié)果顯示,Claude 3.5 Sonnet戰(zhàn)績最好,Qwen2.5-Coder-32B-Instruct和GPT-4o水平相當(dāng),勝率為68.9%。

圖片

總的來看,Qwen2.5-Coder-32B-Instruct毫無疑問是開源最佳,并且真正拉平甚至部分超出了有最強(qiáng)代碼能力的閉源模型。

在實(shí)際應(yīng)用上,通義千問團(tuán)隊(duì)演示了基于Qwen2.5-Coder打造的智能代碼助手,并上線了一個(gè)Artifacts應(yīng)用。

目前智能代碼助手領(lǐng)域主要以閉源模型為主,Qwen2.5-Coder為開發(fā)者提供了開源選擇。

它在幾個(gè)可以評(píng)估模型輔助編程的基準(zhǔn)上(CrossCodeEval、CrossCodeEval、CrossCodeLongEval、RepoEval、SAFIM)都取得了SOTA。

圖片

新的Qwen2.5-Coder,對(duì)編程小白也很友好,一句話就能開發(fā)小應(yīng)用/游戲。

比如現(xiàn)場(chǎng)自動(dòng)做一個(gè)2048小游戲,幾十秒搞定,立刻就能玩。

圖片

或者是生成一個(gè)圖文并茂的英語單詞卡頁面,速度都非??臁?/p>

圖片

被全球開發(fā)者追捧的中國開源模型

Qwen2.5-Coder-32B的快速推出可以說是眾望所歸。

就在前段時(shí)間,Reddit還有帖子提問,怎么32B版本還不來?

圖片

畢竟,不少人都基于9月開源的Qwen2.5-Coder-1.5B和7B版本,打造出了熱度頗高的應(yīng)用。

比如Qwen Code Interpreter。這是一個(gè)類似于ChatGPT的代碼解釋器,可完全在本地/瀏覽器上運(yùn)行,基于Qwen2.5-Coder-1.5B打造。

圖片

只用小模型還實(shí)現(xiàn)了非常好的效果,這立刻引發(fā)不少網(wǎng)友的關(guān)注,一個(gè)隨手推薦帖就有近千人點(diǎn)贊。

圖片
圖片

還有人基于Qwen2.5-Coder打造了專門用于rust語言的編程助手。

圖片

說Qwen2.5-Coder是最受歡迎的開源編程大模型絕不為過,事實(shí)上,每一代Qwen編程模型,都代表了開源的最高水平,PK的永遠(yuǎn)是當(dāng)時(shí)最厲害的閉源模型。

今年4月,CodeQwen1.5-7B發(fā)布,在基礎(chǔ)代碼生成能力上,它表現(xiàn)出超過更大尺寸模型的潛力,拉近了開源模型和GPT-4之間的編程能力差距。

圖片

之后在云棲大會(huì)上,Qwen2.5-Coder-1.5B/7B發(fā)布。作為Qwen2.5家族的一員,Qwen2.5-Coder-7B打敗了當(dāng)時(shí)比它尺寸更大的DeepSeek-Coder-V2-Lite和Codestral-20B,成為最強(qiáng)基礎(chǔ)編程模型之一。

在此基礎(chǔ)上,Qwen2.5-Coder-32B的推出,將規(guī)模提升一個(gè)數(shù)量級(jí)達(dá)到百億參數(shù),能力也進(jìn)一步涌現(xiàn),水平超越GPT-4o,逐漸逼近閉源模型王者Claude 3.5 Sonnet。

閉源模型山頭幾個(gè)月一換,而開源的Qwen卻從來沒有停下攀登的腳步,也進(jìn)一步驗(yàn)證,開源模型和閉源模型之間的差距正在縮短,開源模型完全有機(jī)會(huì)、有能力取代閉源模型,為全球廣大開發(fā)者用戶提供更加低門檻、開放的AI能力。

隨著AI應(yīng)用趨勢(shì)不斷演進(jìn),越來越多領(lǐng)域和行業(yè)加入,對(duì)AI模型的性能、開發(fā)成本以及上手門檻都會(huì)提出更高要求。反之,易用的開源模型將成為推動(dòng)這股趨勢(shì)的重要?jiǎng)恿Α?/p>

Qwen系列的爆火就是這種正向循環(huán)最好的證明之一。截至9月底,全球基于Qwen系列二次開發(fā)的衍生模型數(shù)量9月底突破7.43萬,超越Llama系列衍生模型的7.28萬。

通義千問Qwen已成為全球最大的生成式語言模型族群。

圖片

而背靠阿里——全球云計(jì)算和AI的第一梯隊(duì)玩家,一方面,深厚技術(shù)和資源支持為Qwen系列的持續(xù)開源、不斷升級(jí)提供更可靠保障,另一方面,阿里自身業(yè)務(wù)及發(fā)展上的需要也構(gòu)成了Qwen繼續(xù)攀登高峰的內(nèi)在閉環(huán)。

不過開源模型最大價(jià)值還是要回歸開發(fā)者。

AI的到來,讓天下沒有難開發(fā)的應(yīng)用。

Qwen作為中國開源大模型領(lǐng)軍者,為全球開發(fā)者提供更豐富的選擇,也代表中國創(chuàng)新力量在全球大模型競(jìng)技中登臺(tái)亮相,并且正在得到更多人的認(rèn)可。

嗯…比如前段時(shí)間Mistral發(fā)布的端側(cè)模型沒有和Qwen2.5做對(duì)比,還被小小吐槽了下(doge)。

圖片
圖片

值得一提的是,據(jù)透露Qwen3已經(jīng)在路上,預(yù)計(jì)在幾個(gè)月內(nèi)和大家見面??梢云诖幌聗

關(guān)于Qwen2.5-Coder的更多信息,可直接通過下方鏈接了解。

GitHub地址:
https://github.com/QwenLM/Qwen2.5-Coder
技術(shù)報(bào)告:
https://arxiv.org/abs/2409.12186

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-08-30 14:35:00

2024-09-06 13:00:29

2025-03-26 06:56:56

2024-07-23 09:20:35

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達(dá)

2024-08-09 12:50:02

2024-06-24 18:15:22

2024-05-14 11:29:15

2024-07-23 12:32:11

2024-03-28 11:15:36

開源AI

2024-08-14 12:54:46

2024-07-24 09:20:45

2024-07-19 14:08:02

2024-12-26 07:10:00

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-01-15 12:27:11

2024-09-19 14:00:00

模型開源代碼

2024-06-05 13:09:26

2024-05-15 17:34:15

2024-10-06 09:00:00

AI訓(xùn)練數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)