自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Qwen2.5登上全球開源王座!72B模型擊敗LIama3 405B,輕松勝過GPT-4o-mini

人工智能 新聞 開源
此次Qwen可以說是史上最大規(guī)模開源,基礎模型直接釋放了7個參數型號,其中還有六七個數學、代碼模型。

擊敗LIama3!Qwen2.5登上全球開源王座。

而后者僅以五分之一的參數規(guī)模,就在多任務中超越LIama3 405B。

圖片
圖片

各種任務表現也遠超同類別的其他模型。

跟上一代相比,幾乎實現了全面提升,尤其在一般任務、數學和編碼方面的能力表現顯著。

值得注意的是,此次Qwen可以說是史上最大規(guī)模開源,基礎模型直接釋放了7個參數型號,其中還有六七個數學、代碼模型。

像14B、32B以及輕量級Turbo模型勝過GPT-4o-mini。

除3B和72B模型外,此次所有開源模型均采用Apache 2.0許可。

  • Qwen2.5:0.5B、1.5B、3B、7B、14B、32B和72B
  • Qwen2.5-Coder:1.5B、7B和32B(on the way)
  • Qwen2.5-Math:1.5B、7B和72B。

圖片

直接一整個眼花繚亂,已經有網友開始用上了。

圖片

Qwen2.5 72B與LIama3.1 405B水平相當

相比于Qwen2系列,Qwen2.5系列主要有這么幾個方面升級。

首先,全面開源。

他們研究表明,用戶對于生產用的10B-30B參數范圍以及移動端應用的3B規(guī)模的模型有濃厚興趣。

因此在原有開源同尺寸(0.5/1.5/7/72B)基礎上,還新增了14B、32B以及3B的模型。

同時,通義還推出了Qwen-Plus與Qwen-Turbo版本,可以通過阿里云大模型服務平臺的API服務進行體驗。

圖片

可以看到,超半數模型都支持128K上下文,最多可生成8K上下文。

在他們的綜合評測中,所有模型跟上一代相比實現了能力的躍遷,比如Qwen2.5-32B勝過Qwen2-72B,Qwen2.5-14B勝過Qwen2-57B-A14B。

其次,預訓練數據集更大更高質量,從原本7萬億個token擴展到最多18萬億個token。

然后就是多方面的能力增強,比如獲得更多知識、數學編碼能力以及更符合人類偏好。

此外,還有在指令跟蹤、長文本生成(從1k增加到8K以上token)、結構化數據理解(如表格)和結構化輸出生成(尤其是JSON)方面均有顯著提升。

來看看實際效果。

表格理解

圖片

生成JSON輸出

圖片

此外,Qwen2.5模型總體上對系統(tǒng)提示的多樣性具有更強的適應能力,增強了聊天機器人的角色扮演實現和條件設定能力。

那么就來看看具體模型能力如何。

旗艦模型在前文已經看到,它在各個任務都有明顯的進步。

而像0.5B、1.5B以及3B這樣的小模型,性能大概是這樣的:

圖片

值得注意的是,Qwen2.5-0.5B型號在各種數學和編碼任務上的表現優(yōu)于Gemma2-2.6B。

除此之外,Qwen2.5還展現了指令調優(yōu)之后的模型性能,72B-Instruct在幾項關鍵任務中超越了更大的Llama-3.1-405B,尤其在數學(MATH:83.1)、編碼(LiveCodeBench:55.5)和聊天(Arena-Hard:81.2)方面表現出色。

圖片

還有像32B-Instruct、14B-Instruct以及Qwen2.5-Turbo,展現了與GPT-4o-mini相當的能力。

圖片

Qwen史上最大規(guī)模開源

除了基礎模型,此次Qwen還放出了代碼和數學專業(yè)模型。

Qwen2.5-Coder提供了三種模型大?。?.5B、7B和32B版本(即將推出)。

圖片

主要有兩點改進:代碼訓練數據規(guī)模的擴大以及編碼能力的增強。

Qwen2.5-Coder在更大規(guī)模的代碼數據上進行訓練,包括源代碼、文本代碼基礎數據和合成數據,總計5.5萬億個token。

它支持128K上下文,覆蓋92種編程語言。開源的7B版本甚至超越了DeepSeek-Coder-V2-Lite和Codestral等更大型的模型,成為目前最強大的基礎代碼模型之一。

圖片

而數學模型這邊,Qwen2.5-Math主要支持通過CoT和TIR解決英文和中文數學問題。

目前不建議將此系列模型用于其他任務。

圖片
Qwen2.5-Math這一系列開源了包括基礎模型Qwen2.5-Math-1.5B/7B/72B、指令調優(yōu)模型Qwen2.5-Math-1.5B/7B/72B-Instruct,以及數學獎勵模型Qwen2.5-Math-RM-72B。

與Qwen2-Math系列僅支持使用思維鏈(CoT)解決英文數學問題不同,Qwen2.5-Math 系列擴展支持使用思維鏈和工具集成推理(TIR)解決中英文數學問題。

圖片

跟上一版本相比,他們主要干了這三件事來實現基礎模型升級。

利用Qwen2-Math-72B-Instruct模型來合成額外的高質量數學預訓練數據。

從網絡資源、書籍和代碼中收集更多高質量的數學數據,尤其是中文數據,跨越多個時間周期。

利用Qwen2.5系列基礎模型進行參數初始化,展現出更強大的語言理解、代碼生成和文本推理能力。

最終實現了能力的提升,比如1.5B/7B/72B在高考數學問答中分別提升了 3.4、12.2、19.8 分。

圖片

好了,以上是Qwen2.5系列一整套堪稱「史上最大規(guī)?!沟拈_源。

不叫草莓叫獼猴桃

阿里通義開源負責人林俊旸也分享了背后的一些細節(jié)。

圖片

他首先表示,在開源Qwen2的那一刻就開始了Qwen2.5項目。

在這過程中,他們認識到了很多問題和錯誤。

比如在預訓練方面,他們們只是專注于提高預訓練數據的質量和數量,使用了很多大家熟悉的方法。

比如文本分類器用于召回高質量數據,LLM 評分器用于對數據進行評分,這樣就能在質量和數量之間取得平衡。

還有在創(chuàng)建專家模型的同時,團隊還利用它們生成合成數據。

在后期訓練時候,用戶的反饋來幫助他們逐一解決問題,同時他們也在探索RLHF 方法,尤其是在線學習方法。

對于之后的升級和更新,他表示受o1啟發(fā),認為應該深入研究推理能力。

值得一提的是,在Qwen2.5預熱之時,他們團隊就透露不叫草莓,叫獼猴桃。

圖片

好了,現在獼猴桃可以快快用起來了。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-24 13:18:17

2025-03-25 12:11:08

2024-09-06 13:00:29

2024-05-30 12:50:05

2024-07-24 09:20:45

2024-11-12 14:00:00

AI編程

2025-01-10 11:42:40

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-04-10 10:02:43

2024-05-10 09:10:56

模型訓練

2024-08-09 12:50:02

2024-08-02 14:53:00

2024-05-13 12:38:08

AI訓練

2025-01-13 10:55:53

2024-10-17 13:30:00

2025-01-02 11:00:34

2024-12-18 07:10:00

2025-03-13 06:34:49

2025-04-16 09:15:00

AI模型數據

2025-04-11 09:10:00

模型開源AI
點贊
收藏

51CTO技術棧公眾號