自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

秒殺700億Llama 2!最新國產(chǎn)大模型亮相,無需申請即可免費商用,背后公司來自私募巨頭

人工智能
最好的開源大模型CodeLlama相比,DeepSeek Coder在代碼生成任務上(使用標準數(shù)據(jù)集HumanEval、MBPP和DS-1000進行評測)分別領先了9.3%、10.8%和5.9%。

國產(chǎn)大模型剛剛出了一位全新選手:

參數(shù)670億的DeepSeek。

它在近20個中英文的公開評測榜單上直接超越了同量級、700億的Llama 2。

并尤其以推理、數(shù)學和編碼能力為突出。

圖片圖片

其中在數(shù)學能力上,它測了Grok剛剛參與過的匈牙利今年最新的高中數(shù)學考試題,得了65分。

圖片圖片

對比Grok當時公布的成績:59分,以及GPT-4的68分,表現(xiàn)十分出色。

DeepSeek主打一個發(fā)布即開源:

共包含70億和670億兩個參數(shù)版本,每個版本均含基礎模型和指令微調模型,無需申請,即可免費商用。

同時,它已開放了全面內測,注冊一下就能玩。

圖片圖片

Ps. DeepSeek的中文能力在GPT-3.5之上,可以使用中文進行測試。

圖片圖片

在推特上,DeepSeek也引起了一大批技術同行的關注:

早期測試過的人表示沒毛病。

圖片圖片

還有人贊譽DeepSeek彌補了開源LLM在數(shù)學和編碼上的短板。

圖片圖片

那么,DeepSeek是如何訓練出來的?

與Llama架構相同

DeepSeek使用與Llama相同的架構,即自回歸Transformer解碼器架構。

其中70億參數(shù)的版本使用多頭注意力,670億參數(shù)版本使用分組查詢注意力。

預訓練在包含2萬億個中英文token的數(shù)據(jù)集(序列長度4096)和AdamW優(yōu)化器上進行。

其中70億參數(shù)版本的模型的訓練batch size為2304,學習率為4.2e-4;670億參數(shù)版本的模型的batch size為4608,學習率為3.2e-4。

DeepSeek的訓練過程中特別采用了多步學習率計劃:

先從2000個預測步驟開始,然后在1.6萬億token時逐步達到最大值的31.6%,在1.8萬億token時逐步達到最大值的10%。

有網(wǎng)友看完表示:

這種從1.6萬億token時開啟的學習率冷卻階段有點類似于“Scaling Vision Transformers”那篇論文中的lr計劃消融操作。

這也與Llama的余弦學習率衰減(要求它們提前指定步數(shù))完全不同,非常有趣。

圖片圖片

下圖是作者發(fā)布的DeepSeek訓練損失曲線以及在幾個基準上的曲線圖:

圖片圖片

數(shù)學和編碼能力突出

我們重點關注DeepSeek進行的如下三大類測試結果。

一個是今年5月才發(fā)布的2023年匈牙利高中數(shù)學考試題。

盡管DeepSeek已經(jīng)在GSM8k和MATH這兩個標準基準上取得了不錯的成績:

圖片圖片

但由于存在過度擬合這些數(shù)據(jù)集的風險,作者還是決定評估一下樣本外的數(shù)學泛化能力。

如下圖所示,位于右上角的670億參數(shù)DeepSeek最終在樣本內數(shù)學能力(縱軸GSM8K)排名第三,僅次于Claude 2和GPT-4,但在樣本外數(shù)學能力(橫軸Exam Score)排名第二,僅次于GPT-4。

圖片圖片

第二個是考驗DeepSeek指令跟隨能力的測試。

在此,作者使用了谷歌11月15日剛剛發(fā)布的指令跟隨評測集,來評價模型的“聽話程度”。

結果是領先一眾開源模型,但59.1分的成績與GPT-4還有20分的差距。

圖片圖片

最后是代碼能力測試。

同樣,作者在這里重點關注了樣本外能力,選擇的是LeetCode今年7月2日到11月12日的最新真題進行測試。

結果是比國內常見的大模型都要好很多,并且也遠遠超越了GPT 3.5。

圖片圖片

背后公司是誰?

經(jīng)搜索,DeepSeek背后的公司名叫深度求索。base位于北京,今年5月正式成立。

目標不止是大模型,而是AGI。

就在11月初,這家公司就發(fā)布代碼大模型DeepSeek Coder。

與之前最好的開源大模型CodeLlama相比,DeepSeek Coder在代碼生成任務上(使用標準數(shù)據(jù)集HumanEval、MBPP和DS-1000進行評測)分別領先了9.3%、10.8%和5.9%。

圖片圖片

特別值得一提的是,深度求索其實是從知名私募巨頭幻方旗下獨立出來的一家公司。

幻方這家公司聽起來和AI“八桿子打不著”,但實際上,2019年時,幻方就發(fā)布了自研深度學習訓練平臺“螢火一號”。

據(jù)稱該項目總投資近2億元,共搭載了1100塊GPU。

后來“螢火一號”由升級為“二號”,搭載的GPU數(shù)則達到了約1萬張。

參考鏈接:
[1]https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ[2]https://twitter.com/johannes_hage/status/1730075189428494842
[3]https://twitter.com/jeremyphoward/status/1730113946345205970
[4]https://twitter.com/bindureddy/status/1730248977499762740
[5]https://zhuanlan.zhihu.com/p/636451367

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-08-07 13:40:39

AI模型

2023-07-25 13:52:54

開源模型

2023-07-28 15:39:20

TransGPT人工智能開源

2023-09-11 13:28:00

AI模型

2023-09-04 12:58:05

2023-08-07 12:52:04

模型免費商用技術

2023-07-18 15:05:00

開源大模型

2023-07-19 12:09:36

大模型Llama 2扎克伯格

2023-08-21 10:36:23

2024-05-07 08:12:08

2023-08-03 19:11:45

2023-07-04 15:58:11

ChatGPT人工智能

2023-10-29 22:41:29

模型開源

2022-06-16 13:43:45

漏洞黑客網(wǎng)絡攻擊

2023-07-19 15:01:14

GPT-4LaMA2參數(shù)

2023-09-26 14:21:33

模型開源Qwen-14B

2024-01-03 17:40:49

模型AI

2023-07-19 09:00:00

模型AI

2023-08-04 13:22:46

AI開源
點贊
收藏

51CTO技術棧公眾號