自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

一塊錢100萬(wàn)token，超強(qiáng)MoE模型開源，性能直逼GPT-4-Turbo

作者：機(jī)器之心 2024-05-07 13:07:03

人工智能新聞

近日，探索通用人工智能（AGI）本質(zhì)的 DeepSeek AI 公司開源了一款強(qiáng)大的混合專家 (MoE) 語(yǔ)言模型 DeepSeek-V2，主打訓(xùn)練成本更低、推理更加高效。

開源大模型領(lǐng)域，又迎來一位強(qiáng)有力的競(jìng)爭(zhēng)者。

近日，探索通用人工智能（AGI）本質(zhì)的 DeepSeek AI 公司開源了一款強(qiáng)大的混合專家 (MoE) 語(yǔ)言模型 DeepSeek-V2，主打訓(xùn)練成本更低、推理更加高效。

項(xiàng)目地址：https://github.com/deepseek-ai/DeepSeek-V2
論文標(biāo)題：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-V2 參數(shù)量達(dá) 236B，其中每個(gè) token 激活 21B 參數(shù)，支持 128K token 的上下文長(zhǎng)度。

與 DeepSeek 67B （該模型去年上線）相比，DeepSeek-V2 實(shí)現(xiàn)了更強(qiáng)的性能，同時(shí)節(jié)省了 42.5% 的訓(xùn)練成本，減少了 93.3% 的 KV 緩存，并將最大生成吞吐量提升 5.76 倍。

DeepSeek-V2 的模型表現(xiàn)非常亮眼：在 AlignBench 基準(zhǔn)上超過 GPT-4，接近 GPT-4- turbo；在 MT-Bench 中與 LLaMA3-70B 相媲美，并優(yōu)于 Mixtral 8x22B；擅長(zhǎng)數(shù)學(xué)、代碼和推理。

下面是 DeepSeek-V2 與 LLaMA 3 70B、Mixtral 8x22B、DeepSeek V1 (Dense-67B) 對(duì)比結(jié)果：

在大海撈針（NEEDLE IN A HAYSTACK）任務(wù)中，DeepSeek-V2 在上下文窗口達(dá) 128K 時(shí)表現(xiàn)良好。

在 LiveCodeBench (0901-0401「一個(gè)專為實(shí)時(shí)編碼挑戰(zhàn)而設(shè)計(jì)的基準(zhǔn)」) 上，DeepSeek-V2 獲得了較高的 Pass@1 分?jǐn)?shù)。

DeepSeek-V2 與不同模型在中文推理、中文語(yǔ)言上的表現(xiàn)：

在價(jià)格方面，DeepSeek-V2 API 的定價(jià)如下：每百萬(wàn) token 輸入 0.14 美元（約 1 元人民幣）、輸出 0.28 美元（約 2 元人民幣，32K 上下文），與 GPT-4-Turbo 定價(jià)相比，價(jià)格僅為后者的近百分之一。

模型介紹

DeepSeek-V2 采用 Transformer 架構(gòu)，其中每個(gè) Transformer 塊由一個(gè)注意力模塊和一個(gè)前饋網(wǎng)絡(luò)（FFN）組成。然而，對(duì)于注意力模塊和 FFN，研究團(tuán)隊(duì)設(shè)計(jì)并采用了創(chuàng)新的架構(gòu)。

一方面，該研究設(shè)計(jì)了 MLA，利用低秩鍵值聯(lián)合壓縮來消除推理時(shí)鍵值緩存的瓶頸，從而支持高效推理。

另一方面，對(duì)于 FFN，該研究采用高性能 MoE 架構(gòu) —— DeepSeekMoE，以經(jīng)濟(jì)的成本訓(xùn)練強(qiáng)大的模型。

在一些細(xì)節(jié)上，DeepSeek-V2 遵循 DeepSeek 67B 的設(shè)置，DeepSeek-V2 的架構(gòu)如下圖所示：

研究團(tuán)隊(duì)構(gòu)建了由 8.1T token 組成的高質(zhì)量、多源預(yù)訓(xùn)練語(yǔ)料庫(kù)。與 DeepSeek 67B 使用的語(yǔ)料庫(kù)相比，該語(yǔ)料庫(kù)的數(shù)據(jù)量特別是中文數(shù)據(jù)量更大，數(shù)據(jù)質(zhì)量更高。

該研究首先在完整的預(yù)訓(xùn)練語(yǔ)料庫(kù)上預(yù)訓(xùn)練 DeepSeek-V2，然后再收集 150 萬(wàn)個(gè)對(duì)話，涵蓋數(shù)學(xué)、代碼、寫作、推理、安全等各個(gè)領(lǐng)域，以便為 DeepSeek-V2 Chat 執(zhí)行監(jiān)督微調(diào)（SFT）。最后，該研究遵循 DeepSeekMath 采用群組相對(duì)策略優(yōu)化 (GRPO) 進(jìn)一步使模型與人類偏好保持一致。

DeepSeek-V2 基于高效且輕量級(jí)的框架 HAI-LLM 進(jìn)行訓(xùn)練，采用 16-way zero-bubble pipeline 并行、8-way 專家并行和 ZeRO-1 數(shù)據(jù)并行。鑒于 DeepSeek-V2 的激活參數(shù)相對(duì)較少，并且重新計(jì)算部分算子以節(jié)省激活內(nèi)存，無(wú)需張量并行即可訓(xùn)練，因此 DeepSeek-V2 減少了通信開銷。

此外，為了進(jìn)一步提高訓(xùn)練效率，該研究將計(jì)算和通信重疊，并為專家之間的通信、路由算法和線性融合計(jì)算定制了更快的 CUDA 內(nèi)核。

實(shí)驗(yàn)結(jié)果

該研究在多種英文和中文基準(zhǔn)上對(duì) DeepSeek-V2 進(jìn)行了評(píng)估，并將其與代表性的開源模型進(jìn)行了比較。評(píng)估結(jié)果顯示，即使只有 21B 個(gè)激活參數(shù)，DeepSeek-V2 仍然達(dá)到了開源模型中頂級(jí)的性能，成為最強(qiáng)的開源 MoE 語(yǔ)言模型。

值得注意的是，與基礎(chǔ)版本相比，DeepSeek-V2 Chat (SFT) 在 GSM8K、MATH 和 HumanEval 評(píng)估方面表現(xiàn)出顯著改進(jìn)。此外，DeepSeek-V2 Chat (RL) 進(jìn)一步提升了數(shù)學(xué)和代碼基準(zhǔn)測(cè)試的性能。

開放式生成的評(píng)估。研究團(tuán)隊(duì)繼續(xù)在開放式對(duì)話基準(zhǔn)上對(duì)模型進(jìn)行額外評(píng)估。其中對(duì)于英文開放式對(duì)話生成，他們使用 MT-Bench 和 AlpacaEval 2.0 作為基準(zhǔn)。表 4 中的評(píng)估結(jié)果表明， DeepSeek-V2 Chat (RL) 相對(duì)于 DeepSeek-V2 Chat (SFT) 具有顯著的性能優(yōu)勢(shì)。這一結(jié)果展示了強(qiáng)化學(xué)習(xí)訓(xùn)練在改進(jìn)一致性方面的有效性。

與其他開源模型相比，DeepSeek-V2 Chat (RL) 在兩個(gè)基準(zhǔn)的測(cè)試中均優(yōu)于 Mistral 8x22B Instruct 和 Qwen1.5 72B Chat。與 LLaMA3 70B Instruct 相比，DeepSeek-V2 Chat (RL) 在 MT-Bench 上展現(xiàn)出具有競(jìng)爭(zhēng)力的性能，并在 AlpacaEval 2.0 上的表現(xiàn)明顯勝出。

這些結(jié)果凸顯出了 DeepSeek-V2 Chat (RL) 在生成高質(zhì)量且上下文相關(guān)的響應(yīng)方面具有強(qiáng)大性能，尤其是在基于指令的對(duì)話任務(wù)中。

研究團(tuán)隊(duì)基于 AlignBench 評(píng)估了中文大模型社區(qū)的開放式生成能力。如表 5 所示，DeepSeek-V2 Chat (RL) 比 DeepSeek-V2 Chat (SFT) 稍有優(yōu)勢(shì)。尤其值得關(guān)注的是，DeepSeek-V2 Chat（SFT）大幅超越了所有開源中文模型，它在中文推理和語(yǔ)言方面都顯著優(yōu)于第二好的開源模型 Qwen1.5 72B Chat。

此外，DeepSeek-V2 Chat (SFT) 和 DeepSeek-V2 Chat (RL) 的性能均優(yōu)于 GPT-4-0613 和 ERNIEBot 4.0，鞏固了自家的模型在支持中文方面的頂級(jí) LLM 地位。具體來說，DeepSeek-V2 Chat（RL）在中文理解方面表現(xiàn)出色，優(yōu)于包括 GPT-4-Turbo-1106-Preview 在內(nèi)的所有模型。不過 DeepSeek-V2 Chat（RL）的推理能力仍然落后于 Erniebot-4.0 和 GPT-4 等巨型模型。

責(zé)任編輯：張燕妮來源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="ucphy"><form id="ucphy"></form></p>

<blockquote id="ucphy"><p id="ucphy"></p></blockquote>

<sub id="ucphy"><p id="ucphy"></p></sub>