Deepseek v3正式發(fā)布:用557.6萬美金超越Claude 3.5 Sonnet的驚人杰作
2024年12月26日,DeepSeek AI正式發(fā)布了其最新的大型語言模型——DeepSeek-V3,每秒處理 60 個(gè) token,比 V2 快 3 倍!MoE架構(gòu),6710 億參數(shù),激活 370 億參數(shù),訓(xùn)練基于 14.8 萬億高質(zhì)量 token,完全開源,附送53頁pdf技術(shù)論文
主要看點(diǎn)
1.DeepSeek-V3 采用了創(chuàng)新的知識(shí)蒸餾方法,將 DeepSeek R1 系列模型中的推理能力遷移到標(biāo)準(zhǔn) LLM 中。該方法巧妙地融合了 R1 的驗(yàn)證和反思模式,顯著提高了 DeepSeek-V3 的推理性能,同時(shí)又保留了對(duì)輸出風(fēng)格和長度的控制
2.首次在大規(guī)模模型上驗(yàn)證了 FP8 訓(xùn)練的可行性和有效性
3.通過協(xié)同優(yōu)化,有效克服了跨節(jié)點(diǎn) MoE 訓(xùn)練中的通信瓶頸,使得計(jì)算與通信幾乎完全重疊
4.在 DeepSeek-V2 高效架構(gòu)的基礎(chǔ)上,DeepSeek-V3 引入無輔助損失的負(fù)載均衡策略和多標(biāo)記預(yù)測(cè)(MTP)目標(biāo),不僅提升模型性能,還支持推理加速的預(yù)測(cè)解碼
5.僅耗費(fèi)了 266.4萬 H800 GPU 小時(shí),就完成了對(duì) 14.8 萬億 token 的預(yù)訓(xùn)練。預(yù)訓(xùn)練后的后續(xù)訓(xùn)練階段僅需 10 萬 GPU 小時(shí),用極?。ㄏ鄬?duì))的成本實(shí)現(xiàn)了強(qiáng)悍的性能,這一點(diǎn)值得特別說明一下:
最令人震驚的是DeepSeek-V3 如此先進(jìn)的模型的訓(xùn)練成本,如表中所示,通過對(duì)算法、框架和硬件的優(yōu)化共同設(shè)計(jì)實(shí)現(xiàn)。在預(yù)訓(xùn)練階段,訓(xùn)練DeepSeek-V3每萬億個(gè)令牌僅需180K H800 GPU小時(shí),即在集群上使用2048個(gè)H800 GPU需要3.7天。因此,預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成,成本為2664K GPU小時(shí)。加上上下文長度擴(kuò)展所需的119K GPU小時(shí)和訓(xùn)練后所需的5K GPU小時(shí),DeepSeek-V3完整訓(xùn)練的總成本僅為2.788百萬GPU小時(shí)。假設(shè)H800 GPU的租賃價(jià)格為每GPU小時(shí)2美元,總訓(xùn)練成本僅為557.6萬美元
這簡直太不可思議了,想一下o1,Claude,Gemini,Ilama 3 405B 動(dòng)輒數(shù)億美金的訓(xùn)練成本,也就是說DeepSeek僅僅用不到600萬美金就實(shí)現(xiàn)了SOTA,比Claude、Llama 405b 等的計(jì)算量少 10 倍,使用 2048 臺(tái) H800,已經(jīng)有很多外國網(wǎng)友在喊了,讓DeepSeek團(tuán)隊(duì)在馬斯克的超級(jí)計(jì)算機(jī)訓(xùn)練,我們可能已經(jīng)獲得AGI了
請(qǐng)注意,上述成本僅包括DeepSeek-V3的官方訓(xùn)練,不包括與架構(gòu)、算法或數(shù)據(jù)的前期研究和消融實(shí)驗(yàn)相關(guān)的成本
現(xiàn)在DeepSeek-V3 的API價(jià)格(看起來明年2月8號(hào)之后要漲價(jià))
表格中展示了優(yōu)惠前與優(yōu)惠后的價(jià)格。即日起至北京時(shí)間 2025-02-08 24:00,所有用戶均可享受 DeepSeek-V3 API 的價(jià)格優(yōu)惠。 在此之后,模型價(jià)格將恢復(fù)至原價(jià)
綜合評(píng)估表明,DeepSeek-V3 的性能直接干到開源第一,并且達(dá)到了與領(lǐng)先的閉源模型相當(dāng)?shù)男阅?/p>
模型下載與本地部署:多種選擇
DeepSeek-V3 提供了多種下載方式,用戶可從 Hugging Face 下載該模型??偞笮?685GB,包括 6710 億主模型權(quán)重和 140 億多令牌預(yù)測(cè) (MTP) 模塊權(quán)重
為了方便用戶本地運(yùn)行,DeepSeek AI 還與開源社區(qū)和硬件廠商合作,提供了多種部署方案:
華為昇騰 NPU: 支持在華為昇騰設(shè)備上運(yùn)行
DeepSeek-Infer Demo: 提供了輕量級(jí)的 FP8 和 BF16 推理演示
SGLang: 完全支持 DeepSeek-V3 的 BF16 和 FP8 模式,在 NVIDIA 和 AMD GPU 上均可運(yùn)行
LMDeploy: 支持 DeepSeek-V3 的高性能推理和服務(wù),無縫集成到 PyTorch 工作流中
TensorRT-LLM: 目前支持 BF16 推理和 INT4/8 量化,F(xiàn)P8 支持即將推出
AMD GPU: 通過 SGLang 支持在 AMD GPU 上運(yùn)行,支持 FP8 和 BF16 精度
DeepSeek-V3技術(shù)報(bào)告解讀
為了直觀展示53頁pdf報(bào)告的內(nèi)容,大家先直接看腦圖,隨后我將報(bào)告一些重點(diǎn)內(nèi)容做一個(gè)梳理
報(bào)告提出了DeepSeek-V3模型,用于解決大規(guī)模語言模型的高效推理和訓(xùn)練問題。簡單來說,V3主要的技術(shù)如下
1.多頭潛在注意力(MLA):MLA架構(gòu)通過低秩聯(lián)合壓縮注意力鍵和值來減少推理過程中的KV緩存,從而提高推理效率
2.DeepSeekMoE架構(gòu):DeepSeekMoE通過細(xì)粒度的專家和共享專家來實(shí)現(xiàn)更高效的訓(xùn)練
3.無輔助損失的負(fù)載均衡策略:為了避免輔助損失對(duì)模型性能的負(fù)面影響,提出了一種無輔助損失的負(fù)載均衡策略,通過動(dòng)態(tài)調(diào)整偏置項(xiàng)來保持專家負(fù)載的平衡
4.多令牌預(yù)測(cè)(MTP)目標(biāo):通過預(yù)測(cè)多個(gè)未來令牌來增強(qiáng)模型的預(yù)測(cè)能力,并可用于推理加速的投機(jī)解碼
實(shí)驗(yàn)設(shè)計(jì)
數(shù)據(jù)收集:預(yù)訓(xùn)練數(shù)據(jù)集包含14.8萬億高質(zhì)量和多樣化的令牌,涵蓋了數(shù)學(xué)、編程和多種語言
超參數(shù)設(shè)置:模型設(shè)置為61層Transformer結(jié)構(gòu),隱藏維度為7168。MLA的頭數(shù)為128,每頭維度為128。KV壓縮維度為512,查詢壓縮維度為1536
訓(xùn)練過程:采用FP8混合精度訓(xùn)練框架,設(shè)計(jì)了DualPipe算法以實(shí)現(xiàn)高效的管道并行性。訓(xùn)練過程中使用了序列并行性和數(shù)據(jù)并行性來優(yōu)化計(jì)算和通信效率
關(guān)鍵問題
問題1:DeepSeek-V3在訓(xùn)練過程中如何實(shí)現(xiàn)高效的流水線并行性?
DeepSeek-V3采用了DualPipe算法來實(shí)現(xiàn)高效的流水線并行性。DualPipe算法通過將前向和后向計(jì)算階段重疊,減少了管道氣泡的數(shù)量,并隱藏了大部分通信開銷。具體來說,DualPipe將每個(gè)塊分為四個(gè)部分:注意力、全節(jié)點(diǎn)廣播、MLP和全節(jié)點(diǎn)合并。通過重新排列這些組件并手動(dòng)調(diào)整GPU SMs的分配,確保了計(jì)算和通信的重疊。這種方法不僅加速了模型訓(xùn)練,還減少了管道氣泡和峰值激活內(nèi)存的使用
問題2:DeepSeek-V3的無輔助損失負(fù)載均衡策略是如何工作的?
DeepSeek-V3的無輔助損失負(fù)載均衡策略通過引入偏置項(xiàng)來動(dòng)態(tài)調(diào)整專家負(fù)載,從而避免輔助損失對(duì)模型性能的負(fù)面影響。具體來說,每個(gè)專家的負(fù)載通過sigmoid函數(shù)計(jì)算的親和度分?jǐn)?shù)來確定,并通過歸一化處理生成門控值。為了實(shí)現(xiàn)負(fù)載均衡,引入了偏置項(xiàng) ,并將其加到親和度分?jǐn)?shù)上,以確定每個(gè)令牌的路由選擇。通過在訓(xùn)練過程中動(dòng)態(tài)調(diào)整偏置項(xiàng),DeepSeek-V3能夠在訓(xùn)練過程中保持專家負(fù)載的平衡,從而提高模型性能
問題3:DeepSeek-V3在多令牌預(yù)測(cè)(MTP)方面有哪些具體的實(shí)現(xiàn)細(xì)節(jié)?
DeepSeek-V3的多令牌預(yù)測(cè)(MTP)通過在每個(gè)預(yù)測(cè)深度預(yù)測(cè)多個(gè)未來令牌來增強(qiáng)模型的預(yù)測(cè)能力。具體實(shí)現(xiàn)上,使用多個(gè)順序模塊來預(yù)測(cè)額外的令牌,并保持完整的因果鏈。每個(gè)MTP模塊由一個(gè)共享嵌入層、一個(gè)共享輸出頭、一個(gè)Transformer塊和一個(gè)投影矩陣組成。對(duì)于每個(gè)輸入令牌,首先將其與下一個(gè)令牌的嵌入進(jìn)行線性組合,然后通過Transformer塊進(jìn)行處理,最后通過輸出頭計(jì)算預(yù)測(cè)概率。通過這種多令牌預(yù)測(cè)方法,DeepSeek-V3能夠提高數(shù)據(jù)的利用效率,并增強(qiáng)模型的預(yù)測(cè)能力