自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek的V3,爆火了

原創(chuàng) 精選
人工智能
一夜之間,全球開源界最強模型不再是Llama了,而是中國開源界的新星DeepSeek最新研發(fā)的前言模型V3,甚至可以比肩世界頂尖的閉源模型。

編輯 | 言征

出品 | 51CTO技術(shù)棧(微信號:blog51cto)

上周四,12月26日那個晚上非常不平凡,一件大事注定要被AI界寫進里程碑。

一夜之間,全球開源界最強模型不再是Llama了,而是中國開源界的新星DeepSeek最新研發(fā)的前言模型V3,甚至可以比肩世界頂尖的閉源模型。

根據(jù)DeeSeek披露的基準(zhǔn)測試分?jǐn)?shù),簡單來講,八個字:開源最強,閉源比肩。

DeepSeek-V3在眾多其他閉源模型中脫穎而出,表現(xiàn)優(yōu)于Meta的旗艦產(chǎn)品——擁有4050億個參數(shù)的Llama 3.1模型。與DeepSeek的前代產(chǎn)品V2相比,V3的速度提高了三倍。

更為矚目的是,技術(shù)論文中寫道:“綜合評估表明,DeepSeek-V3已成為當(dāng)前可用的最強開源模型,其性能可與GPT-4o和Claude-3.5-Sonnet等領(lǐng)先的閉源模型相媲美?!?/span>

但更為讓人吃驚的點就在于——2個月、2000張H800卡,就搞出了GPT-4o級別的模型。

圖片圖片

V3模型的三個創(chuàng)新

DeepSeek這實力真的有點恐怖!

那么這家由知名私募巨頭幻方量化旗下的人工智能公司,究竟是如何做到的?

本身的模型架構(gòu)訓(xùn)練也不是什么秘密:V3模型還是走的MoE路線,總計擁有6710億個參數(shù),每個token可激活370億個參數(shù)。這么大模型需要多少數(shù)據(jù)量來訓(xùn)練呢?答案是:14.8萬億個token!

注意:HuggingFace上的DeepSeek-V3模型總大小為685B,包括671B的主模型權(quán)重和14B的多標(biāo)記預(yù)測(MTP)模塊權(quán)重。

DeepSeek已在GitHub上發(fā)布了該模型,并發(fā)表了一篇詳細的技術(shù)論文,概述了其能力。

論文鏈接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

論文中披露的創(chuàng)新點很多,這里分享三個印象最為深刻的點:MLA技術(shù)+小專家MoE架構(gòu);負(fù)載均衡策略、多標(biāo)記預(yù)測訓(xùn)練目標(biāo)的前后訓(xùn)練的樣板打法;P/D分離+雙流推理低設(shè)備空閑策略。

一,模型架構(gòu)方面,V3采用MLA技術(shù)(多頭潛在注意力)+MoE架構(gòu)。大模型架構(gòu)需要遵循系統(tǒng)算法系統(tǒng)設(shè)計原則,DeepSeek采用的MLA技術(shù),可以理解為類LoRA對kv進行降維壓縮,升維操作轉(zhuǎn)移到Q和O上,避免反復(fù)解壓縮,這樣可以降低kv cache/token開銷。MLA其實在V2就已經(jīng)采用了,只是沒有得到大家的廣泛關(guān)注,因為復(fù)雜度相對偏高。

而MoE這塊,這塊大家都比較熟知,主要是為了為了降低flops/param開銷,不過V3所采用的策略也可圈可點。不同于Mixtral大專家的設(shè)計(將稠密模型中的MLP結(jié)構(gòu)復(fù)制8份),DeepSeek-V3用大量“小專家”的設(shè)計,能夠顯著提升模型的稀疏程度(總參數(shù)量除以激活參數(shù)量)。

相比V2的236B總參數(shù)(21B激活參數(shù)),V3更加激進地引入256個專家,總參數(shù)量達到驚人的671B,而激活參數(shù)量僅僅增加到37B。

根據(jù)技術(shù)報告里的數(shù)據(jù),得益于更加稀疏的MoE設(shè)計,以及系統(tǒng)上的一系列優(yōu)化,訓(xùn)練V3每trillion數(shù)據(jù)的GPU小時數(shù)僅僅為180K(而V2對應(yīng)的GPU小時數(shù)為172.8K),可謂是將V2技術(shù)報告標(biāo)題中的Economical(性價比)貫徹到底。

此外,MoE架構(gòu)方面,V3還開創(chuàng)了一種新的無輔助損失的負(fù)載平衡策略和多標(biāo)記預(yù)測訓(xùn)練目標(biāo)。V3中使用先前發(fā)布的auxiliary-loss-free策略來緩解專家之間的負(fù)載不均衡。一位業(yè)界人士稱贊道:學(xué)術(shù)探索的技術(shù)能夠如此迅速地上線到自家大模型,可見DeepSeek對于創(chuàng)新的重視程度。

另外,V3引入了multi-token prediction(MTP),不僅可以在訓(xùn)練時提供更多監(jiān)督信息,還可以在推理時結(jié)合投機采樣速模型解碼。從論文匯報的效果來看,MTP會是一個不錯的訓(xùn)練技巧。

二,訓(xùn)練效率優(yōu)化方面,預(yù)訓(xùn)練方面的FP8混合精度訓(xùn)練模式,后訓(xùn)練 R1模型的長鏈思考能力蒸餾到了標(biāo)準(zhǔn)LL中。

據(jù)業(yè)內(nèi)人士介紹,實際大模型訓(xùn)練中主流選擇是BF16。因為FP8伴隨著數(shù)值溢出的風(fēng)險,而MoE的訓(xùn)練又非常不穩(wěn)定?,F(xiàn)有FP8方案的訓(xùn)練困難主要來自兩個方面,一個是粗粒度的per-tensorE4M3量化會因為個別異常值增加量化誤差,另一個則是反向過程中使用的E5M2格式會帶來較大的舍入誤差。

為了解決以上問題,DeepSeek-V3在訓(xùn)練過程中統(tǒng)一使用E4M3格式,并通過細粒度的per-tile(1x128)和per-group(128x128)量化來降低誤差。這種設(shè)計更加接近micro-scaling格式,然而,當(dāng)前硬件架構(gòu)并不支持這種格式的運算,這給FP8矩陣乘法的實現(xiàn)帶來了挑戰(zhàn)(需要通過partial sum的方式來實現(xiàn))。

FP8的好處,有一點體現(xiàn)在節(jié)省顯存上(尤其是激活值)。顯存的優(yōu)化有助于設(shè)計更好的并行策略,例如可以減少甚至消除張量并行的使用。此外,V3使用BF16來保存優(yōu)化器,狀態(tài),以及對部分操作進行選擇性重計算(例如RMSNorm, MLA Up-Proj, SwiGLU)。

可以說V3給業(yè)界做了一個很好的示范:FP8模式是可行和有效的!

通過算法、框架和硬件的共同設(shè)計,V3克服了跨節(jié)點MoE訓(xùn)練中的通信瓶頸,幾乎實現(xiàn)了完全的計算通信重疊。這顯著提高了我們的訓(xùn)練效率并降低了訓(xùn)練成本,使我們能夠在不增加額外開銷的情況下進一步擴大模型規(guī)模。

以僅2.664M H800 GPU小時的經(jīng)濟成本,就完成了在14.8T標(biāo)記上的預(yù)訓(xùn)練,并且效果也異常得好,造就了目前最強大的開源基礎(chǔ)模型。預(yù)訓(xùn)練后的后續(xù)訓(xùn)練階段僅需要0.1M GPU小時。 

此外,其訓(xùn)練過程非常穩(wěn)定。在整個訓(xùn)練過程中并沒有遇到任何不可恢復(fù)的損失峰值或執(zhí)行任何回滾。

后訓(xùn)練上,V3也有了新的樣板打法:從類o1中的長鏈思考能力蒸餾道標(biāo)準(zhǔn)LLM中。通過V3的訓(xùn)練流程,可以優(yōu)雅地將R1的驗證和反思模式整合到DeepSeek-V3中,并顯著提高了其推理性能。同時,V3的輸出風(fēng)格和長度也可以后臺控制。

三,推理優(yōu)化:推理層面,除了業(yè)內(nèi)熟知的P/D分離策略最大化系統(tǒng)吞吐,降低解碼時延之外,還填充all2all通信階段的設(shè)備空閑時間,V3采用NanoFlow中的雙流推理策略,將不同micro-batch中的計算和通信任務(wù)并發(fā)執(zhí)行,從而提高設(shè)備資源利用率。

V3:是最便宜的開源模型之一

DeepSeek將V3的API定價將維持與DeepSeek V2相同,直至2025年2月8日。之后隨著性能更強的V3版本推出,輸入時費用為每百萬個tokes0.27美元,輸出時費用為每百萬個tokens1.10美元。

這也是DeepSeek算法和工程上的創(chuàng)新的結(jié)果,V3的生成吐字速度從20TPS大幅提高至60TPS,相比V2.5模型實現(xiàn)了3倍的提升,在處理多模態(tài)數(shù)據(jù)和長文本時表現(xiàn)突出。

這意味著它也成為了市面上最便宜的模型之一。

同時,DeepSeek在開源方面也做得很足,為了確保最佳性能和靈活性,還與開源社區(qū)和硬件供應(yīng)商(英偉達、AMD、華為等)合作,提供了多種本地運行模型的方式。

V3對比o1:還是有差距

盡管這可能不是一場公平的較量,但該模型與OpenAI的o1相比表現(xiàn)如何呢?

o1在GPQA Diamond(博士級科學(xué)問題)基準(zhǔn)測試中獲得了76%的分?jǐn)?shù),而DeepSeek則以59.1%的分?jǐn)?shù)落后于o1。o1的完整版本在多個基準(zhǔn)測試中擊敗了DeepSeek。然而,DeepSeek-V3在多個基準(zhǔn)測試中確實優(yōu)于備受追捧的Claude 3.5 Sonnet。

后來,大家還發(fā)現(xiàn)V3在對話聊天中存在“誤報我是GPT4o”的內(nèi)容,純屬業(yè)內(nèi)經(jīng)常會出現(xiàn)的合成數(shù)據(jù)和蒸餾訓(xùn)練的情況。

但盡管如此,足以說明DeepSeek在過去短短幾個月里在開源AI生態(tài)系統(tǒng)中就取得了重大進展。而DeepSeek并非個例。另一方面,阿里巴巴的Qwen 2.5在性能上與許多領(lǐng)先模型不相上下。Qwen2.5-Coder系列在代碼生成方面表現(xiàn)出色,在EvalPlus、LiveCodeBench和BigCodeBench等基準(zhǔn)測試中,其功能與GPT-4o不相上下。

參考鏈接:

https://www.zhihu.com/question/7837132971/answer/65665281923

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:武曉燕 來源: 51CTO技術(shù)棧
相關(guān)推薦

2024-12-30 09:25:00

數(shù)據(jù)訓(xùn)練摩擦

2025-03-26 09:12:59

DeepSeek VChat2BISQL

2025-03-31 00:00:00

DeepSeekAI人工智能

2011-05-20 07:52:54

RADVISIONSCOPIA Mobi

2025-03-13 06:34:49

2025-02-19 10:49:30

2024-12-27 09:50:00

模型數(shù)據(jù)測試

2010-07-30 13:17:33

NFS V3

2012-12-12 14:52:36

2025-03-28 04:30:00

2025-03-03 08:17:00

DeepSeek模型數(shù)據(jù)

2023-12-25 09:41:37

點云訓(xùn)練

2009-06-10 16:56:12

可擴展GlassFisJavaEE6

2024-12-31 12:35:46

2025-02-05 12:53:21

2011-03-28 12:17:03

ibmdwRational

2025-02-26 11:16:18

2025-03-20 09:00:00

DeepSeek架構(gòu)V3/R1
點贊
收藏

51CTO技術(shù)棧公眾號