星辰與代碼:DeepSeek的發(fā)展歷程
技術(shù)突破階段
2024 年,DeepSeek 強(qiáng)勢開啟生態(tài)擴(kuò)張與技術(shù)爆發(fā)的新紀(jì)元,成為全球 AI 領(lǐng)域矚目的焦點(diǎn)。
年初 1 月,DeepSeek 便以 DeepSeek-MoE 震撼登場,創(chuàng)新性架構(gòu)設(shè)計(jì)以僅 60% 的計(jì)算量損耗,成功超越 Llama 2-7B 性能,為后續(xù)技術(shù)突破奠定堅(jiān)實(shí)基礎(chǔ),在模型效率優(yōu)化上邁出關(guān)鍵一步。
緊接著 2 月,DeepSeekMath 在 MATH 基準(zhǔn)測試中表現(xiàn)驚艷,成績飆升至 51.7%,無限逼近 GPT-4 水平,數(shù)學(xué)推理能力實(shí)現(xiàn)質(zhì)的飛躍,極大提升了模型在復(fù)雜數(shù)學(xué)問題求解上的可靠性與精準(zhǔn)度。
3 月,DeepSeek 布局多模態(tài)領(lǐng)域,VL 系列研發(fā)正式啟動(dòng),為后續(xù)多模態(tài)融合發(fā)展埋下伏筆;5 月,經(jīng)濟(jì)型 MoE 架構(gòu) DeepSeek-V2 重磅推出,其 API 定價(jià)僅為 GPT-4 Turbo 的 1%,以超高性價(jià)比打破行業(yè)價(jià)格壁壘,在保持模型高性能的同時(shí),讓更多開發(fā)者和企業(yè)能夠輕松使用,迅速擴(kuò)大了用戶群體和應(yīng)用場景。
步入 6 月,DeepSeek-Coder-V2 橫空出世,在編程任務(wù)中與 GPT4-Turbo 全面匹敵,助力開發(fā)者高效完成代碼編寫、調(diào)試等工作,顯著提升編程效率與質(zhì)量,成為開發(fā)者手中的得力工具。
圖片
9 月,DeepSeek 再度發(fā)力,成功整合 Coder 與 Chat 模型,升級(jí)版 DeepSeek V2.5 震撼上線,實(shí)現(xiàn)系統(tǒng)融合,進(jìn)一步優(yōu)化用戶交互體驗(yàn),讓模型在自然語言處理與代碼生成等多方面協(xié)同工作,為用戶提供更加全面、智能的服務(wù)。
在這一年里,DeepSeek 憑借一系列技術(shù)突破與創(chuàng)新,不僅拓寬了自身生態(tài)版圖,更推動(dòng)了整個(gè) AI 行業(yè)向低成本、高效率方向發(fā)展,為全球 AI 發(fā)展注入強(qiáng)勁動(dòng)力,引領(lǐng)行業(yè)邁向新的發(fā)展階段。
多模態(tài)與全球化布局
2024 年第四季度至 2025 年第一季度,DeepSeek 以令人驚嘆的速度實(shí)現(xiàn)了跨越式發(fā)展,在 AI 領(lǐng)域掀起了陣陣波瀾。
2024 年 11 月,DeepSeek 推出首個(gè)推理專用模型 DeepSeek - R1 - Lite。這一創(chuàng)新性舉措,猶如在推理模型賽道上按下了加速鍵,為后續(xù)更強(qiáng)大模型的推出奠定了堅(jiān)實(shí)基礎(chǔ),也為專注于推理任務(wù)的開發(fā)者和研究人員提供了全新且高效的工具。
緊接著在 12 月,DeepSeek 乘勝追擊,發(fā)布旗艦?zāi)P?DeepSeek - V3。該模型基于 2048 塊 H800 GPU 集群,歷經(jīng) 55 天的精心打磨完成訓(xùn)練,訓(xùn)練成本約 557.6 萬美元。其性能表現(xiàn)卓越,在眾多開源模型中脫穎而出,成功超越 Qwen2.5 - 72B 等開源模型,無論是在復(fù)雜的知識(shí)問答、代碼生成,還是多語言處理等任務(wù)中,都展現(xiàn)出了頂尖的實(shí)力,為開源模型領(lǐng)域樹立了新的標(biāo)桿。
步入 2025 年 1 月,DeepSeek 的發(fā)展勢頭愈發(fā)強(qiáng)勁。DeepSeek - R1 開源模型成功實(shí)現(xiàn)與 OpenAI o1 正式版性能對齊,這一成果不僅證明了 DeepSeek 在技術(shù)研發(fā)上的深厚底蘊(yùn),更意味著開發(fā)者和用戶能夠在開源的生態(tài)下,享受到與行業(yè)頂尖水平相當(dāng)?shù)哪P头?wù)。同月,DeepSeek 智能助手強(qiáng)勢登頂美區(qū) App Store 榜首,其簡潔高效的交互體驗(yàn)、強(qiáng)大精準(zhǔn)的回答能力,吸引了全球用戶的目光,成為了用戶在智能交互領(lǐng)域的首選應(yīng)用之一。此外,DeepSeek 還推出了多模態(tài)系統(tǒng) Janus - Pro,進(jìn)一步拓展了 AI 應(yīng)用的邊界,實(shí)現(xiàn)了文本、圖像、音頻等多種信息模態(tài)的融合處理,為用戶帶來了更加豐富多元的交互體驗(yàn)。
圖片
到了 2025 年 2 月,在經(jīng)過一段時(shí)間的市場驗(yàn)證,收集大量用戶反饋并進(jìn)行深度分析后,DeepSeek 對 API 定價(jià)策略做出調(diào)整。輸入 token 價(jià)格上調(diào) 100%,輸出 token 價(jià)格上調(diào) 300%。此次價(jià)格調(diào)整,是基于模型性能提升、服務(wù)優(yōu)化以及市場供需等多方面因素綜合考量的結(jié)果,旨在為用戶持續(xù)提供高質(zhì)量、穩(wěn)定且不斷進(jìn)化的 AI 服務(wù),同時(shí)也確保 DeepSeek 在技術(shù)研發(fā)與市場運(yùn)營之間找到良好的平衡,以推動(dòng)自身在 AI 領(lǐng)域的持續(xù)創(chuàng)新與發(fā)展。
在這短短幾個(gè)月的時(shí)間里,DeepSeek 憑借一系列具有開創(chuàng)性的成果,展示了其在 AI 領(lǐng)域的強(qiáng)大實(shí)力與無限潛力,也為整個(gè)行業(yè)的發(fā)展注入了新的活力與動(dòng)力。
DeepSeek模型發(fā)展
另外DeepSeek 系列在技術(shù)創(chuàng)新的道路上也是不斷發(fā)展,從最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath,再到DeepSeek V2、DeepSeek V3 以及最新的 DeepSeek R1
圖片
DeepSeek LLM
DeepSeek LLM 屬于密集的LLM模型,沿用了 LLaMA 的部分設(shè)計(jì),如采用Pre-Norm結(jié)構(gòu)、RMSNorm函數(shù)、SwiGLU激活函數(shù)和Rotary Embedding位置編碼。
關(guān)鍵技術(shù) :
- 基于 Transformer 架構(gòu),采用分組查詢注意力(GQA)優(yōu)化推理成本。
- 支持多步學(xué)習(xí)率調(diào)度器,提升訓(xùn)練效率。
- 在預(yù)訓(xùn)練和對齊(監(jiān)督微調(diào)與 DPO)方面進(jìn)行了創(chuàng)新。
- 縮放定律研究 :提出了新的最優(yōu)模型/數(shù)據(jù)擴(kuò)展-縮放分配策略。
DeepSeek MoE
DeepSeekMoE 是一種創(chuàng)新的MoE架構(gòu),專門設(shè)計(jì)用于實(shí)現(xiàn)終極專家專業(yè)化(expert specialization)。
關(guān)鍵技術(shù) :
- 細(xì)粒度專家分割 (Fine-Grained Expert Segmentation):將專家細(xì)分為更細(xì)的粒度,以實(shí)現(xiàn)更高的專家專業(yè)化和更準(zhǔn)確的知識(shí)獲取。
- 共享專家隔離 (Shared Expert Isolation):隔離一些共享專家以減輕路由專家之間的知識(shí)冗余。
- 負(fù)載均衡的輔助損失 (Auxiliary Loss for Load Balance):通過專家級(jí)平衡損失和設(shè)備級(jí)平衡損失,緩解模型訓(xùn)練時(shí)可能出現(xiàn)負(fù)載不均衡問題。
DeepSeek Math
DeepSeekMath 是數(shù)學(xué)推理模型。
關(guān)鍵技術(shù) :
- 數(shù)學(xué)預(yù)訓(xùn)練:代碼訓(xùn)練可提升數(shù)學(xué)推理能力。
- 監(jiān)督微調(diào):構(gòu)建多格式數(shù)學(xué)指令微調(diào)數(shù)據(jù)集。
- 強(qiáng)化學(xué)習(xí):提出 GRPO(Group Relative Policy Optimization)算法,通過組分?jǐn)?shù)估計(jì)基線,減少訓(xùn)練資源消耗。
DeepSeek V2
DeepSeek V2 是一款 經(jīng)濟(jì)高效的大規(guī)模MoE模型,優(yōu)化推理與訓(xùn)練成本。
關(guān)鍵技術(shù):
- DeepseekMoE :把 FFN 的結(jié)構(gòu)改成 DeepseekMoE,是對傳統(tǒng) MoE 結(jié)構(gòu)的改進(jìn)。
- 多頭潛在注意力(MLA):利用低秩鍵值聯(lián)合壓縮,來降低推理時(shí)的KV緩存開銷。
- 多Token預(yù)測(MTP):預(yù)測多步依賴,加速推理生成。
- 無輔助損失的負(fù)載均衡策略 :引入專家級(jí)均衡損失,設(shè)備級(jí)平衡損失,通信平衡損失,避免負(fù)載均衡帶來的輔助損失。
DeepSeek V3
整體思路:基于DeepSeek-V2,引入新的架構(gòu)和訓(xùn)練策略,進(jìn)一步提升模型的性能,同時(shí)降低訓(xùn)練成本。在模型架構(gòu)、訓(xùn)練方法、知識(shí)蒸餾與能力提升、模型性能與成本等方面進(jìn)行創(chuàng)新。
關(guān)鍵技術(shù):
- 無輔助損失的負(fù)載均衡策略 (ALFLB):通過引入偏置項(xiàng)動(dòng)態(tài)調(diào)整專家負(fù)載。
- Token預(yù)測 訓(xùn)練目標(biāo)(MTP):在每個(gè)位置預(yù)測多個(gè)未來的 token,提高模型的數(shù)據(jù)效率。
- 高效的訓(xùn)練框架:FP8 混合精度訓(xùn)練框架,通過 DualPipe 算法和優(yōu)化的通信內(nèi)核,實(shí)現(xiàn)了近乎零開銷的跨節(jié)點(diǎn)通信。
- 知識(shí)蒸餾 :從 DeepSeek - R1 系列模型中蒸餾推理能力,將其融入 DeepSeek - V3,提升了模型的推理性能。
DeepSeek R1
定位:強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的推理模型,顛覆傳統(tǒng)訓(xùn)練流程。
關(guān)鍵技術(shù):
- 零監(jiān)督微調(diào)(Zero-SFT):完全依賴強(qiáng)化學(xué)習(xí)(RL),成本降至OpenAI O1的3%-5%18。
- 組相對策略優(yōu)化(GRPO):替代PPO算法,無需價(jià)值模型,降低計(jì)算開銷89。
- 雙重獎(jiǎng)勵(lì)系統(tǒng):結(jié)合準(zhǔn)確性獎(jiǎng)勵(lì)與格式獎(jiǎng)勵(lì),提升結(jié)構(gòu)化輸出能力8。
時(shí)代的需求
在當(dāng)下,中美技術(shù)競爭態(tài)勢愈發(fā)激烈,美國對芯片出口實(shí)施嚴(yán)格限制,這使得國內(nèi)在大模型技術(shù)領(lǐng)域突破國外壟斷的需求迫在眉睫。在此關(guān)鍵節(jié)點(diǎn),DeepSeek團(tuán)隊(duì)毅然選擇成立一家獨(dú)立的人工智能基礎(chǔ)技術(shù)研究公司。其目光聚焦于低成本、高性能模型的研發(fā),這一舉措意義非凡。
一方面,它能夠充分滿足國內(nèi)市場對契合中文語境的AI需求,為國內(nèi)用戶帶來更貼合使用習(xí)慣、更懂中國文化和語言特色的AI服務(wù);另一方面,它也為國產(chǎn)大模型產(chǎn)業(yè)樹立起標(biāo)桿,激勵(lì)更多本土企業(yè)投身大模型研發(fā),打破國外技術(shù)在該領(lǐng)域的長期主導(dǎo)局面,推動(dòng)國產(chǎn)大模型產(chǎn)業(yè)朝著自主、創(chuàng)新、高效的方向大步邁進(jìn) 。