自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

星辰與代碼:DeepSeek的發(fā)展歷程

人工智能
DeepSeek LLM 屬于密集的LLM模型,沿用了 LLaMA 的部分設(shè)計(jì),如采用Pre-Norm結(jié)構(gòu)、RMSNorm函數(shù)、SwiGLU激活函數(shù)和Rotary Embedding位置編碼。

技術(shù)突破階段

2024 年,DeepSeek 強(qiáng)勢開啟生態(tài)擴(kuò)張與技術(shù)爆發(fā)的新紀(jì)元,成為全球 AI 領(lǐng)域矚目的焦點(diǎn)。

年初 1 月,DeepSeek 便以 DeepSeek-MoE 震撼登場,創(chuàng)新性架構(gòu)設(shè)計(jì)以僅 60% 的計(jì)算量損耗,成功超越 Llama 2-7B 性能,為后續(xù)技術(shù)突破奠定堅(jiān)實(shí)基礎(chǔ),在模型效率優(yōu)化上邁出關(guān)鍵一步。

緊接著 2 月,DeepSeekMath 在 MATH 基準(zhǔn)測試中表現(xiàn)驚艷,成績飆升至 51.7%,無限逼近 GPT-4 水平,數(shù)學(xué)推理能力實(shí)現(xiàn)質(zhì)的飛躍,極大提升了模型在復(fù)雜數(shù)學(xué)問題求解上的可靠性與精準(zhǔn)度。

3 月,DeepSeek 布局多模態(tài)領(lǐng)域,VL 系列研發(fā)正式啟動(dòng),為后續(xù)多模態(tài)融合發(fā)展埋下伏筆;5 月,經(jīng)濟(jì)型 MoE 架構(gòu) DeepSeek-V2 重磅推出,其 API 定價(jià)僅為 GPT-4 Turbo 的 1%,以超高性價(jià)比打破行業(yè)價(jià)格壁壘,在保持模型高性能的同時(shí),讓更多開發(fā)者和企業(yè)能夠輕松使用,迅速擴(kuò)大了用戶群體和應(yīng)用場景。

步入 6 月,DeepSeek-Coder-V2 橫空出世,在編程任務(wù)中與 GPT4-Turbo 全面匹敵,助力開發(fā)者高效完成代碼編寫、調(diào)試等工作,顯著提升編程效率與質(zhì)量,成為開發(fā)者手中的得力工具。

圖片圖片

9 月,DeepSeek 再度發(fā)力,成功整合 Coder 與 Chat 模型,升級(jí)版 DeepSeek V2.5 震撼上線,實(shí)現(xiàn)系統(tǒng)融合,進(jìn)一步優(yōu)化用戶交互體驗(yàn),讓模型在自然語言處理與代碼生成等多方面協(xié)同工作,為用戶提供更加全面、智能的服務(wù)。

在這一年里,DeepSeek 憑借一系列技術(shù)突破與創(chuàng)新,不僅拓寬了自身生態(tài)版圖,更推動(dòng)了整個(gè) AI 行業(yè)向低成本、高效率方向發(fā)展,為全球 AI 發(fā)展注入強(qiáng)勁動(dòng)力,引領(lǐng)行業(yè)邁向新的發(fā)展階段。

多模態(tài)與全球化布局

2024 年第四季度至 2025 年第一季度,DeepSeek 以令人驚嘆的速度實(shí)現(xiàn)了跨越式發(fā)展,在 AI 領(lǐng)域掀起了陣陣波瀾。

2024 年 11 月,DeepSeek 推出首個(gè)推理專用模型 DeepSeek - R1 - Lite。這一創(chuàng)新性舉措,猶如在推理模型賽道上按下了加速鍵,為后續(xù)更強(qiáng)大模型的推出奠定了堅(jiān)實(shí)基礎(chǔ),也為專注于推理任務(wù)的開發(fā)者和研究人員提供了全新且高效的工具。

緊接著在 12 月,DeepSeek 乘勝追擊,發(fā)布旗艦?zāi)P?DeepSeek - V3。該模型基于 2048 塊 H800 GPU 集群,歷經(jīng) 55 天的精心打磨完成訓(xùn)練,訓(xùn)練成本約 557.6 萬美元。其性能表現(xiàn)卓越,在眾多開源模型中脫穎而出,成功超越 Qwen2.5 - 72B 等開源模型,無論是在復(fù)雜的知識(shí)問答、代碼生成,還是多語言處理等任務(wù)中,都展現(xiàn)出了頂尖的實(shí)力,為開源模型領(lǐng)域樹立了新的標(biāo)桿。

步入 2025 年 1 月,DeepSeek 的發(fā)展勢頭愈發(fā)強(qiáng)勁。DeepSeek - R1 開源模型成功實(shí)現(xiàn)與 OpenAI o1 正式版性能對齊,這一成果不僅證明了 DeepSeek 在技術(shù)研發(fā)上的深厚底蘊(yùn),更意味著開發(fā)者和用戶能夠在開源的生態(tài)下,享受到與行業(yè)頂尖水平相當(dāng)?shù)哪P头?wù)。同月,DeepSeek 智能助手強(qiáng)勢登頂美區(qū) App Store 榜首,其簡潔高效的交互體驗(yàn)、強(qiáng)大精準(zhǔn)的回答能力,吸引了全球用戶的目光,成為了用戶在智能交互領(lǐng)域的首選應(yīng)用之一。此外,DeepSeek 還推出了多模態(tài)系統(tǒng) Janus - Pro,進(jìn)一步拓展了 AI 應(yīng)用的邊界,實(shí)現(xiàn)了文本、圖像、音頻等多種信息模態(tài)的融合處理,為用戶帶來了更加豐富多元的交互體驗(yàn)。

圖片圖片

到了 2025 年 2 月,在經(jīng)過一段時(shí)間的市場驗(yàn)證,收集大量用戶反饋并進(jìn)行深度分析后,DeepSeek 對 API 定價(jià)策略做出調(diào)整。輸入 token 價(jià)格上調(diào) 100%,輸出 token 價(jià)格上調(diào) 300%。此次價(jià)格調(diào)整,是基于模型性能提升、服務(wù)優(yōu)化以及市場供需等多方面因素綜合考量的結(jié)果,旨在為用戶持續(xù)提供高質(zhì)量、穩(wěn)定且不斷進(jìn)化的 AI 服務(wù),同時(shí)也確保 DeepSeek 在技術(shù)研發(fā)與市場運(yùn)營之間找到良好的平衡,以推動(dòng)自身在 AI 領(lǐng)域的持續(xù)創(chuàng)新與發(fā)展。

在這短短幾個(gè)月的時(shí)間里,DeepSeek 憑借一系列具有開創(chuàng)性的成果,展示了其在 AI 領(lǐng)域的強(qiáng)大實(shí)力與無限潛力,也為整個(gè)行業(yè)的發(fā)展注入了新的活力與動(dòng)力。

DeepSeek模型發(fā)展

另外DeepSeek 系列在技術(shù)創(chuàng)新的道路上也是不斷發(fā)展,從最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath,再到DeepSeek V2、DeepSeek V3 以及最新的 DeepSeek R1

圖片圖片

DeepSeek LLM

DeepSeek LLM 屬于密集的LLM模型,沿用了 LLaMA 的部分設(shè)計(jì),如采用Pre-Norm結(jié)構(gòu)、RMSNorm函數(shù)、SwiGLU激活函數(shù)和Rotary Embedding位置編碼。

關(guān)鍵技術(shù) :

  1. 基于 Transformer 架構(gòu),采用分組查詢注意力(GQA)優(yōu)化推理成本。
  2. 支持多步學(xué)習(xí)率調(diào)度器,提升訓(xùn)練效率。
  3. 在預(yù)訓(xùn)練和對齊(監(jiān)督微調(diào)與 DPO)方面進(jìn)行了創(chuàng)新。
  4. 縮放定律研究 :提出了新的最優(yōu)模型/數(shù)據(jù)擴(kuò)展-縮放分配策略。

DeepSeek MoE

DeepSeekMoE 是一種創(chuàng)新的MoE架構(gòu),專門設(shè)計(jì)用于實(shí)現(xiàn)終極專家專業(yè)化(expert specialization)。

關(guān)鍵技術(shù) :

  1. 細(xì)粒度專家分割 (Fine-Grained Expert Segmentation):將專家細(xì)分為更細(xì)的粒度,以實(shí)現(xiàn)更高的專家專業(yè)化和更準(zhǔn)確的知識(shí)獲取。
  2. 共享專家隔離 (Shared Expert Isolation):隔離一些共享專家以減輕路由專家之間的知識(shí)冗余。
  3. 負(fù)載均衡的輔助損失 (Auxiliary Loss for Load Balance):通過專家級(jí)平衡損失和設(shè)備級(jí)平衡損失,緩解模型訓(xùn)練時(shí)可能出現(xiàn)負(fù)載不均衡問題。

DeepSeek Math

DeepSeekMath 是數(shù)學(xué)推理模型。

關(guān)鍵技術(shù) :

  1. 數(shù)學(xué)預(yù)訓(xùn)練:代碼訓(xùn)練可提升數(shù)學(xué)推理能力。
  2. 監(jiān)督微調(diào):構(gòu)建多格式數(shù)學(xué)指令微調(diào)數(shù)據(jù)集。
  3. 強(qiáng)化學(xué)習(xí):提出 GRPO(Group Relative Policy Optimization)算法,通過組分?jǐn)?shù)估計(jì)基線,減少訓(xùn)練資源消耗。

DeepSeek V2

DeepSeek V2 是一款 經(jīng)濟(jì)高效的大規(guī)模MoE模型,優(yōu)化推理與訓(xùn)練成本。

關(guān)鍵技術(shù):

  1. DeepseekMoE :把 FFN 的結(jié)構(gòu)改成 DeepseekMoE,是對傳統(tǒng) MoE 結(jié)構(gòu)的改進(jìn)。
  2. 多頭潛在注意力(MLA):利用低秩鍵值聯(lián)合壓縮,來降低推理時(shí)的KV緩存開銷。
  3. 多Token預(yù)測(MTP):預(yù)測多步依賴,加速推理生成。
  4. 無輔助損失的負(fù)載均衡策略 :引入專家級(jí)均衡損失,設(shè)備級(jí)平衡損失,通信平衡損失,避免負(fù)載均衡帶來的輔助損失。

DeepSeek V3

整體思路:基于DeepSeek-V2,引入新的架構(gòu)和訓(xùn)練策略,進(jìn)一步提升模型的性能,同時(shí)降低訓(xùn)練成本。在模型架構(gòu)、訓(xùn)練方法、知識(shí)蒸餾與能力提升、模型性能與成本等方面進(jìn)行創(chuàng)新。

關(guān)鍵技術(shù):

  1. 無輔助損失的負(fù)載均衡策略 (ALFLB):通過引入偏置項(xiàng)動(dòng)態(tài)調(diào)整專家負(fù)載。
  2. Token預(yù)測 訓(xùn)練目標(biāo)(MTP):在每個(gè)位置預(yù)測多個(gè)未來的 token,提高模型的數(shù)據(jù)效率。
  3. 高效的訓(xùn)練框架:FP8 混合精度訓(xùn)練框架,通過 DualPipe 算法和優(yōu)化的通信內(nèi)核,實(shí)現(xiàn)了近乎零開銷的跨節(jié)點(diǎn)通信。
  4. 知識(shí)蒸餾 :從 DeepSeek - R1 系列模型中蒸餾推理能力,將其融入 DeepSeek - V3,提升了模型的推理性能。

DeepSeek R1

定位:強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的推理模型,顛覆傳統(tǒng)訓(xùn)練流程。

關(guān)鍵技術(shù):

  1. 零監(jiān)督微調(diào)(Zero-SFT):完全依賴強(qiáng)化學(xué)習(xí)(RL),成本降至OpenAI O1的3%-5%18。
  2. 組相對策略優(yōu)化(GRPO):替代PPO算法,無需價(jià)值模型,降低計(jì)算開銷89。
  3. 雙重獎(jiǎng)勵(lì)系統(tǒng):結(jié)合準(zhǔn)確性獎(jiǎng)勵(lì)與格式獎(jiǎng)勵(lì),提升結(jié)構(gòu)化輸出能力8。

時(shí)代的需求

在當(dāng)下,中美技術(shù)競爭態(tài)勢愈發(fā)激烈,美國對芯片出口實(shí)施嚴(yán)格限制,這使得國內(nèi)在大模型技術(shù)領(lǐng)域突破國外壟斷的需求迫在眉睫。在此關(guān)鍵節(jié)點(diǎn),DeepSeek團(tuán)隊(duì)毅然選擇成立一家獨(dú)立的人工智能基礎(chǔ)技術(shù)研究公司。其目光聚焦于低成本、高性能模型的研發(fā),這一舉措意義非凡。

一方面,它能夠充分滿足國內(nèi)市場對契合中文語境的AI需求,為國內(nèi)用戶帶來更貼合使用習(xí)慣、更懂中國文化和語言特色的AI服務(wù);另一方面,它也為國產(chǎn)大模型產(chǎn)業(yè)樹立起標(biāo)桿,激勵(lì)更多本土企業(yè)投身大模型研發(fā),打破國外技術(shù)在該領(lǐng)域的長期主導(dǎo)局面,推動(dòng)國產(chǎn)大模型產(chǎn)業(yè)朝著自主、創(chuàng)新、高效的方向大步邁進(jìn) 。

責(zé)任編輯:武曉燕 來源: 小牛呼嚕嚕
相關(guān)推薦

2017-05-27 21:07:24

NFV網(wǎng)絡(luò)功能虛擬化數(shù)據(jù)中心

2010-06-17 17:34:15

UML發(fā)展

2010-01-07 09:14:27

2009-08-14 13:34:21

SSL證書 EV SSL在線交易

2013-09-11 14:00:16

Windows 8.1

2016-02-01 13:48:53

容器容器技術(shù)

2022-04-12 11:15:31

Redis消息隊(duì)列數(shù)據(jù)庫

2022-07-14 09:04:32

邊緣計(jì)算邊緣分析

2017-04-11 09:00:24

機(jī)器學(xué)習(xí)發(fā)展歷程啟示

2010-03-10 18:12:50

Python編程語言

2010-06-07 10:00:45

MySQL數(shù)據(jù)庫

2023-02-15 08:31:19

2010-03-31 13:47:22

Oralce數(shù)據(jù)庫

2011-09-19 10:19:04

NoSQL

2017-09-01 16:30:20

數(shù)據(jù)中心空調(diào)系統(tǒng)機(jī)房

2010-06-02 16:20:43

Debian

2023-09-03 16:54:59

容器架構(gòu)微服務(wù)

2013-08-01 11:57:12

2010-12-13 15:20:47

綜合布線工程

2014-01-07 14:19:57

CES2014可穿戴設(shè)備智能家居
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)