自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="tfhfa"></sub>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

中國MoE一夜爆火！大模型新王暴打GPT-4o，訓(xùn)練成本僅600萬美元

作者：新智元 2024-12-27 10:27:58

600萬美金訓(xùn)出擊敗GPT-4o大模型，竟被中國團隊實現(xiàn)了！今天，DeepSeek-V3在全網(wǎng)掀起巨大風(fēng)暴，僅憑671B參數(shù)在數(shù)學(xué)代碼性能上，堪比國外大模型Claude 3.5 Sonnet。

一夜之間，來自中國的大模型刷屏全網(wǎng)。

圖片

DeepSeek-V3，一個擁有671B參數(shù)的MoE模型，吞吐量每秒高達(dá)60 token，比上一代V2直接飆升3倍。

在多項基準(zhǔn)測試中，V3性能直接與Claude 3.5 Sonnet、GPT-4o相匹敵。

在數(shù)學(xué)代碼方面，DeepSeek-V3完全碾壓GPT-4o。尤其是中文能力，全面領(lǐng)先國外的領(lǐng)先大模型。

圖片

就看這閃電般的推理速度，就知道模型有多強了。

圖片

值得一提的是，DeepSeek-V3在14.8T高質(zhì)量token上完成了訓(xùn)練，模型和論文100%開源。

論文地址：https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

新模型驚艷出世，徹底掀翻了整個AI圈。業(yè)界多位AI大佬，紛紛對此表示震驚，將重點轉(zhuǎn)向其訓(xùn)練成本GPU之上。

論文中，明確提出了DeepSeek-V3僅使用2048塊GPU訓(xùn)練了2個月，并且只花費了557.6萬美金。

Karpathy驚嘆道，「作為參考，要達(dá)到這種級別的能力，通常需要約1.6萬個GPU的計算集群。不僅如此，當(dāng)前業(yè)界正在部署的集群規(guī)模甚至已經(jīng)達(dá)到了10萬個GPU。

比如，Llama 3 405B消耗了3080萬GPU小時，而看起來更強大的DeepSeek-V3卻只用了280萬GPU小時（計算量減少了約11倍）。

到目前為止，模型在實際應(yīng)用中的表現(xiàn)相當(dāng)出色——不僅在LLM競技場名列前茅，而且從Karpathy本人的快速測試來看，結(jié)果也都很不錯。

這說明，即便是在資源受限情況下，模型也能展現(xiàn)出令人印象深刻的研究和工程能力。

這是否意味著前沿LLM不需要大型GPU集群？不是的，但這表明，你必須確保不浪費已有的資源，這個案例很好地證明了在數(shù)據(jù)和算法方面還有很大的優(yōu)化空間」。

另外，賈揚清針對推理提出了幾點自己的思考：

首先最重要的是，我們正式進入了分布式推理時代。一臺單GPU機器（80×8=640G）的顯存已經(jīng)無法容納所有參數(shù)。雖然更新大顯存機器確實可以裝下模型，但不論如何，都需要分布式推理來保證性能和未來擴展。
即使在單個模型中，也需要關(guān)注MoE的負(fù)載均衡，因為每次推理只有大約5%的參數(shù)激活。
論文中特別提到引入「redundantexpert」概念，正是為了解決這個問題。這已經(jīng)不再是「一個模型多個副本」的問題、而是「每個模型子模塊都有多個副本」，然后獨立擴縮容。
輸入token很容易實現(xiàn)盈利。根據(jù)個人專業(yè)判斷，需要大量優(yōu)化才能使輸出token盈利或?qū)崿F(xiàn)收支平衡。但如果我們相信「軟件摩爾定律」，這就不是問題：每18個月單token成本減半。
需要進行分塊（tile）或塊（block）級別的量化。
等硬件支持FP4以后，肯定還有不少可以玩的花樣冷知識：FP4乘法實際上就是個16×16的table lookup等等……

中國模型一夜擊敗GPT-4o，100%開源

DeepSeek-V3不俗表現(xiàn)，是在上一代V2進一步升級和迭代。

在基準(zhǔn)測試中，數(shù)學(xué)領(lǐng)域MATH 500上，DeepSeek-V3拿下了90.2高分，比Claude 3.5 Sonnet、GPT-4o超出10分還要多。

同理，在AIME 2024測試中，DeepSeek-V3也取得了領(lǐng)先優(yōu)勢，飆升近20分。

在代碼Codeforces基準(zhǔn)上，新模型以51.6分刷新SOTA，比國外大模型高出30分左右。

在軟件工程SWE-bench Verified基準(zhǔn)上，DeepSeek-V3略顯遜色，Claude 3.5 Sonnet以50.8分碾壓所有模型。

另外，在多語言能力（MMLU-Pro）方面，V3提升并不明顯。知識問答基準(zhǔn)（GPQA-Diamond）上，V3也是僅次于Claude 3.5 Sonnet。

如下這張圖表，更詳細(xì)地展示了DeepSeek-V3在各種基準(zhǔn)測試中的結(jié)果。

53頁技術(shù)報告中，特比強調(diào)了V3的訓(xùn)練成本取得了最大的突破。

團隊特意強調(diào)了，新模型的完整訓(xùn)練僅需要2.788M個GPU小時。即便如此，它在訓(xùn)練過程中非常穩(wěn)定，沒有遇到過任何不可恢復(fù)的loss突增，也沒有執(zhí)行任何rollback操作。

DeepSeek-V3訓(xùn)練成本如下表1所示，這是背后團隊通過優(yōu)化算法、框架、硬件協(xié)同設(shè)計最終實現(xiàn)的。

在預(yù)訓(xùn)練階段，模型每訓(xùn)練1萬億token僅需要180K個GPU小時，即在配備2048個GPU的集群上只需3.7天。

因此，DeepSeek-V3預(yù)訓(xùn)練階段耗時不到2個月就完成了，總共消耗2664K個GPU小時。

另外，再加上上下文長度scaling所需的119K GPU小時和后訓(xùn)練的5K GPU小時，由此V3完整訓(xùn)練僅消耗2.788M個GPU小時。

團隊表示，假設(shè)GPU的租用價格為2美元/每GPU小時，DeepSeek-V3總訓(xùn)練成本僅為557.6萬美元。

那么，究竟是怎樣的技術(shù)突破，使得DeepSeek-V3實現(xiàn)了質(zhì)的飛升？

訓(xùn)練細(xì)節(jié)

正如開頭所述，DeepSeek-V3是一個強大的混合專家模型（MoE），總參數(shù)量為為671B，每個token激活37B參數(shù)。

它繼續(xù)采用了多頭潛在注意力（MLA）來實現(xiàn)高效推理，以及DeepSeekMoE實現(xiàn)低成本訓(xùn)練。

這兩種架構(gòu)的優(yōu)勢，已經(jīng)在上一代V2中得到了驗證。

除了基本框架之外，研究人員還采用了兩個額外的策略，來進一步增強模型的能力：

采用無輔助損失（auxiliary-loss-free）方法來實現(xiàn)負(fù)載均衡，目的是最小化負(fù)載均衡對V3性能造成的不利影響。
采用多token預(yù)測訓(xùn)練目標(biāo)，結(jié)果證明能夠提升V3在評估基準(zhǔn)上的整體性能。

DeepSeek-V3框架

為了實現(xiàn)高效訓(xùn)練，團隊采用了「FP8混合精度訓(xùn)練」，并對訓(xùn)練框架進行了全面優(yōu)化。

通過支持FP8計算和存儲，實現(xiàn)了訓(xùn)練加速和GPU內(nèi)存使用的減少。

在預(yù)訓(xùn)練階段，DeepSeek-V3在14.8T高質(zhì)量且多樣化的token完成了訓(xùn)練，然后又對模型進行了監(jiān)督微調(diào)、強化學(xué)習(xí)階段。

由此，我們才看了DeepSeek-V3在如上評測中，性能超過了其他開源模型，并達(dá)到了與領(lǐng)先閉源模型相當(dāng)?shù)男阅芩健?/span>

網(wǎng)友炸鍋了

DeepSeek-V3現(xiàn)在已經(jīng)在官方平臺上直接可以測試，而且代碼全部開源可以直接下載。

國外AI發(fā)燒友們紛紛開啟了測試，有人直接將4/8個M4 Mac mini堆疊在一起來運行DeepSeek-V3了...

一位開發(fā)者驚訝地表示，DeepSeek-V3無需我解釋就能如此準(zhǔn)確地理解一切，這種感覺真讓人毛骨悚然。就好像機器里真的住著一個幽靈似的。

另有開發(fā)者通過DeepSeek-V3創(chuàng)建了一個用AI公司logo制作的小行星游戲，分分鐘就完成了。

圖片

還有的人對用如此低成本，訓(xùn)練出一個強大得模型，難以置信。

Stability AI前CEO表示，以每秒60個token（相當(dāng)于人類閱讀速度5倍）的速度全天候運行DeepSeek v3，每天僅需要2美元。

那么，你是要選擇一杯拿鐵咖啡，還是一個AI助手呢？

參考資料：

https://x.com/karpathy/status/1872362712958906460

https://x.com/jiayq/status/1872382450216915186

責(zé)任編輯：武曉燕來源：新智元

大模型 GPT-4o 參數(shù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營