自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

超越Claude 3.5緊追o1！DeepSeek-V3-Base開源，編程能力暴增近31％

作者：機(jī)器之心 2024-12-26 17:13:17

人工智能新聞

DeepSeek-V3-Base 采用了 685B 參數(shù)的 MoE 架構(gòu)，包含 256 個專家，使用了 sigmoid 路由方式，每次選取前 8 個專家（topk=8）。

在 2024 年底，探索通用人工智能（AGI）本質(zhì)的 DeepSeek AI 公司開源了最新的混合專家（MoE）語言模型 DeepSeek-V3-Base。不過，目前沒有放出詳細(xì)的模型卡。

HuggingFace 下載地址：https://huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main

具體來講，DeepSeek-V3-Base 采用了 685B 參數(shù)的 MoE 架構(gòu)，包含 256 個專家，使用了 sigmoid 路由方式，每次選取前 8 個專家（topk=8）。

圖源：X@arankomatsuzaki

該模型利用了大量專家，但對于任何給定的輸入，只有一小部分專家是活躍的，模型具有很高的稀疏性。

圖源：X@Rohan Paul

從一些網(wǎng)友的反饋來看，API 顯示已經(jīng)是 DeepSeek-V3 模型。

圖源：X@ruben_kostard

同樣地，聊天（chat）界面也變成了 DeepSeek-v3。

圖源：X@Micadep

那么，DeepSeek-V3-Base 性能怎么樣呢？Aider 多語言編程測評結(jié)果給了我們答案。

先來了解一下 Aider 多語言基準(zhǔn)，它要求大語言模型（LLM）編輯源文件來完成 225 道出自 Exercism 的編程題，覆蓋了 C++、Go、Java、JavaScript、Python 和 Rust 等諸多編程語言。這 225 道精心挑選的最難的編程題給 LLM 帶來了很大的編程能力挑戰(zhàn)。

該基準(zhǔn)衡量了 LLM 在流行編程語言中的編碼能力，以及是否有能力編寫可以集成到現(xiàn)有代碼的全新代碼。

從下表各模型比較結(jié)果來看，DeepSeek-V3-Base 僅次于 OpenAI o1-2024-12-17 (high)，一舉超越了 claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash-exp 等競品模型以及前代 DeepSeek Chat V2.5。

其中與 V2.5（17.8％）相比，V3 編程性能暴增到了 48.4％，整整提升了近 31％。

另外，DeepSeek-V3 的 LiveBench 基準(zhǔn)測試結(jié)果也疑似流出。我們可以看到，該模型的整體、推理、編程、數(shù)學(xué)、數(shù)據(jù)分析、語言和 IF 評分都非常具有競爭力，整體性能超越 gemini-2.0-flash-exp 和 Claude 3.5 Sonnet 等模型。

圖源：reddit@homeworkkun

HuggingFace 負(fù)責(zé) GPU Poor 數(shù)據(jù)科學(xué)家 Vaibhav (VB) Srivastav 總結(jié)了 DeepSeek v3 與 v2 版本的差異：

根據(jù)配置文件，v2 與 v3 的關(guān)鍵區(qū)別包括：

vocab_size：v2: 102400 v3: 129280
hidden_size：v2: 4096 v3: 7168
intermediate_size：v2: 11008 v3: 18432
隱藏層數(shù)量：v2：30 v3：61
注意力頭數(shù)量：v2：32 v3：128
最大位置嵌入：v2：2048 v3：4096

v3 看起來像是 v2 的放大版本。

圖源：X@reach_vb

值得注意的是，在模型評分函數(shù)方面，v3 采用 sigmoid 函數(shù)，而 v2 采用的是 softmax 函數(shù)。

網(wǎng)友熱評：開源模型逼近 SOTA

眾多紛紛網(wǎng)友表示，Claude 終于迎來了真正強(qiáng)勁的對手，甚至在一定程度上 DeepSeek-V3 可以取代 Claude 3.5。

還有人感嘆道，開源模型繼續(xù)以驚人的速度追趕 SOTA，沒有放緩的跡象。2025 年將成為 AI 最重要的一年。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<button id="m7dfi"></button>}

<button id="m7dfi"><nobr id="m7dfi"><object id="m7dfi"></object></nobr></button>

<button id="m7dfi"><video id="m7dfi"><pre id="m7dfi"></pre></video></button>

<nobr id="m7dfi"><legend id="m7dfi"></legend></nobr>

<var id="m7dfi"><dl id="m7dfi"></dl></var>

<menuitem id="m7dfi"></menuitem>