新版DeepSeek-V3官方報(bào)告出爐:超越GPT-4.5,僅靠改進(jìn)后訓(xùn)練
剛剛,DeepSeek官方發(fā)布DeepSeek-V3模型更新技術(shù)報(bào)告。
V3新版本在數(shù)學(xué)、代碼類相關(guān)評(píng)測(cè)集成績(jī)超過(guò)GPT-4.5!
而且這只是通過(guò)改進(jìn)后訓(xùn)練方法實(shí)現(xiàn)。
DeepSeek-V3-0324和之前的DeepSeek-V3使用同樣的base模型。
打破了之前傳言該版本base模型是R2的傳言。
新版本參數(shù)量約為660B,與此前網(wǎng)傳的685B有所出入。
開(kāi)源版本上下文長(zhǎng)度為128K(網(wǎng)頁(yè)端、App和API提供 64K 上下文)。
私有化部署時(shí)只需要更新checkpoint和tokenizer_config.json(tool calls相關(guān)變動(dòng))。
目前,想要體驗(yàn)這一版本模型,只需用戶登錄官方網(wǎng)頁(yè)、APP、小程序進(jìn)入對(duì)話界面后,關(guān)閉深度思考即可體驗(yàn)。API 接口和使用方式保持不變。
官方建議,此后非復(fù)雜推理任務(wù)使用V3新版本更好。
此外,官方還進(jìn)一步展示了新版本在各個(gè)維度的能力。
前端開(kāi)發(fā)
生成代碼可用性更高,視覺(jué)效果也更好。
中文寫作
相較于R1版有進(jìn)一步優(yōu)化,特別提升了中長(zhǎng)篇的內(nèi)容質(zhì)量。
比如寫一篇關(guān)于蘇軾生平的散文:
中文搜索
聯(lián)網(wǎng)情況下,V3新版本的搜索輸出內(nèi)容也更詳實(shí)準(zhǔn)確、排版更清晰美觀。
現(xiàn)在寫一份3000字的市場(chǎng)報(bào)告也是so easy(上下滑動(dòng)查看完整內(nèi)容):
此外,V3新版本在工具調(diào)用、角色扮演、問(wèn)答閑聊等方面也進(jìn)一步提升。
今天白天不少網(wǎng)友也上手實(shí)測(cè)了諸多能力,比如做個(gè)小游戲:
該版本模型采用寬松的MIT開(kāi)源協(xié)議。
且可直接部署在M3 Ultra的Mac Studio上。
這意味著大模型開(kāi)發(fā)應(yīng)用的門檻更進(jìn)一步降低。
話不多說(shuō),趁著深夜,還沒(méi)睡的趕緊去體驗(yàn)最新版吧~