全球最強(qiáng)開源 MoE 模型來(lái)了,中文能力比肩 GPT-4,價(jià)格僅為 GPT-4-Turbo 的近百分之一
想象一下,一個(gè)人工智能模型,不僅擁有超越傳統(tǒng)計(jì)算的能力,還能以更低的成本實(shí)現(xiàn)更高效的性能。這不是科幻,DeepSeek-V2[1],全球最強(qiáng)開源 MoE 模型來(lái)了。
DeepSeek-V2 是一個(gè)強(qiáng)大的專家混合(MoE)語(yǔ)言模型,具有訓(xùn)練經(jīng)濟(jì)、推理高效的特點(diǎn)。它由 236B 個(gè)參數(shù)組成,其中 21B 個(gè)參數(shù)用于激活每個(gè)標(biāo)記。與 DeepSeek 67B 相比,DeepSeek-V2 性能更強(qiáng),同時(shí)節(jié)省了 42.5% 的訓(xùn)練成本,減少了 93.3% 的 KV 緩存,最大生成吞吐量提高到 5.76 倍。
DeepSeek 是一家探索通用人工智能(AGI)本質(zhì)的公司,并致力于將研究、工程和商業(yè)三者融為一體。
DeepSeek-V2 的綜合能力
在目前大模型主流榜單中,DeepSeek-V2 均表現(xiàn)出色:
- 中文綜合能力(AlignBench)開源模型中最強(qiáng):與 GPT-4-Turbo,文心 4.0 等閉源模型在評(píng)測(cè)中處于同一梯隊(duì)
- 英文綜合能力(MT-Bench)處于第一梯隊(duì):英文綜合能力(MT-Bench)與最強(qiáng)的開源模型 LLaMA3-70B 處于同一梯隊(duì),超過(guò)最強(qiáng) MoE 開源模型 Mixtral 8x22B
- 知識(shí)、數(shù)學(xué)、推理、編程等榜單結(jié)果位居前列
- 支持 128K 上下文窗口
全新的模型結(jié)構(gòu)
當(dāng) AI 的潛力被不斷挖掘,我們不禁要問(wèn):什么是推動(dòng)智能進(jìn)步的關(guān)鍵?DeepSeek-V2 給出了答案 —— 創(chuàng)新架構(gòu)與成本效益的完美結(jié)合。
DeepSeek-V2,以 236B 的總參數(shù)和 21B 激活,大致達(dá)到了 70B~110B Dense 模型的能力,同時(shí)顯存消耗僅為同級(jí)別模型的 1/5~1/100。在8卡H800機(jī)器上,每秒可處理超過(guò) 10 萬(wàn)tokens 的輸入,輸出超過(guò)每秒 5 萬(wàn) tokens。這不僅是技術(shù)上的飛躍,更是成本控制的革命。
在 AI 技術(shù)飛速發(fā)展的今天,DeepSeek-V2 的出現(xiàn),不僅代表了技術(shù)的突破,更預(yù)示著智能應(yīng)用的普及化。它將 AI 的門檻降低,讓更多企業(yè)和個(gè)人能夠享受到高效智能服務(wù)。
中文能力 VS 價(jià)格
在中文能力方面,DeepSeek-V2 在 AlignBench 排名中全球領(lǐng)先,同時(shí)提供極具競(jìng)爭(zhēng)力的 API 價(jià)格。
模型和論文雙開源
DeepSeek-V2,不只是一款模型,它是通往更智能世界的鑰匙。它以更低的成本,更高的性能,開啟了 AI 應(yīng)用的新篇章。DeepSeek-V2 的開源,是對(duì)這一信念的最好證明,它將激發(fā)更多人的創(chuàng)新精神,共同推動(dòng)人類智能的未來(lái)。
- 模型權(quán)重:https://huggingface.co/deepseek-ai
- 開源地址:https://github.com/deepseek-ai/DeepSeek-V2
在 AI 不斷進(jìn)化的今天,你認(rèn)為 DeepSeek-V2 將如何改變我們的世界?讓我們拭目以待,感興趣的話,可以訪問(wèn) chat.deepseek.com 親自體驗(yàn) DeepSeek-V2 帶來(lái)的技術(shù)變革。
參考資料
[1]
DeepSeek-V2: https://www.deepseek.com/zh