DeepSeek R1 震撼登場:從介紹到使用
春節(jié)期間,DeepSeek 掀起了一股熱潮,成為了科技領(lǐng)域的熱門話題。身邊很多非圈內(nèi)人士茶余飯后也在討論 DeepSeek,足以見得其火爆程度。
介紹
DeepSeek 全稱:杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司,成立于 2023 年 7 月 17 日。由知名量化投資機(jī)構(gòu)幻方量化創(chuàng)立并孵化。
幻方量化是中國頂尖的對沖基金公司,擅長利用 AI 算法優(yōu)化金融交易策略。其強(qiáng)大的算力資源和技術(shù)積累為 DeepSeek 的研發(fā)提供了硬件支持和資金保障。
DeepSeek 的創(chuàng)始人梁文峰出生于 1985 年,17 歲考入浙江大學(xué),擁有信息與電子工程學(xué)碩士學(xué)位。2023 年,梁文鋒宣布進(jìn)軍通用人工智能(AGI)領(lǐng)域,創(chuàng)辦了 DeepSeek,致力于開發(fā)真正人類級別的人工智能。
DeepSeek 近期發(fā)布了三個模型,分別是:24 年 12 月 26 的 DeepSeek V3、25 年 1 月 20 日發(fā)布了 DeepSeek R1、25 年 1 月 28 日發(fā)布的多模態(tài)模型 Janus-Pro 。
V3:該模型是混合專家(MoE)架構(gòu),參數(shù)量達(dá) 6710 億,激活參數(shù)為 370 億,預(yù)訓(xùn)練數(shù)據(jù)量為 14.8 萬億 token。在百科知識(MMLU、GPQA)、長文本(DROP、LongBench v2)、代碼(Codeforces)、數(shù)學(xué)(AIME 2024、CNMO 2024)等評測中超越主流開源模型(如 Qwen2.5-72B、Llama-3.1-405B),并與 Claude-3.5-Sonnet、GPT-4o 等閉源模型性能持平。
R1:專注于數(shù)學(xué)、代碼、自然語言推理任務(wù),性能對標(biāo) OpenAI o1 正式版,部分測試(如AIME 得分率 79.8% vs. o1 的 79.2% )實現(xiàn)超越。API 調(diào)用成本僅為 OpenAI o1 的3.7%(輸出 Token 每百萬 16元),訓(xùn)練總成本約 550 萬美元,算力需求顯著低于同類模型 。
Janus-Pro:作為 DeepSeek 首款開源多模態(tài)模型,Janus-Pro 支持視覺、語言等多模態(tài)輸入輸出,填補(bǔ)此前 V3 模型僅限文本交互的局限。
我是 DeepSeek 的早期用戶,開始使用時,只有網(wǎng)頁版,非常簡陋,還沒有歷史記錄,但回答問題的效果不錯,特別是編程相關(guān)。給我的感覺是認(rèn)真在做模型,在應(yīng)用層面不太重視。即便是到現(xiàn)在,依然沒有花哨的應(yīng)用層功能,硬是靠強(qiáng)大的模型能力和創(chuàng)新火出圈了。
DeepSeek R1 的技術(shù)報告地址如下:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
使用
網(wǎng)頁端
瀏覽器訪問這個地址:https://chat.deepseek.com/ ,手機(jī)號或者微信注冊,登錄后如下圖:
深度思考后面括號里寫的是 R1,說明使用的是 R1 模型,深度思考和聯(lián)網(wǎng)搜索可以同時勾選,比如我讓評價射雕的電影,可以看到 DeepSeek 先搜索網(wǎng)頁,再進(jìn)行深度思考,思考過程也會顯示在頁面中:
APP
DeepSeek 最近推出了移動端,網(wǎng)頁版的左下角有下載二維碼。拋開最近的穩(wěn)定性不談,可以免費在電腦和手機(jī)上使用 R1 模型,已經(jīng)非常良心了。
本機(jī)部署
可以使用 ollama 在本機(jī)進(jìn)行 DeepSeek R1 模型的部署。
在 ollama 的網(wǎng)站上可以搜索到 DeepSeek R1 模型:https://ollama.com/search?q=DeepSeek
可以看到從 1.5b 到 671b 的都有。下面使用 ollama run deepseek-r1:7b 來運行 7b 的模型,使用 run 命令時如果本地沒有這個模型會先自動進(jìn)行下載。
雖然 7b 的模型知識儲備還有點弱,但 R1 的思考能力已經(jīng)具備了:
調(diào)用 API
在 DeepSeek 官網(wǎng)(https://www.deepseek.com/)點擊右上角的「API 開放平臺」:
登錄后在左側(cè)菜單「API Keys」中創(chuàng)建一個新的 key:
現(xiàn)在已經(jīng)暫停了 API 服務(wù)的充值。
開始寫代碼調(diào)用 API,下面代碼是將 DeepSeek 的文檔地址 (https://api-docs.deepseek.com/zh-cn/) 給 Windsurf,讓 Windsurf 完成的,Windsurf 最近版本更新的很快,已經(jīng)集成了 DeepSeek R1 模型。
deepseek_client.py
from openai import OpenAI
import os
class DeepSeekClient:
def __init__(self):
self.client = OpenAI(
api_key='sk-7d2fac93b6ee498ca5546f1ad59244fa',
base_url='https://api.deepseek.com'
)
def chat_completion(self, messages, model="deepseek-reasoner", stream=False):
return self.client.chat.completions.create(
model=model,
messages=messages,
stream=stream
)
webapi.py
from flask import Flask, request, jsonify
from deepseek_client import DeepSeekClient
app = Flask(__name__)
client = DeepSeekClient()
@app.route('/chat', methods=['POST'])
def chat_endpoint():
data = request.json
completion = client.chat_completion(
messages=data.get('messages', []),
model=data.get('model', 'deepseek-reasoner'),
stream=data.get('stream', False)
)
return jsonify({'response': completion.choices[0].message.content})
pyproject.toml
[tool.poetry.dependencies]
python = "^3.10"
openai = "^1.12.0"
flask = "^2.0.3"
在項目的根目錄下執(zhí)行下面命令啟動。
poetry install
poetry run flask --app webapi run --debug
在 postman 中調(diào)用的結(jié)果如下:
因為我沒有充值,提示余額不足,說明調(diào)用 DeepSeek API 是成功的。
最后
R1 模型雖然強(qiáng)悍,但隨著春節(jié)期間的火爆,使用人數(shù)的突增(攻擊),現(xiàn)在變得不太穩(wěn)定,經(jīng)常會出現(xiàn)“服務(wù)器繁忙,請稍后再試。
這種頻繁的稍后重試體驗非常不好,我們也可以采取一些其他措施:
- kimi 也發(fā)布了 k1.5 長思考,可以和聯(lián)網(wǎng)搜索一起使用。
- 秘塔 AI 搜索可以開啟長思考-R1,這個 R1 就是采用 Deepseek R1 深度推理模型進(jìn)行回答。
- 使用 ollama 自己部署,跟滿血 R1 相比肯定有差距,而且也不能聯(lián)網(wǎng)。
- 使用 chatbox 調(diào)用硅基流動的 R1 API 接口,硅基流動自己部署的 R1 模型,這個方案現(xiàn)在應(yīng)該知道的人比較多,剛看到 R1 模型的介紹里添加了:2025 年 2 月 6 日起,未實名用戶每日最多請求此模型 100 次。
- 在 Windsurf 中使用 DeepSeek 的 R1 模型。