從理論到實踐:學會如何商用 DeepSeek,收藏這一篇就夠了
Hi,大家好,我叫秋水,當前專注于 AI Agent 和 AI 工作流自動化。
近期 DeepSeek,全球聞名,大家紛紛在討論,我看過很多文章和視頻,很多說的有點夸張,23 年 AI 剛來的那些內容,又重新說了一遍,只是把 AI 兩個字母換成了 DeepSeek。
在我看來,DeepSeek 出圈的主要原因是能力強、價格低、開源、可以本地部署,這個好處在于企業(yè)在 AI 方面的應用會加速落地,我們國內的用戶不需要那么麻煩的出海使用 ChatGPT 了。
今天這期內容,我會結合大模型的一些底層原理,從商用的視角從理論到實踐給大家介紹一下 DeepSeek,內容包含如下幾個部分。
第一部分,介紹大模型的運行原理,例如什么是大模型的推理能力?它與通用大模型有何區(qū)別?通用大模型如何增強推理能力?具有推理能力的大模型是如何工作的?
第二部分,介紹大模型的上下文長度的概念,這也是是影響大模型輸出質量很重要的一個方面,必看。
第三部分,介紹 DeepSeek R1 的提示詞的使用技巧,例如 DeepSeek R1 萬能提示模版,通過例子可以看到它與通用大模型 DeepSeek V3 的區(qū)別,商用場景下的提示詞示例,與 R1 交互影響輸出質量的因素有哪些?
第四部分,拋磚引玉,介紹 DeepSeek 的商用場景都有哪些?其中開始會介紹一下 DeepSeek R1 帶給我們的驚喜有哪些?最近經常聽到的強化學習和蒸餾是什么意思?它帶給我們的商業(yè)思考是什么?R1 蒸餾出來的小模型部署需要的硬件配置怎樣的?
如上這些內容,在我們在打造一個 AI Agent 的過程中,也是花時間比較多的地方,這也是我們需要重點學習的知識。
只有你知道了大模型的一些基本底層原理、能力范圍,你才能在流程設計上去彌補這些能力缺陷。
記住,商用 AI Agent 需要重點考慮運行成本、穩(wěn)定性、可實施性、準確性,這期內容重點也在講運行成本和準確性。
第一部分 大模型的運行原理
首先,我們先簡單介紹一下通用大模型和推理大模型指的是什么?
什么是通用大模型
通用大模型指的是像 DeepSeek V3、OpenAI GPT-4 之類的模型。
這類模型相當于一個擁有強大知識儲備的研究生或博士生,他們通過大量的訓練積累了豐富的知識和經驗。
什么是大模型的推理能力
推理大模型指的是 DeepSeek 的 R1、Kimi 的 k1.5 和探索版、OpenAI 的 o1、o3 等模型。
這類模型是建立在通用大模型基礎上,增強了推理、邏輯分析和決策能力。
它相當于一位大偵探福爾摩斯,可以從蛛絲馬跡的細節(jié)中,推導出很多隱藏的真相和答案,幫我更好的解決問題。
DeepSeek-R1 的推理能力是在 V3 的基礎上進一步訓練的。
AI Agent 的核心能力也是建立在大模型的推理能力之上的,推理能力越強,AI Agent 的自主解決、處理能力就越強。
通用大模型和推理大模型的區(qū)別
為了更好的區(qū)分兩種大模型,我們先說一個概念,“慢思考,快思考”,快思考對應系統(tǒng) 1,慢思考對應系統(tǒng) 2,這是獲過諾貝爾經濟學獎的丹尼爾·卡尼曼在其著作《思考,快與慢》中提出的一個概念。
快思考(系統(tǒng) 1) | 慢思考(系統(tǒng) 2) | |
舉例 | 3+5 等于幾? 我們立刻就知道答案是 8,這就是大腦中的快思考。 | 127 * 206 等于多少? 我們大多數人就需要一張草稿紙,一步一步的進行運算,這就是慢思考。 |
解釋 | 思考過程是無意識的,而且毫不費力,一切都是自然而然發(fā)生的。 | 首先,你會從記憶中重新提取讀書時所學的乘法相關知識,然后加以運用。 這個過程不容易,你得記住很多內容,你要知道自己算到哪一步了,知道下一步該怎樣做,同時還要記住已得到的結果。 這個計算過程是腦力工作,需要刻意、努力并且有序地進行。 |
特點 | 脫口而出 | 三思而后行 |
結果 | 不熟悉的,需要深度思考,出錯的概率大 | 思考周全,出錯概率不大 |
理解了“快思考,慢思考”,我們在來理解通用大模型和推理型大模型就容易多了,“快思考”對應的就是通用大模型 ,“慢思考”對應的就是具有推理能力的大模型。
兩者之間區(qū)別是:
- 推理大模型的優(yōu)勢在于數學、邏輯分析、代碼生成、復雜問題拆解;劣勢在于創(chuàng)造力,例如內容創(chuàng)作、創(chuàng)意、想象力等。
- 通用大模型的優(yōu)勢在于文本生成、創(chuàng)意寫作、多輪對話等通用場景,劣勢在于推理大模型的優(yōu)勢部分。
簡單的理解,可以把推理大模型看成理科生,通用大模型看成文科生。
通用大模型如何提升推理能力
接下來,我們再看看通用大模型是如何提升推理能力的。
思維鏈
一種方式是基于思維鏈(Chain of Thought, CoT),就是讓大模型將一個復雜問題拆解為一個個的子問題,再依次解決。
簡單來說,就是在給大模型的提示中明確告訴它應該怎么去思考,或者在提示詞后面,增加“請一步一步思考”,就可以“喚醒”通用大模型的推理能力,這種推理能力不是大模型的自身帶的,而是我們通過引導激發(fā)出來的。
我們用一個翻譯的例子進一步說明一下。
如下圖片為在提示詞的最后追加了“請一步一步思考”。
可以看到大模型自己將翻譯過程自動分成多個步驟,每一個步驟都是一次思考,最終輸出翻譯結果。
如下圖片為我們在提示詞中,規(guī)定了大模型的翻譯步驟。
可以看到大模型按照我們規(guī)定的步驟進行思考,最后輸出翻譯結果。
AI 工作流編排
另外一種方式,就是 AI 工作流編排,它將復雜的任務分解為一個個有序的步驟,從而解決一些復雜問題,它本質上是思維鏈的一種應用。
例如 Coze 、Dify 中我們用到的工作流,流程中的每個節(jié)點都可以被視為思維鏈中的一個“思考步驟”。
如下為在 Coze 中編排的一個文章總結、保存到飛書中的工作流,在整個流程中,可以調用大模型、可以對接第三方平臺,可以執(zhí)行代碼等等。
這種方式擴寬了大模型解決問題的能力邊界。
以上兩種方式都是通過外部手段提升通用大模型的推理能力,這種后期的人為提升,肯定也是因人而異,有的人會寫提示詞,有的人會設計流程,有的人啥也不會。
所以我們更希望能利用大模型自身來去解決復雜問題,我們不需要寫復雜的提示詞,只需要提出我們的需求,這個時候大模型的推理能力應運而生。
大模型的推理能力如何工作的
2024 年 9 月份 OpenAI 公司發(fā)布的 o1 是第一款具有推理能力的模型。
2025 年 1 月 20 日,DeepSeek 正式發(fā)布 DeepSeek-R1 推理能力模型,由于開源,且性價比相當高,馬上火爆出圈。
這種推理能力就是將前面提到的思維鏈和工作流編排(目前只包含提示詞,不包含工具調用等)嵌入到模型自身,使得模型在生成最終答案前能夠進行邏輯推理,考慮多種方案,然后選擇最優(yōu)方案,這種運行方式也是我們前面提到的“慢思考”。
下面的圖片是 DeepSeek-R1 模型的內部推理過程,從圖片中我們可以看到三輪推理過程中,期間每次都會把上一輪的問題和回答傳到下一輪,用于后面借鑒,幾輪下來后,Token 就會越來越大。
最終需要幾輪,要看模型在哪一輪能發(fā)現(xiàn)最優(yōu)解決方案,則推理成功,輸出結果。
從整個推理過程中,我們可以發(fā)現(xiàn)幾個現(xiàn)象:
- 推理時間長,需要用戶等待幾秒、幾十秒、甚至幾分鐘,那么在商用的時候就需要從用戶的角度去考慮這一點,讓客戶干等著?還是讓它異步執(zhí)行,執(zhí)行完后給用戶通知?
- 過程會產生大量的 Token,成本就會高,它可能是通用大模型的幾十倍甚至上百倍,那么商用的時候,我們需要著重關注 Token 的消耗情況,此外是用本地部署?還是用云端?需要綜合考量。
- 不是所有的場景都用推理模型,在一個 AI Agent 中應該根據場景特點,混合使用大模型。
如下圖是在 DeepSeek R1 上運行剛才翻譯的例子,可以看到思考過程輸出的內容很多,在商用調用 API 接口的時候,這些內容都會消耗 Token,計算為費用。
我們可以對比一下,三種形式的翻譯,結果基本一樣,采用推理模型雖然提示詞簡單,但是過程消耗的 Token 太多了,所以這種場景就可以不使用推理大模型。
我們再舉一個極端的例子,“1+1 等于幾”,來看看通用大模型和推理大模型的輸出情況,可以更加直觀的可以看到一個簡單的問題使用推理大模型,消耗的 Token 是通用大模型的好多倍。
這相當于問大偵探福爾摩斯一個簡單的問題,福爾摩斯心里想問到我這里的問題能是簡單的問題嗎,然后腦子里就開始飛速的轉起來,這里推理一下,那邊在推理一下,結果到最后一看,原來謎底就在謎面上啊,費了那么多腦細胞。
第二部分 大模型的上下文長度的概念
說完大模型的運行原理,接下來,我們在一起看一個概念“上下文”。
這個知識點非常重要,重點中的重點,大家一定要搞清楚這個概念,很多朋友和大模型聊一會發(fā)現(xiàn)輸出的內容越來越差,大概率是因為不清楚這個知識點。
這個也是大模型的能力邊界中的一個知識點,知道能力邊界后,我們在開發(fā) AI Agent 的時候,在與大模型交互的時候,才知道采取何種策略來解決。
上下文分為上下文長度(Context Length)和上下文窗口(Context Window)。
上下文長度,決定了一次性輸出的字數
上下文長度(Context Length), 決定了大模型一次性可以輸出文字的數量。
它是我們與大模型單次交互中可以處理的最大 Token 數量,這個數量包含我們的輸入和大模型的輸出。
這就意味著我們在輸入提問時的提示詞越多,那么大模型返回內容的 Token 數量就越少。
注意,有的大模型沒有注明上下文長度,例如 DeepSeek V3 和 R1 的官方文檔中約定了一次最大輸出長度為 8K Token,即大約 4000 個漢字。
簡單解釋一下 Token,它是大模型用來表示自然語言的基本單位,也是計費單位,可以直觀的理解為“字”或“詞”,通常 1 個中文詞語、1 個英文單詞、1 個數字或 1 個符號計為 1 個 Token。
不同模型的 Token 和 字數換算情況不一樣,如下是 DeepSeek 的官方換算規(guī)則:
- 1 個英文字符 ≈ 0.3 個 Token。
- 1 個中文字符 ≈ 0.6 個 Token。
還有一個問題,我們需要注意的是,上下文長度中的輸入不僅僅包含我們輸入的提示詞,還包含聊天應用底層的系統(tǒng)提示詞和我們不知道的其他輸入,我們上傳的文檔,互聯(lián)網搜索的內容等等。
有的朋友可能又有疑問了,我上傳的文檔相當之大,已經超出了上下文長度了,為什么第一次交互的時候,輸出的結果還不錯呢?那可能是聊天應用端做了優(yōu)化處理,例如先將文檔讀取、識別、總結后,然后連同我們寫的提示詞一起發(fā)給大模型,具體大家需要親自測試。
如果我們發(fā)現(xiàn)大模型輸出的內容本應該很多,但是卻很少,就需要看看是不是我們一次性輸入的內容是不是太多了,或者一次性讓大模型輸出不同維度的內容太多了。
上下文窗口,決定了一次會話中可以記憶多少內容
上下文窗口(Context Window),決定了一次會話中可以記憶多少內容。
就是在大模型回復時可以參考前面內容的范圍,例如在一個會話里,你已經和大模型互動了 10 次,在第 11 次互動時,大模型可以參考前面 10 次互動的內容,這樣有助于大模型回復的時候保持與前面的內容保持一致性。
例如我們再讓大模型幫我們對數據進行分析,前面幾輪互動中,我們發(fā)給大模型一些數據,那么后續(xù)大模型回復的時候,就會依據這些數據進行回復。
但是如果幾輪互動后,輸入輸出的總長度超過了上下文窗口的總長度,那么最早的數據,大模型就會忘記,會導致后面的數據分析沒有之前的數據作為依托,出現(xiàn)胡說八道的情況。
因此如果發(fā)現(xiàn)與大模型幾輪互動后,發(fā)現(xiàn)它輸出的內容越來越不靠譜,那么就需要考慮一下是否超出了上下文窗口的總長度。
這種情況下,就需要和大模型在多個會話中交互,解決同一個問題。
在 DeepSeek V3 和 R1 的官方文檔中約定了上下文窗口長度為 64K Token,即大約 2-3 萬個漢字。
我們大家要注意每家大模型對于上下文長度、上下文窗口長度的定義不一樣,DeepSeeK 定義了最大輸出長度和上下文長度,這里的上下文長度就是上下文窗口長度。
需要我們去官方看對應的解釋。
小結一下:
上下文長度和上下文窗口越大,大模型對我們提出的問題理解的就越深刻、越精準,這相當于腦容量的大小。
- 總結 500 頁書為兩頁時,大模型需理解書的結構和核心觀點,較大的上下文有助于更好地把握內容。
- 創(chuàng)作 3 萬字小說時,大模型需理解小說結構和情節(jié)發(fā)展,較大的上下文可幫助其把握故事走向。
- 在 AI 客服應用中,客戶與 AI 機器人可能長時間對話,較大的上下文能讓機器人記住早期聊天記錄。
- 在代碼編寫中,大模型需理解代碼上下文,如變量定義、函數調用等,較大的上下文可幫助其理解代碼結構,一次性生成整個項目代碼。
- 在 RAG 場景中,模型需結合外部文檔或搜索數據生成回答,較大的上下文有助于理解檢索內容并結合問題生成準確回答。
第三部分 DeepSeek R1 的提示詞的使用技巧
接下來我們開始聊 R1 的提示詞使用技巧。
DeepSeek V3 提示詞生成器、模版
在講 DeepSeek R1 之前,我們先看看用大模型 DeepSeek V3 的提示詞,V3 的提示詞跟其他大模型的差不多,官方網站也有最佳實踐的例子,其中一個例子“模型提示詞生成”,我們可以用它來生成你需要的提示詞,然后在進行調整。
DeepSeek 官方提示詞生成器:
你是一位大模型提示詞生成專家,請根據用戶的需求編寫一個智能助手的提示詞,來指導大模型進行內容生成,要求:
1. 以 Markdown 格式輸出
2. 貼合用戶需求,描述智能助手的定位、能力、知識儲備
3. 提示詞應清晰、精確、易于理解,在保持質量的同時,盡可能簡潔
4. 只輸出提示詞,不要輸出多余解釋
請幫我生成一個“Linux 助手”的提示詞
DeepSeek R1 萬能提示詞模版
接著我們看一下 DeepSeek R1 的萬能提示詞模版。
背景 + 需求 + 【結構化提問 + 輸出風格 】
注:
1、背景和目的是必須的,結構化提問、輸出風格可以根據實際情況進行選擇。
2、提示詞簡潔,無廢話。
3、結構化提問、輸出風格的作用是限定大模型的推理方向,但在一定程度上也會降低大模型的思考維度。
背景
簡潔的說明你的背景,可以讓 AI 理解你的真實需求,背景可以是你自身的角色或者知識水平,也可以是你的業(yè)務場景,也可以是一些限制條件。
可以按照「領域 + 知識水平 + 限制」的結構說明。
例如:"(領域)我要開發(fā)一款管理自媒體的 AI Agent,(知識水平)我不會編程,(限制)需要在 1 個月內實現(xiàn)熱點素材自動化采集,(問題)請問應該選擇哪個無代碼開源框架?"
需求
明確你的核心問題,避免模糊提問。
例如:
錯誤示例:“請幫我推薦一個采集框架”。
正確示例:“請幫我推薦一款不需要寫代碼,通過配置就可以采集數據的開源框架”。
結構化提問
結構化提問的方式,可以讓大模型有重點的按照指定順序輸出。
例如:分析市場時,可以在提示詞中加入結構化的提問:“第一步:分析挖掘機市場的主要競爭者;第二步:列出每個競爭者的市場份額和產品特點;第三步:預測市場未來的趨勢?!?/span>
輸出風格
輸出風格一方面可以對技術類內容,讓其通俗易懂的講解,或者模仿某個人的風格寫作,例如提示詞中加入“通俗易懂”、“講人話”、“用脫口秀風格”。
例如:“我是技術小白,給我講一下什么大模型?講人話”。
通用大模型和推理大模型在提示詞方面區(qū)別
接著我們看一下通用大模型和推理大模型在提示詞方面的區(qū)別。
通過示例對比,我們可以看到推理模型的提示詞我們盡可能的要寫的簡單,寫的過多會影響大模型的各個維度的思考。
但是通用大模型則不一樣,它擁有豐富的知識儲備,但是不會進行“慢思考”,所以我們和它交流的時候,我們需要給它思考的步驟,即思維鏈。
商用場景提示詞示例
接下來,我們聊一下一些商用使用場景,可以分為讓大模型幫我們做決策、做分析、想創(chuàng)意、驗證方案、規(guī)劃執(zhí)行策略。
如下示例為拋磚引玉,具體還是需要結合自身的需求來撰寫。
每一個場景模版的第一部分是必須要寫的,后面幾部分是為了限定大模型的思考方向、輸出形式。
具體的,可以兩者都發(fā)送給大模型,看看哪個回答效果更好。
做決策
介紹:讓 AI 從多個方案中選擇一個最好的方案。
模版:目標(想達成什么)+ 選項(有哪些選擇)+ 評估標準(怎么判斷好壞)。
為了加大企業(yè)在自媒體平臺的傳播力度,促進銷售,現(xiàn)有兩種方案:
1、投放廣告 2、加大原創(chuàng)內容制作
請根據 AARRR 增長漏斗模型,對比 6 個月內的數據(附件 Excel),推薦最優(yōu)方案。
做分析
介紹:提供數據給 AI,讓 AI 挖掘數據背后的規(guī)律和原因。
模版:問題(想知道什么)+ 數據/信息(手頭有什么資料)+ 分析方法(怎么挖)。
分析公司過去一年的自媒體運營數據(附 Excel),說明:
1、內容發(fā)布頻率與粉絲增長的關聯(lián)性;
2、使用 ARIMA 模型對下一年度的運營方式進行預測,并詳細解釋所選模型的參數選擇依據。
想創(chuàng)意
介紹:讓 AI 為企業(yè)的營銷、宣傳等提供創(chuàng)新的、腦洞大開的內容。
模版:主題(搞什么)+ 風格/約束(有什么要求)+ 創(chuàng)新方向(怎么與眾不同)。
設計一套自媒體內容創(chuàng)新方案,要求:
1、提升內容的吸引力和傳播力;
2、結合熱點話題和用戶興趣;
3、提供兩種不同內容形式的創(chuàng)意方案說明。
驗證方案
介紹:提供方案給 AI ,讓 AI 協(xié)助驗證方案的可行性、可落地性或者風險點等。
模版:結論/方案(驗證什么)+ 驗證方法(怎么檢查)+ 風險點(可能哪里出問題)。
A 形式標題優(yōu)于 B 形式標題,請驗證:
1、兩種形式數據指標 2、通過 A/B 測試
如何執(zhí)行
介紹:給出目標,讓 AI 協(xié)助輸出執(zhí)行過程,例如寫代碼、畫流程圖。
模版:任務(做什么)+ 步驟約束(怎么操作)+ 輸出格式(結果長啥樣)。
梳理<自媒體編輯>這個角色的工作流程,要求: 1、標記哪些可以由 AI 來協(xié)助,哪些我來去做。 2、以表格的形式(工作內容/AI 協(xié)助/人工來做)輸出。
DeepSeek R1 寫提示詞的注意事項
- 無須提供參考例子,否則 R1 性能會出現(xiàn)明顯下降。
- 復雜角色扮演以及 JSON 輸出,R1 的表現(xiàn)不及通用大模型 DeepSeek V3。
- 避免一次會話中與 R1 多輪交互,多輪交互后其表現(xiàn)不如 V3。
- 不要用思維鏈提示,例如一步步思考等提示詞。
- 概念解釋不需要了,R1 會自己搞明白,例如提示詞中用到“金字塔原理”,無需對其解釋。
- R1 和 V3 的單次輸出字數在 2000 - 4000 個漢字,如果讓大模型一次性輸出的內容太多,可以分多次輸出。
- R1 和 V3 一次會話的總字數在 2 萬 - 3 萬個漢字,上傳附件時需要注意,否則前面的內容 AI 會忘記。
- 原先的結構化提示詞依然有用,但主要集中在背景和需求描述上,但需要簡潔明了。
- 背景、需求描述上不要過于籠統(tǒng),也不要過度復雜,缺少關鍵細節(jié)會讓結果偏離預期,要求太多則會讓 R1 難以抓住重點,或者限制它的自由推理空間。
- 初次輸出不滿意不要放棄,一方面可以要求 AI 對輸出的內容自我評估,提供改進建議,另外一方面我們可以在后續(xù)提問指導 AI 進行改進。
什么是 Temperature?
有的朋友可能不知道 Temperature 參數是起什么作用?
Temperature 設置的值越高,AI 輸出的內容更有創(chuàng)意,更加天馬行空,例如詩歌創(chuàng)作。
反之,輸出的內容更加嚴謹,例如代碼生成、數學解題。
在 DeepSeek 官方聊天窗口,Temperature 參數默認設置為 1.0,但在其他平臺上是可以配置這個參數,如下為官方提供的建議。
場景 | 溫度 |
代碼生成/數學解題 | 0 |
數據抽取/分析 | 1 |
通用對話 | 1.3 |
翻譯 | 1.3 |
創(chuàng)意類寫作/詩歌創(chuàng)作 | 1.5 |
小結一下
DeepSeek 官方對 R1 的能力描述,它在數學、代碼、自然語言推理等任務上表現(xiàn)很不錯,因此不要把它當成萬能的 大模型。
DeepSeek-R1 在后訓練階段大規(guī)模使用了強化學習技術,在僅有極少標注數據的情況下,極大提升了模型推理能力。在數學、代碼、自然語言推理等任務上,性能比肩 OpenAI o1 正式版。
- 官方技術白皮書
第四部分 DeepSeek R1 的商用場景
接下來,我們聊一下 DeepSeek R1 的商用場景。
DeepSeek R1 帶給我們的驚喜
在開始聊商用場景之前,我們先看看 DeepSeek 帶給我們哪些驚喜。
- 推理能力強:DeepSeek R1 的性能優(yōu)于其他推理模型,在某些測試中,它與 OpenAI 的 01 模型表現(xiàn)相當,有時甚至更好。
- 性價比高:DeepSeek R1 的定價非常便宜,相比較性能相同的推理模型,價格便宜幾十倍。
- 多種版本可選:R1 提供多種不同大小推理模型,我們可以根據自己的計算資源選擇合適的版本。
- 開源免費:DeepSeek R1 是一個完全開源的模型,采用 MIT 許可證,免費使用,且可以用于商業(yè)。
- 降低提示詞使用門檻:R1 自身會一步步的去推理解決問題,這樣就降低了我們使用 AI 的門檻。
- 展示思考過程:DeepSeek-R1 會向我們展示了思考過程,如果你想學習某件事,能夠看到大型語言模型的思考過程是非常重要的。
這些驚喜極大推動 AI Agent 商用場景的落地以及中小企業(yè)的在 AI 應用上的普及。
接下來我們再聊一下兩個技術,我們同樣也會得到一些驚喜。
什么是強化學習
先說一下強化學習。
DeepSeek-R1 技術論文中,講到直接使用強化學習。
簡單的說,強化學習就是通過不斷“試錯”來找到最好解決問題的辦法。
想象一下一個小孩剛學著站立,它開始不知道如何站立,會嘗試各種方法,最終找到了站的穩(wěn)的方法。
這意味著,當你問 DeepSeek-R1 一個問題時,它會多次思考解決方案。
它會先提出答案,然后重新評估其答案,思考這個答案可能出錯的地方,再想一個更優(yōu)的答案,這樣一步步的思考、完善答案,直到大模型認為最好的一個答案,然后輸出給我們。
這也是為什么與推理模型進行交互的時候,提示詞需要說的簡練,說的過于復雜,會限制推理大模型的思考發(fā)揮。
什么是“蒸餾”
再說一下“蒸餾”
蒸餾就是讓大模型教小模型本事,簡單的理解就是老師把自己某些方面的能力移植到學生身上的一個過程。
這樣小模型的能力會變強,資源耗用方面不會提升太大。
具體過程就是:
首先,需要一個能力強的大模型,例如 DeepSeek R1。
其次,讓 DeepSeek R1 生成用于訓練小模型的數據樣本(問題、答案、思維鏈的思考過程),這些數據樣本側重訓練推理能力的。
然后,在小模型 Qwen-7B 上用數據樣本進行訓練。
最后,得到新的小模型 Qwen-7B 在推理能力上會大大提高。
這意味著,小模型也可以擁有大模型的能力,降低了模型運行成本,為商業(yè) AI 應用的發(fā)展提供基礎。
因此在未來我們做一個 AI Agent 的場景,是可以混合使用大模型、小模型的。
DeepSeek R1 蒸餾出來的小模型運行硬件配置
接下來,我們看一下蒸餾出來的小模型的運行硬件配置。
這個表格來自網絡,僅供參考,大家也可以問 Kimi,我個人不建議中小型企業(yè)獨立購買硬件部署,會增加很多額外的成本,例如服務器的運維、模型自身升級的運維,建議還是用 API 接口,或者云服務。
拋磚引玉,商用場景應用
最后我們說一下商用場景,AI 從 2023 年到目前,大部分集中在寫作、出圖、出視頻方面,但是大面積的在企業(yè)業(yè)務流程上使用還是少數,主要因素還是是 Token 消耗的成本過高,大模型的幻覺。
OpenAI 的 o 系統(tǒng)面世,雖然將大模型的幻覺進行了改進,但是其高昂的費用,在企業(yè)商用上還是一筆不小的開銷。
但是 DeepSeek R1 的面世,在提升大模型能力的前提下,價格一下子降下了幾十倍,我們也可以不用云端 API,可以自己獨立部署,這對企業(yè)來說,是一個極好的消息。
下面是我搜集的大家都在用 DeepSeek 在哪些商業(yè)場景上開始應用了。
內容生成與營銷
使用 DeepSeek R1,可以撰寫出吸引眼球的廣告文案,并生成極具吸引力的社交媒體內容。此外,它還能根據關鍵詞進行 SEO 優(yōu)化。
改進客戶服務
DeepSeek R1 驅動的聊天機器人能響應常見客戶咨詢,協(xié)助安排預約,甚至提供基礎的咨詢,從而提升客戶滿意度。
軟件開發(fā)
在軟件開發(fā)中,DeepSeek R1 可以協(xié)助我們進行代碼開發(fā)和調試。并且能夠自動化生成技術文檔,大大提高了開發(fā)人員的效率。
財務與數據分析
在金融領域,DeepSeek R1 提供預測分析功能。同時,憑借其強大的數據分析能力,它還能有效進行風險評估。
合同審閱
想想我們審閱合同所花費的時間。DeepSeek R1 能夠分析這些文檔,提取關鍵條款,識別潛在風險,并提出改進建議。
律師助手
DeepSeek R1 可自動化起草訴狀、合同和證據請求等標準化法律文件,節(jié)省時間、降低錯誤。
RPA 操控瀏覽器
最后就是給大家演示使用 browser-use 如何寫一個指令,讓瀏覽器自動執(zhí)行,DeepSeek 沒有出來之前,browser-use 執(zhí)行一次簡單的命令也需要消耗大量的 Token,現(xiàn)在雖然還有些缺陷,隨著推理大模型能力的不斷提升、Token 成本的進一步降低,相信過不了多久就可以商用了。