DeepSeek R1 Vs OpenAI o1!全球頂級推理模型訓(xùn)練技術(shù)對比大解密! 原創(chuàng)
整理 | 言征
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
過去12個月,大型語言模型 (LLM) 的重頭戲是增強其推理能力,以彌補與通用人工智能 (AGI) 的差距。DeepSeek R1 和OpenAI o1是引領(lǐng)這一發(fā)展的兩個著名模型,旨在出色地完成復(fù)雜的推理任務(wù)。
本文對這些模型進行了深入比較,仔細研究了它們的架構(gòu)設(shè)計、訓(xùn)練方法、性能基準、優(yōu)勢、局限性、成本和可訪問性。
一、模型概述
DeepSeek-R1:DeepSeek-R1 代表了 DeepSeek-AI 開發(fā)的第一代推理模型。它的獨特之處在于采用了多階段訓(xùn)練,即在應(yīng)用強化學(xué)習(xí) (RL) 之前策略性地使用冷啟動數(shù)據(jù)。這種方法專門用于增強模型在各種復(fù)雜任務(wù)中的推理性能。
OpenAI o1:OpenAI o1 模型系列的設(shè)計重點是增強推理功能。與前代產(chǎn)品不同,o1 采用獨特的思路鏈提示策略,使其能夠逐步有條不紊地推理問題。這種迭代方法旨在提高模型對復(fù)雜查詢的響應(yīng)的準確性和可靠性。
二、訓(xùn)練與架構(gòu)
1.DeepSeek-R1
強化學(xué)習(xí) (RL): DeepSeek R1 的核心是利用大規(guī)模強化學(xué)習(xí) (RL) 來大幅提高其推理能力。DeepSeek R1 以 DeepSeek-V3-Base 模型的強大基礎(chǔ)為基礎(chǔ),采用群組相對策略優(yōu)化 (GRPO) 作為其主要 RL 框架。這種對 RL 的戰(zhàn)略性使用使模型能夠自主探索和改進思路鏈 (CoT) 流程,從而有效解決復(fù)雜問題。
冷啟動:為了緩解強化學(xué)習(xí)訓(xùn)練初始階段的不穩(wěn)定性,DeepSeek-R1 策略性地將少量高質(zhì)量數(shù)據(jù)作為冷啟動。這涉及使用精心挑選的長思路鏈 (CoT) 示例對模型進行微調(diào),這有助于引導(dǎo)模型實現(xiàn)更連貫、更易讀的推理過程。
多階段訓(xùn)練:DeepSeek R1 的訓(xùn)練流程經(jīng)過精心設(shè)計,包含多個階段,以優(yōu)化推理準確性和與人類偏好的一致性。這個全面的流程包括:
(1)兩個 RL 階段:這些階段對于發(fā)現(xiàn)和改進推理模式至關(guān)重要,使模型能夠處理日益復(fù)雜的任務(wù)。
(2)兩個監(jiān)督微調(diào) (SFT) 階段:這些階段作為模型推理和非推理能力的基礎(chǔ)種子,確保全面的技能組合。
蒸餾:為了進一步提高小型模型的效率和性能,DeepSeek R1 采用蒸餾技術(shù)來從更大、更強大的模型中遷移推理模式。此過程使小型模型能夠取得顯著成果,通常優(yōu)于僅通過 RL 訓(xùn)練的模型。
訓(xùn)練模板:DeepSeek-R1-Zero 使用簡單的模板進行訓(xùn)練,該模板可指導(dǎo)基礎(chǔ)模型遵循指定的指令。此模板要求模型首先生成推理過程,然后生成最終答案。約束被有意限制為這種結(jié)構(gòu)格式,以準確觀察模型在 RL 過程中的自然進展。
獎勵建模:DeepSeek-R1-Zero 的訓(xùn)練采用基于規(guī)則的獎勵系統(tǒng),由準確性獎勵(評估響應(yīng)的正確性)和格式獎勵(強制模型將其思考過程置于“”和“”標簽之間)組成。
圖源:Ahead of AI
2.OpenAI o1
Transformer 模型:與 OpenAI 的所有 LLM 一樣,o1 建立在 Transformer 架構(gòu)上,這是一個基礎(chǔ)元素,使模型能夠以非凡的流暢度處理和生成文本。
思維鏈提示:o1 模型采用思路鏈提示,這是一種先進的策略,可以逐步迭代推理問題。這種方法增強了模型處理復(fù)雜查詢的能力,并提供更準確的響應(yīng)。
強化學(xué)習(xí):o1 的開發(fā)采用了先進的訓(xùn)練技術(shù),其中突出的是強化學(xué)習(xí)。這使模型能夠根據(jù)反饋改進其響應(yīng),從而增強其推理和解決問題的能力。
系統(tǒng)卡:作為 o1 模型發(fā)布的一部分,OpenAI 公開發(fā)布了一份系統(tǒng)卡,這是一份描述模型開發(fā)期間進行的安全評估和風(fēng)險評估的文檔。
安全訓(xùn)練:OpenAI 實施了一種新穎的安全訓(xùn)練方法,利用模型的推理能力更好地遵守安全和協(xié)調(diào)準則。
三、性能基準
為了提供清晰簡潔的性能比較,下表總結(jié)了 DeepSeek R1 和 OpenAI o1 在一系列以推理為重點的任務(wù)中的基準測試結(jié)果。
Deepseek-R1 Vs OpenAI o1:頂級推理重點 LLMS 的全面比較。
DeepSeek R1 和 OpenAI o1 的基準測試結(jié)果。
基準測試結(jié)果揭示了幾個關(guān)鍵見解:
DeepSeek-R1 與 OpenAI o1–1217:DeepSeek-R1 在 AIME 2024 和 MATH-500 等具有挑戰(zhàn)性的推理任務(wù)上表現(xiàn)出與 OpenAI o1–1217 相當?shù)男阅芩?/strong>。這表明 DeepSeek-R1 有效地利用了其訓(xùn)練方法來實現(xiàn)具有競爭力的推理準確性。
Codeforces 競賽:DeepSeek-R1 在代碼競賽任務(wù)中展現(xiàn)出專家級的性能,在 Codeforces 上取得了較高的百分位。這凸顯了該模型在生成高效、準確代碼方面的熟練程度,使其成為開發(fā)人員的寶貴工具。
基于知識的基準:在 MMLU 等基于知識的基準上,DeepSeek-R1 的表現(xiàn)略低于 OpenAI-o1–1217,但仍優(yōu)于其他閉源模型。這表明,雖然 DeepSeek-R1 在推理方面表現(xiàn)出色,但它對一般知識的掌握仍然很強。
AIME 2024 性能:DeepSeek-R1 在 AIME 2024 上取得了 79.8% Pass@1 的分數(shù),略高于 OpenAI-o1–1217。
MATH-500 性能:在 MATH-500 上,DeepSeek-R1 獲得了令人印象深刻的 97.3% 的分數(shù),表現(xiàn)與 OpenAI-o1–1217 相當,并明顯優(yōu)于其他模型。
編碼相關(guān)任務(wù):DeepSeek-R1 在代碼競賽任務(wù)中展現(xiàn)了專家水平,在 Codeforces 上獲得了 2,029 Elo 評級,在比賽中表現(xiàn)優(yōu)于 96.3% 的人類參與者。
四、DeepSeek-R1 開發(fā)中的關(guān)鍵實驗和發(fā)現(xiàn)
DeepSeek-R1-Zero:此模型將 RL 直接應(yīng)用于基礎(chǔ)模型,而無需依賴監(jiān)督微調(diào) (SFT) 作為初步步驟。它探索了解決復(fù)雜問題的思路鏈 (CoT),并展示了自我驗證、反思和生成長 CoT 等功能。DeepSeek-R1-Zero 驗證了 LLM 的推理能力可以純粹通過 RL 來激勵,而無需 SFT。
DeepSeek-R1-Zero 的頓悟時刻:在訓(xùn)練過程中,DeepSeek-R1-Zero 經(jīng)歷了“頓悟時刻”,它學(xué)會了通過重新評估其初始方法為問題分配更多思考時間。這凸顯了強化學(xué)習(xí)在使模型能夠自主開發(fā)高級問題解決策略方面的強大功能。
蒸餾的好處:將更強大的模型蒸餾成更小的模型可以得到很好的結(jié)果,而依賴于大規(guī)模 RL 的小模型需要巨大的計算能力,甚至可能無法達到蒸餾的性能。
五、DeepSeek R1 當然也公開了效果不好的探索
過程獎勵模型 (PRM):雖然 PRM 是一種合理的方法,可以引導(dǎo)模型找到解決推理任務(wù)的更好方法,但它也有局限性。在一般推理中,明確定義細粒度步驟具有挑戰(zhàn)性,確定當前中間步驟是否正確也很困難,并且不可避免地會導(dǎo)致獎勵黑客攻擊。
蒙特卡洛樹搜索 (MCTS):這種方法涉及將答案分解成更小的部分,以便模型系統(tǒng)地探索解決方案空間。然而,擴大訓(xùn)練規(guī)模會遇到挑戰(zhàn),例如 token 生成中的搜索空間呈指數(shù)級增長,以及訓(xùn)練細粒度價值模型的難度。
六、優(yōu)勢
1.DeepSeek R1
推理能力:DeepSeek-R1 通過強化學(xué)習(xí)實現(xiàn)強大的推理能力,無需依賴監(jiān)督式微調(diào)。這凸顯了該模型僅通過強化學(xué)習(xí)就能有效學(xué)習(xí)和泛化的能力。
自我進化:該模型展示了通過強化學(xué)習(xí)自主提高推理能力的能力。這種自發(fā)發(fā)展顯著增強了 DeepSeek-R1-Zero 的推理能力,使其能夠以更高的效率和準確性應(yīng)對更具挑戰(zhàn)性的任務(wù)。
泛化:DeepSeek-R1 表現(xiàn)出強大的泛化能力,提高了跨不同領(lǐng)域的性能。其性能顯著優(yōu)于 DeepSeek-V3,凸顯了大規(guī)模 RL 的泛化優(yōu)勢,不僅提高了推理能力,還提高了跨不同領(lǐng)域的性能。
編碼性能:模型在編碼相關(guān)任務(wù)中表現(xiàn)出強勁的性能,在代碼競賽任務(wù)中展現(xiàn)出專家水平。
長上下文理解:DeepSeek-R1 在需要長上下文理解的任務(wù)上表現(xiàn)出色,在長上下文基準測試中大大優(yōu)于 DeepSeek-V3。
2.OpenAI o1
STEM 專業(yè)知識:OpenAI o1 擅長復(fù)雜的推理任務(wù),尤其是在科學(xué)、技術(shù)、工程和數(shù)學(xué) (STEM) 領(lǐng)域。
編碼:該模型能夠有效地生成和調(diào)試代碼,在編碼基準測試中表現(xiàn)良好。該模型還能有效地幫助開發(fā)人員構(gòu)建和執(zhí)行多步驟工作流程。
數(shù)學(xué):OpenAI o1 在數(shù)學(xué)相關(guān)的基準測試中表現(xiàn)出色。
圖像分析:該模型提供高級圖像分析功能,讓用戶上傳圖像并接收詳細的反饋。例如,用戶可以上傳鳥舍等物體的照片并接收建造說明,或提交數(shù)據(jù)中心設(shè)計草圖并接收詳細的技術(shù)反饋。
安全性:OpenAI o1 在抵抗越獄方面表現(xiàn)出顯著的進步。在挑戰(zhàn)性拒絕評估中,o1 獲得了 0.92 的非不安全分數(shù),優(yōu)于 GPT-4o 的 0.713。
自我事實核查:o1 模型可以自我事實核查,提高其響應(yīng)的準確性。
減輕偏見:這些模型在衡量種族、性別和年齡在決策中的使用情況的評估中表現(xiàn)出了更好的表現(xiàn),其中 o1 的表現(xiàn)通常優(yōu)于 GPT-4o。
七、限制
1.DeepSeek R1
語言混合: DeepSeek-R1 可能會出現(xiàn)語言混合,尤其是當 RL 提示涉及多種語言時。
提示敏感度:模型的性能對提示很敏感,少量提示有時會降低性能。
軟件工程任務(wù):由于 RL 訓(xùn)練數(shù)據(jù)有限,DeepSeek-R1 在軟件工程基準測試中并未表現(xiàn)出比 DeepSeek-V3 有顯著的改進。
總體能力:在函數(shù)調(diào)用、多輪交互、復(fù)雜角色扮演、JSON輸出等任務(wù)上,該模型的能力與DeepSeek-V3相比存在差距。
安全 RL: DeepSeek-R1 在中國 SimpleQA 基準上的表現(xiàn)不如 DeepSeek-V3,主要是因為它在安全 RL 之后傾向于拒絕回答某些查詢。
語言優(yōu)化: DeepSeek-R1 目前針對中文和英文進行了優(yōu)化,在處理其他語言的查詢時可能會導(dǎo)致語言混合問題。
2.OpenAI o1
功能缺陷: OpenAI o1 缺乏網(wǎng)頁瀏覽功能,盡管這是計劃中的未來功能。
API 限制:在發(fā)布時,API 存在各種限制,限制了模型的功能。
響應(yīng)時間:由于推理過程更為徹底,該模型最初比以前的模型慢。
成本:對于 API 用戶來說,OpenAI o1 比之前的模型更貴。
網(wǎng)頁瀏覽: o1 型號缺乏網(wǎng)頁瀏覽功能,盡管這是計劃中的未來功能。
OpenAI 已宣布計劃擴展 o1 的 API 功能,以在未來的更新中包含函數(shù)調(diào)用和結(jié)構(gòu)化輸出等增強功能。
八、成本和可訪問性
DeepSeek R1:DeepSeek-R1 及其 API 的開源特性旨在通過在未來提煉出更好、更小的模型來造福研究界。提煉后的 Qwen 和 Llama 系列是開源的。
OpenAI o1:訂閱 ChatGPT Plus、Team、Enterprise 和 Education 的用戶可直接訪問 o1 和 o1-mini 模型。o1 pro 模型僅通過 ChatGPT Pro 套餐提供,價格為每月 200 美元。開發(fā)人員可以通過 OpenAI 的 API 訪問 o1 和 o1-mini。
ChatGPT Pro:ChatGPT Pro 套餐每月收費 200 美元,是 o1 pro 模式的首個專屬平臺。ChatGPT Pro 還包括一項資助計劃,為領(lǐng)先的醫(yī)學(xué)研究人員提供免費訪問權(quán)限,初始資助授予波士頓兒童醫(yī)院、伯克利實驗室和杰克遜實驗室等機構(gòu)的研究人員。
第三方服務(wù):多家第三方服務(wù)已提供這些模型,包括 Microsoft Azure AI Studio 和 GitHub Models。
九、安全和道德考慮
OpenAI o1 目前公開的安全道德方面的公開資料如下:
安全功能:
o1 模型使用大規(guī)模強化學(xué)習(xí)在響應(yīng)之前進行復(fù)雜的推理。這使它們能夠改進生成過程并識別錯誤。因此,它們可以更好地遵循特定的指導(dǎo)方針和模型政策,從而提高提供安全和適當內(nèi)容的能力。
抗越獄性:
o1 模型在抗越獄方面表現(xiàn)出顯著的改進。在 Strong Reject 基準測試中(該基準測試了對文獻中常見攻擊的抵抗力),o1 和 o1-mini 的得分高于 GPT-4o。
內(nèi)容政策遵守情況
:在挑戰(zhàn)性拒絕評估中,測試模型拒絕騷擾、仇恨言論和非法活動等類別的不安全內(nèi)容的能力,o1 獲得了 0.92 的非不安全分數(shù),優(yōu)于 GPT-4o 的 0.713。
減少偏見
:在用于測試人口公平性的 QA 評估偏見基準上,o1 在明確問題上選擇正確答案的概率為 94%,而 GPT-4o 的正確答案率為 72%。在衡量種族、性別和年齡在決策中的使用情況的評估中,這些模型的表現(xiàn)也得到了改善,o1 的表現(xiàn)通常優(yōu)于 GPT-4o。
清晰易懂的安全監(jiān)控:
o1 模型提供的思路鏈摘要為安全監(jiān)控提供了一種新方法。在對 100,000 個合成提示的分析中,只有 0.17% 的 o1 回答被標記為欺騙性,其中大多數(shù)是幻覺形式,而不是故意欺騙。
——寫在最后——
DeepSeek R1 和 OpenAI o1 是推理類 LLM 發(fā)展的重要里程碑。DeepSeek R1 有效地展示了強化學(xué)習(xí)和提煉技術(shù)在增強推理能力方面的潛力。
相比之下,OpenAI o1 在 STEM 領(lǐng)域、編碼和數(shù)學(xué)方面表現(xiàn)出色,同時優(yōu)先考慮安全性和協(xié)作開發(fā)。
整體上看,這兩種模型都有自己獨特的優(yōu)勢和局限性,各自都有不同的適用場景。隨著該領(lǐng)域的發(fā)展,預(yù)計即將到來的迭代將解決現(xiàn)有的限制,并進一步增強這些模型的推理和綜合能力。
參考鏈接:
?? https://medium.com/@bernardloki/which-ai-model-can-actually-think-better-deepseek-r1-vs-openai-o1??
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:言征
