整理 | 言征
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
過(guò)去12個(gè)月,大型語(yǔ)言模型 (LLM) 的重頭戲是增強(qiáng)其推理能力,以彌補(bǔ)與通用人工智能 (AGI) 的差距。DeepSeek R1 和OpenAI o1是引領(lǐng)這一發(fā)展的兩個(gè)著名模型,旨在出色地完成復(fù)雜的推理任務(wù)。
本文對(duì)這些模型進(jìn)行了深入比較,仔細(xì)研究了它們的架構(gòu)設(shè)計(jì)、訓(xùn)練方法、性能基準(zhǔn)、優(yōu)勢(shì)、局限性、成本和可訪問(wèn)性。
一、模型概述
DeepSeek-R1:DeepSeek-R1 代表了 DeepSeek-AI 開(kāi)發(fā)的第一代推理模型。它的獨(dú)特之處在于采用了多階段訓(xùn)練,即在應(yīng)用強(qiáng)化學(xué)習(xí) (RL) 之前策略性地使用冷啟動(dòng)數(shù)據(jù)。這種方法專門(mén)用于增強(qiáng)模型在各種復(fù)雜任務(wù)中的推理性能。
OpenAI o1:OpenAI o1 模型系列的設(shè)計(jì)重點(diǎn)是增強(qiáng)推理功能。與前代產(chǎn)品不同,o1 采用獨(dú)特的思路鏈提示策略,使其能夠逐步有條不紊地推理問(wèn)題。這種迭代方法旨在提高模型對(duì)復(fù)雜查詢的響應(yīng)的準(zhǔn)確性和可靠性。
二、訓(xùn)練與架構(gòu)
1.DeepSeek-R1
強(qiáng)化學(xué)習(xí) (RL): DeepSeek R1 的核心是利用大規(guī)模強(qiáng)化學(xué)習(xí) (RL) 來(lái)大幅提高其推理能力。DeepSeek R1 以 DeepSeek-V3-Base 模型的強(qiáng)大基礎(chǔ)為基礎(chǔ),采用群組相對(duì)策略優(yōu)化 (GRPO) 作為其主要 RL 框架。這種對(duì) RL 的戰(zhàn)略性使用使模型能夠自主探索和改進(jìn)思路鏈 (CoT) 流程,從而有效解決復(fù)雜問(wèn)題。
冷啟動(dòng):為了緩解強(qiáng)化學(xué)習(xí)訓(xùn)練初始階段的不穩(wěn)定性,DeepSeek-R1 策略性地將少量高質(zhì)量數(shù)據(jù)作為冷啟動(dòng)。這涉及使用精心挑選的長(zhǎng)思路鏈 (CoT) 示例對(duì)模型進(jìn)行微調(diào),這有助于引導(dǎo)模型實(shí)現(xiàn)更連貫、更易讀的推理過(guò)程。
多階段訓(xùn)練:DeepSeek R1 的訓(xùn)練流程經(jīng)過(guò)精心設(shè)計(jì),包含多個(gè)階段,以優(yōu)化推理準(zhǔn)確性和與人類偏好的一致性。這個(gè)全面的流程包括:
(1)兩個(gè) RL 階段:這些階段對(duì)于發(fā)現(xiàn)和改進(jìn)推理模式至關(guān)重要,使模型能夠處理日益復(fù)雜的任務(wù)。
(2)兩個(gè)監(jiān)督微調(diào) (SFT) 階段:這些階段作為模型推理和非推理能力的基礎(chǔ)種子,確保全面的技能組合。
蒸餾:為了進(jìn)一步提高小型模型的效率和性能,DeepSeek R1 采用蒸餾技術(shù)來(lái)從更大、更強(qiáng)大的模型中遷移推理模式。此過(guò)程使小型模型能夠取得顯著成果,通常優(yōu)于僅通過(guò) RL 訓(xùn)練的模型。
訓(xùn)練模板:DeepSeek-R1-Zero 使用簡(jiǎn)單的模板進(jìn)行訓(xùn)練,該模板可指導(dǎo)基礎(chǔ)模型遵循指定的指令。此模板要求模型首先生成推理過(guò)程,然后生成最終答案。約束被有意限制為這種結(jié)構(gòu)格式,以準(zhǔn)確觀察模型在 RL 過(guò)程中的自然進(jìn)展。
獎(jiǎng)勵(lì)建模:DeepSeek-R1-Zero 的訓(xùn)練采用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),由準(zhǔn)確性獎(jiǎng)勵(lì)(評(píng)估響應(yīng)的正確性)和格式獎(jiǎng)勵(lì)(強(qiáng)制模型將其思考過(guò)程置于“”和“”標(biāo)簽之間)組成。
圖源:Ahead of AI
2.OpenAI o1
Transformer 模型:與 OpenAI 的所有 LLM 一樣,o1 建立在 Transformer 架構(gòu)上,這是一個(gè)基礎(chǔ)元素,使模型能夠以非凡的流暢度處理和生成文本。
思維鏈提示:o1 模型采用思路鏈提示,這是一種先進(jìn)的策略,可以逐步迭代推理問(wèn)題。這種方法增強(qiáng)了模型處理復(fù)雜查詢的能力,并提供更準(zhǔn)確的響應(yīng)。
強(qiáng)化學(xué)習(xí):o1 的開(kāi)發(fā)采用了先進(jìn)的訓(xùn)練技術(shù),其中突出的是強(qiáng)化學(xué)習(xí)。這使模型能夠根據(jù)反饋改進(jìn)其響應(yīng),從而增強(qiáng)其推理和解決問(wèn)題的能力。
系統(tǒng)卡:作為 o1 模型發(fā)布的一部分,OpenAI 公開(kāi)發(fā)布了一份系統(tǒng)卡,這是一份描述模型開(kāi)發(fā)期間進(jìn)行的安全評(píng)估和風(fēng)險(xiǎn)評(píng)估的文檔。
安全訓(xùn)練:OpenAI 實(shí)施了一種新穎的安全訓(xùn)練方法,利用模型的推理能力更好地遵守安全和協(xié)調(diào)準(zhǔn)則。
三、性能基準(zhǔn)
為了提供清晰簡(jiǎn)潔的性能比較,下表總結(jié)了 DeepSeek R1 和 OpenAI o1 在一系列以推理為重點(diǎn)的任務(wù)中的基準(zhǔn)測(cè)試結(jié)果。
Deepseek-R1 Vs OpenAI o1:頂級(jí)推理重點(diǎn) LLMS 的全面比較。
DeepSeek R1 和 OpenAI o1 的基準(zhǔn)測(cè)試結(jié)果。
基準(zhǔn)測(cè)試結(jié)果揭示了幾個(gè)關(guān)鍵見(jiàn)解:
DeepSeek-R1 與 OpenAI o1–1217:DeepSeek-R1 在 AIME 2024 和 MATH-500 等具有挑戰(zhàn)性的推理任務(wù)上表現(xiàn)出與 OpenAI o1–1217 相當(dāng)?shù)男阅芩?/strong>。這表明 DeepSeek-R1 有效地利用了其訓(xùn)練方法來(lái)實(shí)現(xiàn)具有競(jìng)爭(zhēng)力的推理準(zhǔn)確性。
Codeforces 競(jìng)賽:DeepSeek-R1 在代碼競(jìng)賽任務(wù)中展現(xiàn)出專家級(jí)的性能,在 Codeforces 上取得了較高的百分位。這凸顯了該模型在生成高效、準(zhǔn)確代碼方面的熟練程度,使其成為開(kāi)發(fā)人員的寶貴工具。
基于知識(shí)的基準(zhǔn):在 MMLU 等基于知識(shí)的基準(zhǔn)上,DeepSeek-R1 的表現(xiàn)略低于 OpenAI-o1–1217,但仍優(yōu)于其他閉源模型。這表明,雖然 DeepSeek-R1 在推理方面表現(xiàn)出色,但它對(duì)一般知識(shí)的掌握仍然很強(qiáng)。
AIME 2024 性能:DeepSeek-R1 在 AIME 2024 上取得了 79.8% Pass@1 的分?jǐn)?shù),略高于 OpenAI-o1–1217。
MATH-500 性能:在 MATH-500 上,DeepSeek-R1 獲得了令人印象深刻的 97.3% 的分?jǐn)?shù),表現(xiàn)與 OpenAI-o1–1217 相當(dāng),并明顯優(yōu)于其他模型。
編碼相關(guān)任務(wù):DeepSeek-R1 在代碼競(jìng)賽任務(wù)中展現(xiàn)了專家水平,在 Codeforces 上獲得了 2,029 Elo 評(píng)級(jí),在比賽中表現(xiàn)優(yōu)于 96.3% 的人類參與者。
四、DeepSeek-R1 開(kāi)發(fā)中的關(guān)鍵實(shí)驗(yàn)和發(fā)現(xiàn)
DeepSeek-R1-Zero:此模型將 RL 直接應(yīng)用于基礎(chǔ)模型,而無(wú)需依賴監(jiān)督微調(diào) (SFT) 作為初步步驟。它探索了解決復(fù)雜問(wèn)題的思路鏈 (CoT),并展示了自我驗(yàn)證、反思和生成長(zhǎng) CoT 等功能。DeepSeek-R1-Zero 驗(yàn)證了 LLM 的推理能力可以純粹通過(guò) RL 來(lái)激勵(lì),而無(wú)需 SFT。
DeepSeek-R1-Zero 的頓悟時(shí)刻:在訓(xùn)練過(guò)程中,DeepSeek-R1-Zero 經(jīng)歷了“頓悟時(shí)刻”,它學(xué)會(huì)了通過(guò)重新評(píng)估其初始方法為問(wèn)題分配更多思考時(shí)間。這凸顯了強(qiáng)化學(xué)習(xí)在使模型能夠自主開(kāi)發(fā)高級(jí)問(wèn)題解決策略方面的強(qiáng)大功能。
蒸餾的好處:將更強(qiáng)大的模型蒸餾成更小的模型可以得到很好的結(jié)果,而依賴于大規(guī)模 RL 的小模型需要巨大的計(jì)算能力,甚至可能無(wú)法達(dá)到蒸餾的性能。
五、DeepSeek R1 當(dāng)然也公開(kāi)了效果不好的探索
過(guò)程獎(jiǎng)勵(lì)模型 (PRM):雖然 PRM 是一種合理的方法,可以引導(dǎo)模型找到解決推理任務(wù)的更好方法,但它也有局限性。在一般推理中,明確定義細(xì)粒度步驟具有挑戰(zhàn)性,確定當(dāng)前中間步驟是否正確也很困難,并且不可避免地會(huì)導(dǎo)致獎(jiǎng)勵(lì)黑客攻擊。
蒙特卡洛樹(shù)搜索 (MCTS):這種方法涉及將答案分解成更小的部分,以便模型系統(tǒng)地探索解決方案空間。然而,擴(kuò)大訓(xùn)練規(guī)模會(huì)遇到挑戰(zhàn),例如 token 生成中的搜索空間呈指數(shù)級(jí)增長(zhǎng),以及訓(xùn)練細(xì)粒度價(jià)值模型的難度。
六、優(yōu)勢(shì)
1.DeepSeek R1
推理能力:DeepSeek-R1 通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)強(qiáng)大的推理能力,無(wú)需依賴監(jiān)督式微調(diào)。這凸顯了該模型僅通過(guò)強(qiáng)化學(xué)習(xí)就能有效學(xué)習(xí)和泛化的能力。
自我進(jìn)化:該模型展示了通過(guò)強(qiáng)化學(xué)習(xí)自主提高推理能力的能力。這種自發(fā)發(fā)展顯著增強(qiáng)了 DeepSeek-R1-Zero 的推理能力,使其能夠以更高的效率和準(zhǔn)確性應(yīng)對(duì)更具挑戰(zhàn)性的任務(wù)。
泛化:DeepSeek-R1 表現(xiàn)出強(qiáng)大的泛化能力,提高了跨不同領(lǐng)域的性能。其性能顯著優(yōu)于 DeepSeek-V3,凸顯了大規(guī)模 RL 的泛化優(yōu)勢(shì),不僅提高了推理能力,還提高了跨不同領(lǐng)域的性能。
編碼性能:模型在編碼相關(guān)任務(wù)中表現(xiàn)出強(qiáng)勁的性能,在代碼競(jìng)賽任務(wù)中展現(xiàn)出專家水平。
長(zhǎng)上下文理解:DeepSeek-R1 在需要長(zhǎng)上下文理解的任務(wù)上表現(xiàn)出色,在長(zhǎng)上下文基準(zhǔn)測(cè)試中大大優(yōu)于 DeepSeek-V3。
2.OpenAI o1
STEM 專業(yè)知識(shí):OpenAI o1 擅長(zhǎng)復(fù)雜的推理任務(wù),尤其是在科學(xué)、技術(shù)、工程和數(shù)學(xué) (STEM) 領(lǐng)域。
編碼:該模型能夠有效地生成和調(diào)試代碼,在編碼基準(zhǔn)測(cè)試中表現(xiàn)良好。該模型還能有效地幫助開(kāi)發(fā)人員構(gòu)建和執(zhí)行多步驟工作流程。
數(shù)學(xué):OpenAI o1 在數(shù)學(xué)相關(guān)的基準(zhǔn)測(cè)試中表現(xiàn)出色。
圖像分析:該模型提供高級(jí)圖像分析功能,讓用戶上傳圖像并接收詳細(xì)的反饋。例如,用戶可以上傳鳥(niǎo)舍等物體的照片并接收建造說(shuō)明,或提交數(shù)據(jù)中心設(shè)計(jì)草圖并接收詳細(xì)的技術(shù)反饋。
安全性:OpenAI o1 在抵抗越獄方面表現(xiàn)出顯著的進(jìn)步。在挑戰(zhàn)性拒絕評(píng)估中,o1 獲得了 0.92 的非不安全分?jǐn)?shù),優(yōu)于 GPT-4o 的 0.713。
自我事實(shí)核查:o1 模型可以自我事實(shí)核查,提高其響應(yīng)的準(zhǔn)確性。
減輕偏見(jiàn):這些模型在衡量種族、性別和年齡在決策中的使用情況的評(píng)估中表現(xiàn)出了更好的表現(xiàn),其中 o1 的表現(xiàn)通常優(yōu)于 GPT-4o。
七、限制
1.DeepSeek R1
語(yǔ)言混合: DeepSeek-R1 可能會(huì)出現(xiàn)語(yǔ)言混合,尤其是當(dāng) RL 提示涉及多種語(yǔ)言時(shí)。
提示敏感度:模型的性能對(duì)提示很敏感,少量提示有時(shí)會(huì)降低性能。
軟件工程任務(wù):由于 RL 訓(xùn)練數(shù)據(jù)有限,DeepSeek-R1 在軟件工程基準(zhǔn)測(cè)試中并未表現(xiàn)出比 DeepSeek-V3 有顯著的改進(jìn)。
總體能力:在函數(shù)調(diào)用、多輪交互、復(fù)雜角色扮演、JSON輸出等任務(wù)上,該模型的能力與DeepSeek-V3相比存在差距。
安全 RL: DeepSeek-R1 在中國(guó) SimpleQA 基準(zhǔn)上的表現(xiàn)不如 DeepSeek-V3,主要是因?yàn)樗诎踩?RL 之后傾向于拒絕回答某些查詢。
語(yǔ)言優(yōu)化: DeepSeek-R1 目前針對(duì)中文和英文進(jìn)行了優(yōu)化,在處理其他語(yǔ)言的查詢時(shí)可能會(huì)導(dǎo)致語(yǔ)言混合問(wèn)題。
2.OpenAI o1
功能缺陷: OpenAI o1 缺乏網(wǎng)頁(yè)瀏覽功能,盡管這是計(jì)劃中的未來(lái)功能。
API 限制:在發(fā)布時(shí),API 存在各種限制,限制了模型的功能。
響應(yīng)時(shí)間:由于推理過(guò)程更為徹底,該模型最初比以前的模型慢。
成本:對(duì)于 API 用戶來(lái)說(shuō),OpenAI o1 比之前的模型更貴。
網(wǎng)頁(yè)瀏覽: o1 型號(hào)缺乏網(wǎng)頁(yè)瀏覽功能,盡管這是計(jì)劃中的未來(lái)功能。
OpenAI 已宣布計(jì)劃擴(kuò)展 o1 的 API 功能,以在未來(lái)的更新中包含函數(shù)調(diào)用和結(jié)構(gòu)化輸出等增強(qiáng)功能。
八、成本和可訪問(wèn)性
DeepSeek R1:DeepSeek-R1 及其 API 的開(kāi)源特性旨在通過(guò)在未來(lái)提煉出更好、更小的模型來(lái)造福研究界。提煉后的 Qwen 和 Llama 系列是開(kāi)源的。
OpenAI o1:訂閱 ChatGPT Plus、Team、Enterprise 和 Education 的用戶可直接訪問(wèn) o1 和 o1-mini 模型。o1 pro 模型僅通過(guò) ChatGPT Pro 套餐提供,價(jià)格為每月 200 美元。開(kāi)發(fā)人員可以通過(guò) OpenAI 的 API 訪問(wèn) o1 和 o1-mini。
ChatGPT Pro:ChatGPT Pro 套餐每月收費(fèi) 200 美元,是 o1 pro 模式的首個(gè)專屬平臺(tái)。ChatGPT Pro 還包括一項(xiàng)資助計(jì)劃,為領(lǐng)先的醫(yī)學(xué)研究人員提供免費(fèi)訪問(wèn)權(quán)限,初始資助授予波士頓兒童醫(yī)院、伯克利實(shí)驗(yàn)室和杰克遜實(shí)驗(yàn)室等機(jī)構(gòu)的研究人員。
第三方服務(wù):多家第三方服務(wù)已提供這些模型,包括 Microsoft Azure AI Studio 和 GitHub Models。
九、安全和道德考慮
OpenAI o1 目前公開(kāi)的安全道德方面的公開(kāi)資料如下:
安全功能:o1 模型使用大規(guī)模強(qiáng)化學(xué)習(xí)在響應(yīng)之前進(jìn)行復(fù)雜的推理。這使它們能夠改進(jìn)生成過(guò)程并識(shí)別錯(cuò)誤。因此,它們可以更好地遵循特定的指導(dǎo)方針和模型政策,從而提高提供安全和適當(dāng)內(nèi)容的能力。
抗越獄性:o1 模型在抗越獄方面表現(xiàn)出顯著的改進(jìn)。在 Strong Reject 基準(zhǔn)測(cè)試中(該基準(zhǔn)測(cè)試了對(duì)文獻(xiàn)中常見(jiàn)攻擊的抵抗力),o1 和 o1-mini 的得分高于 GPT-4o。
內(nèi)容政策遵守情況:在挑戰(zhàn)性拒絕評(píng)估中,測(cè)試模型拒絕騷擾、仇恨言論和非法活動(dòng)等類別的不安全內(nèi)容的能力,o1 獲得了 0.92 的非不安全分?jǐn)?shù),優(yōu)于 GPT-4o 的 0.713。
減少偏見(jiàn):在用于測(cè)試人口公平性的 QA 評(píng)估偏見(jiàn)基準(zhǔn)上,o1 在明確問(wèn)題上選擇正確答案的概率為 94%,而 GPT-4o 的正確答案率為 72%。在衡量種族、性別和年齡在決策中的使用情況的評(píng)估中,這些模型的表現(xiàn)也得到了改善,o1 的表現(xiàn)通常優(yōu)于 GPT-4o。
清晰易懂的安全監(jiān)控:o1 模型提供的思路鏈摘要為安全監(jiān)控提供了一種新方法。在對(duì) 100,000 個(gè)合成提示的分析中,只有 0.17% 的 o1 回答被標(biāo)記為欺騙性,其中大多數(shù)是幻覺(jué)形式,而不是故意欺騙。
——寫(xiě)在最后——
DeepSeek R1 和 OpenAI o1 是推理類 LLM 發(fā)展的重要里程碑。DeepSeek R1 有效地展示了強(qiáng)化學(xué)習(xí)和提煉技術(shù)在增強(qiáng)推理能力方面的潛力。
相比之下,OpenAI o1 在 STEM 領(lǐng)域、編碼和數(shù)學(xué)方面表現(xiàn)出色,同時(shí)優(yōu)先考慮安全性和協(xié)作開(kāi)發(fā)。
整體上看,這兩種模型都有自己獨(dú)特的優(yōu)勢(shì)和局限性,各自都有不同的適用場(chǎng)景。隨著該領(lǐng)域的發(fā)展,預(yù)計(jì)即將到來(lái)的迭代將解決現(xiàn)有的限制,并進(jìn)一步增強(qiáng)這些模型的推理和綜合能力。
參考鏈接:https://medium.com/@bernardloki/which-ai-model-can-actually-think-better-deepseek-r1-vs-openai-o1