創(chuàng)造歷史!DeepSeek超越ChatGPT登頂中美AppStore
DeepSeek 20 日發(fā)布以來獲得的熱度至今依然沒有任何消退的跡象。一覺醒來,DeepSeek 發(fā)布的 iOS 應(yīng)用甚至超越了 ChatGPT 的官方應(yīng)用,直接登頂 AppStore。
不少網(wǎng)友都認(rèn)為這是他們當(dāng)之無愧。
畢竟,正如 a16z 合伙人、Mistral 董事會(huì)成員 Anjney Midha 說的那樣:從斯坦福到麻省理工,DeepSeek-R1 幾乎一夜之間就成了美國頂尖大學(xué)研究人員的首選模型。
甚至有網(wǎng)友認(rèn)為 DeepSeek 是 OpenAI 與英偉達(dá)都未曾預(yù)見的黑天鵝。
與此同時(shí),圍繞 DeepSeek-R1 的各路消息也正層出不窮 ——Hugging Face 等組織正在嘗試復(fù)現(xiàn) R1、DeepSeek 之前接受的采訪被翻譯成了英文版并正在 AI 社區(qū)引發(fā)熱議、開發(fā)了 Llama 系列模型的 Meta 似乎陷入了焦慮之中…… 下面我們就來簡單盤點(diǎn)一下最近兩天圍繞 DeepSeek 的幾個(gè)熱點(diǎn)議題。
DeepSeek 創(chuàng)始人梁文鋒之前接受的采訪被翻譯成了英文版,正在 AI 社區(qū)引發(fā)熱議
AI 社區(qū)開啟 R1 復(fù)現(xiàn)熱潮
DeepSeek-R1 是開源的,但也沒有完全開源 —— 相關(guān)的訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本等并未被公布出來。不過,因?yàn)橛屑夹g(shù)報(bào)告,也就有了復(fù)現(xiàn) R1 的指導(dǎo)方針,也因此,最近有不少人都在強(qiáng)調(diào)復(fù)現(xiàn) R1 的重要性與可行性。
?? 博主 @Charbax 總結(jié)了 DeepSeek 文檔中沒有介紹的地方以及復(fù)現(xiàn) R1 的一些難點(diǎn)。
- 訓(xùn)練流程的細(xì)節(jié)。雖然其技術(shù)報(bào)告中介紹了強(qiáng)化學(xué)習(xí)階段和蒸餾,但省略了關(guān)鍵的實(shí)現(xiàn)細(xì)節(jié),包括超參數(shù)(例如,學(xué)習(xí)率、批量大小、獎(jiǎng)勵(lì)縮放因子)、用于生成合成訓(xùn)練數(shù)據(jù)的數(shù)據(jù)管道(例如,如何編排 800K 蒸餾樣本)、需要人類偏好對(duì)齊的任務(wù)的獎(jiǎng)勵(lì)模型架構(gòu)(多語言輸出的「語言一致性獎(jiǎng)勵(lì)」)。
- 冷啟動(dòng)數(shù)據(jù)生成。報(bào)告中雖然提到了創(chuàng)建「高質(zhì)量冷啟動(dòng)數(shù)據(jù)」(例如,人工標(biāo)準(zhǔn)、少樣本提示)的過程,但缺乏具體的示例或數(shù)據(jù)集。
- 硬件和基礎(chǔ)設(shè)施。沒有關(guān)于計(jì)算資源(例如,GPU 集群、訓(xùn)練時(shí)間)或軟件堆棧優(yōu)化(例如,DeepSeek-V3 的 AMD ROCM 集成)的詳細(xì)信息。
- 復(fù)現(xiàn)難題。缺少多階段強(qiáng)化學(xué)習(xí)的腳本等組件。
當(dāng)然,也確實(shí)有些團(tuán)隊(duì)已經(jīng)開始行動(dòng)了。
Open R1:復(fù)現(xiàn)一個(gè)真?開源版 R1
在復(fù)現(xiàn) R1 的各式項(xiàng)目中,最受人關(guān)注的當(dāng)屬 Hugging Face 的 Open R1 項(xiàng)目。
- 項(xiàng)目地址:https://github.com/huggingface/open-r1
Open R1 宣稱是 DeepSeek-R1 的「完全開放復(fù)現(xiàn)(A fully open reproduction)」,可以補(bǔ)齊 DeepSeek 沒有公開的技術(shù)細(xì)節(jié)。該項(xiàng)目目前還在進(jìn)行中,已經(jīng)完成的部分包括:
- GRPO 實(shí)現(xiàn)
- 訓(xùn)練與評(píng)估代碼
- 用于合成數(shù)據(jù)的生成器
Hugging Face CEO Clem Delangue 的推文
據(jù)其項(xiàng)目介紹,Open R1 項(xiàng)目計(jì)劃分三步實(shí)施:
第一步:復(fù)現(xiàn) R1-Distill 模型,具體做法是蒸餾一個(gè)來自 DeepSeek-R1 的高質(zhì)量語料庫。
第二步:復(fù)現(xiàn) DeepSeek 用于創(chuàng)建 R1-Zero 的純強(qiáng)化學(xué)習(xí)管線。這一步涉及到編排一個(gè)新的大規(guī)模數(shù)據(jù)集,其中包含數(shù)學(xué)、推理和代碼數(shù)據(jù)。
第三步:通過多階段訓(xùn)練從基礎(chǔ)模型得到強(qiáng)化學(xué)習(xí)微調(diào)版模型。
7B 模型 8K 樣本復(fù)現(xiàn) R1-Zero 和 R1
另一個(gè)復(fù)現(xiàn) R1 的團(tuán)隊(duì)是來自香港科技大學(xué)的何俊賢(Junxian He)團(tuán)隊(duì),并且他們采用的基礎(chǔ)模型和樣本量都非常?。夯?7B 模型,僅使用 8K 樣本示例,但得到的結(jié)果卻「驚人地強(qiáng)勁」。
- 項(xiàng)目地址:https://github.com/hkust-nlp/simpleRL-reason
需要注意,該團(tuán)隊(duì)的這個(gè)實(shí)現(xiàn)的實(shí)驗(yàn)大都是在 R1 發(fā)布之前完成的。他們發(fā)現(xiàn),僅使用 8K MATH 示例,7B 模型就能涌現(xiàn)出長思維鏈 (CoT)和自我反思能力,而且在復(fù)雜的數(shù)學(xué)推理上的表現(xiàn)也非常不錯(cuò)。
具體來說,他們從基礎(chǔ)模型 Qwen2.5-Math-7B 開始,僅使用來自 MATH 數(shù)據(jù)集的 8K 樣本直接對(duì)其進(jìn)行強(qiáng)化學(xué)習(xí)。最終得到了 Qwen2.5-SimpleRL-Zero 與 Qwen2.5-SimpleRL。
或者按其博客的說法:「沒有獎(jiǎng)勵(lì)模型,沒有 SFT,只有 8K 用于驗(yàn)證的 Math 樣本,得到的模型在 AIME 上成績?yōu)椋╬ass@1 準(zhǔn)確率)33.3%、在 AMC 上實(shí)現(xiàn)了 62.5%、在 MATH 上實(shí)現(xiàn) 77.2%,優(yōu)于 Qwen2.5-math-7B-instruct,可與使用多 50 倍數(shù)據(jù)和更復(fù)雜組件的 PRIME 和 rStar-MATH 相媲美?!?/span>
Qwen2.5-SimpleRL-Zero 的訓(xùn)練動(dòng)態(tài)
所得模型與基線模型的 pass@1 準(zhǔn)確度
基于 3B 模型用 30 美元復(fù)現(xiàn) R1
TinyZero 則是一個(gè)嘗試復(fù)現(xiàn) DeepSeek-R1-Zero 的項(xiàng)目,據(jù)其作者、伯克利 AI 研究所在讀博士潘家怡(Jiayi Pan)介紹,該項(xiàng)目是基于 CountDown 游戲?qū)崿F(xiàn)的,完整配方有一句話就能說完:「遵照 DeepSeek R1-Zero 的算法 —— 一個(gè)基礎(chǔ)語言模型、提示詞和 ground-truth 獎(jiǎng)勵(lì),然后運(yùn)行強(qiáng)化學(xué)習(xí)。」
實(shí)驗(yàn)過程中,模型一開始的輸出很蠢笨,但逐漸發(fā)展出修改和搜索等策略。下面展示了一個(gè)示例,可以看到模型提出解決方案,自我驗(yàn)證,并反復(fù)修改,直到成功。
實(shí)驗(yàn)中,該團(tuán)隊(duì)也得到了一些有意思的發(fā)現(xiàn):
基礎(chǔ)模型的質(zhì)量很重要。0.5B 的小模型在猜測一個(gè)解答之后就會(huì)停止,而從 1.5B 規(guī)模開始,模型會(huì)開始學(xué)習(xí)搜索、自我驗(yàn)證、修正解答,從而可以得到遠(yuǎn)遠(yuǎn)更高的分?jǐn)?shù)。
基礎(chǔ)模型和指令模型都可行。實(shí)驗(yàn)發(fā)現(xiàn),指令模型的學(xué)習(xí)速度更快,但性能會(huì)收斂到與基礎(chǔ)模型同等的程度;同時(shí)指令模型的輸出更加結(jié)構(gòu)化、更可讀。
具體采用什么強(qiáng)化學(xué)習(xí)算法并不重要。該團(tuán)隊(duì)嘗試了 PPO、GRPO 和 PRIME,但它們的差異并不大。
模型的推理行為嚴(yán)重取決于具體任務(wù)。對(duì)于 CountDown 游戲,模型會(huì)學(xué)習(xí)執(zhí)行搜索和自我驗(yàn)證;對(duì)于數(shù)值乘法,模型會(huì)學(xué)習(xí)使用分配律分解問題并逐步解決。
模型學(xué)會(huì)乘法分配律
而最驚人的是,整個(gè)項(xiàng)目的計(jì)算成本不到 30 美元。
Meta 的焦慮:下一代 Llama 可能趕不上 R1
數(shù)天前,機(jī)器之心報(bào)道文章《Meta 陷入恐慌?內(nèi)部爆料:在瘋狂分析復(fù)制 DeepSeek,高預(yù)算難以解釋》引起廣泛關(guān)注與討論。
文章中, Meta 員工在美國匿名職場社區(qū) teamblind 上面發(fā)布了一個(gè)帖子提到,國內(nèi) AI 創(chuàng)業(yè)公司 DeepSeek 最近的一系列動(dòng)作讓 Meta 的生成式 AI 團(tuán)隊(duì)陷入了恐慌。
今日,The Information 最新的文章爆料出更多內(nèi)容。
在文章中,The Information 爆料稱包括 Meta 人工智能基礎(chǔ)設(shè)施總監(jiān) Mathew Oldham 在內(nèi)的領(lǐng)導(dǎo)表示,他們擔(dān)心 Meta Llama 的下一個(gè)版本性能不會(huì)像 DeepSeek 的那樣好。
Meta 也暗示 Llama 的下一個(gè)版本將于本季度發(fā)布。
此外,文章也爆料,Meta 生成式 AI 小組和基礎(chǔ)設(shè)施團(tuán)隊(duì)組織了四個(gè)作戰(zhàn)室來學(xué)習(xí) DeepSeek 的工作原理。
其中兩個(gè)作戰(zhàn)室,正在試圖了解幻方是如何降低訓(xùn)練和運(yùn)行 DeepSeek 模型的成本。其中一名員工表示:Meta 希望將這些技術(shù)應(yīng)用于 Llama。
其中一些開發(fā)人員透露,盡管 Meta 的模型是免費(fèi)的,但它們的運(yùn)行成本通常比 OpenAI 的模型更高,部分原因是 OpenAI 可以通過批量處理其模型客戶的數(shù)百萬條查詢來降低價(jià)格。但是,使用 Llama 的小型開發(fā)人員卻沒有足夠的查詢來降低成本。
據(jù)一位直接了解情況的員工透露,第三個(gè)作戰(zhàn)室正在試圖弄清楚幻方可能使用哪些數(shù)據(jù)來訓(xùn)練其模型。
第四作戰(zhàn)室正在考慮基于 DeepSeek 模型的新技術(shù),重構(gòu) Meta 模型。Meta 考慮推出一個(gè)與 DeepSeek 相似的 Llama 版本,它將包含多個(gè) AI 模型,每個(gè)模型處理不同的任務(wù)。這樣,當(dāng)客戶要求 Llama 處理某項(xiàng)任務(wù)時(shí),只需要模型的某些部分進(jìn)行處理。這樣做可以使整個(gè)模型運(yùn)行得更快,并且以更少的算力來運(yùn)行。
不知道,在這樣的壓力下,2025 年 Meta 會(huì)拿出什么樣的開源模型?說不定,Meta 也會(huì)加入到復(fù)現(xiàn) R1 的浪潮中。
不過可以預(yù)料的是,在 DeepSeek 這條鯰魚的攪動(dòng)下,新一年的大模型格局正在發(fā)生轉(zhuǎn)變。
對(duì)新一年的 AI 技術(shù)發(fā)展與應(yīng)用,你有什么樣的期待?歡迎留言討論。