后 DeepSeek R1 時(shí)代:從資本壁壘到技術(shù)普惠 原創(chuàng) 精華
編者按: AI 落地又一次迎來(lái)拐點(diǎn)了嗎?當(dāng)模型蒸餾技術(shù)能以零頭成本復(fù)刻頂尖 AI 性能,傳統(tǒng)巨頭的商業(yè)壁壘是否已形同虛設(shè)?
我們今天為大家?guī)?lái)的文章,作者的核心觀點(diǎn)是:以深度求索(DeepSeek)R1 模型為代表的高效推理技術(shù),正在顛覆 AI 經(jīng)濟(jì)的底層規(guī)則,推動(dòng)行業(yè)進(jìn)入“輕量化革命”時(shí)代。
文章重點(diǎn)圍繞三大話題展開(kāi):
- R1 模型的革新性訓(xùn)練方案:通過(guò)純強(qiáng)化學(xué)習(xí)的 R1-Zero 生成合成數(shù)據(jù),結(jié)合三重獎(jiǎng)勵(lì)機(jī)制,使模型以極低推理成本實(shí)現(xiàn)與 OpenAI 相仿的性能。
- 模型蒸餾的行業(yè)沖擊:小型蒸餾模型(如 7B 參數(shù))通過(guò)知識(shí)遷移能夠超越 GPT-4o,徹底瓦解頭部實(shí)驗(yàn)室的資本護(hù)城河,迫使 OpenAI 等巨頭轉(zhuǎn)向消費(fèi)級(jí)產(chǎn)品或基礎(chǔ)設(shè)施服務(wù)。
- 邊緣 AI 的終極愿景:本地設(shè)備推理(如三臺(tái) Mac Studio 集群部署)與能力密度定律的指數(shù)級(jí)演進(jìn),或?qū)⒔K結(jié)云端依賴,催生免費(fèi) AI 應(yīng)用與超高毛利率的新商業(yè)模式。
技術(shù)迭代的速度正在以“百天減半”的節(jié)奏改寫規(guī)則。當(dāng)輕量化模型讓智能觸手可及,這場(chǎng)革命不僅關(guān)乎技術(shù)效率,更是一場(chǎng)關(guān)于“誰(shuí)將主宰未來(lái) AI 生態(tài)”的無(wú)聲博弈。
作者 | Akash Bajwa
編譯 | 岳揚(yáng)
我們傾向于將人工智能的發(fā)展劃分為兩個(gè)截然不同的時(shí)代:2022 年 11 月 ChatGPT 發(fā)布前的"前 ChatGPT 時(shí)代"和其后的"后 ChatGPT 時(shí)代"。
而 2025 年 1 月或許將成為人工智能經(jīng)濟(jì)模式發(fā)生根本性變革的轉(zhuǎn)折點(diǎn)。
01 限制催生創(chuàng)新
1 月 20 日,中國(guó)人工智能實(shí)驗(yàn)室深度求索(DeepSeek)發(fā)布了首款推理模型 R1。此前在 2024 年 12 月 26 日,該實(shí)驗(yàn)室剛推出擁有 671B 參數(shù)的稀疏混合專家模型 V3,該模型在推理時(shí)激活參數(shù)為 37B。
V3 模型成為了當(dāng)時(shí)的最佳“開(kāi)源”模型,而 R1 模型僅以極低成本就實(shí)現(xiàn)了與 OpenAI o1 模型近乎相當(dāng)?shù)耐评硇阅堋?/p>
美國(guó)的半導(dǎo)體出口管制政策正迫使深度求索(DeepSeek)等中國(guó) AI 實(shí)驗(yàn)室(包括面壁智能、智譜AI、MiniMax、月之暗面、百川智能、零一萬(wàn)物、階躍星辰等)在模型效率優(yōu)化領(lǐng)域持續(xù)創(chuàng)新突破。
Moonshot’s Kimi k1.5
事實(shí)上,如果我們對(duì)中國(guó)實(shí)施制裁以限制其獲取算力資源,結(jié)果是否反而賦予了他們一個(gè)需要突破的約束條件?這種約束會(huì)促使他們思考:"如何讓每一單位的計(jì)算能力(FLOP)都產(chǎn)生最大的智能效果(IQ)?" 最終他們總能找到巧妙的解決方案,用更少的資源實(shí)現(xiàn)更大的突破。
——納特·弗里德曼(Nat Friedman)[1]
如果將人才成本和研究/實(shí)驗(yàn)成本計(jì)算在內(nèi),訓(xùn)練這些模型的成本自然超過(guò)了 V3 模型宣稱的 560 萬(wàn)美元(約 280 萬(wàn) GPU 小時(shí))的投入[2]。
即便如此,相較于大型 AI 實(shí)驗(yàn)室(無(wú)論是開(kāi)源還是閉源實(shí)驗(yàn)室),這些成果的計(jì)算效率還是非常高的。
要預(yù)判這些技術(shù)進(jìn)步會(huì)通過(guò)怎樣的路徑對(duì)社會(huì)、行業(yè)或技術(shù)生態(tài)產(chǎn)生更深層的影響,關(guān)鍵是要先理解這些模型的訓(xùn)練順序。
早在 2024 年 5 月,深度求索(DeepSeek)就發(fā)布了 V2 模型,這個(gè)模型不僅成本低于 Llama 3 70B,性能也更優(yōu)。
Source: SemiAnalysis
DeepSeek 的 V3 模型發(fā)布于去年 12 月,而 R1 模型則于 1 月 20 日剛剛發(fā)布。R1 被用于 V3 的后訓(xùn)練階段,但真正引人注目的是 R1 獨(dú)特的訓(xùn)練方案。
R1 模型的訓(xùn)練依賴于 R1-Zero 生成的合成數(shù)據(jù)。R1-Zero 是一個(gè)完全通過(guò)強(qiáng)化學(xué)習(xí)(無(wú)監(jiān)督微調(diào))訓(xùn)練而成的獨(dú)立推理模型。其訓(xùn)練機(jī)制包含:
- 輸入要素:
- 待解決問(wèn)題(數(shù)學(xué)、編程、邏輯題)
- 雙重獎(jiǎng)勵(lì)機(jī)制:
- 結(jié)果正確性:"答案是否正確?"
- 過(guò)程規(guī)范性:"解題步驟是否符合標(biāo)準(zhǔn)格式?"
通過(guò)純粹的試錯(cuò)機(jī)制,R1-Zero自發(fā)形成了三類涌現(xiàn)能力,如深度思考能力(產(chǎn)生"頓悟時(shí)刻",主動(dòng)延長(zhǎng)思考時(shí)間)、自我糾錯(cuò)能力(出現(xiàn)"等等,我再檢查一遍"的反思行為)、多步推理能力(能自主拆解復(fù)雜問(wèn)題為多個(gè)推理步驟)。
現(xiàn)在進(jìn)入R1的訓(xùn)練流程:
- 冷啟動(dòng)監(jiān)督微調(diào)(Cold Start SFT):向 R1 輸入 R1-Zero 生成的合成推理數(shù)據(jù),以及其他未公開(kāi)的模型的合成數(shù)據(jù)。
- 大規(guī)模強(qiáng)化學(xué)習(xí)(Large-Scale RL):使用答案正確性 + 格式規(guī)范性(如強(qiáng)制使用\/\
- 拒絕采樣(Rejection Sampling):過(guò)濾 R1 的輸出,將推理能力與通用技能(寫作能力、常識(shí)處理等)融合。
- 最終強(qiáng)化學(xué)習(xí)(Final RL):將推理質(zhì)量技術(shù)指標(biāo)(如步驟完整性、結(jié)論準(zhǔn)確性)和人類偏好指標(biāo)(實(shí)用性、安全性)相結(jié)合。
當(dāng) V3 發(fā)布時(shí),許多人都覺(jué)得它很有趣:
DeepSeek 模型開(kāi)源的是其模型權(quán)重,因此我們無(wú)法追溯其訓(xùn)練數(shù)據(jù)來(lái)源??梢院侠硗茰y(cè),訓(xùn)練 V3 和/或 R1 所需的某些合成數(shù)據(jù)確實(shí)源自 OpenAI 的模型。
由于模型蒸餾的低門檻,使用其他模型的合成數(shù)據(jù)來(lái)訓(xùn)練新模型是一種必然的情況。
但還有一種理論認(rèn)為:任何優(yōu)勢(shì)都可能被競(jìng)爭(zhēng)淘汰,真正重要的是行業(yè)能獲得多少關(guān)注度 —— 如果你能每天登上所有新聞媒體的頭條,當(dāng)加入并從中分一杯羹的進(jìn)入門檻足夠低時(shí),供應(yīng)鏈中任何明顯的利潤(rùn)空間都會(huì)被徹底榨干。尤其是在軟件領(lǐng)域,這種準(zhǔn)入門檻低到離譜,以至于隨便一家公司都可能突然殺進(jìn)來(lái)?yè)寠Z蛋糕。我認(rèn)為如果創(chuàng)業(yè)門檻是必須搭建化學(xué)實(shí)驗(yàn)室才能開(kāi)展 AI 研究的話,情況會(huì)完全不同。
Daniel Gross[1]
沒(méi)錯(cuò),當(dāng)你開(kāi)拓技術(shù)前沿時(shí),本質(zhì)上是在為“先發(fā)劣勢(shì)”買單 —— 因?yàn)槟惚仨殬?gòu)建那些容易被復(fù)制的昂貴模型。不過(guò)這里有個(gè)有趣的類比:就像人類一樣,聰明人通過(guò)成長(zhǎng)和學(xué)習(xí)理解世界運(yùn)作規(guī)律,這個(gè)過(guò)程其實(shí)就是在蒸餾前人積累的知識(shí)體系 —— 那可是包含了整個(gè)人類文明百萬(wàn)年智慧結(jié)晶的巨大模型。我們每個(gè)人本質(zhì)上都在做相同的事。現(xiàn)在的 AI 模型同樣在通過(guò)互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行知識(shí)蒸餾。
Nat Friedman[1]
DeepSeek 隨后基于 MIT 開(kāi)源許可證發(fā)布了 6 個(gè)蒸餾模型:基于 Alibaba Qwen 2.5(14B、32B、Math 1.5B 和 Math 7B)的版本和基于 Llama 3(Llama-3.1 8B 和 Llama 3.3 70B Instruct)的版本。
這些模型通過(guò) R1 生成的 80 萬(wàn)條高質(zhì)量樣本進(jìn)行微調(diào),使小型模型習(xí)得大模型的推理范式。
這些微型(7B 參數(shù)量級(jí))蒸餾模型最終實(shí)現(xiàn)了對(duì) GPT-4o 的性能超越,將智能獲取成本大幅降低至 OpenAI 長(zhǎng)期追求的水平 —— 這正是這些成果之所以具有劃時(shí)代意義的原因。
對(duì)大型 AI 實(shí)驗(yàn)室而言,資本與規(guī)模曾是護(hù)城河。預(yù)訓(xùn)練一個(gè)最先進(jìn)的模型需要耗費(fèi)數(shù)十億美元的計(jì)算資源和數(shù)據(jù)成本,更不用說(shuō)支付頂尖研究人員的天價(jià)薪酬(前提是你能招到他們?。?。全球僅有少數(shù)企業(yè)能承擔(dān)這種量級(jí)的資本支出和人才投入。當(dāng)創(chuàng)新需要如此巨額的投入時(shí),商業(yè)化收費(fèi)便成為必然選擇。
然而,模型蒸餾技術(shù)正在改寫游戲規(guī)則。推理模型的蒸餾難度也同樣(甚至可能更低)較低。這說(shuō)明:任何組織都能以極低的成本(僅為原始投入的零頭)對(duì)耗資數(shù)十億打造的最先進(jìn)復(fù)雜模型進(jìn)行知識(shí)蒸餾,最終獲得性能相近的自有模型。 這究竟意味著什么?
用最悲觀的視角看,頭部 AI 實(shí)驗(yàn)室正在為全球提供免費(fèi)的外包研發(fā)和資本支出服務(wù)。以定價(jià)為例:OpenAI 的 o1 模型收費(fèi)高達(dá) 15 美元/百萬(wàn)input token 和 60 美元/百萬(wàn)output token,而 DeepSeek R1 模型的對(duì)應(yīng)成本僅為 0.14 美元/百萬(wàn) input token 和2.19美元/百萬(wàn)output token —— 相差了好幾個(gè)數(shù)量級(jí)。
Jamin Ball[3]
由于我們無(wú)法獲知訓(xùn)練 R1 模型所用合成數(shù)據(jù)的具體構(gòu)成比例,關(guān)于其中包含多少(或是否包含) o1 模型生成的 token 數(shù)據(jù)只能進(jìn)行推測(cè)。但這一技術(shù)路線已展現(xiàn)出多重革命性影響。
根據(jù)月之暗面(Moonshot)與深度求索(DeepSeek)的最新研究成果,還有一些關(guān)鍵突破,包括:
- 訓(xùn)練與推理搜索范式革新:不同于 o1 宣稱的推理階段搜索機(jī)制(inference time search),R1 與 k1.5 模型轉(zhuǎn)向更高效的預(yù)訓(xùn)練強(qiáng)化學(xué)習(xí)路徑。這些模型能在訓(xùn)練過(guò)程中習(xí)得隱式搜索策略,從而避免在推理階段進(jìn)行復(fù)雜搜索。
- 過(guò)程獎(jiǎng)勵(lì)模型(PRMs)演進(jìn):這些新型模型不再依賴推理過(guò)程中每一步的精細(xì)化反饋,而是更側(cè)重結(jié)果導(dǎo)向的獎(jiǎng)勵(lì)機(jī)制。雖然仍會(huì)對(duì)單步推理進(jìn)行反饋評(píng)估,但不再需要顯式訓(xùn)練獨(dú)立的獎(jiǎng)勵(lì)模型。
- 長(zhǎng)思維鏈到短思維鏈的知識(shí)蒸餾:Kimi 創(chuàng)新性地提出"long2short"方法,將長(zhǎng)上下文模型中習(xí)得的推理能力遷移至更高效的短上下文模型。這有效解決了實(shí)際應(yīng)用痛點(diǎn) —— 長(zhǎng)上下文模型運(yùn)行成本高昂,將其知識(shí)蒸餾至更輕量、更快速的模型具有重要商業(yè)價(jià)值。這正是 R1 模型成功實(shí)現(xiàn) Qwen 與 Llama 系列模型蒸餾的技術(shù)基礎(chǔ)。
另一家專注邊緣 AI 的中國(guó)公司面壁智能(ModelBest)也取得了關(guān)鍵突破[4]。其聯(lián)合創(chuàng)始人劉知遠(yuǎn)提出大模型能力密度定律(Densing Law of Large Models),揭示模型能力密度隨時(shí)間呈指數(shù)級(jí)增長(zhǎng)的規(guī)律。
能力密度(Capability Density)定義為:給定大語(yǔ)言模型的有效參數(shù)規(guī)模與實(shí)際參數(shù)規(guī)模的比值。 例如,若某 3B 參數(shù)模型能達(dá)到 6B 基準(zhǔn)模型的性能,則該模型能力密度為 2(6B/3B)。
根據(jù)大模型能力密度定律:
- 每 3.3 個(gè)月(約 100 天),實(shí)現(xiàn)同等能力所需的模型參數(shù)規(guī)模減半
- 模型推理成本隨時(shí)間大幅下降
- 模型訓(xùn)練成本隨時(shí)間快速降低
- 大模型能力密度呈現(xiàn)加速提升態(tài)勢(shì)
- 模型微型化揭示邊緣智能的巨大潛力
- 模型壓縮技術(shù)無(wú)法提升能力密度
- 能力密度倍增周期決定模型的"有效期"
舉個(gè)例子,2024 年 2 月發(fā)布的 2.4B 參數(shù)模型,其能力已與 2020 年發(fā)布的 GPT-3(175B 參數(shù))持平。
這些 AI 實(shí)驗(yàn)室產(chǎn)出的研究成果正在引發(fā)深遠(yuǎn)的技術(shù)變革。
02 前沿模型融資現(xiàn)狀
模型蒸餾技術(shù)的底層邏輯建立在"教師模型-學(xué)生模型"的知識(shí)傳遞機(jī)制上。
"星際之門"計(jì)劃(Stargate)疊加科技巨頭們披露的資本支出預(yù)測(cè),共同揭示著前沿模型訓(xùn)練與推理所需的基礎(chǔ)設(shè)施投資強(qiáng)度。
這場(chǎng) 6000 億美元[5]量級(jí)的豪賭,其勝敗本質(zhì)上取決于能否創(chuàng)收。
對(duì)于任何前沿 AI 實(shí)驗(yàn)室而言,在缺乏穩(wěn)健商業(yè)模式支撐的情況下持續(xù)維持所需量級(jí)的資本投入,將面臨前所未有的挑戰(zhàn)。
以 OpenAI 為例,據(jù)傳其年度營(yíng)收預(yù)期已達(dá) 40-50 億美元并保持強(qiáng)勁增長(zhǎng)。按科技公司發(fā)展規(guī)律,此階段的企業(yè)應(yīng)至少保持三位數(shù)的年增長(zhǎng)率,這意味著該公司未來(lái)營(yíng)收規(guī)模將很快突破百億美元門檻。
Brad Gerstner
但若模型的防御性因模型蒸餾技術(shù)而瓦解,且技術(shù)折舊周期縮短,AI 實(shí)驗(yàn)室如何持續(xù)募集維持投資所需的資金?
這正是我們此前討論過(guò)的[6] —— 前沿實(shí)驗(yàn)室紛紛向產(chǎn)品型公司轉(zhuǎn)型的根本動(dòng)因。
從 DeepSeek 登頂應(yīng)用商店榜單這一事件可見(jiàn),技術(shù)遷移成本之低遠(yuǎn)超預(yù)期 —— 這迫使大模型廠商必須在兩條道路中做出戰(zhàn)略抉擇:要么轉(zhuǎn)型為消費(fèi)級(jí)科技公司(OpenAI 顯然已經(jīng)是這樣),要么深耕企業(yè)級(jí)基礎(chǔ)設(shè)施(正如 Anthropic 必然選擇依托亞馬遜生態(tài))。
03 蒸餾垂直領(lǐng)域大模型
模型蒸餾技術(shù)為訓(xùn)練垂直領(lǐng)域模型提供了明確路徑。若 R1-Zero 所采用的"純強(qiáng)化學(xué)習(xí)+前沿 AI 實(shí)驗(yàn)室合成數(shù)據(jù)"模式可規(guī)?;茝V,低成本推理模型的產(chǎn)業(yè)化道路將暢通無(wú)阻。
一個(gè)值得關(guān)注的創(chuàng)新方向是:將這類高性能、低成本的模型與各領(lǐng)域?qū)<业母哔|(zhì)量人工標(biāo)注相結(jié)合。
諸如 Mercor、Labelbox 等專業(yè)標(biāo)注平臺(tái)已為 OpenAI、Meta 等頭部實(shí)驗(yàn)室提供專家標(biāo)注服務(wù) —— Mercor 的人才庫(kù)中有 30 萬(wàn)名領(lǐng)域?qū)<摇?/p>
Source:Mercor
除了開(kāi)發(fā)垂直領(lǐng)域模型的應(yīng)用開(kāi)發(fā)商外,坐擁私有數(shù)據(jù)資產(chǎn)的企業(yè)或?qū)⒅匦录ぐl(fā)對(duì)模型訓(xùn)練的熱情,這為 MosaicML(隸屬 Databricks 生態(tài))等訓(xùn)練平臺(tái)提供商帶來(lái)新機(jī)遇。
04 邊緣 AI 與應(yīng)用利潤(rùn)重構(gòu)
將 DeepSeek R1 進(jìn)行 4-bit 量化后,模型運(yùn)行僅需 450GB 總內(nèi)存 —— 通過(guò) 3 臺(tái)配備 192GB 內(nèi)存的 Apple M2 Ultra Mac Studio(單臺(tái)售價(jià) 5,599 美元,總成本 16,797 美元)即可實(shí)現(xiàn)集群部署。
若大模型能力密度定律持續(xù)生效,本地推理的終極愿景將成為現(xiàn)實(shí)。SaaS 廠商可通過(guò)終端設(shè)備本地推理保持高利潤(rùn)率,同時(shí)向用戶收取訂閱費(fèi)用。
更革命性的突破在于:當(dāng)前開(kāi)發(fā)者無(wú)法真正提供免費(fèi) AI 應(yīng)用,因?yàn)楸仨氼A(yù)估云端推理的累計(jì)成本并設(shè)計(jì)盈利方案。這正是訂閱制等笨拙商業(yè)模式盛行的根源。若蘋果能推出 Apple Intelligence SDK 實(shí)現(xiàn)設(shè)備端本地推理,開(kāi)發(fā)者將首次能夠提供完全免費(fèi)的 AI 應(yīng)用 —— 目前這根本不可行,因?yàn)闆](méi)人能承受不可預(yù)測(cè)的云端推理成本。
Chris Paik
模型蒸餾+路由技術(shù)已使應(yīng)用型 AI 公司的毛利率超越傳統(tǒng)軟件的毛利率。相比兩年前,當(dāng)今開(kāi)發(fā)者的模型推理成本已下降 100-200 倍,這種成本曲線陡降速度在云計(jì)算 15 年的發(fā)展史上都前所未見(jiàn)。我們?cè)?2022 年投資了初代 AI 應(yīng)用公司,當(dāng)時(shí)前沿模型的推理成本高達(dá) 15-20 美元/百萬(wàn) token。而現(xiàn)在,通過(guò)智能路由系統(tǒng)將基礎(chǔ)任務(wù)分配給小模型,企業(yè)推理成本趨近于零,特定任務(wù)的毛利率可達(dá) 95%。
Chetan Puttagunta
亞馬遜的 Nova 模型表明,他們正全力投入到模型的商品化進(jìn)程中,而蘋果終于能借蒸餾模型實(shí)現(xiàn)技術(shù)追趕。
未來(lái)數(shù)月,DeepSeek 引發(fā)的模型輕量化浪潮必將催生大量追隨者。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
About the author
Akash Bajwa
Principal @ Earlybird Venture Capital, investing across Europe from inception onwards.
END
本期互動(dòng)內(nèi)容 ??
?0.14 美元/百萬(wàn) input token 和 2.19 美元/百萬(wàn)output token 的 R1 推理成本構(gòu)成中,你認(rèn)為哪部分壓縮空間最大?
??文中鏈接??
[2]??https://x.com/nabeelqu/status/1882842953728827426??
[3]??https://x.com/jaminball/status/1881718692956016713??
[4]??https://docs.google.com/document/d/1x3FM01NDdXvvQTbkaJlPhyfBoBAFpE3E60tMe_ZlUH8/edit?tab=t.0??
[5]??https://www.sequoiacap.com/article/ais-600b-question/??
[6]??https://akashbajwa.substack.com/p/vertical-integration-model-vs-product??
原文鏈接:
