物理測(cè)試暴擊AI圈，DeepSeek R1穩(wěn)超o1、Claude，我們已進(jìn)入RL黃金時(shí)代

作者：機(jī)器之心 2025-01-26 08:40:00

我們都沒預(yù)料到，AI 領(lǐng)域的 2025 年是這樣開始的。

DeepSeek R1 真是太厲害了！

最近，「神秘的東方力量」DeepSeek 正在「硬控」硅谷。

我讓 R1 詳細(xì)解釋勾股定理。這一切都是 AI 在不到 30 秒時(shí)間里一次性完成的，沒出任何錯(cuò)。簡(jiǎn)單來說，its over.

在國(guó)內(nèi)外 AI 圈，普通網(wǎng)友發(fā)現(xiàn)了神奇的強(qiáng)大新 AI（還開源），學(xué)界專家紛紛喊出「要奮起直追」，還有小道消息稱海外的 AI 公司已經(jīng)如臨大敵。

就說這個(gè)本周剛發(fā)布的 DeepSeek R1，它沒有任何監(jiān)督訓(xùn)練的純強(qiáng)化學(xué)習(xí)路線令人震撼，從去年 12 月 Deepseek-v3 基座發(fā)展到如今堪比 OpenAI o1 的思維鏈能力，似乎是很快達(dá)成的事。

但在 AI 社區(qū)熱火朝天的讀技術(shù)報(bào)告、對(duì)比實(shí)測(cè)之余，人們還是對(duì) R1 有所懷疑：它除了能跑贏一堆 Benchmark 以外，真的能領(lǐng)先嗎？

能自建模擬「物理規(guī)律」

你不信？來讓大模型玩玩彈球？

最近幾天，AI 社區(qū)的一些人開始沉迷一項(xiàng)測(cè)試 —— 測(cè)試不同的 AI 大模型（尤其是所謂的推理模型）來處理一類問題：「編寫一個(gè) Python 腳本，讓一個(gè)黃色球在某個(gè)形狀內(nèi)彈跳。讓該形狀緩慢旋轉(zhuǎn)，并確保球停留在形狀內(nèi)?！?/span>

一些模型在這項(xiàng)「旋轉(zhuǎn)球形」基準(zhǔn)測(cè)試中的表現(xiàn)優(yōu)于其他模型。據(jù) CoreView CTO Ivan Fioravanti 稱，國(guó)內(nèi)人工智能實(shí)驗(yàn)室 DeepSeek 的開源大模型 R1 完勝 OpenAI 的 o1 pro 模式，后者作為 OpenAI ChatGPT Pro 計(jì)劃的一部分，每月收費(fèi) 200 美元。

左邊是 OpenAI o1，右邊是 DeepSeek R1。如上所述，這里的 Prompt 是:「write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」

根據(jù)另一位網(wǎng)友在 X 上的說法，Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型對(duì)物理原理判斷錯(cuò)誤，導(dǎo)致球偏離了形狀。也有用戶報(bào)告稱，谷歌最新的 Gemini 2.0 Flash Thinking Experimental，以及相對(duì)更舊的 OpenAI GPT-4o 都一次性通過了評(píng)估。

但這里面也是能分出高下的：

在這個(gè)推文底下的網(wǎng)友表示：o1 的能力原本很好，在 OpenAI 優(yōu)化速度過后就變?nèi)趿?，即使是每?200 美元的會(huì)員版也一樣。

模擬彈跳球是一個(gè)經(jīng)典的編程挑戰(zhàn)。精確的模擬結(jié)合了碰撞檢測(cè)算法，其算法需要去識(shí)別兩個(gè)物體（例如一個(gè)球和一個(gè)形狀的側(cè)面）何時(shí)發(fā)生碰撞。編寫不當(dāng)?shù)乃惴〞?huì)影響模擬的性能或?qū)е旅黠@的物理錯(cuò)誤。

AI 初創(chuàng)公司 Nous Research 的研究員 N8 Programs 表示，他花了大約兩個(gè)小時(shí)從頭開始編寫一個(gè)旋轉(zhuǎn)七邊形中的彈跳球?！副仨毟櫠鄠€(gè)坐標(biāo)系，了解每個(gè)系統(tǒng)中的碰撞是如何進(jìn)行的，并從頭設(shè)計(jì)代碼以使其具有魯棒性?！?/span>

雖然彈跳球和旋轉(zhuǎn)形狀是對(duì)編程技能的合理測(cè)試，但對(duì)于大模型來說還是個(gè)新項(xiàng)目，即使是提示中的細(xì)微變化也可能產(chǎn)生出不同的結(jié)果。所以如果想讓它最終成為 AI 大模型基準(zhǔn)測(cè)試的一部分的話，還需要改進(jìn)。

無論如何，經(jīng)過這一波實(shí)測(cè)之后，我們對(duì)大模型之間的能力不同有了觀感。

DeepSeek 是新的「硅谷神話」

DeepSeek 正讓大洋彼岸陷入「恐慌」。

Meta 員工發(fā)帖稱「Meta 工程師們正在瘋狂地分析 DeepSeek，試圖從中復(fù)制任何可能的東西。」

而 AI 科技初創(chuàng)公司 Scale AI 創(chuàng)始人 Alexandr Wang 也公開表示，中國(guó)人工智能公司 DeepSeek 的 AI 大模型性能大致與美國(guó)最好的模型相當(dāng)。

他還認(rèn)為，過去十年來，美國(guó)可能一直在人工智能競(jìng)賽中領(lǐng)先于中國(guó)，但 DeepSeek 的 AI 大模型發(fā)布可能會(huì)「改變一切」。

X 博主 @8teAPi 則認(rèn)為，DeepSeek 并不是一個(gè)「副業(yè)項(xiàng)目」，而是像洛克希德?馬丁以前的「臭鼬工廠」。

所謂「臭鼬工廠」，就是當(dāng)初洛克希德?馬丁公司（Lockheed Martin）為了研發(fā)諸多先進(jìn)飛行器專門成立的一個(gè)高度機(jī)密、相對(duì)獨(dú)立的小團(tuán)隊(duì)，從事尖端或非常規(guī)的技術(shù)研究與開發(fā)。從 U-2 偵察機(jī)、SR-71 黑鳥，到 F-22 猛禽、F-35 閃電 II 戰(zhàn)斗機(jī)都是從這里走出來的。

后來，這個(gè)詞逐漸演變成一個(gè)通用術(shù)語(yǔ)，用來形容在大公司或組織內(nèi)部設(shè)立的「小而精」、相對(duì)獨(dú)立且自由度更高的創(chuàng)新團(tuán)隊(duì)。

他給出的理由有兩個(gè)：

一方面是 DeepSeek 擁有大量的 GPU，據(jù)稱有超過一萬塊，而 Scale AI 的 CEO Alexandr Wang 甚至表示可能達(dá)到 5 萬塊。
另一方面，DeepSeek 只從中國(guó)排名前三的大學(xué)招聘人才，這意味著 DeepSeek 與阿里巴巴和騰訊具有同等的競(jìng)爭(zhēng)力。

僅憑這兩個(gè)事實(shí)，就可以看出，顯然 DeepSeek 在商業(yè)上取得了成功，并且已經(jīng)足夠知名，能夠獲得這些資源。

至于 DeepSeek 的開發(fā)成本，該博主表示，中國(guó)科技公司可以獲得各種各樣的補(bǔ)貼，比如低用電成本和用地。

因此，DeepSeek 非常有可能大部分成本都被「安置」在核心業(yè)務(wù)之外的某個(gè)賬目上，或者以某種數(shù)據(jù)中心建設(shè)補(bǔ)貼的形式存在。甚至除了創(chuàng)始人之外，沒人完全清楚所有財(cái)務(wù)安排。有些協(xié)議可能只是「口頭協(xié)定」，只靠聲譽(yù)就能敲定。

不管怎樣，有幾點(diǎn)是明確的：

這個(gè)模型非常出色，與 OpenAI 兩個(gè)月前發(fā)布的版本相當(dāng)，當(dāng)然也有可能不如 OpenAI 和 Anthropic 尚未發(fā)布的新模型。
從目前來看，研究方向仍主要由美國(guó)公司主導(dǎo)，DeepSeek 模型屬于對(duì) o1 版本的「快速跟進(jìn)」，但 DeepSeek 的研發(fā)進(jìn)度非常迅猛，比預(yù)期更快地迎頭趕上，他們并沒有抄襲或作弊，最多只是逆向工程。
DeepSeek 主要是在培養(yǎng)自己的人才，而不是依賴美國(guó)培養(yǎng)的博士，這大大擴(kuò)展了人才庫(kù)。
與美國(guó)公司相比，DeepSeek 在知識(shí)產(chǎn)權(quán)許可、隱私、安全、政治等方面受到的約束較少，圍繞錯(cuò)誤地使用那些不想被訓(xùn)練的數(shù)據(jù)的擔(dān)憂也較少。訴訟更少，律師更少，也更少顧慮。

毫無疑問，越來越多的人認(rèn)為 2025 年將會(huì)是決定性的一年。與此同時(shí)各家公司都在摩拳擦掌，比如 Meta 就正在建立一個(gè) 2GW+ 的數(shù)據(jù)中心，預(yù)計(jì)在 2025 年投資 600-650 億美元，年底擁有超過 130 萬塊 GPU。

Meta 甚至用一張圖表展示了 2 千兆瓦數(shù)據(jù)中心與紐約曼哈頓的對(duì)比。

但現(xiàn)在 DeepSeek 用更低的成本，更少的 GPU 做到了更好，怎能不讓人焦慮？

Yann LeCun：要感謝開源

Hyperbolic 的 CTO、聯(lián)合創(chuàng)始人 Yuchen Jin 發(fā)帖表示，在僅 4 天時(shí)間里，DeepSeek-R1 向我們證明了 4 個(gè)事實(shí)：

開源 AI 僅落后于閉源 AI 不到 6 個(gè)月
中國(guó)正在主導(dǎo)開源 AI 競(jìng)賽
我們正進(jìn)入大語(yǔ)言模型強(qiáng)化學(xué)習(xí)的黃金時(shí)代
蒸餾模型非常強(qiáng)大，我們將在手機(jī)上運(yùn)行高智能 AI

由 DeepSeek 引發(fā)的連鎖反應(yīng)仍在繼續(xù)，比如 OpenAI o3-mini 免費(fèi)可用、社區(qū)中希望能減少關(guān)于 AGI/ASI 的模糊討論以及傳聞 Meta 陷入恐慌等。

他認(rèn)為，現(xiàn)在很難預(yù)測(cè)最終誰(shuí)會(huì)獲勝，但不要忘記后發(fā)優(yōu)勢(shì)的力量，畢竟我們都知道是 Google 發(fā)明了 Transformer，而 OpenAI 解鎖了其真正潛力。

此外，圖靈獎(jiǎng)得主、Meta 首席人工智能科學(xué)家 Yann LeCun 也表達(dá)了自己的看法。

「對(duì)于那些看到 DeepSeek 的性能就認(rèn)為『中國(guó)正在超越美國(guó)的 AI』的人，你理解錯(cuò)了。正確的理解是：開源模型正在超越專有模型?！?/span>

LeCun 表示，DeepSeek 之所以這次一鳴驚人，是因?yàn)樗麄儚拈_放研究和開源（如 Meta 的 PyTorch 和 Llama）中獲益。DeepSeek 提出了新想法，并在他人工作的基礎(chǔ)上構(gòu)建。因?yàn)樗麄兊墓ぷ魇枪_發(fā)布和開源的，每個(gè)人都可以從中受益，這就是開放研究和開源的力量。