自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

物理測(cè)試暴擊AI圈,DeepSeek R1穩(wěn)超o1、Claude,我們已進(jìn)入RL黃金時(shí)代

人工智能 新聞
我們都沒預(yù)料到,AI 領(lǐng)域的 2025 年是這樣開始的。

DeepSeek R1 真是太厲害了!

最近,「神秘的東方力量」DeepSeek 正在「硬控」硅谷。

圖片

我讓 R1 詳細(xì)解釋勾股定理。這一切都是 AI 在不到 30 秒時(shí)間里一次性完成的,沒出任何錯(cuò)。簡(jiǎn)單來說,its over.

在國(guó)內(nèi)外 AI 圈,普通網(wǎng)友發(fā)現(xiàn)了神奇的強(qiáng)大新 AI(還開源),學(xué)界專家紛紛喊出「要奮起直追」,還有小道消息稱海外的 AI 公司已經(jīng)如臨大敵。

就說這個(gè)本周剛發(fā)布的 DeepSeek R1,它沒有任何監(jiān)督訓(xùn)練的純強(qiáng)化學(xué)習(xí)路線令人震撼,從去年 12 月 Deepseek-v3 基座發(fā)展到如今堪比 OpenAI o1 的思維鏈能力,似乎是很快達(dá)成的事。

但在 AI 社區(qū)熱火朝天的讀技術(shù)報(bào)告、對(duì)比實(shí)測(cè)之余,人們還是對(duì) R1 有所懷疑:它除了能跑贏一堆 Benchmark 以外,真的能領(lǐng)先嗎?

能自建模擬「物理規(guī)律」

你不信?來讓大模型玩玩彈球?

最近幾天,AI 社區(qū)的一些人開始沉迷一項(xiàng)測(cè)試 —— 測(cè)試不同的 AI 大模型(尤其是所謂的推理模型)來處理一類問題:「編寫一個(gè) Python 腳本,讓一個(gè)黃色球在某個(gè)形狀內(nèi)彈跳。讓該形狀緩慢旋轉(zhuǎn),并確保球停留在形狀內(nèi)?!?/span>

一些模型在這項(xiàng)「旋轉(zhuǎn)球形」基準(zhǔn)測(cè)試中的表現(xiàn)優(yōu)于其他模型。據(jù) CoreView CTO Ivan Fioravanti 稱,國(guó)內(nèi)人工智能實(shí)驗(yàn)室 DeepSeek 的開源大模型 R1 完勝 OpenAI 的 o1 pro 模式,后者作為 OpenAI ChatGPT Pro 計(jì)劃的一部分,每月收費(fèi) 200 美元。

圖片

左邊是 OpenAI o1,右邊是 DeepSeek R1。如上所述,這里的 Prompt 是:「write a python script for a bouncing yellow ball within a square, make sure to handle collision detection properly. make the square slowly rotate. implement it in python. make sure ball stays within the square.」

根據(jù)另一位網(wǎng)友在 X 上的說法,Anthropic 的 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 模型對(duì)物理原理判斷錯(cuò)誤,導(dǎo)致球偏離了形狀。也有用戶報(bào)告稱,谷歌最新的 Gemini 2.0 Flash Thinking Experimental,以及相對(duì)更舊的 OpenAI GPT-4o 都一次性通過了評(píng)估。

但這里面也是能分出高下的:

圖片

在這個(gè)推文底下的網(wǎng)友表示:o1 的能力原本很好,在 OpenAI 優(yōu)化速度過后就變?nèi)趿?,即使是每?200 美元的會(huì)員版也一樣。

模擬彈跳球是一個(gè)經(jīng)典的編程挑戰(zhàn)。精確的模擬結(jié)合了碰撞檢測(cè)算法,其算法需要去識(shí)別兩個(gè)物體(例如一個(gè)球和一個(gè)形狀的側(cè)面)何時(shí)發(fā)生碰撞。編寫不當(dāng)?shù)乃惴〞?huì)影響模擬的性能或?qū)е旅黠@的物理錯(cuò)誤。

AI 初創(chuàng)公司 Nous Research 的研究員 N8 Programs 表示,他花了大約兩個(gè)小時(shí)從頭開始編寫一個(gè)旋轉(zhuǎn)七邊形中的彈跳球?!副仨毟櫠鄠€(gè)坐標(biāo)系,了解每個(gè)系統(tǒng)中的碰撞是如何進(jìn)行的,并從頭設(shè)計(jì)代碼以使其具有魯棒性?!?/span>

雖然彈跳球和旋轉(zhuǎn)形狀是對(duì)編程技能的合理測(cè)試,但對(duì)于大模型來說還是個(gè)新項(xiàng)目,即使是提示中的細(xì)微變化也可能產(chǎn)生出不同的結(jié)果。所以如果想讓它最終成為 AI 大模型基準(zhǔn)測(cè)試的一部分的話,還需要改進(jìn)。

無論如何,經(jīng)過這一波實(shí)測(cè)之后,我們對(duì)大模型之間的能力不同有了觀感。

DeepSeek 是新的「硅谷神話」

DeepSeek 正讓大洋彼岸陷入「恐慌」。

圖片

Meta 員工發(fā)帖稱「Meta 工程師們正在瘋狂地分析 DeepSeek,試圖從中復(fù)制任何可能的東西。」

而 AI 科技初創(chuàng)公司 Scale AI 創(chuàng)始人 Alexandr Wang 也公開表示,中國(guó)人工智能公司 DeepSeek 的 AI 大模型性能大致與美國(guó)最好的模型相當(dāng)。

他還認(rèn)為,過去十年來,美國(guó)可能一直在人工智能競(jìng)賽中領(lǐng)先于中國(guó),但 DeepSeek 的 AI 大模型發(fā)布可能會(huì)「改變一切」。

X 博主 @8teAPi 則認(rèn)為,DeepSeek 并不是一個(gè)「副業(yè)項(xiàng)目」,而是像洛克希德?馬丁以前的「臭鼬工廠」。

所謂「臭鼬工廠」,就是當(dāng)初洛克希德?馬丁公司(Lockheed Martin)為了研發(fā)諸多先進(jìn)飛行器專門成立的一個(gè)高度機(jī)密、相對(duì)獨(dú)立的小團(tuán)隊(duì),從事尖端或非常規(guī)的技術(shù)研究與開發(fā)。從 U-2 偵察機(jī)、SR-71 黑鳥,到 F-22 猛禽、F-35 閃電 II 戰(zhàn)斗機(jī)都是從這里走出來的。

后來,這個(gè)詞逐漸演變成一個(gè)通用術(shù)語(yǔ),用來形容在大公司或組織內(nèi)部設(shè)立的「小而精」、相對(duì)獨(dú)立且自由度更高的創(chuàng)新團(tuán)隊(duì)。

他給出的理由有兩個(gè):

  • 一方面是 DeepSeek 擁有大量的 GPU,據(jù)稱有超過一萬塊,而 Scale AI 的 CEO Alexandr Wang 甚至表示可能達(dá)到 5 萬塊。
  • 另一方面,DeepSeek 只從中國(guó)排名前三的大學(xué)招聘人才,這意味著 DeepSeek 與阿里巴巴和騰訊具有同等的競(jìng)爭(zhēng)力。

僅憑這兩個(gè)事實(shí),就可以看出,顯然 DeepSeek 在商業(yè)上取得了成功,并且已經(jīng)足夠知名,能夠獲得這些資源。

圖片

至于 DeepSeek 的開發(fā)成本,該博主表示,中國(guó)科技公司可以獲得各種各樣的補(bǔ)貼,比如低用電成本和用地。

因此,DeepSeek 非常有可能大部分成本都被「安置」在核心業(yè)務(wù)之外的某個(gè)賬目上,或者以某種數(shù)據(jù)中心建設(shè)補(bǔ)貼的形式存在。甚至除了創(chuàng)始人之外,沒人完全清楚所有財(cái)務(wù)安排。有些協(xié)議可能只是「口頭協(xié)定」,只靠聲譽(yù)就能敲定。

不管怎樣,有幾點(diǎn)是明確的:

  • 這個(gè)模型非常出色,與 OpenAI 兩個(gè)月前發(fā)布的版本相當(dāng),當(dāng)然也有可能不如 OpenAI 和 Anthropic 尚未發(fā)布的新模型。
  • 從目前來看,研究方向仍主要由美國(guó)公司主導(dǎo),DeepSeek 模型屬于對(duì) o1 版本的「快速跟進(jìn)」,但 DeepSeek 的研發(fā)進(jìn)度非常迅猛,比預(yù)期更快地迎頭趕上,他們并沒有抄襲或作弊,最多只是逆向工程。
  • DeepSeek 主要是在培養(yǎng)自己的人才,而不是依賴美國(guó)培養(yǎng)的博士,這大大擴(kuò)展了人才庫(kù)。
  • 與美國(guó)公司相比,DeepSeek 在知識(shí)產(chǎn)權(quán)許可、隱私、安全、政治等方面受到的約束較少,圍繞錯(cuò)誤地使用那些不想被訓(xùn)練的數(shù)據(jù)的擔(dān)憂也較少。訴訟更少,律師更少,也更少顧慮。

圖片

毫無疑問,越來越多的人認(rèn)為 2025 年將會(huì)是決定性的一年。與此同時(shí)各家公司都在摩拳擦掌,比如 Meta 就正在建立一個(gè) 2GW+ 的數(shù)據(jù)中心,預(yù)計(jì)在 2025 年投資 600-650 億美元,年底擁有超過 130 萬塊 GPU。

Meta 甚至用一張圖表展示了 2 千兆瓦數(shù)據(jù)中心與紐約曼哈頓的對(duì)比。

圖片

但現(xiàn)在 DeepSeek 用更低的成本,更少的 GPU 做到了更好,怎能不讓人焦慮?

Yann LeCun:要感謝開源

Hyperbolic 的 CTO、聯(lián)合創(chuàng)始人 Yuchen Jin 發(fā)帖表示,在僅 4 天時(shí)間里,DeepSeek-R1 向我們證明了 4 個(gè)事實(shí):

  • 開源 AI 僅落后于閉源 AI 不到 6 個(gè)月
  • 中國(guó)正在主導(dǎo)開源 AI 競(jìng)賽
  • 我們正進(jìn)入大語(yǔ)言模型強(qiáng)化學(xué)習(xí)的黃金時(shí)代
  • 蒸餾模型非常強(qiáng)大,我們將在手機(jī)上運(yùn)行高智能 AI

圖片

由 DeepSeek 引發(fā)的連鎖反應(yīng)仍在繼續(xù),比如 OpenAI o3-mini 免費(fèi)可用、社區(qū)中希望能減少關(guān)于 AGI/ASI 的模糊討論以及傳聞 Meta 陷入恐慌等。

他認(rèn)為,現(xiàn)在很難預(yù)測(cè)最終誰(shuí)會(huì)獲勝,但不要忘記后發(fā)優(yōu)勢(shì)的力量,畢竟我們都知道是 Google 發(fā)明了 Transformer,而 OpenAI 解鎖了其真正潛力。

此外,圖靈獎(jiǎng)得主、Meta 首席人工智能科學(xué)家 Yann LeCun 也表達(dá)了自己的看法。

「對(duì)于那些看到 DeepSeek 的性能就認(rèn)為『中國(guó)正在超越美國(guó)的 AI』的人,你理解錯(cuò)了。正確的理解是:開源模型正在超越專有模型?!?/span>

LeCun 表示,DeepSeek 之所以這次一鳴驚人,是因?yàn)樗麄儚拈_放研究和開源(如 Meta 的 PyTorch 和 Llama)中獲益。DeepSeek 提出了新想法,并在他人工作的基礎(chǔ)上構(gòu)建。因?yàn)樗麄兊墓ぷ魇枪_發(fā)布和開源的,每個(gè)人都可以從中受益,這就是開放研究和開源的力量。

圖片

網(wǎng)友們的反思還在繼續(xù),在對(duì)于新技術(shù)發(fā)展興奮的同時(shí),也能感受到一點(diǎn)點(diǎn)憂慮的氣氛,畢竟 DeepSeek 們的出現(xiàn),可能會(huì)帶來真金白銀的影響。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-25 09:13:16

2025-03-11 02:00:00

AI工具Token-AI

2024-12-26 17:13:17

AI模型訓(xùn)練

2025-02-12 12:12:59

2025-01-27 12:30:07

2025-02-20 15:32:28

2025-04-14 09:15:00

英偉達(dá)模型數(shù)據(jù)

2025-02-08 14:03:25

2025-03-10 08:10:00

AI研究安全

2025-02-17 09:33:00

AI算法模型

2025-02-27 00:00:05

2025-02-03 14:17:27

2025-02-07 13:10:06

2025-01-24 15:03:27

2025-02-03 14:06:32

2025-01-21 11:53:53

2013-08-13 09:22:53

2019-11-18 21:57:32

AI人工智能寒冬

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-08 11:31:17

DeepseekR1模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)