自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自有歪果仁為DeepSeek「辯經(jīng)」:揭穿圍繞DeepSeek的謠言

人工智能 新聞
近日,知名生成式 AI 創(chuàng)業(yè)公司 Stability AI 的前研究主管 Tanishq Abraham 終于坐不住了,他撰文揭穿了圍繞 DeepSeek 的一系列謬論。

圍繞 DeepSeek 的謠言實(shí)在太多了。

面對(duì) DeepSeek R1 這個(gè)似乎「一夜之間」出現(xiàn)的先進(jìn)大模型,全世界已經(jīng)陷入了沒日沒夜的大討論。從它的模型能力是否真的先進(jìn),到是不是真的只用了 550W 進(jìn)行訓(xùn)練,再到神秘的研究團(tuán)隊(duì),每個(gè)角度都是話題。

雖然 R1 是開源的,圍繞 DeepSeek 的各種夸張猜測還是層出不窮,有人說訓(xùn)練 R1 實(shí)際上使用的算力遠(yuǎn)超論文所說的,有人質(zhì)疑 R1 的技術(shù)創(chuàng)新,甚至還有人說 DeepSeek 實(shí)際的目標(biāo)是做空……

近日,知名生成式 AI 創(chuàng)業(yè)公司 Stability AI 的前研究主管 Tanishq Abraham 終于坐不住了,他撰文揭穿了圍繞 DeepSeek 的一系列謬論。

行文直接了當(dāng),讓人很快就可以了解實(shí)際情況。讓我們看看海外一線 AI 研究者是怎么說的。

今年 1 月 20 日,DeepSeek 開源的強(qiáng)推理模型 R1 震撼了世人,與其他所有開源大語言模型(LLM)相比,該模型的不同之處在于以下幾點(diǎn):

  1. 性能實(shí)際上與 OpenAI 的 o1 一樣好,這是一個(gè)先進(jìn)的模型,標(biāo)志著開源首次真正趕上閉源;
  2. 與其他先進(jìn)模型相比,R1 是在相對(duì)較低的訓(xùn)練預(yù)算下完成的;
  3. 易于使用的用戶界面,加上其網(wǎng)站和應(yīng)用程序中具有可見思路鏈的良好用戶體驗(yàn),吸引了數(shù)百萬新用戶。

鑒于 DeepSeek(深度求索)是一家中國公司,美國及其一眾科技公司紛紛指責(zé)新模型存在各種「國家安全問題」。因此,有關(guān)該模型的錯(cuò)誤信息泛濫成災(zāi)。這篇博文的目的是反駁自 DeepSeek 發(fā)布以來許多與人工智能相關(guān)的極其糟糕的評(píng)論,并以一名工作在生成式人工智能前沿的 AI 研究人員的身份提供客觀的看法。

讓我們開始吧!

誤解 1:DeepSeek 是一家突然冒出來的中國公司

完全錯(cuò)誤,到 2025 年 1 月,全球幾乎所有生成式 AI 研究人員都聽說過 DeepSeek。DeepSeek 甚至在 R1 全面發(fā)布前幾個(gè)月就已經(jīng)預(yù)告了發(fā)布!

傳播這種誤解的人很可能不是從事人工智能工作的人,如果你不積極參與某個(gè)領(lǐng)域,就認(rèn)為你對(duì)這個(gè)領(lǐng)域正在發(fā)生的事情了如指掌,這是荒謬且極其傲慢的。

DeepSeek 的第一個(gè)開源模型于 2023 年 11 月發(fā)布,它們是最先進(jìn)的代碼 LLM(DeepSeek-Coder)。如下圖所示,DeepSeek 在一年的時(shí)間里持續(xù)發(fā)布新產(chǎn)品,R1 只是其中的一個(gè):

DeepSeek 的模型進(jìn)展。

羅馬不是一天建成的,從 AI 創(chuàng)業(yè)公司的角度來看 DeepSeek 的進(jìn)步速度也沒有什么可疑的。人工智能領(lǐng)域一切都發(fā)展得如此之快,而且他們擁有一支顯然很出色的團(tuán)隊(duì),一年內(nèi)取得如此大的進(jìn)步在我看來是合理的。

如果你想知道還有哪些團(tuán)隊(duì)不為公眾所知,但在人工智能圈卻備受看好,這里面可以包括 Qwen(阿里巴巴)、YI(零一萬物)、Mistral、Cohere 和 AI2。我要指出的是,它們都沒有像 DeepSeek 那樣持續(xù)推出 SOTA 模型,但它們都有潛力發(fā)布一流的模型,正如它們過去所展示的那樣。

誤解 2:訓(xùn)練模型不可能只花費(fèi) 600 萬美元,DeepSeek 在撒謊

這個(gè)說法很有意思。有人聲稱 DeepSeek 在撒謊,隱瞞了真實(shí)的訓(xùn)練成本,以此掩蓋他們通過非法途徑獲取了由于出口管制本不該獲得的算力。

首先,我們要理解這 600 萬美元的數(shù)字從何而來。這個(gè)數(shù)字最早出現(xiàn)在 DeepSeek-V3 的論文中,該論文比 DeepSeek-R1 的論文早一個(gè)月發(fā)布:

DeepSeek-V3 的技術(shù)報(bào)告,發(fā)布于 2024 年 12 月 27 日

DeepSeek-V3 是 DeepSeek-R1 的基礎(chǔ)模型,這意味著 DeepSeek-R1 就是在 DeepSeek-V3 的基礎(chǔ)上增加了一些強(qiáng)化學(xué)習(xí)訓(xùn)練。從這個(gè)角度來說,這個(gè)成本確實(shí)不夠準(zhǔn)確,因?yàn)檫€未計(jì)入強(qiáng)化學(xué)習(xí)訓(xùn)練的額外成本。不過,強(qiáng)化學(xué)習(xí)訓(xùn)練的成本可能也就幾十萬美元。

那么,DeepSeek-V3 論文中提到的這個(gè) 550 萬美元是否準(zhǔn)確呢?根據(jù) GPU 成本、數(shù)據(jù)集規(guī)模和模型規(guī)模的多項(xiàng)分析都得出了類似的估算結(jié)果。值得注意的是,雖然 DeepSeek V3/R1 是一個(gè)擁有 6710 億參數(shù)的模型,但它采用了混合專家系統(tǒng) (MoE) 架構(gòu),這意味著每次函數(shù)調(diào)用 / 前向傳播只會(huì)用到約 370 億參數(shù),訓(xùn)練成本的計(jì)算也基于這個(gè)數(shù)值。

DeepSeek 報(bào)告的是基于當(dāng)前市場 GPU 價(jià)格的估算成本。英偉達(dá) AI 計(jì)算卡的價(jià)格并不固定,我們并不知道他們的 2048 塊 H800 GPU 集群 (不是 H100!) 的實(shí)際成本。通常情況下,整體購買 GPU 集群會(huì)比零散購買便宜,所以實(shí)際的算力成本可能更低。

關(guān)鍵在于,這只是最終訓(xùn)練運(yùn)行的成本,還有許多小規(guī)模的實(shí)驗(yàn)和消融實(shí)驗(yàn),這也是一筆開銷,但往往不會(huì)被計(jì)算在訓(xùn)練成本內(nèi)。

此外,還有研究人員的薪資等其他成本。據(jù) SemiAnalysis 報(bào)道,DeepSeek 的研究人員年薪據(jù)傳高達(dá) 100 萬美元,這與 OpenAI 或 Anthropic 等頂尖 AI 實(shí)驗(yàn)室的高薪資水平相當(dāng)。

在比較不同模型的訓(xùn)練成本時(shí),人們通常只關(guān)注最終訓(xùn)練運(yùn)行的成本。但由于不實(shí)信息的傳播,有人開始用這些額外的成本來質(zhì)疑 DeepSeek 的低成本和運(yùn)營效率。這種比較是極不公平的。其他 AI 前沿實(shí)驗(yàn)室在消融實(shí)驗(yàn)等各種實(shí)驗(yàn)和研究人員薪資方面的額外支出同樣巨大,但在這些討論中往往不會(huì)被提及!

誤解 3:價(jià)格太便宜了,所有美國 AGI 公司都在浪費(fèi)錢,這對(duì)英偉達(dá)來說極為不利

這又是一個(gè)相當(dāng)愚蠢的觀點(diǎn)。DeepSeek 在訓(xùn)練效率上確實(shí)比許多其他 LLM 要高得多。不僅如此,可能許多美國的前沿實(shí)驗(yàn)室在計(jì)算資源的使用上效率都不高。然而,這并不意味著擁有更多的計(jì)算資源是一件壞事。

最近,這樣的觀點(diǎn)比較盛行,這種觀點(diǎn)可歸因于他們并不理解擴(kuò)展率(scaling laws),也不理解 AGI 公司 CEO 的思維方式(任何被視為 AI 專家的人都應(yīng)該理解這些)。

最近幾年 AI 領(lǐng)域的 Scaling Laws 已經(jīng)證明了,只要我們持續(xù)向模型中投入更多的計(jì)算資源,性能就會(huì)不斷提升。當(dāng)然,隨著時(shí)間推移,擴(kuò)展的具體方法和側(cè)重點(diǎn)也在變化:最初是模型規(guī)模,然后是數(shù)據(jù)集規(guī)模,現(xiàn)在是推理時(shí)的計(jì)算資源和合成數(shù)據(jù)。盡管如此,自 2017 年 Transformer 架構(gòu)問世以來,「更多計(jì)算資源 = 更好性能」的總體趨勢似乎一直成立。

更高效的模型意味著在給定的計(jì)算預(yù)算下,你可以榨取更多的性能,但更多的計(jì)算資源仍然會(huì)帶來更好的結(jié)果。更高效的模型意味著你可以用更少的計(jì)算資源做更多的事情,但如果有更多的計(jì)算資源,你還能做得更多!

現(xiàn)在,你可能對(duì)擴(kuò)展律有自己的看法。你可能認(rèn)為即將出現(xiàn)一個(gè)瓶頸期,也可能像金融領(lǐng)域常說的那樣,過去的性能并不代表未來的結(jié)果。但如果你想要理解最大的 AGI 公司正在做出的舉措,這些看法其實(shí)并不重要。所有最大的 AGI 公司都在押注擴(kuò)展律能夠持續(xù)足夠長的時(shí)間,以便實(shí)現(xiàn) AGI 和 ASI。這是他們堅(jiān)定的信念。如果他們深信不疑,那么唯一合理的舉措就是獲取更多的計(jì)算資源。

你可能會(huì)說英偉達(dá)的 GPU 很快就會(huì)過時(shí),看看 AMD、Cerebras、Graphcore、TPU、Trainium 等等新產(chǎn)品的性能。市面上有數(shù)不清的 AI 專用硬件都在與英偉達(dá)競爭。未來可能會(huì)有一家公司勝出。到那時(shí),AI 公司可能會(huì)轉(zhuǎn)向使用它們的產(chǎn)品。但這都與 DeepSeek 的成功完全無關(guān)。

(憑心而論,考慮到英偉達(dá)目前的市場主導(dǎo)地位和持續(xù)創(chuàng)新的能力,我還沒有看到其他公司能夠撼動(dòng)英偉達(dá)在 AI 加速芯片領(lǐng)域霸主地位的有力證據(jù)。)

總的來說,我認(rèn)為沒有理由因?yàn)?DeepSeek 而不看好英偉達(dá),用 DeepSeek 來論證這一點(diǎn)似乎并不恰當(dāng)。

誤解 4:DeepSeek 沒有任何有意義的創(chuàng)新,只是在抄襲美國公司

錯(cuò)誤。在語言模型的設(shè)計(jì)及其訓(xùn)練方式上,DeepSeek 有許多創(chuàng)新之處,其中一些創(chuàng)新比其他更為重要。以下列舉了部分(并非詳盡列表,詳情請(qǐng)參閱 DeepSeek-V3 和 DeepSeek-R1 論文):

1. Multi-latent 注意力(MHA)—— 通常情況下,LLM 是基于多頭注意力機(jī)制(MHA)的 Transformer 架構(gòu)。DeepSeek 團(tuán)隊(duì)開發(fā)了一種 MHA 機(jī)制的變體,這種變體不僅更加節(jié)省內(nèi)存,而且性能表現(xiàn)也更為出色。

2. GRPO 與可驗(yàn)證獎(jiǎng)勵(lì)。自從 o1 發(fā)布以來,AI 社區(qū)一直在嘗試復(fù)現(xiàn)其效果。由于 OpenAI 對(duì)其工作原理保持高度封閉,社區(qū)不得不探索各種不同的方法以實(shí)現(xiàn)類似 o1 的結(jié)果。有許多研究方向,例如蒙特卡洛樹搜索(Google DeepMind 在圍棋中獲勝所使用的方法),但這些方法最終被證明不如最初預(yù)期的那么有前景。另一方面,DeepSeek 展示了一個(gè)非常簡單的強(qiáng)化學(xué)習(xí)(RL)流程實(shí)際上可以實(shí)現(xiàn)類似 o1 的結(jié)果。更重要的是,他們開發(fā)了自己版本的 PPO RL 算法,稱為 GRPO,這種算法更高效且性能更優(yōu)。AI 社區(qū)的許多人都在思考,為什么我們之前沒有嘗試過這種方法呢?

3. DualPipe—— 在多 GPU 上訓(xùn)練 AI 模型時(shí),需要考慮效率問題。你需要確定模型和數(shù)據(jù)集如何在所有 GPU 之間分配,數(shù)據(jù)如何在 GPU 之間流動(dòng)等。還需要盡量減少 GPU 之間的數(shù)據(jù)傳輸,因?yàn)檫@種傳輸速度很慢,最好盡可能在每個(gè)單獨(dú)的 GPU 上進(jìn)行處理??傊?,設(shè)置這種多 GPU 訓(xùn)練的方式有很多種,DeepSeek 團(tuán)隊(duì)設(shè)計(jì)了一種名為 DualPipe 的新方法,這種方法更加高效且速度更快

非常幸運(yùn)的是,DeepSeek 完全開源并詳細(xì)記錄了這些創(chuàng)新,這與美國的 AGI 公司不同。現(xiàn)在,每個(gè)人都可以利用這些進(jìn)步來受益并改進(jìn)自己的 AI 模型訓(xùn)練。

誤解 5:DeepSeek 正在從 ChatGPT 吸取知識(shí)

OpenAI 曾經(jīng)聲稱,DeepSeek 通過一種稱為蒸餾的技術(shù)從 ChatGPT 中吸取知識(shí)。但在這里,蒸餾一詞的使用顯得有些奇怪。通常情況下,蒸餾指的是基于所有可能的下一個(gè)詞(token)的完整概率(logits)進(jìn)行訓(xùn)練,但 ChatGPT 甚至沒有公開這些信息。

OpenAI 及其員工聲稱 DeepSeek 使用 ChatGPT 生成的文本對(duì)其進(jìn)行訓(xùn)練。但他們沒有提供任何證據(jù),如果這是真的,那么 DeepSeek 顯然違反了 ChatGPT 服務(wù)條款。不過我們對(duì)這一行為的法律后果尚不清楚。

需要注意的是,這僅在 DeepSeek 自己生成用于訓(xùn)練的數(shù)據(jù)時(shí)才成立。如果 DeepSeek 使用了來自其他來源的數(shù)據(jù)(目前有許多公開的數(shù)據(jù)集),這種形式的蒸餾或合成數(shù)據(jù)訓(xùn)練并不違反服務(wù)條款(TOS)。

盡管如此,這并不會(huì)減損 DeepSeek 的成就。對(duì)于研究人員來說,DeepSeek 更令人印象深刻的不是其效率方面,而是他們對(duì) o1 的復(fù)現(xiàn)。此外,有研究者高度懷疑對(duì) ChatGPT 進(jìn)行蒸餾是否會(huì)有幫助,因?yàn)?o1 的 CoT(Chain-of-Thought)思維過程從未公開披露,那么 DeepSeek 是如何能夠?qū)W習(xí)到它的呢?

此外,許多 LLM 確實(shí)在 ChatGPT(以及其他 LLM)生成的合成數(shù)據(jù)上進(jìn)行訓(xùn)練,而且在任何新的互聯(lián)網(wǎng)上抓取的數(shù)據(jù)中自然也會(huì)包含 AI 生成的文本。

總的來說,對(duì)于 DeepSeek 的模型表現(xiàn)優(yōu)異僅僅是因?yàn)樗麴s了 ChatGPT 的這一觀點(diǎn),確實(shí)忽略了 DeepSeek 在工程、效率和架構(gòu)創(chuàng)新方面的實(shí)際成果,這些都在 DeepSeek 的技術(shù)報(bào)告中有詳細(xì)說明。

我們應(yīng)該擔(dān)心中國在 AI 領(lǐng)域的領(lǐng)先地位嗎?

或許有一點(diǎn)吧?

老實(shí)說,過去兩個(gè)月里,中美在 AI 領(lǐng)域的競爭態(tài)勢并沒有太大變化。反倒是外界的反應(yīng)相當(dāng)激烈。中國在 AI 領(lǐng)域一直很有競爭力,但 DeepSeek 的出現(xiàn)讓中國變得不容忽視。

關(guān)于開源,常見的觀點(diǎn)是:既然中國 AI 比較落后,美國就不該公開分享技術(shù),以免他們迎頭趕上。

但顯然,中國已經(jīng)趕上來了,而且實(shí)際上他們早就做到了,甚至在開源領(lǐng)域處于領(lǐng)先地位。因此,封閉我們的技術(shù)是否真的能帶來顯著優(yōu)勢,這一點(diǎn)尚不明確。

值得注意的是,像 OpenAI、Anthropic 和 Google DeepMind 這樣的公司,其模型確實(shí)比 DeepSeek R1 更強(qiáng)大。例如,OpenAI 的 o3 模型在基準(zhǔn)測試中的表現(xiàn)非常出色,而且他們很可能已經(jīng)在開發(fā)下一代模型了。此外,隨著「星門計(jì)劃」等大規(guī)模投資的推進(jìn),以及 OpenAI 即將完成的融資,美國的前沿 AI 實(shí)驗(yàn)室將有足夠的計(jì)算資源來保持領(lǐng)先。

當(dāng)然,中國也會(huì)在 AI 開發(fā)上投入大量資金。總體來看,競爭正在加劇!但我認(rèn)為,美國的通用人工智能(AGI)前沿實(shí)驗(yàn)室繼續(xù)保持領(lǐng)先的前景依然十分光明。

結(jié)論

一方面,部分人工智能從業(yè)者(尤其是 OpenAI 員工)正試圖刻意淡化 DeepSeek 的成就;另一方面,某些專家和自封權(quán)威人士對(duì) DeepSeek 的反應(yīng)又顯得過度夸張。需要明確的是:OpenAI、Anthropic、Meta、Google、xAI、英偉達(dá)等公司的發(fā)展遠(yuǎn)未終結(jié);DeepSeek 對(duì)其成果的描述(很可能)并無虛假。

但必須承認(rèn),DeepSeek 值得獲得應(yīng)有認(rèn)可,其推出的 R1 模型確實(shí)令人印象深刻。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-08-15 14:09:38

DevOps開發(fā)人員運(yùn)維

2013-03-08 09:59:59

2025-02-17 08:00:00

DeepSeek模型AI

2015-09-02 13:19:55

微軟Cortana

2025-02-13 11:00:30

2025-02-12 11:25:39

2025-02-18 11:15:12

2025-02-27 09:17:41

DeepSeekPythonAI

2025-02-20 14:30:31

DeepSeek阿里巴巴投資者

2025-03-10 00:00:00

2025-03-28 04:30:00

2025-02-17 00:25:00

SpringAIOpenAI

2025-03-10 12:01:45

2025-02-17 09:03:26

DeepSeekAI工具人工智能

2025-03-05 10:29:12

2025-02-17 16:45:40

2025-02-20 08:45:41

V3GPU資源

2025-02-07 15:03:08

2025-02-12 09:04:20

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)