自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta陷入恐慌??jī)?nèi)部爆料:在瘋狂分析復(fù)制DeepSeek,高預(yù)算難以解釋

人工智能 新聞
工程師正在瘋狂地分析 DeepSeek,試圖從中復(fù)制任何可能的東西。

DeepSeek 開源大模型的陽謀,切切實(shí)實(shí)震撼著美國(guó) AI 公司。

最先陷入恐慌的,似乎是同樣推崇開源的 Meta。

最近,有 Meta 員工在美國(guó)匿名職場(chǎng)社區(qū) teamblind 上面發(fā)布了一個(gè)帖子。帖子提到,國(guó)內(nèi) AI 創(chuàng)業(yè)公司 DeepSeek 最近的一系列動(dòng)作讓 Meta 的生成式 AI 團(tuán)隊(duì)陷入了恐慌,因?yàn)樵谇罢叩牡统杀靖吒杳瓦M(jìn)下,后者無法解釋自己的超高預(yù)算的合理性。

原文如下:


這一切始于 DeepSeek-V3,它在基準(zhǔn)測(cè)試中就已經(jīng)讓 Llama 4 落后。更糟糕的是那個(gè)「擁有 550 萬訓(xùn)練預(yù)算的不知名中國(guó)公司」。


工程師們正在瘋狂地分析 DeepSeek,試圖從中復(fù)制任何可能的東西。這一點(diǎn)都不夸張。


管理層擔(dān)心如何證明龐大的生成式 AI 組織的成本是合理的。當(dāng)生成式 AI 組織中的每個(gè)「領(lǐng)導(dǎo)」的薪資都比訓(xùn)練整個(gè) DeepSeek-V3 的成本還要高,而我們有好幾十個(gè)這樣的「領(lǐng)導(dǎo)」時(shí),他們要如何面對(duì)高層?


DeepSeek-R1 讓情況變得更加可怕。雖然我不能透露機(jī)密信息,但這些很快就會(huì)公開。


這本應(yīng)該是一個(gè)以工程為重點(diǎn)的小型組織,但是因?yàn)楹芏嗳讼胍獏⑴c進(jìn)來分一杯羹,人為地膨脹了組織的招聘規(guī)模,結(jié)果每個(gè)人都成了輸家。


圖片

原貼鏈接:https://www.teamblind.com/post/Meta-genai-org-in-panic-mode-KccnF41n

帖子中提到的 DeepSeek-V3 和 DeepSeek-R1 分別發(fā)布于 2024 年 12 月 26 日和 2025 年 1 月 20 日。

其中,DeepSeek-V3 在發(fā)布時(shí)提到,該模型在多項(xiàng)評(píng)測(cè)成績(jī)超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

不過,更引人關(guān)注的是,這個(gè)參數(shù)量高達(dá) 671B 的大型語言模型訓(xùn)練成本僅 558 萬美元。具體來說,它的預(yù)訓(xùn)練過程竟然只用了 266.4 萬 H800 GPU Hours,再加上上下文擴(kuò)展與后訓(xùn)練的訓(xùn)練,總共也只有 278.8 H800 GPU Hours。相較之下,Meta 的 Llama 3 系列模型的計(jì)算預(yù)算則多達(dá) 3930 萬 H100 GPU Hours—— 如此計(jì)算量足可訓(xùn)練 DeepSeek-V3 至少 15 次。

圖片

而最近發(fā)布的 DeepSeek-R1 性能更猛 —— 在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,它的性能比肩 OpenAI o1 正式版。而且模型在發(fā)布的同時(shí),權(quán)重同步開源。很多人驚呼,原來 DeepSeek 才是真正的 OpenAI。UC Berkeley 教授 Alex Dimakis 則認(rèn)為, DeepSeek 現(xiàn)在已經(jīng)處于領(lǐng)先位置,美國(guó)公司可能需要迎頭趕上了。

圖片

看到這里,我們不難理解為何 Meta 的團(tuán)隊(duì)會(huì)陷入恐慌。如果今年推出的 Llama 4 沒有點(diǎn)硬本事,他們「開源之光」的地位岌岌可危。

有人指出,其實(shí)該慌的不止 Meta,OpenAI、谷歌、Anthropic 又何嘗沒有受到挑戰(zhàn)?!高@是一件好事,我們可以實(shí)時(shí)看到公開競(jìng)爭(zhēng)對(duì)創(chuàng)新的影響?!?/span>

圖片

還有人擔(dān)心起了英偉達(dá)的股價(jià),表示「如果 DeeSeek 的創(chuàng)新是真的,那 AI 公司是否真的需要那么多顯卡?」

圖片

不過,也有人質(zhì)疑,DeepSeek 究竟是靠創(chuàng)新還是靠蒸餾 OpenAI 的模型取勝?有人回復(fù)說,這可以從他們的發(fā)布的技術(shù)報(bào)告中找到答案。

圖片

目前,我們還無法確定帖子的真實(shí)性。

不知道 Meta 后續(xù)將如何回應(yīng),即將到來的 Llama 4 又會(huì)達(dá)到怎樣的性能。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-24 13:20:00

2017-03-31 10:27:08

推送服務(wù)移動(dòng)

2025-01-26 09:00:00

AI算力模型

2012-11-12 10:08:03

2025-03-25 09:08:41

2023-12-18 07:15:37

2021-01-08 10:47:07

機(jī)器學(xué)習(xí)模型算法

2010-05-04 21:52:26

2025-02-08 17:47:08

2022-05-05 09:24:33

人工智能DALL-E 2

2023-11-23 08:53:50

OpenAI人工智能

2011-11-01 09:37:27

Ultrabook

2013-09-29 12:49:57

神舟神舟手機(jī)智能手機(jī)

2015-04-09 08:40:12

免費(fèi)虛擬化產(chǎn)品深信服

2025-01-20 07:30:00

OpenAIGPT-5模型

2025-04-08 12:57:02

2009-01-18 15:17:14

BI數(shù)據(jù)倉(cāng)庫OLAP

2023-02-06 17:10:21

2025-04-29 07:31:21

2017-05-27 14:47:08

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)