自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<track id="i3ibl"><fieldset id="i3ibl"><input id="i3ibl"></input></fieldset></track>

<sup id="i3ibl"><pre id="i3ibl"><span id="i3ibl"></span></pre></sup>

<sub id="i3ibl"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

英偉達(dá)憾失DeepSeek關(guān)鍵人才？美國(guó)放走AI「錢學(xué)森」，哈佛教授痛心疾首

作者：新智元 2025-02-06 09:30:00

人工智能新聞

最近，一位哈佛教授痛心疾首地曝出，DeepSeek本來有機(jī)會(huì)誕生在美國(guó)？原本DeepSeek的工程師可以拿到英偉達(dá)的全職offer，美國(guó)卻沒有將他留住，導(dǎo)致「錢學(xué)森回國(guó)」的故事再一次上演，美國(guó)跟「國(guó)運(yùn)級(jí)AI」擦肩而過！

DeepSeek給美國(guó)造成的威脅，還在加劇。

就在昨天，DeepSeek的日活數(shù)已經(jīng)達(dá)到ChatGPT的23%，每日應(yīng)用下載量接近500萬！

a16z聯(lián)創(chuàng)Marc Andreessen發(fā)文

誰能想到，做出DeepSeek關(guān)鍵貢獻(xiàn)的人才，本來是可能留在美國(guó)的。

最近哈佛大學(xué)教授曝出這一驚人事實(shí)：DeepSeek多模態(tài)團(tuán)隊(duì)的第4位工程師，本來可以拿到英偉達(dá)的全職offer。

然而最終，他選擇歸國(guó)加入DeepSeek，由此的后果就是，美國(guó)在AI領(lǐng)域的主導(dǎo)地位被動(dòng)搖，相關(guān)公司市值蒸發(fā)一萬億，全球AI格局也被徹底掀翻。

這種結(jié)果是陰錯(cuò)陽差，還是一種必然？

美國(guó)錯(cuò)失DeepSeek，讓「錢學(xué)森」再次回國(guó)

近日，政治學(xué)家、哈佛大學(xué)教授、前國(guó)防計(jì)劃助理部長(zhǎng)Graham Allison，在X上提問：「誰曾錯(cuò)失了DeepSeek」？

他在X痛心發(fā)帖稱，DeepSeek已刷新對(duì)美國(guó)AI地位的認(rèn)知，而美國(guó)原本有機(jī)會(huì)留住DeepSeek的關(guān)鍵員工之一潘梓正（Zizheng Pan）：

（DeepSeek超越OpenAI相關(guān)模型）顛覆了我們對(duì)美國(guó)AI主導(dǎo)地位的大部分了解。
這也生動(dòng)地提醒我們，美國(guó)必須多么認(rèn)真地吸引和留住人才，包括來自中國(guó)的人才。

潘梓正，是DeepSeek多模態(tài)團(tuán)隊(duì)的第4位多工程師，在開發(fā)DeepSeek的R1模型方面發(fā)揮了重要作用。

回國(guó)之前，他在英偉達(dá)實(shí)習(xí)過4個(gè)月，而且拿到了英偉達(dá)的全職邀約。

Graham Allison認(rèn)為潘梓正之所以如此，是因?yàn)楣韫裙疚茨茉诿绹?guó)為他提供這樣做的機(jī)會(huì)。

這種「人才流失」，讓Graham Allison痛心疾首，甚至將潘梓正回國(guó)提升到錢學(xué)森歸國(guó)的高度！

像錢學(xué)森、黃仁勛以及馬斯克這樣的的超級(jí)人才可以用腳投票，可以在任何地方施展才華、大張宏圖。

他認(rèn)為，美國(guó)應(yīng)該盡力避免這樣的「人才流失」：

美國(guó)的大學(xué)教練，在尋找并招募世界上最有才華的運(yùn)動(dòng)員。
在中美科技競(jìng)爭(zhēng)中，美國(guó)應(yīng)該盡一切努力避免失去更多的錢學(xué)森和潘梓正這樣的人才。

英偉達(dá)憾失人才

英偉達(dá)的高級(jí)研究科學(xué)家禹之鼎，在得知DeepSeek超越ChatGPT登頂App Store后，分享了當(dāng)時(shí)的實(shí)習(xí)生潘梓正回國(guó)的選擇，對(duì)他現(xiàn)在取得的成就感到高興，并分享了對(duì)AI競(jìng)爭(zhēng)的觀點(diǎn)：

在2023年夏季，梓正是英偉達(dá)的實(shí)習(xí)生。后來，當(dāng)我們考慮是否給他提供全職工作時(shí)，他毫不猶豫地選擇了加入 DeepSeek。
當(dāng)時(shí)，DeepSeek的多模態(tài)團(tuán)隊(duì)只有3個(gè)人。
梓正當(dāng)時(shí)的決定，至今我仍印象深刻。
在DeepSeek，他做出了重要貢獻(xiàn)，參與了包括DeepSeek-VL2、DeepSeek-V3和DeepSeek-R1等多個(gè)關(guān)鍵項(xiàng)目。我個(gè)人對(duì)他的決定和所取得的成就感到非常高興。
梓正的案例是我近年來看到的一個(gè)典型例子。很多最優(yōu)秀的人才都來自中國(guó)，而這些人才并不一定只能在美國(guó)公司取得成功。相反，我們從他們身上學(xué)到了很多東西。
早在2022年的自動(dòng)駕駛（AV）領(lǐng)域，類似的「斯普特尼克時(shí)刻」就已經(jīng)發(fā)生過，并且將在機(jī)器人技術(shù)和大語言模型（LLM）行業(yè)繼續(xù)發(fā)生。
我熱愛英偉達(dá)，并希望看到它繼續(xù)成為AGI和通用自主系統(tǒng)發(fā)展的重要推動(dòng)力。但如果我們繼續(xù)編織地緣政治議程，制造對(duì)中國(guó)研究人員的敵對(duì)情緒，我們只會(huì)自毀前程，失去更多的競(jìng)爭(zhēng)力。
我們需要更多的優(yōu)秀人才、更高的專業(yè)水平、更強(qiáng)的學(xué)習(xí)能力、創(chuàng)造力以及更強(qiáng)的執(zhí)行力。

潘梓正是DeepSeek-VL2的共同一作

在DeepSeek超越ChatGPT登頂App Store下載榜第一時(shí)，潘梓正在X上分享了自己的感受：

潘梓正2024年全職加入DeepSeek，擔(dān)任研究員。他曾在英偉達(dá)AI算法組擔(dān)任研究實(shí)習(xí)生。

2021年，潘梓正加入蒙納士大學(xué)（Monash University）ZIP Lab攻讀計(jì)算機(jī)科學(xué)博士，導(dǎo)師是Bohan Zhuang教授和Jianfei Cai教授。在此之前，他分別獲得阿德萊德大學(xué)（University of Adelaide）計(jì)算機(jī)科學(xué)碩士和哈爾濱工業(yè)大學(xué)（威海）軟件工程學(xué)士學(xué)位。

在博士期間，潘梓正的研究興趣主要集中在深度神經(jīng)網(wǎng)絡(luò)的效率方面，包括模型部署、Transformer架構(gòu)優(yōu)化、注意力機(jī)制、推理加速和內(nèi)存高效的訓(xùn)練。

Lex Fridman硬核播客，揭秘中國(guó)AI新星如何撼動(dòng)全球格局

就在最近，Lex Fridman放出了一期長(zhǎng)達(dá)5小時(shí)的播客，邀請(qǐng)了AI2的模型訓(xùn)練專家Nathan Lambert和Semianalysis硬件專家Dylan Patel。

在這期信息量爆棚的談話中，他們?nèi)叹劢笵eepSeek，討論了這顆中國(guó)AI新星如何撼動(dòng)全球格局、MoE架構(gòu)+MLA的技術(shù)雙刃、DeepSeek開源倒逼行業(yè)開放進(jìn)程、中國(guó)式極限優(yōu)化之道的硬件魔術(shù)等。

DeepSeek到底用沒用OpenAI數(shù)據(jù)

這次，幾位大佬的談話內(nèi)容可謂相當(dāng)犀利，直指問題核心。

比如這個(gè)關(guān)鍵問題：DeepSeek究竟用沒用OpenAI的數(shù)據(jù)？

此前，OpenAI公開表示，DeepSeek使用了自家的模型蒸餾。

《金融時(shí)報(bào)》干脆說，「OpenAI有證據(jù)表明DeepSeek用了他們的模型來進(jìn)行訓(xùn)練」

這在道德和法律上站得住腳嗎？

雖然OpenAI的服務(wù)條款規(guī)定，不許用戶使用自家模型的輸出來構(gòu)建競(jìng)爭(zhēng)對(duì)手。但這個(gè)所謂的規(guī)則，其實(shí)正是OpenAI虛偽的體現(xiàn)。

Lex Fridman表示：他們和大多數(shù)公司一樣，本來就是在未經(jīng)許可的情況下，使用互聯(lián)網(wǎng)上的數(shù)據(jù)進(jìn)行訓(xùn)練，并從中受益的。

大佬們一致認(rèn)為，OpenAI聲稱DeepSeek用其模型訓(xùn)練，就是在試圖轉(zhuǎn)移話題、讓自己獨(dú)贏。

而且，過去幾天還有很多人把DeepSeek的模型蒸餾到Llama中，因前者在推理上運(yùn)行很復(fù)雜，而Llama很容易提供服務(wù)，這違法嗎？

DeepSeek的訓(xùn)練成本，為何如此之低

Dylan Patel表示，DeepSeek的成本涉及兩項(xiàng)關(guān)鍵的技術(shù)：一個(gè)是MoE，一個(gè)就是MLA（多頭潛注意力）。

MOE架構(gòu)的優(yōu)勢(shì)在于，一方面，模型可以將數(shù)據(jù)嵌入到更大的參數(shù)空間中，另一方面，在訓(xùn)練或推理時(shí)，模型只需要激活其中一部分參數(shù)，從而大大提升效率。

DeepSeek模型擁有超過6000億個(gè)參數(shù)，相比之下，Llama 405B有4050億參數(shù)。從參數(shù)規(guī)模上看，DeepSeek模型擁有更大的信息壓縮空間，可以容納更多的世界知識(shí)。

但與此同時(shí)，DeepSeek模型每次只激活約370億個(gè)參數(shù)。也就是說，在訓(xùn)練或推理過程中，只需要計(jì)算370億個(gè)參數(shù)。相比之下，Llama 405B模型每次推理卻需要激活4050億個(gè)參數(shù)。

MLA主要用于減少推理過程中的內(nèi)存占用，在訓(xùn)練過程也是如此，它利用了一些巧妙的低秩近似數(shù)學(xué)技巧。

Nathan Lambert表示，深入研究潛注意力的細(xì)節(jié)，會(huì)發(fā)現(xiàn)DeepSeek在模型實(shí)現(xiàn)方面下了很大功夫。

因?yàn)?，除了注意力機(jī)制，語言模型還有其他組件，例如用于擴(kuò)展上下文長(zhǎng)度的嵌入。DeepSeek采用的是旋轉(zhuǎn)位置編碼（RoPE）。

將RoPE與傳統(tǒng)的MoE結(jié)合使用，需要進(jìn)行一系列操作，例如，將兩個(gè)注意力矩陣進(jìn)行復(fù)數(shù)旋轉(zhuǎn)，這涉及到矩陣乘法。

DeepSeek的MLA架構(gòu)由于需要一些巧妙的設(shè)計(jì)，因此實(shí)現(xiàn)的復(fù)雜性大大增加。而他們成功地將這些技術(shù)整合在一起，這表明DeepSeek在高效語言模型訓(xùn)練方面走在了前沿。

Dylan Patel表示，DeepSeek想方設(shè)法提高模型訓(xùn)練效率。其中一個(gè)方法就是不直接調(diào)用NVIDIA的NCCL庫，而是自行調(diào)度GPU之間的通信。

DeepSeek的獨(dú)特之處在于，他們通過調(diào)度特定的SM（流式多處理器）來管理GPU通信。

DeepSeek會(huì)精細(xì)地控制哪些SM核心負(fù)責(zé)模型計(jì)算，哪些核心負(fù)責(zé)allreduce或allgather通信，并在它們之間進(jìn)行動(dòng)態(tài)切換。這需要極其高深的編程技巧。

DeepSeek為何如此便宜

在所有聲稱提供R1服務(wù)的公司中，定價(jià)都遠(yuǎn)高于DeepSeek API，而且大多服務(wù)無法正常工作，吞吐量極低。

讓大佬們震驚的是，一方面中國(guó)取得了這種能力，另一方面價(jià)格如此之低。（R1的價(jià)格，比o1便宜27倍）

訓(xùn)練為什么便宜，上文已經(jīng)提到。為什么推理成本也這么低呢？

首先，就是DeepSeek在模型架構(gòu)上的創(chuàng)新。MLA這種全新的注意力機(jī)制，跟Transformer注意力機(jī)制不同。

這種多頭潛注意力，可以將注意力機(jī)制的內(nèi)存占用減少大約80%到90%，尤其有助于處理長(zhǎng)上下文。

而且，DeepSeek和OpenAI的服務(wù)成本有巨大差異，部分原因是OpenAI的利潤(rùn)率非常高，推理的毛利率超過了75%。

因?yàn)镺penAI目前是虧損的，在訓(xùn)練上花費(fèi)了太多，因此推理的利潤(rùn)率很高。

接下來亮點(diǎn)來了，幾位大佬放飛想象，猜測(cè)這會(huì)不會(huì)是一種陰謀論：DeepSeek精心策劃了這次發(fā)布和定價(jià)，做空英偉達(dá)和美國(guó)公司的股票，配合星際之門的發(fā)布……

但這種猜測(cè)立馬遭到了反駁，Dylan Patel表示，他們只是趕在農(nóng)歷新年前把產(chǎn)品盡快發(fā)布而已，并沒有沒有打算搞個(gè)大的，否則為什么選在圣誕節(jié)后一天發(fā)布V3呢？

中國(guó)的工業(yè)能力，已經(jīng)遠(yuǎn)超美國(guó)

美國(guó)無疑在GPU等芯片領(lǐng)域領(lǐng)先于中國(guó)。

不過，對(duì)GPU出口管制，就能完全阻止中國(guó)嗎？不太可能。

Dylan Patel認(rèn)為，美國(guó)政府也清楚地認(rèn)識(shí)到這一點(diǎn)，而Nathan Lambert認(rèn)為中國(guó)會(huì)制造自己的芯片。

中國(guó)可能擁有更多的人才、更多的STEM畢業(yè)生、更多的程序員。美國(guó)當(dāng)然也可以利用世界各地的人才，但這未必能讓美國(guó)有額外的優(yōu)勢(shì)。

真正重要的是計(jì)算能力。

中國(guó)擁有的電力總和，數(shù)量已經(jīng)驚人。中國(guó)的鋼鐵廠，其規(guī)模相當(dāng)于整個(gè)美國(guó)工業(yè)的總和，此外還有需要龐大電力的鋁廠。

即使美國(guó)的星際之門真的建成，達(dá)到2吉瓦電力，仍小于中國(guó)最大的工業(yè)設(shè)施。

就這么說吧，如果中國(guó)建造世界上最大的數(shù)據(jù)中心，只要有芯片，馬上就能做到。所以這只是一個(gè)時(shí)間問題，而不是能力問題。

現(xiàn)在，發(fā)電、輸電、變電站以及變壓器等構(gòu)建數(shù)據(jù)中心所需的東西，都將制約美國(guó)構(gòu)建越來越大的訓(xùn)練系統(tǒng)，以及部署越來越多的推理計(jì)算能力。

相比之下，如果中國(guó)繼續(xù)堅(jiān)信Scaling Law，就像納德拉、扎克伯格和劈柴等美國(guó)高管那樣，甚至可以比美國(guó)更快地實(shí)現(xiàn)。

因此，為了減緩中國(guó)AI技術(shù)的發(fā)展，確保AGI無法被大規(guī)模訓(xùn)練，美國(guó)出臺(tái)了一系列禁令——通過限制GPU、光刻機(jī)等關(guān)鍵要素的出口，意圖「封殺」整個(gè)半導(dǎo)體產(chǎn)業(yè)。

OpenAI o3-Mini能追上DeepSeek R1嗎？

接下來，幾位大佬對(duì)幾個(gè)明星推理模型進(jìn)行了實(shí)測(cè)。

有趣的是，谷歌的Gemini Flash Thinking，無論從價(jià)格還是性能上來看都優(yōu)于R1，而且在去年12月初就發(fā)布了，然而卻無人關(guān)心……

對(duì)此，幾位大佬的體感是，它的行為模式不如o1那樣富有表現(xiàn)力，應(yīng)用場(chǎng)景較窄。o1在特定任務(wù)上可能不是最完美，但靈活性和通用性更強(qiáng)。

Lex Frieman則表示，自己個(gè)人非常喜歡R1的一點(diǎn)，是它會(huì)展示完整的思維鏈token。

在開放式的哲學(xué)問題中，我們作為能欣賞智能、推理和反思能力的人類，閱讀R1的原始思維鏈token，會(huì)感受到一種獨(dú)特的美感。

這種非線性的思維過程，類似于詹姆斯·喬伊斯的意識(shí)流小說《尤利西斯》和《芬尼根的守靈夜》，令人著迷。

相比之下，o3-mini給人的感覺是聰明、快速，但缺乏亮點(diǎn)，往往比較平庸，缺乏深度和新意。

從下圖中可以看到，從GPT-3到GPT-3.5，再到Llama，推理成本呈指數(shù)級(jí)下降趨勢(shì)。

DeepSeek R1是第一個(gè)達(dá)到如此低成本的推理模型，這個(gè)成就很了不起，不過，它的成本水平并沒有超出專家們預(yù)期的范圍。

而在未來，隨著模型架構(gòu)的創(chuàng)新、更高質(zhì)量的訓(xùn)練數(shù)據(jù)、更先進(jìn)的訓(xùn)練技術(shù)，以及更高效的推理系統(tǒng)和硬件（比如新一代GPU和ASIC芯片），AI模型的推理成本還會(huì)持續(xù)下降。

最終，這將解鎖AGI的潛力。

誰將贏得AGI競(jìng)賽

最后，幾位大佬預(yù)測(cè)了一番，誰將是AGI競(jìng)賽的最終贏家。

谷歌似乎是領(lǐng)跑者，因?yàn)閾碛谢A(chǔ)設(shè)施優(yōu)勢(shì)。

但在輿論場(chǎng)上，OpenAI似乎是領(lǐng)先者。它在商業(yè)化方面已經(jīng)走在了最前面，擁有目前AI領(lǐng)域最高的收入。

目前，誰究竟在AI領(lǐng)域賺到錢了，有人盈利了嗎？

大佬們盤了盤后發(fā)現(xiàn)，從財(cái)務(wù)報(bào)表上看，微軟在AI領(lǐng)域已經(jīng)實(shí)現(xiàn)了盈利，但在基礎(chǔ)設(shè)施方面已經(jīng)投入了巨額資本支出。谷歌、亞馬遜也是如此。

Meta獲取的巨額利潤(rùn)來自于推薦系統(tǒng)，并非來自Llama等大模型。

Anthropic和OpenAI顯然還沒盈利，否則就不需要繼續(xù)融資了。不過單從營(yíng)收和成本來看，GPT-4已經(jīng)開始盈利了，因?yàn)樗挠?xùn)練成本只有幾億美元。

最終，誰都無法預(yù)料，OpenAI是否會(huì)突然隕落。不過目前，各家公司還會(huì)繼續(xù)融資，因?yàn)橐坏〢GI到來，AI帶來的回報(bào)難以估量。

人們可能并不需要OpenAI花費(fèi)數(shù)十億美元，去研發(fā)「下一個(gè)最先進(jìn)的模型」，只需要ChatGPT級(jí)別的AI服務(wù)就足夠了。

推理、代碼生成、AI智能體、計(jì)算機(jī)使用，這些都是AI未來真正有價(jià)值的應(yīng)用領(lǐng)域。誰不發(fā)力，誰就可能被市場(chǎng)淘汰。

責(zé)任編輯：張燕妮來源：新智元

AI DeepSeek 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="mzxly"><rp id="mzxly"></rp></cite>