DeepSeek R2要提前發(fā)布!這是有關R2的幾個傳聞:100%國產(chǎn)算力部署!能耗降低25%,多模態(tài)模型! 原創(chuàng)
DeepSeek 今天有兩個大新聞:一個是開源了自家用于助力V3/R1模型訓練與推理的一個FP8通用矩陣乘法 (GEMM) 加速庫,這一塊相信不少業(yè)內人士會感興趣,據(jù)悉性能高達1350+TFLOPS,進一步揭秘了為什么現(xiàn)在的DeepSeek可以吐字這么流暢,訓練和計算成本為什么如此低廉。
不過更為讓人震驚的,相信還是第二個:DeepSeek原定于要5月初發(fā)布的DeepSeek R2,現(xiàn)在正在爭取提前甚至盡可能早的發(fā)布!
這一提前發(fā)布R2的消息,是路透社當?shù)貢r間周二發(fā)布的,路透社跟三位知情人士了解到:DeepSeek原本計劃在5月初發(fā)布R2,但現(xiàn)在希望盡早發(fā)布,但沒有提供具體細節(jié)。
當然,DeepSeek一向低調,也從沒有對外宣布過“R2發(fā)布的加速時間表”的任何細節(jié)。
有關R2的幾個傳聞
有關于R2,外界所知道的細節(jié)其實并不多,更多還是在公開的R1技術報告中的“R1不足”部分有提及:希望新模型能夠產(chǎn)生更好的編碼,并能夠用英語以外的語言進行推理,實現(xiàn)多語言推理。
另外則是有一則財聯(lián)社報道的技術細節(jié)(非DS官方證實):
(1) 性能突破:有消息稱DeepSeek R2推理能力暴增,成本直降70%。在復雜邏輯推理任務中的準確率提升83%,多步驟問題處理效率提高5倍。首次實現(xiàn)完全國產(chǎn)化算力部署,基于910B芯片的R2推理速度達到每秒320tokens,能耗比優(yōu)化62%。
(2)功能亮點:有觀點認為R2模型在圖像生成方面表現(xiàn)更為出色,能輕松駕馭細膩的肖像畫和壯觀的風景照等。還增加了語音識別和合成功能,可實現(xiàn)與AI的自然交互。
(3)技術定位:有說法稱DeepSeek-R2是DeepSeek推出的首款多模態(tài)AI模型,能夠同時處理文本、圖像、音頻等多種模態(tài)信息,在圖像識別、語音識別、視頻理解等方面表現(xiàn)出色,響應速度提升40%,能耗降低25%。
R2推出,將是AI行業(yè)的關鍵時刻
很明顯,強推理模型是今年開年各大模型廠商的主要旋律,隨著 Grok 3、Claude 3.7、Qwen 2.5 Max 的推出,以及 GPT 4.5 可能在未來幾周內推出,有理由相信 DeepSeek 很可能會進行調整,并將 R2 的發(fā)布時間定得足夠提前。
眾所周知,DeepSeek在創(chuàng)建具有成本效益的人工智能模型方面在全球范圍內取得了巨大成功,很明顯也刺激到了各大巨頭獨角獸,紛紛加快了自己的腳步,打破在該領域被少數(shù)領先者的主導束縛。
印度技術服務提供商Zensar的首席運營官Vijayasimha Alilughatta表示:DeepSeek R2模型的推出可能是人工智能行業(yè)的關鍵時刻。
前員工眼中的DeepSeek和幻方量化
路透社采訪了十幾位DeepSeek以及其母公司幻方量化的前員工,他們視角之下,創(chuàng)始人梁文鋒管理下的公司與中國大廠的風格形成了鮮明對比:
首先,團隊主要由Z世代實習生和應屆畢業(yè)生構成?;
其次,采用扁平化管理模式,摒棄嚴格的層級制度?;
再者,辦公環(huán)境強調協(xié)作性,員工通常每日工作8小時?,而不是996;
此外,創(chuàng)始人梁文鋒常與年輕員工共同參與技術細節(jié)討論甚至手搓代碼。(一位 26 歲的前研究員表示:“梁給了我們控制權,把我們當作專家對待。他經(jīng)常問問題,和我們一起學習。”)
最后,薪酬很可觀。(據(jù)三位熟悉DeepSeek薪酬做法的人士透露,DeepSeek和幻方量化都以慷慨的薪酬而聞名。其中一位知情人士表示,在幻方,一位資深數(shù)據(jù)科學家每年賺150萬元并不罕見,而競爭對手的年薪很少超過80萬元。)
“DeepSeek 更像是一個研究實驗室,而不是一個營利性企業(yè)?!薄癉eepSeek讓我能夠擁有管道的關鍵部分,這非常令人興奮!”
另外多提一嘴,DeepSeek北京團隊設立在中關村的融科大廈,據(jù)說也是因為便于跟清北高材生、專家交流的緣故。
DeepSeek R2,備受期待的答案
具路透社統(tǒng)計,目前全球已經(jīng)有超200家企業(yè)接入了DeepSeek的模型?。
更有行業(yè)觀察?分析指出,DeepSeek的成功凸顯市場驅動創(chuàng)新的有效性,其技術突破了依賴全球供應鏈和先進技術的壟斷和限制,印證了深度參與國際分工對自主創(chuàng)新的必要性?。
當然,R2的提前發(fā)布,則會進一步推動全球AI行業(yè)打破寡頭壟斷格局?。
另外,值得一提的是,當從2023年開始,百度、字節(jié)等巨頭在兩年前競相構建面向C端的ChatBot應用時,梁文鋒就在一次采訪中表示,他特意避開在應用程序開發(fā)上投入巨資,而是專注于提高人工智能模型的質量。
寶劍鋒從磨礪出,DeepSeek的爆火并非一日之功,背后所凸顯的則是長達十數(shù)年在 AI 方面的積累。相信接下來的一周、數(shù)周,又將重現(xiàn)去年和前年各大公司爭相秀技術肌肉的迭代節(jié)奏。
而大家所擔心的“R1的領先到底會走多遠”的問題,相信也會隨著R2的發(fā)布迎來答案。
本文轉載自??51CTO技術棧??
