自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="rn1l4"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

DeepSeek-V3在Mac Studio上以每秒20個token的速度運行，這對OpenAI來說是一場噩夢

作者：Michael Nu?ez 2025-03-25 11:42:41

這款名為DeepSeek-V3-0324的641GB模型出現(xiàn)在AI倉庫Hugging Face上，幾乎沒有進行任何宣傳，延續(xù)了該公司一貫低調卻影響深遠的產品發(fā)布風格。

DeepSeek悄然發(fā)布了一款新的大型語言模型，已在AI行業(yè)掀起波瀾——不僅因為其能力出眾，更因其部署方式獨特。這款名為DeepSeek-V3-0324的641GB模型出現(xiàn)在AI倉庫Hugging Face上，幾乎沒有進行任何宣傳，延續(xù)了該公司一貫低調卻影響深遠的產品發(fā)布風格。

此次發(fā)布尤為引人注目的是該模型的MIT許可證——允許其免費用于商業(yè)用途——以及早期報告顯示，它可以直接在消費級硬件上運行，特別是配置了M3 Ultra芯片的Apple Mac Studio。

AI研究員Awni Hannun在社交媒體上寫道：“在512GB M3 Ultra和mlx-lm的配合下，4位DeepSeek-V3-0324的運行速度超過每秒20個token!”雖然售價9499美元的Mac Studio可能有些超出“消費級硬件”的定義，但能夠在本地運行如此龐大的模型，與通常與最先進AI相關的數(shù)據(jù)中心要求大相徑庭。

DeepSeek的低調發(fā)布策略顛覆了AI市場的預期

這款擁有6850億參數(shù)的模型發(fā)布時，沒有附帶任何白皮書、博客文章或營銷推廣——只有一個空的README文件和模型權重本身。這一做法與西方AI公司精心策劃的產品發(fā)布形成了鮮明對比，西方公司的產品發(fā)布往往在實際發(fā)布前幾個月就大肆宣傳。

早期測試者報告稱，與之前的版本相比，新版本有了顯著改善。AI研究員Xeophon在X.com上的一篇帖子中宣稱：“在我的內部基準測試中測試了新款DeepSeek V3，它在所有測試的所有指標上都有巨大飛躍。它現(xiàn)在是最好的非推理模型，取代了Sonnet 3.5。”

如果這一說法得到更廣泛測試的驗證，那么DeepSeek的新模型將超越Anthropic的Claude Sonnet 3.5，后者是最受尊敬的商業(yè)AI系統(tǒng)之一。而且與需要訂閱的Sonnet不同，DeepSeek-V3-0324的權重可供任何人免費下載和使用。

DeepSeek V3-0324如何通過突破性架構實現(xiàn)無與倫比的效率

DeepSeek-V3-0324采用了專家混合(MoE)架構，從根本上重新構想了大型語言模型的運作方式。傳統(tǒng)模型在執(zhí)行每個任務時都會激活其全部參數(shù)，但DeepSeek的方法是在特定任務期間僅激活其6850億參數(shù)中的約370億參數(shù)。

這種選擇性激活代表了模型效率方面的范式轉變。通過為每個特定任務僅激活最相關的“專家”參數(shù)，DeepSeek實現(xiàn)了與更大規(guī)模的全激活模型相當?shù)男阅?，同時大大降低了計算需求。

該模型還融入了另外兩項突破性技術：多頭潛在注意力(MLA)和多令牌預測(MTP)。MLA增強了模型在長篇文本中保持上下文的能力，而MTP則每步生成多個令牌，而不是通常的一次一個。這兩項創(chuàng)新結合在一起，使輸出速度提高了近80%。

開發(fā)者工具創(chuàng)建者Simon Willison在一篇博客文章中指出，4位量化版本將存儲占用空間減少到352GB，使其能夠在像配備了M3 Ultra芯片的Mac Studio這樣的高端消費級硬件上運行。

這可能標志著AI部署方面的重大轉變。傳統(tǒng)AI基礎設施通常依賴于消耗數(shù)千瓦電力的多個Nvidia GPU，而Mac Studio在推理期間的耗電量低于200瓦。這種效率差距表明，AI行業(yè)可能需要重新思考對頂級模型性能所需基礎設施的假設。

中國開源AI革命挑戰(zhàn)硅谷的封閉花園模式

DeepSeek的發(fā)布策略體現(xiàn)了中國和西方公司在AI商業(yè)理念上的根本分歧。當美國領導者如OpenAI和Anthropic將其模型置于付費墻之后時，中國AI公司卻越來越傾向于采用寬松的開源許可。

這種做法正在迅速改變中國的AI生態(tài)系統(tǒng)。尖端模型的開源可用性產生了乘數(shù)效應，使初創(chuàng)公司、研究人員和開發(fā)人員能夠在不進行大規(guī)模資本支出的情況下構建復雜的AI技術。這加速了中國AI能力的發(fā)展，速度之快令西方觀察者震驚。

這一策略背后的商業(yè)邏輯反映了中國市場的現(xiàn)實情況。在多個資金雄厚的競爭對手面前，當競爭對手免費提供類似功能時，維持專有方法變得越來越困難。開源通過生態(tài)系統(tǒng)領導力、API服務和在免費提供的基礎模型之上構建的企業(yè)解決方案創(chuàng)造了替代價值途徑。

甚至中國已建立的技術巨頭也認識到了這一轉變。百度宣布計劃到6月將其Ernie 4.5模型系列開源，而阿里巴巴和騰訊也已發(fā)布了具有專業(yè)能力的開源AI模型。這一趨勢與西方領導者采用的以API為中心的策略截然不同。

開源方法還解決了中國AI公司面臨的獨特挑戰(zhàn)。由于無法獲得尖端的Nvidia芯片，中國公司強調效率和優(yōu)化，以便在有限的計算資源下實現(xiàn)競爭性能。這種由需求驅動的創(chuàng)新現(xiàn)在已成為潛在的競爭優(yōu)勢。

DeepSeek V3-0324：AI推理革命的基石

DeepSeek-V3-0324的發(fā)布時間和特點強烈表明，它將成為DeepSeek-R2的基石，后者是一款預計在未來兩個月內推出的改進后的推理專用模型。這遵循了DeepSeek的一貫模式，即基礎模型先于專業(yè)推理模型發(fā)布數(shù)周。

Reddit用戶mxforest指出：“這與他們在圣誕節(jié)前后發(fā)布V3，幾周后發(fā)布R1的情況一致。R2據(jù)傳將于4月發(fā)布，所以這可能就是?！?/p>

一款先進的開源推理模型的影響不容小覷。當前推理模型如OpenAI的o1和DeepSeek的R1代表了AI能力的最前沿，在數(shù)學、編程等領域展示了前所未有的問題解決能力。將這種技術免費開放將使目前僅限于擁有巨額預算者使用的AI系統(tǒng)實現(xiàn)民主化。

這款潛在的R2模型的出現(xiàn)正值關于推理模型計算需求的重大啟示之際。Nvidia首席執(zhí)行官黃仁勛最近指出，DeepSeek的R1模型的“計算量是非推理AI的100倍”，這與早前業(yè)界關于效率的假設相悖。這揭示了DeepSeek模型背后的非凡成就，它們能夠在比西方同行更嚴格的資源限制下提供具有競爭力的性能。

如果DeepSeek-R2沿襲R1的發(fā)展軌跡，它可能會對OpenAI即將在未來幾個月內發(fā)布的下一代旗艦模型GPT-5構成直接挑戰(zhàn)。OpenAI的封閉、資金雄厚的研發(fā)方式與DeepSeek的開放、資源高效的策略，代表了AI未來發(fā)展路徑上的兩種競爭愿景。

如何體驗DeepSeek V3-0324：開發(fā)人員和用戶完整指南

對于那些急于試用DeepSeek-V3-0324的用戶來說，有多種途徑可供選擇，具體取決于技術需求和資源情況。模型的完整權重可從Hugging Face平臺獲取，但由于其641GB的龐大體積，直接下載對于大多數(shù)用戶來說并不實際，僅適合那些具備大量存儲和計算資源的用戶。

對于大多數(shù)用戶而言，基于云的選項提供了最便捷的體驗入口。OpenRouter平臺提供了對該模型的免費API訪問，并配備了一個用戶友好的聊天界面。用戶只需選擇DeepSeek V3 0324作為模型，即可開始體驗。

DeepSeek自己的聊天界面chat.deepseek.com也可能已更新為新版本，盡管公司尚未明確確認這一點。早期用戶報告稱，可以通過該平臺訪問該模型，且性能相比之前的版本有所提升。

開發(fā)人員如果希望將該模型集成到應用程序中，可以通過各種推理服務提供商來實現(xiàn)。Hyperbolic Labs宣布立即成為“首個在Hugging Face上提供該模型推理服務的提供商”，而OpenRouter則提供了與OpenAI SDK兼容的API訪問。

DeepSeek的新模型更注重技術準確性而非對話的溫馨感

早期用戶報告稱，該模型的溝通風格發(fā)生了明顯變化。雖然之前的DeepSeek模型因其對話式、人性化的語調而受到稱贊，但“V3-0324”版本則呈現(xiàn)出更加正式、以技術為導向的特點。

Reddit用戶nother_level問道：“只有我覺得這個版本感覺不那么人性化了嗎?對我來說，之前的DeepSeek v3與其他模型的區(qū)別在于它感覺更像人類。它的語氣、用詞等都不像其他LLM(大型語言模型)那樣機械，但現(xiàn)在這個版本卻像其他LLM一樣機械?！?/p>

另一位用戶AppearanceHeavy6724補充道：“沒錯，它肯定失去了那種超然的魅力，感覺過于理智了?！?/p>

這種個性變化很可能反映了DeepSeek工程師的刻意設計選擇。向更加精確、分析性的溝通風格轉變，表明該模型在戰(zhàn)略上進行了重新定位，更加側重于專業(yè)和技術應用，而非休閑對話。這與更廣泛的行業(yè)趨勢相契合，因為AI開發(fā)人員越來越認識到，不同的用例受益于不同的交互風格。

對于構建專業(yè)應用的開發(fā)人員來說，這種更加精確的溝通風格實際上可能是一種優(yōu)勢，能夠為他們提供更加清晰和一致的輸出，以集成到專業(yè)工作流程中。然而，這可能會限制該模型在面向客戶的應用中的吸引力，因為在這些場景中，溫馨和親和力更受歡迎。

DeepSeek的開源戰(zhàn)略如何重塑全球AI格局

DeepSeek對AI的開發(fā)和分發(fā)方式不僅僅是一項技術成就，它體現(xiàn)了一種從根本上不同的愿景，即先進技術應該如何在社會中傳播。通過以寬松的許可協(xié)議免費提供尖端AI，DeepSeek使得封閉式模型所固有的創(chuàng)新約束得以解除，從而實現(xiàn)了指數(shù)級的創(chuàng)新。

這一理念正在迅速縮小中國和美國在AI能力方面所感知到的差距。就在幾個月前，大多數(shù)分析師估計中國的AI能力落后美國1-2年。如今，這一差距已大幅縮小至可能僅3-6個月，甚至在某些領域已達到持平或中國領先的狀態(tài)。

這與Android對移動生態(tài)系統(tǒng)的影響頗為相似。谷歌決定將Android免費提供，創(chuàng)造了一個最終占據(jù)全球主導地位市場份額的平臺。同樣地，開源AI模型可能會通過其無處不在和數(shù)千名貢獻者的集體創(chuàng)新來超越封閉系統(tǒng)。

這一影響不僅僅局限于市場競爭，還延伸到技術獲取的基本問題上。西方AI領導者越來越因將先進技術集中在資源豐富的企業(yè)和個人手中而受到批評。而DeepSeek的做法則將這些能力更廣泛地分布開來，可能會加速全球AI的普及。

隨著DeepSeek-V3-0324在全球范圍內的研究實驗室和開發(fā)人員工作站中得到應用，競爭已不再僅僅局限于構建最強大的AI，而是關于如何讓最多的人能夠利用AI進行構建。在這場競賽中，DeepSeek的低調發(fā)布無聲地揭示了AI的未來走向。那個最自由地分享其技術的公司，最終可能會在對AI如何重塑我們的世界方面擁有最大的影響力。

責任編輯：姜華來源：企業(yè)網(wǎng)D1Net

DeepSeek AI倉庫人工智能

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="ufnpj"></style>

<sub id="ufnpj"><p id="ufnpj"></p></sub>