編輯 | 言征、伊風
相信連DeepSeek的創(chuàng)始人梁文鋒自己都沒有想到,春節(jié)前的一次發(fā)布,讓全球AI圈都陷入了“冰與火”之中,一方面大洋兩岸都在驚嘆:一家出自浙江的非“六小龍”公司能歐這么短時間就能用開源的方式,推出性能堪比甚至趕超OpenAI o1的模型,成本卻更是出奇的低。
一時間,全球AI玩家紛紛快速推出自己的“DeepSeek-R1”復刻版。抱抱臉、伯克利、港科大很快就用實力證明了:DeepSeek R1 是名副其實的國產(chǎn)推理模型的巨大勝利!
不過甚至有傳言說大洋彼岸的Meta都被R1打了個措手不及,內(nèi)部都在“恨鐵不成鋼”:為什么Llama3被超越了?
甚至受R1爆火影響,日本半導體市場的股市行情也迎來了大跌:軟銀集團股價一度下跌5.4%,創(chuàng)下11月1日以來的最大跌幅;東京電子和Disco均跌超3%。
當然,不止國外的半導體廠商,國內(nèi)的寒武紀也迎來了一波暴跌,10.7%。
DeepSeek的爆火,確實與眾不同
這次火得有點不同,sora也火,但沒有實際推出。而DeepSeek真正做到了大洋兩岸都開花。
從OpenAI奧特曼對DeepSeek的“陰陽”開始,硅谷對DeepSeek的討論和警惕就正式拉開了序幕。
Scale AI創(chuàng)始人Alexandr Wang提到,他們發(fā)布了“人類最后一次考試”,這是一個評估或基準測試人工智能模型的新方法,我們通過邀請數(shù)學、生物學和化學教授提供他們能夠想象到的最難的問題來制定這些測試。Deep Sea,作為領先的中國人工智能實驗室,其模型實際上在性能上與美國最好的模型相當,甚至更勝一籌。
值得一提的是,Alexandr Wang不相信DeepSeek R1是低端GPU創(chuàng)造出來的“奇跡”,他公開表示:“DeepSeek大約有5萬張H100計算卡,他們顯然不能談論這件事,因為這違反了美國實施的出口管制。我認為這是真的,我認為他們的籌碼比其他人預期的要多。他們將受到芯片控制和出口管制的限制?!?/p>
微軟CEO薩蒂亞·納德拉也公開表示,“他們(DeepSeek)切實有效地開發(fā)出了一款開源模型,在推理計算方面表現(xiàn)出色,且超級計算效率極高?!奔{德拉還強調(diào),“我們必須非常、非常認真地對待中國的這些進展”。
甚至,連OpenAI安全研究員也來關心了一把DeepSeek的AI安全問題:DeepSeek有任何安全方面的研究人員嗎?梁文鋒(DeepSeek CEO)怎么看待AI安全?
同時,DeepSeek的火爆遠不止于AI圈大佬們的公開討論,其應用版驚人的下載量驗證了DeepSeek的“出圈”程度。1 月 27 日,DeepSeek 登頂中國區(qū)應用商店免費應用排行榜,同時也在美區(qū)蘋果 App Store 免費榜升至第一位。
上圖:左美區(qū)蘋果 App Store免費榜,右為中國區(qū)
討論DeepSeek強在哪里,不如來探討一下為什么火
為什么火?
一個是證明了一眾小模型(低至1.5B)也可以實現(xiàn)深度推理模型,這也就意味著沒有顯卡儲備的普通的學生也可以在自己電腦上做實驗。
一臺Mac就可以跑出o1mini的模型,試問哪個理工科的學生不會手癢嘗試下?只需要從抱抱臉或Github上下載下模型,就可以在自己電腦上運行、微調(diào)和訓練了。
其次,對于企業(yè)而言,價格低到幾乎可以忽略不計的使用成本,完全可以打消投入產(chǎn)出比的顧慮。
DeepSeek 同步上線的 R1 模型的 API,價格一直都非常良心,只有 o1 模型的 5%。
輸入百萬tokens緩存命中只需要1塊錢,不命中需要4塊錢。而輸出方面,百萬tokens只需要16塊錢,對比o1模型的價格——百萬緩存命中輸入Token $7.50,百萬輸入緩存不命中Tokens $15.00,每百萬輸出Tokens $60.00,可以說,企業(yè)的成本將是后者的50/1。
奧特曼甚至都似乎被R1推出帶來的價格風暴震驚到了,表示之后會“大甩賣”:ChatGPT Plus會員可以每天獲得100條o3-mini查詢,下一個智能體Plus會員首發(fā)就能用。
第三,重要的是,推理模型的開源,代碼流程公開透明,使得不管是普通開發(fā)者還是企業(yè)部署,都有了靈活可定制自身推理模型的潛力。
第四,當然,不得不提。DeepSeek-R1的爆火,已經(jīng)沖擊了全球的算力的邏輯。分析師Holger Zschaepitz表示:“中國的DeepSeek可能代表了對美國股市最大的威脅,因為該公司似乎以極低的價格建立了一個突破性的人工智能模型,而無需依賴最先進的芯片,這引發(fā)了對數(shù)百億美元資本支出是否有用的質(zhì)疑,這些資金正被投入到這個行業(yè)中?!?/p>
Sumitomo Life Insurance Co.的平衡組合投資總經(jīng)理Masayuki Murata表示,DeepSeek可能引發(fā)科技股下跌:
“大型科技公司在AI上投入了大量資金,幾乎達到了一國政府預算的規(guī)模,但一直存在一個問題,即產(chǎn)生的回報能否與其投資規(guī)模相匹配。“
據(jù)報道,DeepSeek實驗室只花了560萬美元來建造DeepSeek V3。相比之下,OpenAI每年花費50億美元,而谷歌預計2024年的資本支出將飆升至超過500億美元。還有微軟,僅投資OpenAI就花費了超過130億美元。
然而,這也并不意味著高端芯片從此失去市場。Perplexity AI CEO Aravind Srinivas在采訪中說:我想從快速行動的角度出發(fā),你肯定想用高端芯片,而且你會想比你的競爭對手更快地推進。我認為最優(yōu)秀的人才仍然想加入那個最先實現(xiàn)這一目標的團隊。你知道,總會有人覺得誰做到了這件事,誰是真正的先驅(qū),誰是跟隨者。
當然,即便算力高端市場大概率不會變天,但在大模型撞墻的質(zhì)疑聲不斷的語境中,為什么不學習DeepSeek,從工程的角度使用更少的算力達到同樣的效果呢?
所以總結(jié)來看,R1的爆火在于解決了以o1為代表的大模型現(xiàn)存的幾大問題:太貴、部署門檻高、不透明、靈活性差(不可定制)。R1 解決了所有問題。
企業(yè)角度看,公司可以購買自己的GPU,運行這些模型,而不必擔心額外成本或緩慢/無響應的 OpenAI 服務器”;個人愛好者或開發(fā)者可以快速通過開源的模型或工具在自己的電腦上微調(diào)自己的模型、甚至很快開發(fā)一個“智能體”出來硬剛OpenAI的“Operator”。這已經(jīng)是事實。
前兩天,Twitter上就有不少極客曬出了自己的“Operator”:無需向OpenAI支付 200 美元,就可以自己用100%開源的工具創(chuàng)建一個使用 Web 瀏覽器的代理,而無需手動編寫一行代碼,只需要結(jié)合 DeepSeek R1 和“BrowserUse”。
投資市場的角度看,DeepSeek-R1拉低了大模型應用的門檻,所以大模型公司降低硬成本的時機或許已經(jīng)到來,單純看誰存卡多的邏輯已經(jīng)受到了嚴重挑戰(zhàn),甚至有人開始懷疑未來大家需要那么多英偉達的GPU嗎?
不過,很多AI從業(yè)者認為在短期波動后,從長遠看對英偉達依舊是利好的,隨著AI“盤子”的擴大,需求總體將是穩(wěn)步提升的趨勢。
不管是從企業(yè)還是個人還是創(chuàng)投層面看,DeepSeek都是一個游戲規(guī)則改變者。
本質(zhì):一場開源的巨大勝利
說到底這次火,根由上還是因為大家對于開源追上閉源的速度相當迅猛,這種迅猛更是疊加了:低技術門檻和幾乎忽略不計的費用兩大標簽。
昨日,AI教父楊立昆說,那些解讀“中國在人工智能方面正在超越美國”的人錯了。
其實是“開源模型正在超越專有模型”。
他表示,DeepSeek從開放研究和開源(例如 Meta的 PyTorch 和 Llama)中獲利他們提出了新的想法,并將其建立在其他人的工作之上。因為他們的工作是已發(fā)布的和開源的,所以每個人都可以從中受益。
外媒CNBC專題報告《中國的新AI模型DeepSeek如何威脅美國領先地位》,給出了一個相同的結(jié)論:(DeepSeek的成功)這可能意味著全球AI領域的主流模式將是開源。因為各國和組織逐漸認識到,協(xié)作和去中心化可以比封閉的專有生態(tài)系統(tǒng)更快速、更高效地推動創(chuàng)新。中國提供的一個更便宜、更高效、廣泛采用的開源模型,可能會導致動態(tài)發(fā)生重大變化。
說到底這次火,根由上還是因為大家對于開源追上閉源的速度,相當迅猛,這種迅猛附加了:低技術門檻和幾乎忽略不計的費用兩大標簽。
但這并不意味著,開源就是“無國界”的。
即使楊立昆出來給開源陣營拉大旗,也掩蓋不了Meta的工程師們正在焦頭爛額地分析DeepSeek的AI恐慌。根據(jù)一線員工的匿名爆料,管理層正在擔心如何證明龐大的AI組織的成本是合理的,因為Meta的生成式AI部門里的每位“領導”的薪資都超過了DeepSeek-V3的訓練成本。
Perplexity AI CEO Aravind Srinivas 更直說 “這樣(開源領先)更危險”。他表示:“因為這樣他們(DeepSeek)就能掌控市場份額和生態(tài)系統(tǒng)。開源也總有一天可能不再是開源,對嗎?目前這些許可證很有用,但它們可以隨著時間改變許可。重要的是,我們得有美國人在這里建設,所以Meta是如此重要。
CNBC總結(jié)稱,采用中國的開源模型規(guī)?;褂?,可能會削弱美國的領導地位,同時讓中國更加深入地融入全球科技基礎設施。
在復雜的地緣因素之下,競爭對手們的集體恐慌再次驗證了一個事實:中國是一股重要的AI力量。
Perplexity AI CEO Aravind Srinivas說,很多人(錯誤地)認為中國只是模仿者,所以如果我們停止在美國寫研究論文,如果我們停止描述我們基礎設施或架構的細節(jié),停止開源,他們就無法趕上。但現(xiàn)實情況是,DeepSeek V3中的一些細節(jié)非常好,我不會很驚訝如果Meta看過它并將一些內(nèi)容融入Llama 4中。我不會說這是抄襲,這完全是分享科學、工程技術。但關鍵是,情況在變化,中國不僅僅是模仿者,他們也在創(chuàng)新。
寫在最后:了不起的國產(chǎn)創(chuàng)新
現(xiàn)代管理學之父德魯克對于創(chuàng)新有個很容易理解的解釋:一是讓昂貴的東西變得便宜,老百姓能用;二是讓高門檻東西變得低門檻,普通人可用。
Deepseek R1的推出和開源,很顯然,這兩點都做到了。
參考鏈接:
1.https://zhuanlan.zhihu.com/p/709867165。
2.https://www.zhihu.com/question/10152040622/answer/84383440957。
3.https://www.youtube.com/watch?v=WEBiebbeNCA。