DeepSeek很火,我來(lái)潑點(diǎn)冷水
從2024年12月DeepSeek出圈以來(lái),DeepSeek風(fēng)潮越刮越勇,已有席卷全球之勢(shì)。各個(gè)大廠紛紛宣布自家接入DeepSeek,甚至有機(jī)頂盒企業(yè)也宣布自家產(chǎn)品接入了,市場(chǎng)情緒一度高漲。
在自媒體上,以DeepSeek為噱頭賣課的,教人如何使用DeepSeek提示詞的,或者利用DeepSeek+其他AI工具做自媒體賺快錢的,各種案例不勝枚舉。
各個(gè)技術(shù)群的聊天話題也集中于DeepSeek,好像不聊這個(gè)話題就要被開除技術(shù)籍。
DeepSeek很火爆,我也并非資深的人工智能領(lǐng)域從業(yè)人員,但我卻想潑一潑冷水。
首先思考一個(gè)問(wèn)題:DeepSeek在功能和性能上,有遠(yuǎn)超其他大模型產(chǎn)品的表現(xiàn)嗎?
答案很明顯,并沒(méi)有。DeepSeek官方于今年1月20日推出的DeepSeek R1版本,也只是在性能上對(duì)標(biāo)Open AI o1正式版。
用DeepSeek官方的話來(lái)說(shuō):
“DeepSeek-R1 在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩 OpenAI o1 正式版?!?/span>
官方論文: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
且這段時(shí)間大家應(yīng)該都體驗(yàn)過(guò)DeepSeek,使用體驗(yàn)肯定很好,但其本身的工程能力(特指穩(wěn)定性)卻無(wú)法匹配其功能和性能的表現(xiàn)。換句話說(shuō),DeepSeek更像一個(gè)在某方面極其突出的年輕少俠,而非全方位無(wú)死角的六邊形戰(zhàn)士。
OpenAI的o1是什么時(shí)候發(fā)布的呢?以下是從多個(gè)公開信息源找到的信息:
1、OpenAI于2024年9月12日首次發(fā)布了o1的預(yù)覽版(o1-preview)和輕量版(o1-mini)。這一版本主要面向ChatGPT Plus、Team用戶以及API開發(fā)者開放,特點(diǎn)是強(qiáng)化了推理能力,適用于科學(xué)、數(shù)學(xué)和編程等復(fù)雜任務(wù)。
2、完整版的o1(或稱“滿血版”)于2024年12月5日至6日在OpenAI的“12天12場(chǎng)直播”首日活動(dòng)中正式推出。該版本進(jìn)一步優(yōu)化了性能,錯(cuò)誤率降低34%,響應(yīng)速度提升50%,并支持多模態(tài)輸入(文本+圖像)。
總結(jié):DeepSeek R1的發(fā)布是后發(fā)先至,在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上暫時(shí)取得了領(lǐng)先。
再來(lái)思考第二個(gè)問(wèn)題:為什么DeepSeek會(huì)如此火爆,受到追捧?
按照業(yè)內(nèi)的普遍共識(shí),人工智能領(lǐng)域有三大底座(或者說(shuō)三要素)是算力+模型+數(shù)據(jù),也就是說(shuō)只要你算力夠多,模型夠好,喂進(jìn)去的數(shù)據(jù)量足夠大,就可以迭代出我們預(yù)期的AI產(chǎn)品。
在三大底座之上,喂數(shù)據(jù)是訓(xùn)練過(guò)程,大規(guī)模應(yīng)用是最終結(jié)果。在訓(xùn)練和大規(guī)模應(yīng)用之間,還存在這樣一個(gè)25年之前未被解決的問(wèn)題,即:盈利模式。但DeepSeek的出現(xiàn),帶來(lái)了新的契機(jī)。
按照DeepSeek官方說(shuō)法,他們?cè)陂_源 DeepSeek-R1-Zero 和 DeepSeek-R1 兩個(gè) 660B 模型的同時(shí),通過(guò) DeepSeek-R1 的輸出,蒸餾了6個(gè)小模型開源給社區(qū),其中 32B 和 70B 模型在多項(xiàng)能力上實(shí)現(xiàn)了對(duì)標(biāo) OpenAI o1-mini 的效果。
圖片
HuggingFace 鏈接: https://huggingface.co/deepseek-ai
這一消息目前已經(jīng)被證實(shí),且國(guó)內(nèi)外各家科技企業(yè)巨頭的大模型都已開始接入DeepSeek,證明其成本相較于GPT-4確實(shí)有極大規(guī)模的下降。而成本的下降會(huì)帶來(lái)這兩點(diǎn)顯著的直接收益:降低訓(xùn)練硬件需求,降低應(yīng)用成本。
換句話說(shuō),降低訓(xùn)練需求等于打破了高算力的壟斷門檻,降低應(yīng)用成本意味著進(jìn)入AI領(lǐng)域落地應(yīng)用的門檻變低,會(huì)有更多的人有機(jī)會(huì)參與到探索應(yīng)用落地的道路上。
從目前各種消息來(lái)看,模型降本已經(jīng)指向了應(yīng)用層的爆發(fā),騰訊、阿里等大廠的走勢(shì)已經(jīng)說(shuō)明了一切。
可能以后生活中的每臺(tái)電子設(shè)備都會(huì)內(nèi)置DeepSeek這種水平的大模型,而這也意味著AI+的爆款應(yīng)用,大概率會(huì)在2025年橫空出世!
除此之外DeepSeek火出圈的另一個(gè)原因在于:前兩年各家公司的大模型逐漸同化,在數(shù)據(jù)層面沒(méi)有顯著差異的情況下,算力成為了唯一的決勝因素,而國(guó)產(chǎn)算力相比于英偉達(dá),目前確實(shí)稍有不足。
DeepSeek的出現(xiàn)打破了過(guò)去兩年的唯算力論,也讓國(guó)內(nèi)各大芯片廠商對(duì)追趕甚至超越“英偉達(dá)”重新燃起了希望。
這也是為什么前段時(shí)間,媒體報(bào)道說(shuō)DeepSeek是“國(guó)運(yùn)級(jí)”的產(chǎn)品。
回到本文的主題,即DeepSeek為什么會(huì)如此火爆?
一方面是人性使然導(dǎo)致的造神論,這點(diǎn)自古至今從未變過(guò)。另一方面,互聯(lián)網(wǎng)自媒體時(shí)代,媒體和社區(qū)會(huì)不斷助漲這種氛圍,甚至說(shuō)難聽點(diǎn),這是一種捧殺行為,嚴(yán)重點(diǎn)說(shuō)實(shí)在扼殺整個(gè)中國(guó)的創(chuàng)新氛圍。
DeepSeek引起全球關(guān)注甚至詫異本身是件好事,但是這種整個(gè)產(chǎn)業(yè)界甚至全國(guó)性質(zhì)的捧殺,我個(gè)人并不認(rèn)同。
在大模型的方向、技術(shù)路線、資源投入各方面,每個(gè)公司都有差異。
比如有的公司堅(jiān)持長(zhǎng)期主義選擇dense模型,有的公司選擇擴(kuò)展探索面在各種模態(tài)上都發(fā)展業(yè)務(wù),至于像Deepseek押注moe,以及deepseek首先突破應(yīng)用了預(yù)訓(xùn)練fp8(之前有mla),也確實(shí)是一直走在一流團(tuán)隊(duì)的前沿。
借用DeepSeek創(chuàng)始人梁文峰話來(lái)說(shuō):大部分中國(guó)公司習(xí)慣follow,而不是創(chuàng)新。中國(guó)AI和美國(guó)真實(shí)的gap是原創(chuàng)和模仿的差距。如果這個(gè)不改變,中國(guó)永遠(yuǎn)只能是追隨者,所以有些探索是逃不掉的。英偉達(dá)的領(lǐng)先,不只是一個(gè)公司的努力,而是整個(gè)西方技術(shù)社區(qū)和產(chǎn)業(yè)共同努力的結(jié)果。創(chuàng)新首先是一個(gè)信念問(wèn)題,OpenAI并不會(huì)一直領(lǐng)先。
同理,DeepSeek暫時(shí)領(lǐng)先也很難說(shuō)會(huì)一直領(lǐng)先!
我很敬佩梁文峰先生的務(wù)實(shí)和專注風(fēng)格,也很希望國(guó)內(nèi)出現(xiàn)越來(lái)越多的像DeepSeek這樣的產(chǎn)品。很多的前沿創(chuàng)新都是基于務(wù)實(shí)和專注才會(huì)出現(xiàn),希望大家能對(duì)當(dāng)前對(duì)DeepSeek的造神保持警惕。
真正的科技創(chuàng)新型社會(huì)是百花齊放,百舸爭(zhēng)流。