自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek“出圈”了,鵝廠(chǎng)人怎么看?

人工智能
DeepSeek被一些人稱(chēng)為“AI技術(shù)的重大突破”,甚至被認(rèn)為是下一代人工智能發(fā)展的重要方向。今天,我們邀請(qǐng)了13位工程師同事,來(lái)一起聊聊DeepSeek。

話(huà)題背景

在人工智能領(lǐng)域,大型語(yǔ)言模型的快速發(fā)展引發(fā)了無(wú)數(shù)關(guān)于技術(shù)革新和未來(lái)趨勢(shì)的討論。隨著各類(lèi)AI技術(shù)的不斷突破,越來(lái)越多的創(chuàng)新模型開(kāi)始嶄露頭角,而最近備受關(guān)注的DeepSeek更是成為了熱議的焦點(diǎn)。它被一些人稱(chēng)為“AI技術(shù)的重大突破”,甚至被認(rèn)為是下一代人工智能發(fā)展的重要方向。

今天,我們邀請(qǐng)了13位工程師同事,來(lái)一起聊聊DeepSeek。

鵝廠(chǎng)工程師的看法

1.  foxy-后臺(tái)開(kāi)發(fā)工程師 

機(jī)器可以思考了。通過(guò)強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了推理能力自主進(jìn)化,而不是簡(jiǎn)單搜索整合。便宜了。用1/20的成本達(dá)到GPT4o效果,極大降低硬件成本。開(kāi)源了。模型、代碼、論文全部開(kāi)源,做了 OpenAI 本應(yīng)該做的。

2. chao-應(yīng)用開(kāi)發(fā)工程師 

強(qiáng)大之處在于可以正常交流,而不是有門(mén)檻。

(1) 拆解需求:按照 who+what+limit+format

  • 我是____身份 (我是誰(shuí))
  • 我要解決______問(wèn)題  (我想解決什么問(wèn)題)
  • 必須包含______細(xì)節(jié)  (回答需要什么,不要什么)
  • 想要______格式的結(jié)果 (按照什么格式輸出) 

(2) 套用公式:按“身份→任務(wù)→細(xì)節(jié)→格式”順序重組問(wèn)題:  

“作為(身份),請(qǐng)(任務(wù)),要求(細(xì)節(jié)),用(格式)輸出”  

(3) 迭代優(yōu)化:一次問(wèn)不準(zhǔn)沒(méi)關(guān)系,重點(diǎn)是要會(huì)繼續(xù)補(bǔ)充細(xì)節(jié):  

  • 增加:“請(qǐng)重點(diǎn)說(shuō)明_____”  
  • 限制:“排除______情況”  
  • 調(diào)整:“改為_(kāi)_____風(fēng)格”  

(4) 注意:  

  • 一次不要問(wèn)太多(3個(gè)),可以多聊幾輪。
  • 不要讓AI去猜,有什么直接說(shuō)。但限制條件也不能太多(3個(gè))。

3.  bran-應(yīng)用研究員 

用戶(hù)角度:1,體驗(yàn)免費(fèi)方便,價(jià)格便宜2,回答問(wèn)題質(zhì)量高3,深度思考功能,可以直接看到模型的完整思考過(guò)程

社會(huì)公眾角度:

  • 各項(xiàng)專(zhuān)業(yè)測(cè)評(píng)上和open ai提供的api基本持平,不一定“又贏了”,但肯定是不再“絕對(duì)地落后”了
  • 推出當(dāng)天,英偉達(dá)市值蒸發(fā)4000多億美金
  • open ai最近的英文回答中,中英文參雜概率大幅提升,基本坐實(shí)他們也在用deepseek的數(shù)據(jù)做訓(xùn)練,咱們也算做了點(diǎn)“技術(shù)輸出”

技術(shù)角度:

  • 業(yè)界首創(chuàng),跑通了完全的大規(guī)模強(qiáng)化學(xué)習(xí),意味著不再需要大量人工清洗的數(shù)據(jù)和復(fù)雜的微調(diào),整體訓(xùn)練非常簡(jiǎn)潔優(yōu)雅(基本上給大部份大模型公司指明了方向)
  • 第一個(gè)跑通的千億參數(shù)FP8大模型。FP8代表所有模型參數(shù)都用8bit來(lái)存,其他家都是32bit或者16bit來(lái)存一個(gè)模型參數(shù),這一下就節(jié)省了非常多顯存(屬于大家都知道要這樣優(yōu)化,但工程和技術(shù)上的坑填不動(dòng),最后deepseek第一個(gè)實(shí)現(xiàn)了)
  • 使用他們的大模型數(shù)據(jù),再去訓(xùn)練“小模型”(其實(shí)是參數(shù)量相對(duì)較小的大模型),可以讓“小模型”效果提升非常多。最終導(dǎo)致現(xiàn)在可以用一塊2000多塊的英偉達(dá)3060本地部署一個(gè)相當(dāng)不錯(cuò)的模型。這下很多有臺(tái)式機(jī)的用戶(hù)都能體驗(yàn)本地部署模型的樂(lè)趣了(獨(dú)樂(lè)樂(lè)不如眾樂(lè)樂(lè),臺(tái)式機(jī)可比數(shù)據(jù)中心多太多了)

其他的補(bǔ)充點(diǎn):

  • 防杠:上文說(shuō)的“業(yè)界首創(chuàng)”和“第一個(gè)跑通”,不包括open ai。因?yàn)閛pen ai非常close,無(wú)法評(píng)估他們做到什么程度
  • 一點(diǎn)猜測(cè):deepseek最近狂招硬件工程師,加上他們?cè)谀P陀?xùn)練過(guò)程中已經(jīng)體現(xiàn)出了對(duì)英偉達(dá)原生api的爆改能力,推測(cè)他們有機(jī)會(huì)在國(guó)產(chǎn)gpu上做點(diǎn)文章
  • talk is cheap,show you the paper: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

4.  young-應(yīng)用開(kāi)發(fā)工程師 

最大的核心是 RL策略創(chuàng)新 + 減少人工干預(yù)??深A(yù)見(jiàn)未來(lái)如果AI算法找對(duì)了優(yōu)化策略,將強(qiáng)大到可怕

5.  bill-產(chǎn)品運(yùn)營(yíng) 

我不是技術(shù)人,但是deepseek啟示我的是要相信自己的第一判斷。之前關(guān)于大模型,很多人告訴我,包括技術(shù)專(zhuān)家告訴我的都是“這是一個(gè)黑箱”,輸出的邏輯和結(jié)果不可控。我從一開(kāi)始就質(zhì)疑這不不合理。但是被技術(shù)大拿教育說(shuō)就是這樣的,所以也沒(méi)有太多挑戰(zhàn)??墒莇eepseek出來(lái)以后,它不僅不是黑箱,而且非常詳細(xì)的先說(shuō)明自己的決策過(guò)程,再給你結(jié)論。這就使得整個(gè)決策過(guò)程可以看到,用戶(hù)也可根據(jù)deepseek的邏輯思考過(guò)程,給出更細(xì)的要求,從而輸出更適合的結(jié)論。

有人說(shuō)deepseek是回歸了人類(lèi)的思考邏輯。我的啟示是:為什么我沒(méi)有堅(jiān)持大模型應(yīng)該回歸了人類(lèi)的思考邏輯?認(rèn)為黑箱不合理的肯定我一個(gè)人,但為什么大多都沒(méi)有提出它的不合理性,知道deepseek去改變了它?所以,人還是要回歸最基礎(chǔ)的需求,要敢于相信和堅(jiān)持自己的第一判斷。

6. lovise-前端開(kāi)發(fā)工程師 

主要還是找到一條低成本從gpt4到o1的技術(shù)路線(xiàn)(通過(guò)強(qiáng)化學(xué)習(xí)),并且還開(kāi)源了,大家都能復(fù)現(xiàn)。而且這條路線(xiàn)還很有前景,模型現(xiàn)在能自主領(lǐng)悟新技能(有點(diǎn)像alpha zero,啥人類(lèi)下棋方法都不用教,最后自己就能領(lǐng)悟并超越人類(lèi)),因此繼續(xù)堆算力訓(xùn)練,優(yōu)化算法,模型能力還能繼續(xù)進(jìn)化。

7. zihao-運(yùn)營(yíng)開(kāi)發(fā)工程師 

個(gè)人理解是ds與gpt的區(qū)別在于,它能讓更多的人參與進(jìn)來(lái)迭代更新,降低了入門(mén)門(mén)檻。ds出來(lái)前,訓(xùn)練一個(gè)大模型的成本是基本只有一線(xiàn)的公司能負(fù)擔(dān)得起的,其他中小公司和大學(xué)的實(shí)驗(yàn)室根本沒(méi)有碰的可能,更別說(shuō)在原有的基礎(chǔ)上對(duì)算法進(jìn)行優(yōu)化(因?yàn)槟銢](méi)有足夠用于驗(yàn)證的算力),而且就算你有足夠的算力,你只能在最初開(kāi)源的gpt上慢慢迭代優(yōu)化(后面open ai變成了close ai),基本不可能優(yōu)于最新的gpt,相當(dāng)于浪費(fèi)投入,先發(fā)優(yōu)勢(shì)上open ai已完勝。

ds一方面降低了算力成本,而且又開(kāi)源,相當(dāng)于把open ai的兩條護(hù)城河給填了,大家都能來(lái)入局,而且因?yàn)殚_(kāi)源,我能基于當(dāng)前開(kāi)源項(xiàng)目的最新特性進(jìn)行優(yōu)化,大家一起搭橋總比一個(gè)人摸著石頭過(guò)河好,能少走很多彎路。

8. alexzx-后臺(tái)開(kāi)發(fā)工程師 

因?yàn)楸阋?、好用、開(kāi)源,而且性能接近gpt o1。我去年年底就開(kāi)始試著用ds,目前大部分情況下都可以平替gpt,自己部署的成本也不高。

9. frank-后臺(tái)策略安全

推理和思考的過(guò)程相比以前AI黑盒子,更好用了,從他的思維過(guò)程,我反而能學(xué)到一些東西,另外推理出來(lái)的結(jié)果,確實(shí)準(zhǔn),好用,特別是專(zhuān)業(yè)領(lǐng)域的問(wèn)題

10.   tylert-游戲運(yùn)營(yíng) 

客觀來(lái)說(shuō)模型方面感覺(jué)沒(méi)啥提高的,就是打平而已,但成本效率確實(shí)大大提高了,符合降本增效的前提,就好比你原來(lái)需要20個(gè)人團(tuán)隊(duì)做的事情,DS現(xiàn)在只需要1個(gè)人就能做得差不多~

11. leo-應(yīng)用研究員

單純看論文,有點(diǎn)嘩眾取寵的意思??,Deepseek的論文中也有類(lèi)似的工作。

對(duì)于算力的需求,有個(gè)Jevons悖論,講的是第一次工業(yè)革命期間,蒸汽機(jī)效率的提高不僅沒(méi)有降低煤炭總量的消耗,反而有所提升。因?yàn)橄M(fèi)總量 = 消費(fèi)量 * 單價(jià)。只有足夠便宜,才有機(jī)會(huì)普及。

因此,降本無(wú)論是對(duì)技術(shù)發(fā)展、生態(tài)繁榮,還是對(duì)英偉達(dá)本身,我覺(jué)得都是利好。只有更多的玩家能上牌桌,牌局才能更精彩。

但相比于其他開(kāi)源模型,DS的技術(shù)突破主要是算法+工程的優(yōu)化(以DeepSeek-R1-Zero為例)

主要在以下幾方面:

  • SFT-FREE:區(qū)別于其他大模型需要進(jìn)行SFT,DS首次實(shí)現(xiàn)純粹依賴(lài)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。
  • 可拓展的強(qiáng)化學(xué)習(xí)設(shè)計(jì):采用rule-based的方法設(shè)計(jì)獎(jiǎng)勵(lì)信號(hào),確保RL訓(xùn)練的可拓展性(scaling)。
  • 高效的參數(shù)儲(chǔ)存優(yōu)化:采取FP8的參數(shù)儲(chǔ)存方法,大幅度降低了緩存成本。

除了技術(shù)創(chuàng)新外,我覺(jué)得DS出現(xiàn)所代表的更深遠(yuǎn)的意義是,它證明了國(guó)內(nèi)團(tuán)隊(duì)已經(jīng)具備組織高密度人才進(jìn)行前沿創(chuàng)新的能力。

12.  joliph-客戶(hù)端安全 

可以從官方價(jià)格和其他獨(dú)立部署的價(jià)格就知道它的infra的優(yōu)勢(shì)有多大了。

13.  leicong-技術(shù)產(chǎn)品 

deepseek也有好多版本,比如v3、R1、R1 zero,就V3而言,感覺(jué)更多是工程上的優(yōu)勢(shì),也就不管是注意力的計(jì)算還是后面的FNN,很多計(jì)算上的細(xì)節(jié)做了工程上的優(yōu)化,包括精簡(jiǎn)、壓縮、分片、就近等不同的工程化策略,最終達(dá)到了對(duì)算力要求從量變到質(zhì)變的效果

責(zé)任編輯:趙寧寧 來(lái)源: 騰訊技術(shù)工程
相關(guān)推薦

2025-03-10 00:00:00

2021-03-10 08:05:10

Nginx面試并發(fā)

2020-12-09 15:24:15

安全計(jì)算競(jìng)賽

2020-11-17 06:57:15

存儲(chǔ)互聯(lián)網(wǎng)用戶(hù)

2025-02-17 09:50:00

DeepSeekAI模型

2020-12-11 08:42:06

Kona 開(kāi)源JDK

2019-03-03 15:23:43

2023-03-21 15:47:03

開(kāi)發(fā)編程

2019-05-06 08:54:29

華為編程程序員

2013-03-04 11:11:14

2016-08-31 09:46:03

IBM存儲(chǔ)IBM存儲(chǔ)

2021-07-28 16:34:06

Python鴻星爾克數(shù)據(jù)

2023-06-15 09:54:23

2021-11-28 21:21:57

Windows 10Windows微軟

2018-09-06 08:46:15

騰訊秋招跳槽

2024-12-19 15:41:17

2018-01-11 12:43:32

區(qū)塊鏈科技比特幣

2016-09-17 00:28:16

2018-11-09 14:47:54

AIAI并購(gòu)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)