自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek崛起:如何在AI賽道實(shí)現(xiàn)彎道超車?

人工智能
據(jù)說在 GPT3 的訓(xùn)練中一共看了大約 5,000 億個(gè)單詞,并且預(yù)測(cè)了 10 萬億個(gè) Token,也就是做了 10 萬億次完形填空題來學(xué)習(xí)語(yǔ)言,至于 GPT4,它的規(guī)模比 GPT3 大了 10 倍以上,計(jì)算量和開銷更是不用多說,據(jù)傳訓(xùn)練一次 GPT4 就得花費(fèi)幾千萬美元。

1. 前言

最近 AI 黑馬 DeepSeek 火遍大街小巷,不知道大家都體驗(yàn)過沒有,反正身邊已經(jīng)有很多同學(xué)朋友跑來問我:哎小?,你們公司不也是做 AI(人工智能)的嗎,有聽說過 DeepSeek 嗎?

那顯然聽過,從目前的形勢(shì)來看,它不僅又一次帶動(dòng)國(guó)內(nèi)的 AI 潮,也直接影響了大多數(shù)科技巨頭公司的股票,以及整個(gè)互聯(lián)網(wǎng)經(jīng)濟(jì)。別的不說,就我 2019 年買的互聯(lián)網(wǎng)基金,終于重新回本盈利了 ㄟ(≧◇≦)ㄏ

那么,DeepSeek 有這么厲害嗎?

有人說,它搞崩了美國(guó)的股市,徹底實(shí)現(xiàn)了彎道超車;也有人說,它不過是借著 OpenAI 的東風(fēng),吹得再高也只是曇花一現(xiàn),根本不值一提。

網(wǎng)絡(luò)上的聲音非常兩級(jí)分化,要么吹得天花亂墜,要么嗤之以鼻。

話說回來,聊 AI 這么“高大上”的東西,如果不清楚原理就瞎說,那和耍流氓有啥區(qū)別。但也不能太學(xué)術(shù),畢竟咱也不是專門吃這碗飯的,也不需要了解那么學(xué)術(shù)化的知識(shí),例如下面這種看到就想打瞌睡的:

圖片圖片

所以,DeepSeek 到底是被夸大,還是真的這么牛B,我們今天就用最通俗的語(yǔ)言來科普一下。

2. LLM 大語(yǔ)言模型

首先要想弄明白 AI,咱們還得先搞清楚大語(yǔ)言模型(LLM)。

這么說吧,當(dāng)今社會(huì)上幾乎所有的大語(yǔ)言模型,像什么 OpenAI 的 ChatGPT,谷歌的 Gemini,Meta 的 LLaMA,以及國(guó)內(nèi)比較出名的百度文心一言,華為的盤古,還有咱們今天要說的 DeepSeek,他們都來自同一個(gè)核心結(jié)構(gòu),就是 Transformer(變形金剛的英文)。

Transformer 這個(gè)概念源自 2017 年的來自谷歌團(tuán)隊(duì)的一篇神論文《Attention Is All You Need》,它的第一作者是一位印度裔科學(xué)家,名叫 Ashish Vaswani。

Transformer 最主要的原理名叫 Self-Attention(自注意力機(jī)制),即先挑出一句話里最關(guān)鍵的詞,算一下他們之間的關(guān)聯(lián),最后再推斷出來這句話說了啥。

2.1 AI 理解人類語(yǔ)言

我知道大家可能已經(jīng)聽不下去了,我們下面開始說人話,假設(shè)有這么一句話:“貓坐在墊子上,它很舒服”,這里的 “它” 指的是誰(shuí)?

對(duì)于咱們?nèi)祟惗院苋菀字?,那不就是貓嗎?/span>

可對(duì)于 AI 來說,卻曾經(jīng)是一個(gè)千古難題,因?yàn)樗揪筒焕斫?。那到底要怎么?AI 理解是貓很舒服還是墊子舒服呢?

其實(shí)在這段話里出現(xiàn)了不少概念,有貓、墊子、坐、上、它、舒服等等。

要想讓 AI 區(qū)分他們,就得先給每個(gè)詞都貼上性格標(biāo)簽。

2.2 性格標(biāo)簽

什么是性格標(biāo)簽?

咱們先拿人來打個(gè)比方,大家想象一下,每個(gè)人都有不同性格特征對(duì)吧?可怎么表示能讓計(jì)算機(jī)區(qū)分不同性格的人呢?畢竟計(jì)算機(jī)只能看懂?dāng)?shù)字,于是聰明的科學(xué)家想了個(gè)辦法,給計(jì)算機(jī)做一個(gè)簡(jiǎn)單的二進(jìn)制數(shù)字圖表。

比如內(nèi)向這個(gè)維度,-1 是最內(nèi)向,零是中間,而 1 是最外向。以此類推,還有善良幽默直率等等性格。

圖片圖片

小明很外向 0.8,比較善良 0.6,有一點(diǎn)幽默 0.3;而老王性格有點(diǎn)內(nèi)向是 -0.2,但是他很幽默是 0.7,而且很直率 0.8。

這樣我們就可以通過一組數(shù)字標(biāo)簽,即“數(shù)字向量”,讓計(jì)算機(jī)區(qū)分小明和老王,畢竟計(jì)算機(jī)只認(rèn)數(shù)字不認(rèn)人。

同樣,在 Transformer 處理語(yǔ)言的時(shí)候,他也要給每個(gè)英文單詞或是漢字配上性格標(biāo)簽,也就是剛才說的數(shù)字向量。

圖片圖片

那么咱們?cè)賮砜磩偛啪渥永锍霈F(xiàn)的那些詞匯:

貓是動(dòng)物 0.9,它不是物品 -0.8,有點(diǎn)感情 0.6,體積不算大 0.3

墊子不是動(dòng)物 -0.9,它是物品 0.8,幾乎沒有情感 0.1,它的動(dòng)物屬性是 0.5,物品屬性 0.2,情感 0

有了這些所謂的數(shù)字,也就是數(shù)字向量,一下就可以知道貓大概率是動(dòng)物類,跟墊子差的有點(diǎn)遠(yuǎn);還能明白貓多少有點(diǎn)情感,墊子幾乎沒有情感,而舒服這種情感詞匯更可能說的是貓而不是墊子。

于是,計(jì)算機(jī)聽不懂人話的千古難題,就被一堆數(shù)字的比對(duì)算法給解決了,讓 AI 慢慢地具備了理解我們的能力。

當(dāng)然所謂的理解這種擬人化的說法也只是個(gè)比喻,實(shí)際上模型并沒有自我意識(shí),而是通過無數(shù)次的訓(xùn)練迭代更新參數(shù),逐漸學(xué)會(huì)了在向量空間中表示貓、墊子的概念差異。

說人話就是 AI 需要大量的計(jì)算才能理解一個(gè)單詞,而一句話、一段話甚至一整篇文章,就得需要指數(shù)級(jí)增長(zhǎng)的海量計(jì)算!

2.3 模型訓(xùn)練

那么就到了下一步模型訓(xùn)練,大致我把它總結(jié)為 4 個(gè)步驟。

第一步就是給所有的單詞自動(dòng)編碼,前面咱們已經(jīng)提到了計(jì)算機(jī)它只認(rèn)識(shí)數(shù)字不理解文字,于是 AI 先把所有的單詞轉(zhuǎn)換成一組數(shù)值嵌入向量,這些向量并不是人類人工定好的,而是 AI 通過大規(guī)模的文本學(xué)習(xí)對(duì)比后算出來的。

圖片圖片

在學(xué)習(xí)的過程中,AI 可能會(huì)看到很多關(guān)于貓的句子,比如貓喜歡吃魚,貓和狗都是寵物,于是 AI 發(fā)現(xiàn)貓和狗經(jīng)常出現(xiàn)在類似的句子里,它們可能具有相似的向量,貓和魚也會(huì)經(jīng)常的出現(xiàn)在一起,它們倆之間一定有某種特殊的聯(lián)系。

第二步,通過填空游戲進(jìn)行自監(jiān)督學(xué)習(xí)(Self-Supervised Learning)。為什么叫自監(jiān)督,因?yàn)?AI 沒有老師告訴他每個(gè)單詞的含義,而是自己通過填空游戲來學(xué)習(xí)。在訓(xùn)練的時(shí)候,AI 它會(huì)在海量文本上做完形填空題,比如訓(xùn)練數(shù)據(jù):

AI 可能會(huì)預(yù)測(cè)沙發(fā)、床、墊子概率比較高,比如電風(fēng)扇、燈泡概率比較低。

而每次 AI 猜錯(cuò),它就會(huì)根據(jù)誤差調(diào)整內(nèi)部的向量,也就是那個(gè)詞的標(biāo)簽數(shù)字,讓下一次的預(yù)測(cè)更加的精準(zhǔn),就這么反反復(fù)復(fù)不斷考試,不斷改錯(cuò),一點(diǎn)點(diǎn)學(xué)會(huì)了人類語(yǔ)言的基本規(guī)律。

再說到第三步自注意力機(jī)制(Self-Attention),也就是剛才提到的那篇神論文《Attention Is All You Need》里的關(guān)鍵原理,能讓 AI 自動(dòng)找出句子中最相關(guān)的單詞。

圖片圖片

再看剛才舉的那個(gè)例子,“它” 指代的是什么?句子里的重點(diǎn)是在講什么?貓?jiān)趬|子上睡覺很舒服,AI 計(jì)算出來的相關(guān)性可能會(huì)是:

“它” 是電子的相關(guān)性 0.4,它是貓的相關(guān)性 0.9

就這樣,AI 不僅學(xué)會(huì)了單詞的意思,還理解了詞、句子與句子之間的邏輯關(guān)系。

再到第四步,就是反復(fù)訓(xùn)練加參數(shù)調(diào)整,把上述的填空題和 Self-Attention 的步驟,在海量的數(shù)據(jù)上循環(huán)的進(jìn)行上百萬乃至上億次的訓(xùn)練,每次迭代都會(huì)更新參數(shù),慢慢形成更準(zhǔn)確的理解和推理能力。

最終 AI 學(xué)會(huì)了生成文章,學(xué)會(huì)了回答人類的問題,甚至推斷語(yǔ)境做推理,看起來像是能聽懂了人話,可其實(shí) AI 只是在做算術(shù)。

2.4 GPT 的恐怖計(jì)算量

說到算數(shù),大家一定想問:像訓(xùn)練一個(gè) GPT4 這個(gè)級(jí)別的大語(yǔ)言模型到底需要多少次計(jì)算呢?

在 AI 訓(xùn)練里面通常用也就是浮點(diǎn)運(yùn)算 FLOP 次數(shù)來衡量計(jì)算量,比如一次簡(jiǎn)單的計(jì)算:

圖片圖片

就算一個(gè) FLOP,OpenAI 上一代的產(chǎn)品 GPT3 的計(jì)算次數(shù)就是一個(gè)恐怖的天文數(shù)字,大約一共是 1750 億的參數(shù),用了 3.14×10 的 23次方的 FLOPs,那也就是 3140 萬億億(注意是兩個(gè)億)次浮點(diǎn)運(yùn)算,相當(dāng)于一臺(tái)當(dāng)時(shí)的頂級(jí) GPU A100,以每秒 312 萬億次浮點(diǎn)運(yùn)算的速度連續(xù)運(yùn)行了 355 年,或者是用 3640 臺(tái) A100 一起跑一個(gè)月的時(shí)間。

圖片圖片

據(jù)說在 GPT3 的訓(xùn)練中一共看了大約 5,000 億個(gè)單詞,并且預(yù)測(cè)了 10 萬億個(gè) Token,也就是做了 10 萬億次完形填空題來學(xué)習(xí)語(yǔ)言,至于 GPT4,它的規(guī)模比 GPT3 大了 10 倍以上,計(jì)算量和開銷更是不用多說,據(jù)傳訓(xùn)練一次 GPT4 就得花費(fèi)幾千萬美元。

3. DeepSeek 如何彎道超車

說到這里,鋪墊了那么長(zhǎng),相信大家已經(jīng)有了大致的概念,那么下面咱們終于要說到國(guó)內(nèi)的 DeepSeek 了。

3.1 芯片限制

由于美國(guó)對(duì)中國(guó)的高端芯片制裁,頂尖的 GPU 比如 H100,肯定是不會(huì)賣給中國(guó)的。于是英偉達(dá)給中國(guó)市場(chǎng)提供了一個(gè)專用芯片,叫做 H800,即 H100 的中國(guó)市場(chǎng)閹割版,它的性能大概是 H100 的 60%~77%,也就是 1.3~1.6 倍的差距。

那么下面咱們就要聊到今天的重頭戲,DeepSeek 是如何用 H800 的閹割版 GPU,采用 550 萬左右的成本達(dá)到上億美元 GPT4 的效果呢?答案就是模型蒸餾技術(shù)。

3.2 模型蒸餾

前面我們一直反復(fù)強(qiáng)調(diào),在一開始 GPT 并沒有老師手把手的告訴他每個(gè)單詞的含義,可在模型蒸餾里 DeepSeek 卻找到了老師,而這位老師據(jù)傳正是已經(jīng)訓(xùn)練成熟的 ChatGPT,那到底是怎么教的呢?

咱們還用剛才的例子舉例來說:貓坐在墊子上,它很舒服,“它”指的是什么?

那么基于 DeepSeek 的學(xué)習(xí)步驟如下:第一步輸入數(shù)據(jù)給 GPT,也就是教師模型,這時(shí) GPT 已經(jīng)是一個(gè)經(jīng)過海量數(shù)據(jù)訓(xùn)練的大師了,理解語(yǔ)言非常準(zhǔn)確。

第二步,GPT 生成輸出(軟標(biāo)簽),GPT 分析完了之后可能會(huì)給出一個(gè)這樣的概率分布,比如說:輸出它指的是貓的概率是 85%,它指的是墊子的概率是 15%。

GPT 不僅告訴了 DeepSeek 正確的答案是貓,還能讓 DeepSeek 知道 GPT 在判斷時(shí)的細(xì)節(jié)和關(guān)聯(lián)度。

圖片圖片

不僅如此,DeepSeek 還會(huì)記錄老師的思考過程。除了最終答案,DeepSeek 還可能獲取在中間層的一些其他信息,比如剛才說的注意分?jǐn)?shù)、隱藏狀態(tài)等等,就像是獲得老師的心得筆記。

接下來,即最后一步獲得老師的心得筆記之后,DeepSeek 就不需要從 0 開始琢磨每一個(gè)詞之間的關(guān)系,而是直接學(xué)習(xí)老師的經(jīng)驗(yàn),反復(fù)學(xué)習(xí) GPT 這種軟標(biāo)簽后,DeepSeek 大大縮短了訓(xùn)練時(shí)間,節(jié)省了大量的算力,并且最終可以輸出與 GPT4 相近的結(jié)果。

上述的過程就叫模型蒸餾,用大模型當(dāng)老師,把知識(shí)蒸餾到自己的小模型里,最終 DeepSeek 可以比老師更快給出靠譜的答案,且訓(xùn)練的成本也比老師大大的降低。

除此之外,由于 DeepSeek 是國(guó)內(nèi)訓(xùn)練的大語(yǔ)言模型,所以在模型進(jìn)化的過程中,吸收了很多“本土優(yōu)勢(shì)”,在回答一些國(guó)內(nèi)民生、經(jīng)濟(jì)方面的問題時(shí),比 ChatGPT 會(huì)更貼合實(shí)際一些。

4. 小結(jié)

說了這么多,小?覺得,科技進(jìn)步就像站在巨人的肩膀上打籃球,跳得高才能看得遠(yuǎn)。就像模型蒸餾,小模型有了大模型當(dāng)老師,學(xué)習(xí)起來事半功倍,省時(shí)省力。開源的精神也在于此,它讓知識(shí)在更廣泛的范圍內(nèi)流動(dòng)和共享,激發(fā)出更多的創(chuàng)新火花。

想象一下,有一天 AI 能極大程度幫我們解決工作難題,甚至實(shí)時(shí)監(jiān)測(cè)我們的身體健康。同時(shí),AI 將在醫(yī)療、教育、環(huán)境保護(hù)等領(lǐng)域發(fā)揮更為重要的作用,幫助我們解決當(dāng)今世界面臨的諸多挑戰(zhàn)。

責(zé)任編輯:武曉燕 來源: xin猿意碼
相關(guān)推薦

2017-10-25 14:03:03

2012-05-11 10:10:22

Linux移動(dòng)市場(chǎng)

2017-07-25 11:51:55

算法人工智能數(shù)據(jù)

2020-09-22 18:37:42

辦公

2018-02-26 16:51:57

AI比爾·蓋茨互聯(lián)網(wǎng)

2013-12-13 10:53:48

2015-05-27 15:43:36

DockerIBMPowerSystem

2017-03-15 09:50:51

2017-05-08 13:52:14

2015-11-04 16:30:25

大數(shù)據(jù)

2015-04-03 11:04:16

云計(jì)算IT產(chǎn)業(yè)改變

2019-04-26 19:50:29

人工智能AI5G

2018-03-13 16:29:23

存儲(chǔ)紫光閃存

2021-12-30 21:00:08

數(shù)字人民幣加密貨幣區(qū)塊鏈

2017-05-10 15:21:54

聯(lián)想超融合

2017-06-03 17:34:47

信息化教育信息化云平臺(tái)

2017-10-18 16:53:25

華為
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)