自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型 Token 究竟是啥:圖解大模型Token

人工智能
前幾天,一個朋友問我:“大模型中的?Token?究竟是什么?”這確實(shí)是一個很有代表性的問題。許多人聽說過 Token 這個概念,但未必真正理解它的作用和意義。思考之后,我決定寫篇文章,詳細(xì)解釋這個話題。

前幾天,一個朋友問我:“大模型中的 Token 究竟是什么?”

這確實(shí)是一個很有代表性的問題。許多人聽說過 Token 這個概念,但未必真正理解它的作用和意義。思考之后,我決定寫篇文章,詳細(xì)解釋這個話題。

圖片圖片

我說:像 DeepSeek 和 ChatGPT 這樣的超大語言模型,都有一個“刀法精湛”的小弟——分詞器(Tokenizer)

圖片圖片

當(dāng)大模型收到一段文字。

圖片圖片

會讓分詞器把它切成很多個小塊。

圖片圖片

這切出來的每一個小塊就叫做一個 Token。

圖片圖片

比如這段話(我喜歡唱、跳、Rap和籃球),在大模型里可能會被切成這個樣子。

圖片圖片

單個漢字,可能是一個 Token。

圖片圖片

兩個漢字構(gòu)成的詞語,也可能是一個 Token。

圖片圖片

三個字構(gòu)成的常見短語,也可能是一個 Token

圖片圖片

一個標(biāo)點(diǎn)符號,也可能是一個 Token。

圖片圖片

一個單詞,或者是幾個字母組成的一個詞綴,也可能是一個 Token

圖片圖片

大模型在輸出文字的時(shí)候,也是一個 Token 一個 Token 的往外蹦,所以看起來可能有點(diǎn)像在打字一樣。

圖片圖片

朋友聽完以后,好像更疑惑了:

圖片圖片

于是,我決定換一個方式,給他通俗解釋一下。

大模型的Token究竟是啥,以及為什么會是這樣。

首先,請大家快速讀一下這幾個字:

圖片圖片

是不是有點(diǎn)沒有認(rèn)出來,或者是需要愣兩秒才可以認(rèn)出來?

但是如果這些字出現(xiàn)在詞語或者成語里,你瞬間就可以念出來。

圖片圖片

那之所以會這樣,是因?yàn)槲覀兊?/span>大腦在日常生活中,喜歡把這些有含義的詞語或者短語,優(yōu)先作為一個整體來對待。

圖片圖片

不到萬不得已,不會去一個字一個字的摳。

圖片圖片

這就導(dǎo)致我們對這些詞語還挺熟悉,單看這些字(旯妁圳侈邯)的時(shí)候,反而會覺得有點(diǎn)陌生。

而大腦??之所以要這么做,是因?yàn)檫@樣可以節(jié)省腦力,咱們的大腦還是非常懂得偷懶的。

圖片圖片

比如 “今天天氣不錯” 這句話,如果一個字一個字的去處理,一共需要有6個部分。

圖片圖片

但是如果劃分成3個、常見有意義的詞。

圖片圖片

就只需要處理3個部分之間的關(guān)系,從而提高效率,節(jié)省腦力

既然人腦可以這么做,那人工智能也可以這么做。

圖片圖片

所以就有了分詞器,專門幫大模型把大段的文字,拆解成大小合適的一個個 Token

圖片

不同的分詞器,它的分詞方法和結(jié)果不一樣。

圖片

分得越合理,大模型就越輕松。這就好比餐廳里負(fù)責(zé)切菜的切配工,它的刀功越好,主廚做起菜來當(dāng)然就越省事。

圖片

分詞器究竟是怎么分的詞呢?

其中一種方法大概是這樣,分詞器統(tǒng)計(jì)了大量文字以后,發(fā)現(xiàn) “蘋果” 這兩個字,經(jīng)常一起出現(xiàn)。

圖片圖片

就把它們打包成一個 Token,給它一個數(shù)字編號,比如 19416。

圖片圖片

然后丟到一個大的詞匯表里。

圖片圖片

這樣下次再看到 “蘋果” 這兩個字的時(shí)候,就可以直接認(rèn)出這個組合就可以了。

然后它可能又發(fā)現(xiàn) “雞” 這個字經(jīng)常出現(xiàn),并且可以搭配不同的其他字。

圖片圖片

于是它就把 “雞” 這個字,打包成一個 Token,給它配一個數(shù)字編號,比如 76074。

圖片圖片

并且丟到詞匯表里。

圖片圖片

它又發(fā)現(xiàn) “ing” 這三個字母經(jīng)常一起出現(xiàn)。

圖片圖片

于是又把 “ing” 這三個字母打包成一個 Token,給它配一個數(shù)字編號,比如 288。

圖片圖片

并且收錄到詞匯表里。

圖片圖片

它又發(fā)現(xiàn) “逗號” 經(jīng)常出現(xiàn)。

圖片圖片

于是又把 “逗號” 也打包作為一個 Token,給它配一個數(shù)字編號,比如 14。

圖片圖片

收錄到詞匯表里。

圖片圖片

經(jīng)過大量統(tǒng)計(jì)收集,分詞器就可以得到一個龐大的Token表。

圖片圖片

可能有5萬個10萬個,甚至更多Token,可以囊括我們?nèi)粘R姷降母鞣N、、符號等等。

圖片圖片

這樣一來,大模型在輸入輸出的時(shí)候,都只需要面對一堆數(shù)字編號就可以了。

圖片圖片

再由分詞器按照Token表,轉(zhuǎn)換成人類可以看懂文字符號。

圖片圖片

這樣一分工,工作效率就非常高。

圖片圖片

有這么一個網(wǎng)站 Tiktokenizer:https://tiktokenizer.vercel.app

圖片圖片

輸入一段話,它就可以告訴你,這段話是由幾個Token構(gòu)成的,分別是什么,以及這幾個Token的編號分別是多少。

圖片圖片

我來演示一下,這個網(wǎng)站有很多模型可以選擇,像 GPT-4o、DeepSeekLLaMA 等等。

圖片圖片

我選的是 DeepSeek,我輸入 “哈哈”,顯示是一個 Token,編號是 11433

圖片圖片

“哈哈哈”,也是一個 Token,編號是 40886

圖片圖片

4個 “哈”,還是一個 Token,編號是 59327

圖片圖片

但是5個 “哈”,就變成了兩個Token,編號分別是 1143340886

圖片圖片

說明大家平常用兩個 “哈” 或者三個的更多。

再來,“一心一意” 是三個 Token。

圖片圖片

“雞蛋” 是一個 Token。

圖片圖片

但是 “鴨蛋” 是兩個 Token。

圖片圖片

“關(guān)羽” 是一個 Token。

圖片圖片

“張飛” 是兩個 Token。

圖片圖片

“孫悟空” 是一個 Token。

圖片圖片

“沙悟凈” 是三個 Token。

圖片圖片

另外,正如前面提到的,不同模型的分詞器可能會有不同的切分結(jié)果。比如,“蘋果” 中的 “” 字,在 DeepSeek 中被拆分成兩個 Token。

圖片圖片

但是在 Qwen 模型里卻是一個 Token。

圖片圖片

所以回過頭來看,Token 到底是什么?

它就是構(gòu)建大模型世界的一塊塊積木。

圖片圖片

大模型之所以能理解和生成文本,就是通過計(jì)算這些 Token 之間的關(guān)系,來預(yù)測下一個最可能出現(xiàn)的 Token。

圖片圖片

這就是為什么幾乎所有大模型公司都按照 Token 數(shù)量計(jì)費(fèi),因?yàn)?Token 數(shù)量直接對應(yīng)背后的計(jì)算成本。

圖片圖片

Token” 這個詞不僅用于人工智能領(lǐng)域,在其他領(lǐng)域也經(jīng)常出現(xiàn)。其實(shí),它們只是恰好都叫這個名字而已。圖片

就像同樣都是 “車?!?/span>汽車模型車展模特,雖然用詞相同,但含義卻截然不同。

圖片圖片

FAQ

1. 蘋為啥會是2個Token?

因?yàn)椤疤O” 字單獨(dú)出現(xiàn)的概率太低,無法獨(dú)立成為一個 Token。

2. 為什么張飛算兩個 Token?

“張” 和 “飛” 一起出現(xiàn)的頻率不夠高,或者“ 張” 字和 “飛” 字的搭配不夠穩(wěn)定,經(jīng)常與其他字組合,因此被拆分為兩個 Token。

Token 在大模型方面最好的翻譯是 '詞元' 非常的信雅達(dá)。

責(zé)任編輯:武曉燕 來源: 程序員NEO
相關(guān)推薦

2024-10-18 14:43:31

2023-10-20 10:09:44

人工智能

2023-10-06 20:30:33

大模型LLMtoken

2020-06-11 09:18:34

動靜分離架構(gòu)架構(gòu)設(shè)計(jì)開發(fā)

2023-11-01 09:50:09

大模型vivo

2014-08-05 09:43:59

超級手機(jī)病毒XXshengqi

2020-04-02 16:21:45

區(qū)塊鏈比特幣數(shù)字貨幣

2022-02-22 08:48:49

AgentClient主機(jī)

2019-01-03 14:45:07

CPUMCUFPGA

2009-08-04 17:27:18

Actor模型

2023-10-18 09:42:09

OpenAIGPU手機(jī)

2011-02-16 16:13:40

Debian

2019-08-27 08:36:34

HiveSpark數(shù)據(jù)庫

2019-04-26 13:55:02

Istio微服務(wù)架構(gòu)

2011-02-28 09:51:43

內(nèi)省

2025-02-25 14:07:25

2019-05-30 16:27:34

2019-07-22 15:29:53

JavaScriptGitHub語言

2018-07-05 16:15:26

緩存數(shù)據(jù)cache miss

2010-08-24 09:19:59

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號