自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

新來的妹子不懂大模型中的token!已勸退...

發(fā)布于 2025-1-9 12:29
瀏覽
0收藏

?相信你只要了解過大模型,就聽過 token 這個(gè)詞兒,大家在用 ChatGPT 的 API 時(shí),是按 token 計(jì)費(fèi)的。

例如,你提問消耗了 100 token,ChatGPT 根據(jù)你的輸入,回答了 200 token,那么一共消費(fèi)的 token 數(shù)就是 300。

有時(shí)候看一些偏技術(shù)的文章,一些模型后面帶著 8k、32k,甚至 100k,這也是指模型能處理的最大 token 長(zhǎng)度。

既然 token 在大模型領(lǐng)域這么高頻出現(xiàn),我們不禁要問:

  • 什么是 token?
  • 它是怎么計(jì)算的?
  • 一個(gè) token 是指一個(gè)字嗎?
  • 中文和英文的 token 是一樣的嗎?

這篇文章我們就來聊聊這些問題,大模型中的"token"是指文本的最小處理單位,在大模型處理中,將文本劃分為 token 是對(duì)文本進(jìn)行分析和處理的基本步驟之一。

通常情況下,一個(gè) token 可以是一個(gè)單詞、一個(gè)標(biāo)點(diǎn)符號(hào)、一個(gè)數(shù)字,或者是其他更小的文本單元,如子詞或字符。

以下是不同 token 切分類型的介紹:

(1)單詞級(jí) token

即 token 是按照單詞進(jìn)行劃分的。一個(gè)句子中的每個(gè)單詞通常都會(huì)成為一個(gè)獨(dú)立的 token。

例如,在句子"我是丁師兄"中,"我"、"是"、"丁師兄"分別是三個(gè)單詞級(jí) token。

(2)標(biāo)點(diǎn)符號(hào)級(jí) token

除了單詞,標(biāo)點(diǎn)符號(hào)通常也作為獨(dú)立的 token 存在。這是因?yàn)闃?biāo)點(diǎn)符號(hào)在語義和語法上都具有重要的作用。

例如,在句子"token 好理解嗎?"中,除了"token 好理解嗎"作為一個(gè)整體的 token 外,最后的問號(hào)"?"也是一個(gè)獨(dú)立的 token。

(3)子詞級(jí) token

為了更好地處理復(fù)雜的語言情況,有時(shí)候?qū)卧~進(jìn)一步劃分為子詞級(jí)的 token。

例如,單詞"unhappiness"可以被劃分為子詞級(jí)token "un-"、"happiness"。

更復(fù)雜一點(diǎn)的,現(xiàn)在大模型比較流行的子詞級(jí) token 還有字節(jié)對(duì)編碼(BPE),這也是 ChatGPT 官方采用的 token 編碼方法,它是通過合并出現(xiàn)頻繁的子詞對(duì)來實(shí)現(xiàn)的。

(4)字符級(jí) token

在某些情況下,特別是在字符級(jí)別的處理任務(wù)中,文本會(huì)被劃分為字符級(jí) token。這樣做可以處理字符級(jí)別的特征和模式。

例如,在句子"Hello!"中,"H"、"e"、"l"、"l"、"o"和"!"分別是六個(gè)字符級(jí) token。

通過對(duì)文本做成一個(gè)一個(gè)的 token,LLM 模型能夠更好地理解和處理語言,從而實(shí)現(xiàn)任務(wù)如文本生成、機(jī)器翻譯、文本分類等。

因此,現(xiàn)在主流的大模型都會(huì)自帶一個(gè) tokenizer,也就是自動(dòng)將輸入文本解析成一個(gè)一個(gè)的 token,然后做編碼(就是查字典,轉(zhuǎn)換成數(shù)字),作為大模型真正的“輸入”。

最后,那么在 ChatGPT 中,一個(gè) token 到底是多長(zhǎng)?

下面是一些有用的經(jīng)驗(yàn)法則,可以幫助理解 token 的實(shí)際長(zhǎng)度:對(duì)于英文文本,1 個(gè) token 大約是 4 個(gè)字符或 0.75 個(gè)單詞。

通常來說,也就是 1000 個(gè) Token 約等于 750 個(gè)英文單詞。對(duì)于中文,1000 個(gè) Token 通常等于 400~500 個(gè)漢字。?

本文轉(zhuǎn)載自 ??丁師兄大模型??,作者: 丁師兄

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦