自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

灣區(qū)大神Beren Millidge：整數(shù)tokenization是瘋狂的！原創(chuàng)

發(fā)布于 2024-5-7 09:52

瀏覽

0收藏

在與語言模型花費了很多時間后，我得出結(jié)論，總的來說，tokenization普遍來說是瘋狂的，語言模型能學(xué)到任何東西都是一個奇跡。為了深入探討最近一直困擾我的一個愚蠢的例子，讓我們看一下GPT2分詞器（據(jù)我所知，GPT3也使用相同的分詞器）是如何對整數(shù)進行tokenization的。整數(shù)的tokenization是學(xué)習(xí)和表示數(shù)學(xué)事實的最基本要素，最終，所有GPT的數(shù)學(xué)能力都必須建立在這個基礎(chǔ)上。

主要問題在于，這個分詞器沒有以十進制或者任何連貫的格式來表示數(shù)字。理想的十進制系統(tǒng)應(yīng)該為整數(shù)0到9分配唯一的token，然后將更大的整數(shù)表示為這些唯一token的組合。十進制系統(tǒng)（實際上，以任何連貫的基數(shù)來表示整數(shù)）允許定義加法、減法、乘法等直接算法。

然而，GPT2分詞器沒有這樣做，事實上，它沒有以任何連貫的基數(shù)來表示整數(shù)。十進制數(shù)0到9是硬編碼在其token集中的，以及其余的ASCII字符，但除此之外，BPE算法還將其他常見的數(shù)字塊token化為唯一的token，并且并不總是以連貫的方式。相反，很多整數(shù)都被分配了自己獨特的token。如下圖所示：

灣區(qū)大神Beren Millidge：整數(shù)tokenization是瘋狂的！-AI.x社區(qū)

在GPT2分詞器中前10000個整數(shù)的唯一token繪圖。

每一行在這里代表100個整數(shù)，因此整個矩陣代表了從1到10000的前10000個整數(shù)。如果一個方格被涂成黃色，這意味著該整數(shù)被分配了一個唯一的token標識符，如果是藍色，則該整數(shù)由一組組合的token編碼。我們觀察到，直到521為止的每一個整數(shù)都被分配了自己獨特的token標識符，而且在此之后也有許多數(shù)字被分配了自己的獨特標記。在前10000個整數(shù)中，有916個唯一的token（所以幾乎有1/10的token是唯一的），數(shù)字token占總token空間的約1/50（GPT2的tokenizer大約有50k個token）。這意味著任何涉及這些整數(shù)的計算或數(shù)學(xué)問題必須以某種特殊方式處理，并且純粹基于記憶運作。例如，當給出一個問題像54 + 72 = 126時，模型無法使用正常的加法算法，因為每一個token都是獨一無二的。相反，它必須記憶大量的問題及其答案?；旧?，幾乎所有的兩位數(shù)和大多數(shù)三位數(shù)的加減法問題都必須通過記憶而不是連貫和通用的算法來解決。

如果我們更仔細地檢查這個圖，我們會發(fā)現(xiàn)即使在前1000個數(shù)字之外，仍然有很多獨特的數(shù)字。由于某種原因在訓(xùn)練集中常見的許多可識別的數(shù)字被分配了一個唯一的數(shù)字，這就需要學(xué)習(xí)專門的機制來處理涉及這些數(shù)字的任何計算。還有一個有趣的特征是在1900-2000區(qū)域分配了唯一token的整數(shù)帶。這些代表了常見的日期 - 即從1930年到2020年的日期都分配了唯一的token，因為這些日期在訓(xùn)練集中出現(xiàn)的頻率最高（有趣的是，唯一的token被分配到了2020年，然后突然停止，這使得您可以將tokenizer的創(chuàng)建日期定位在2019年至2020年）。

tokenization的荒謬之處也不僅僅限于許多唯一的token，還包括非唯一的整數(shù)是如何被token化的。對于這些數(shù)字，模型肯定不會采用連貫的十進制系統(tǒng)。相反，它將整數(shù)分成塊，然后以臨時的方式對它們進行token化。整數(shù)被分成塊的方式甚至可以在相鄰的數(shù)字之間變化。例如，數(shù)字2249被token化為“2”和“249”（1-3）。數(shù)字2250被token化為“22”和“50”（2-2），而數(shù)字“2251”則被token化為“225”和“1”（3-1）。

如果我們重復(fù)我們的分析，但為4位數(shù)如何被token化的不同類別著色 - 即作為唯一的、1-3長度的token、2-2 token或3-1 token，我們得到以下結(jié)果。

灣區(qū)大神Beren Millidge：整數(shù)tokenization是瘋狂的！-AI.x社區(qū)

在 GPT2 分詞器中復(fù)合數(shù)字 token 的構(gòu)成圖。

這里明顯存在不隨機的不同編碼策略分布，每1000行都有一種略有重復(fù)的編碼模式。但如果你仔細觀察，你會發(fā)現(xiàn)其具體細節(jié)相當不一致。最終，這意味著即使是執(zhí)行簡單的數(shù)值算法，比如多位數(shù)的加法，模型也必須根據(jù)tokenization的具體細節(jié)學(xué)習(xí)一系列特殊情況，從觀察更大數(shù)字的tokenization來看，這個問題似乎永遠也解決不了，總會有大數(shù)字被不一致地分割成token和偶爾出現(xiàn)的獨特token要處理。作為一個語言模型，真是太難了！

譯自：https://www.beren.io/2023-02-04-Integer-tokenization-is-insane

灣區(qū)大神Beren Millidge：整數(shù)tokenization是瘋狂的！-AI.x社區(qū)

誰是Beren Millidge？

Beren Millidge是舊金山灣區(qū)一家初創(chuàng)公司的聯(lián)合創(chuàng)始人。在此之前，Beren花了一段時間共同創(chuàng)立了 Apollo Research，之前Beren曾擔(dān)任 Conjecture 的研究主管。Beren曾在牛津大學(xué)從事計算神經(jīng)科學(xué)的博士后研究，與 Rafal Bogacz 合作。Beren在愛丁堡大學(xué)完成了機器學(xué)習(xí)和計算神經(jīng)科學(xué)的博士學(xué)位，并在蘇塞克斯大學(xué)作為訪問學(xué)者與 Alexander Tschantz、Chistopher Buckley 和 Anil Seth 合作。

本文轉(zhuǎn)載自公眾號AIGC最前線

原文鏈接：??https://mp.weixin.qq.com/s/mny12p1XKzIeCUGaMgg3fA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

麥肯錫：ChatGPT等生成式AI應(yīng)用激增，大中華區(qū)增長最快

Aceryt ? 2457瀏覽 ? 0回復(fù)
萬引大神: 機器學(xué)習(xí)不存在了

ceesoft ? 2707瀏覽 ? 0回復(fù)
大神Aviral Kumar：價值學(xué)習(xí)真的是離線 RL 的主要瓶頸嗎？

AIGC最前線 ? 2380瀏覽 ? 0回復(fù)
ChatGPT等模型瘋狂訓(xùn)練，最快2026年消耗盡公開文本數(shù)據(jù)

Aceryt ? 3740瀏覽 ? 0回復(fù)
不鎖區(qū)、支持手機、免費使用，Moshi來啦！

Aceryt ? 2817瀏覽 ? 0回復(fù)
RAG 的盡頭是 Agent？

玄姐聊AGI ? 2255瀏覽 ? 0回復(fù)
一句話意外挖出了 Kimi 的隱藏提示詞，原來 Kimi 的限制措施是這么實現(xiàn)的（附完整提示詞）！

wsp_ping ? 1.4w瀏覽 ? 0回復(fù)
【智匯金秋創(chuàng)造季】智匯成海，致敬開發(fā)者的“超級碼力”！

AI.x社區(qū)官方賬號 ? 33.0w瀏覽 ? 148回復(fù)
一區(qū)直接寫！基于SSA+Informer-SENet故障診斷模型

Tang_Lan ? 2522瀏覽 ? 0回復(fù)
中國大模型讓國外陷入瘋狂，成本猛降90%

Aceryt ? 2793瀏覽 ? 0回復(fù)
Kimi思考模型k1.5是怎么練成的？細節(jié)曝光

PaperAgent ? 2833瀏覽 ? 0回復(fù)
AI大神Andrej Karpathy：OpenAI Operator預(yù)示著AI智能體的未來，但仍需突破！

草臺AI ? 1762瀏覽 ? 0回復(fù)
YC合伙人警告：“僅僅在業(yè)務(wù)中調(diào)用OpenAI API，并不會改變創(chuàng)業(yè)公司的命運！”，建議創(chuàng)始人來灣區(qū)定居

51CTO技術(shù)棧 ? 1477瀏覽 ? 0回復(fù)
照著抄秒變AI大神！

草臺AI ? 2048瀏覽 ? 0回復(fù)
一區(qū)直接寫！CEEMDAN + SSA-TCN-BiLSTM-Attention預(yù)測模型

Tang_Lan ? 2001瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會思考的？

機器學(xué)習(xí)與數(shù)學(xué) ? 2870瀏覽 ? 0回復(fù)
大模型是一場新的搜索戰(zhàn)爭，OpenAI不會贏家通吃，一家最好被收購！

51CTO技術(shù)棧 ? 1820瀏覽 ? 0回復(fù)
從架構(gòu)設(shè)計側(cè)剖析： MCP vs A2A 是朋友還是對手？

玄姐聊AGI ? 795瀏覽 ? 0回復(fù)
麥肯錫：什么是AI代理？

chengganfei ? 599瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-09 09:10:30發(fā)布
預(yù)測未來模型能力！微調(diào)揭示LLM涌現(xiàn)能力的關(guān)鍵 2024-12-03 15:46:55發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： ICRA 2024：基于語義增強和動作分塊實現(xiàn)的樣本高效機械臂操作——RoboAgent

下一篇：萬字長文解析：2024年的機器消除學(xué)習(xí)

社區(qū)精華內(nèi)容

目錄

<p id="maxdr"></p>