自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="brdu1"></style>

<sub id="brdu1"><p id="brdu1"></p></sub>

<style id="brdu1"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

優(yōu)雅談大模型：Token與分詞方法

發(fā)布于 2024-12-25 12:22

瀏覽

0收藏

1.Token

在繼續(xù)前行之前，需要先停下來澄清下Token這個詞，以及如何將原始的語料轉(zhuǎn)化為Token，在細究背后的原理之后會更加優(yōu)雅的理解大模型。任何的資訊都可以生成語料，而這些語料需要被機器理解以及供后續(xù)的模型訓練，那么最常見的做法是將一段文字先切片，然后一一對應(yīng)的轉(zhuǎn)化為數(shù)字或者向量輸入模型。通常而言有三種類型的分詞法：基于單詞、字符以及子詞的分詞法。單詞和字符這里就不解釋，字詞法運用得最為廣泛，也是最為主流。字詞分詞法包含了BPE、WordPiece、Unigram等。GPT等主流大模型也是采用BPE的分詞法。

優(yōu)雅談大模型：Token與分詞方法-AI.x社區(qū) 圖片

優(yōu)雅談大模型：Token與分詞方法-AI.x社區(qū)

先從個列子開始以GPT-3.5為例，輸入“I must read lubanmochui, it's professional.”，下圖則表明整句話一共43個字符，按照不同的顏色塊被切分成13份（Token）。而且每個Token都有與之對應(yīng)的id。然后輸入中文的時候，發(fā)現(xiàn)24個字符卻被切成了30個Token。

優(yōu)雅談大模型：Token與分詞方法-AI.x社區(qū)

按照常識，中文不是應(yīng)該一個字一個Token。因為這里舉的例子是GPT，一個多語言模型，它覆蓋了國際很多種語言。但是它并沒有特殊的針對中文做適配，因此它采用了一種辦法，將中文轉(zhuǎn)為unicode，然后在按照英文的體系去切分，所以會看到有些切塊是“？”的字符。其實這樣一來，整體效率降低了，而且代價巨大，畢竟收費是基于Token數(shù)。

2.分詞方法

BPE、WordPiece、SentencePiece等方法的技術(shù)專業(yè)性的詳細拆解后續(xù)可以參見??《大模型背后的基礎(chǔ)模型》??這個專欄。

優(yōu)雅談大模型：Token與分詞方法-AI.x社區(qū)

各種分詞法對比，各種分詞法都是基于大的詞匯庫然后按照特定的算法進行學習切分。BPE是貪婪而且是確定的，SentencePiece是可以針對同一個字符串進行反復(fù)的抽樣。

BPE（Byte Pair Encoding）自于論文《Neural Machine Translation of Rare Words with Subword Units》。它是一種基于頻率的分詞方法，它從一個完整的詞匯表開始，迭代地合并出現(xiàn)頻率最高的字符對，直到預(yù)定的詞匯表規(guī)模。例如：“I love lubanmochui.” 使用BPE分詞法，首先將每個單詞分割成字符，然后合并最常見的字符對。也許“l(fā)ove”會變成“l(fā)o”和“ve”，因為“l(fā)o”和“ve”在整個語料庫中頻繁出現(xiàn)。英語中“un”、“est”、“l(fā)ess”也經(jīng)常被單獨提煉出來。

WordPiece來至論文《Japanese and korean voice search》，和BPE一樣在合并字符時除了考慮出現(xiàn)的頻率，還考慮了合并后的token對整體語言模型的貢獻，某種意義是基于概率的分詞法。畢竟有些名詞，例如針對蔬菜名合并和切分的意義不大，保留詞匯的原始意義是最優(yōu)的選擇。

SentencePiece來至論文《Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates》。它是谷歌推出的子詞開源工具包，其中集成了BPE、ULM子詞算法。除此之外，SentencePiece還能支持字符和詞級別的分詞。為了能夠處理多語言問題，SentencePiece將句子視為Unicode編碼序列，從而子詞算法不用依賴于語言的表示。

3.HuggingFace Tokenizer

HuggingFace（重量級的大模型社區(qū)）的介紹會放在后續(xù)，這里主要介紹下HuggingFace提供的Tokenizer的庫。在HuggingFace里面它對于輸入文本的處理流程（黃色部分）如下圖所示，粉色則為處理的輸出結(jié)果。

注意：

GPT, GPT-2, RoBERTa, BART, DeBERTa 等模型使用了 BPE，其中 GPT-2 使用了 byte-level BPE 。

BERT,DistilBERT,MobileBERT,Funnel Transformers,MPNET等模型使用了WordPiece。Hugging Face中的實現(xiàn)是基于已發(fā)表文獻的模擬。

AlBERT,T5,mBART,Big Bird,XLNet等模型使用了 Unigram。

Normalization：標準化步驟，包括一些常規(guī)清理，例如刪除不必要的空格、小寫、以及刪除重音符號
Pre-tokenization：tokenizer 不能單獨在原始文本上進行訓練。相反，我們首先需要將文本拆分為小的單元，例如單詞。這就是pre-tokenization 步驟。基于單詞的tokenizer可以簡單地基于空白和標點符號將原始文本拆分為單詞。這些詞將是tokenizer在訓練期間可以學習的子詞邊界
Model：執(zhí)行tokenization從而生成token序列
Postprocessor：針對具體的任務(wù)插入special token，以及生成attention mask和token-type ID

本文轉(zhuǎn)載自 ??魯班模錘??，作者：龐德公

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

今日arXiv最熱NLP大模型論文：逆向解析Sora背后的秘密，談AI視頻的機遇與挑戰(zhàn)

pangguiyu ? 2820瀏覽 ? 0回復(fù)
專治大模型說胡話，精確率100%！華科等提出首個「故障token」檢測/分類方法

duhorse ? 2117瀏覽 ? 0回復(fù)
next-token被淘汰！Meta實測「多token」訓練方法，推理提速3倍，性能大漲10%+

duhorse ? 2888瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：揭開計算機視覺任務(wù)神秘面紗

魯班模錘1 ? 2694瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：“System2”與“System 1”

魯班模錘1 ? 3647瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：Python編程篇

魯班模錘1 ? 2325瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：LangChain Vs. LlamaIndex

魯班模錘1 ? 2529瀏覽 ? 0回復(fù)
解讀AI大模型，從了解token開始

ermulong ? 2849瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：白話ZeRO 上

魯班模錘1 ? 1984瀏覽 ? 0回復(fù)
解讀AI大模型，從了解token開始

ermulong ? 1886瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：一文讀懂LoRA/DoRA/MoRA

魯班模錘1 ? 3250瀏覽 ? 0回復(fù)
優(yōu)雅談大模型：神經(jīng)網(wǎng)絡(luò)與矩陣

魯班模錘1 ? 1950瀏覽 ? 0回復(fù)
LLM合集：微軟開源新一代視頻token化方法VidTok，打造高性能視頻Token化解決方案

AIPaperDaily ? 1999瀏覽 ? 0回復(fù)
新來的妹子不懂大模型中的token！已勸退...

丁師兄大模型 ? 4682瀏覽 ? 0回復(fù)
三種文本相似計算方法：規(guī)則、向量與大模型裁判

AI悠閑區(qū) ? 2220瀏覽 ? 0回復(fù)
2025年大模型與Transformer架構(gòu)：技術(shù)前沿與未來趨勢報告

歐米伽未來研究所 ? 6064瀏覽 ? 0回復(fù)
三種文本相似計算方法：規(guī)則、向量與大模型裁判

AI悠閑區(qū) ? 2023瀏覽 ? 0回復(fù)
探索基于大型語言模型的智能體：定義、方法與前景

AIRoobt ? 4071瀏覽 ? 0回復(fù)
AI的未來：Bill Dally與Yann LeCun談計算驅(qū)動與世界模型的突破

chengganfei ? 1133瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

學會LLM思維：語料質(zhì)量的自評估 8天前發(fā)布
扒一扒最近較火的MCP 2025-04-10 06:28:30發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：奇思妙想：多頭RAG

下一篇：新鮮速遞：圖解新穎LLM的CoPE位置編碼

社區(qū)精華內(nèi)容

目錄