自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

Tokenizer不存在了？Meta開源BLT算法！

發(fā)布于 2024-12-18 10:52

瀏覽

0收藏

Tokenizer不存在了？Meta開源BLT算法！-AI.x社區(qū)

分詞化/tokenize 化，是模型理解自然語言的最小單元。但是一些問題，如多語言、錯別字、計算開銷等問題，基于Byte的分詞更為流行。

Meta的這個工作開源Byte Latent Transformer（BLT）的方法。

BLT 的核心思想：

直接處理原始字節(jié)：與傳統(tǒng)的基于詞元的模型不同，BLT 直接使用構(gòu)成文本的最小數(shù)字單位-字節(jié)進(jìn)行處理。這從根本上消除了對分詞的需求，避免了分詞可能帶來的誤差和局限性。
動態(tài) patching：這是 BLT 的關(guān)鍵創(chuàng)新。它根據(jù)文本的復(fù)雜度將字節(jié)組合成不同長度的“patch”（可以理解為小塊）。對于簡單的字節(jié)序列，BLT 會使用較大的 patch，從而節(jié)省計算資源；而對于復(fù)雜的區(qū)域，則使用較小的 patch，以提高精度。這種動態(tài)調(diào)整的方式使得 BLT 能夠更有效地利用計算資源。

Tokenizer不存在了？Meta開源BLT算法！-AI.x社區(qū)

Patching（分塊）： 是BLT的核心，將原始字節(jié)分成更小的“塊”進(jìn)行處理，優(yōu)化計算效率和上下文相關(guān)性。它比傳統(tǒng)的分詞更靈活。

幾種常見分塊方法：

固定步長分塊：按固定大小分割字節(jié)，簡單易用，但對復(fù)雜數(shù)據(jù)效果不佳。
空格分塊：以空格為界分割，適合自然語言，但不適用于不使用空格的語言。
基于熵的分塊：根據(jù)字節(jié)的不可預(yù)測性分割，更智能，能更好地處理復(fù)雜和噪聲數(shù)據(jù)。
BPE分詞器和增量分塊：類似BPE分詞，但無需固定詞匯表，更靈活。

BLT整體架構(gòu)，先使用Local Encoder 對字節(jié)轉(zhuǎn)換成patch，然后使用Latent Transformer進(jìn)行語義層面的編碼學(xué)習(xí)，最后使用Local Decoder解碼出字節(jié)

Tokenizer不存在了？Meta開源BLT算法！-AI.x社區(qū)

Local Encoder，負(fù)責(zé)將原始字節(jié)數(shù)據(jù)動態(tài)分組為塊：

Tokenizer不存在了？Meta開源BLT算法！-AI.x社區(qū)

基于熵的分組：根據(jù)數(shù)據(jù)復(fù)雜程度（熵值高低）分配計算資源，高熵區(qū)域分配更多資源。
哈希n-gram嵌入：將字節(jié)序列（n-gram）哈希成特征，捕捉字符級模式，尤其適用于噪聲或多語言數(shù)據(jù)。
交叉注意力層：匯集字節(jié)信息到塊表示，捕捉局部和全局上下文。

Latent Transformer，全局處理塊表示，并根據(jù)每個塊的復(fù)雜度動態(tài)調(diào)整計算量：

自適應(yīng)計算分配：不同于傳統(tǒng)Transformer平等對待所有token，潛在Transformer將計算力集中在復(fù)雜數(shù)據(jù)區(qū)域，例如化學(xué)公式或多語言短語比填充詞需要更多計算。
全局上下文感知：使用塊因果注意力機(jī)制處理塊，同時保持序列的整體上下文，確保高信息密度的塊對下游任務(wù)做出有意義的貢獻(xiàn)。

Local Decoder 將經(jīng)過Latent Transformer處理的塊轉(zhuǎn)換回字節(jié)序列：

字節(jié)級解碼：保留BLT的字節(jié)級粒度，高保真地重建文本，適用于拼寫校正或低資源語言處理等需要精度的任務(wù)。
交叉注意力優(yōu)化：類似于編碼器，解碼器使用交叉注意力層優(yōu)化輸出，確保生成文本的連貫性和準(zhǔn)確性。

在與 LLaMA 3 等領(lǐng)先模型進(jìn)行評估時，BLT 在效率和準(zhǔn)確性方面都表現(xiàn)出非常好的性能，MMLU，HellaSwag，Noisy and Real-World Inputs等相比llama3都獲得了更好的結(jié)果。

Tokenizer不存在了？Meta開源BLT算法！-AI.x社區(qū)

通過摒棄分詞并采用基于字節(jié)的建模方法，BLT 解決了目前長期存在的一些問題：

提供了跨語言和文字的一致性表現(xiàn)。
確保了在處理真實世界中混亂、嘈雜的數(shù)據(jù)時的魯棒性。
顯著降低計算成本，使得更大規(guī)模、更復(fù)雜的 NLP 應(yīng)用成為可能。

本文轉(zhuǎn)載自 ??NLP前沿??，作者： ??NLP前沿??

標(biāo)簽

已于2024-12-18 10:54:01修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

Meta無限長文本大模型來了：參數(shù)僅7B，已開源

輕薄滴假象 ? 2578瀏覽 ? 0回復(fù)
萬引大神: 機(jī)器學(xué)習(xí)不存在了

ceesoft ? 2703瀏覽 ? 0回復(fù)
Meta公司開源大數(shù)據(jù)模型SAM實戰(zhàn)演練

51CTO內(nèi)容精選 ? 2741瀏覽 ? 0回復(fù)
Meta開源用于數(shù)學(xué)等復(fù)雜推理AI Agent—HUSKY

Aceryt ? 2358瀏覽 ? 0回復(fù)
HCCL開源了！華為集合通信庫開源鏈接、拓?fù)?em>算法、常用接口

愛串門的小馬駒 ? 2344瀏覽 ? 0回復(fù)
Meta剛開源llama 3.2多模態(tài)，就被打敗了！

NLP前沿1 ? 2595瀏覽 ? 0回復(fù)
Meta開源多模態(tài)模型——Llama 3.2

Aceryt ? 2627瀏覽 ? 0回復(fù)
LLM實踐系列-詳談Tokenizer訓(xùn)練細(xì)節(jié)

NLP工作站 ? 2860瀏覽 ? 0回復(fù)
KAG開源了，知識增強(qiáng)掀翻RAG，性能翻倍

PaperAgent ? 4792瀏覽 ? 0回復(fù)
Meta開源多模式模型，輕松混合文本和語音

Aceryt ? 1546瀏覽 ? 0回復(fù)
OmniTokenizer-視覺tokenizer生成

shizhi02 ? 1605瀏覽 ? 0回復(fù)
Agent不存在了？誰說必須用 Agent！

探索AGI ? 1796瀏覽 ? 0回復(fù)
Meta公布BLT新架構(gòu)：告別token，擁抱patch

51CTO內(nèi)容精選 ? 1531瀏覽 ? 0回復(fù)
Meta楊立昆引燃全民大討論：美政府有些人被洗腦了，監(jiān)管讓開源變得像非法一樣！

51CTO技術(shù)棧 ? 1698瀏覽 ? 0回復(fù)
DeepSeek并非完美，訓(xùn)練過程存在“深度詛咒”

Aceryt ? 2117瀏覽 ? 0回復(fù)
剛剛，OpenAI 開源了兩個 Agent 項目，手搓 Manus 時代來襲

玄姐聊AGI ? 1833瀏覽 ? 0回復(fù)
DeepSeek與Qwen組團(tuán)開源了模型，沖!

PaperAgent ? 975瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開源最強(qiáng)MoE多模態(tài)模型，1000萬上下文碾壓行業(yè)！

AI博物院 ? 1180瀏覽 ? 0回復(fù)
Meta放大招！Llama 4三大模型來襲，開源免費還超能打

Halo咯咯 ? 1586瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

推理大模型并非一定要推理 7天前發(fā)布
llama 4，開源！ 2025-04-10 07:06:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： OpenAI VS Deepmind：年度最大AI對決！

下一篇： Anthropic最新研究，Claude學(xué)會“演戲”了！

社區(qū)精華內(nèi)容

目錄

<sub id="t5uts"><p id="t5uts"></p></sub>

<blockquote id="t5uts"><i id="t5uts"></i></blockquote>

<cite id="t5uts"><track id="t5uts"></track></cite>