自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Tokenizer不存在了?Meta開源BLT算法!

發(fā)布于 2024-12-18 10:52
瀏覽
0收藏

Tokenizer不存在了?Meta開源BLT算法!-AI.x社區(qū)

分詞化/tokenize 化,是模型理解自然語言的最小單元。但是一些問題,如多語言、錯別字、計算開銷等問題,基于Byte的分詞更為流行。

Meta的這個工作開源Byte Latent Transformer(BLT)的方法。

BLT 的核心思想:

  • 直接處理原始字節(jié):與傳統(tǒng)的基于詞元的模型不同,BLT 直接使用構(gòu)成文本的最小數(shù)字單位-字節(jié)進(jìn)行處理。這從根本上消除了對分詞的需求,避免了分詞可能帶來的誤差和局限性。
  • 動態(tài) patching:這是 BLT 的關(guān)鍵創(chuàng)新。它根據(jù)文本的復(fù)雜度將字節(jié)組合成不同長度的“patch”(可以理解為小塊)。對于簡單的字節(jié)序列,BLT 會使用較大的 patch,從而節(jié)省計算資源;而對于復(fù)雜的區(qū)域,則使用較小的 patch,以提高精度。這種動態(tài)調(diào)整的方式使得 BLT 能夠更有效地利用計算資源。

Tokenizer不存在了?Meta開源BLT算法!-AI.x社區(qū)

Patching(分塊): 是BLT的核心,將原始字節(jié)分成更小的“塊”進(jìn)行處理,優(yōu)化計算效率和上下文相關(guān)性。它比傳統(tǒng)的分詞更靈活。

幾種常見分塊方法:

  1. 固定步長分塊:按固定大小分割字節(jié),簡單易用,但對復(fù)雜數(shù)據(jù)效果不佳。
  2. 空格分塊:以空格為界分割,適合自然語言,但不適用于不使用空格的語言。
  3. 基于熵的分塊:根據(jù)字節(jié)的不可預(yù)測性分割,更智能,能更好地處理復(fù)雜和噪聲數(shù)據(jù)。
  4. BPE分詞器和增量分塊:類似BPE分詞,但無需固定詞匯表,更靈活。

BLT整體架構(gòu),先使用Local Encoder 對字節(jié)轉(zhuǎn)換成patch,然后使用Latent Transformer進(jìn)行語義層面的編碼學(xué)習(xí),最后使用Local Decoder解碼出字節(jié)

Tokenizer不存在了?Meta開源BLT算法!-AI.x社區(qū)

Local Encoder,負(fù)責(zé)將原始字節(jié)數(shù)據(jù)動態(tài)分組為塊:

Tokenizer不存在了?Meta開源BLT算法!-AI.x社區(qū)

  • 基于熵的分組:根據(jù)數(shù)據(jù)復(fù)雜程度(熵值高低)分配計算資源,高熵區(qū)域分配更多資源。
  • 哈希n-gram嵌入:將字節(jié)序列(n-gram)哈希成特征,捕捉字符級模式,尤其適用于噪聲或多語言數(shù)據(jù)。
  • 交叉注意力層:匯集字節(jié)信息到塊表示,捕捉局部和全局上下文。

Latent Transformer,全局處理塊表示,并根據(jù)每個塊的復(fù)雜度動態(tài)調(diào)整計算量:

  • 自適應(yīng)計算分配:不同于傳統(tǒng)Transformer平等對待所有token,潛在Transformer將計算力集中在復(fù)雜數(shù)據(jù)區(qū)域,例如化學(xué)公式或多語言短語比填充詞需要更多計算。
  • 全局上下文感知:使用塊因果注意力機(jī)制處理塊,同時保持序列的整體上下文,確保高信息密度的塊對下游任務(wù)做出有意義的貢獻(xiàn)。

Local Decoder 將經(jīng)過Latent Transformer處理的塊轉(zhuǎn)換回字節(jié)序列:

  • 字節(jié)級解碼:保留BLT的字節(jié)級粒度,高保真地重建文本,適用于拼寫校正或低資源語言處理等需要精度的任務(wù)。
  • 交叉注意力優(yōu)化:類似于編碼器,解碼器使用交叉注意力層優(yōu)化輸出,確保生成文本的連貫性和準(zhǔn)確性。

在與 LLaMA 3 等領(lǐng)先模型進(jìn)行評估時,BLT 在效率和準(zhǔn)確性方面都表現(xiàn)出非常好的性能,MMLU,HellaSwag,Noisy and Real-World Inputs等相比llama3都獲得了更好的結(jié)果。

Tokenizer不存在了?Meta開源BLT算法!-AI.x社區(qū)

通過摒棄分詞并采用基于字節(jié)的建模方法,BLT 解決了目前長期存在的一些問題:

  • 提供了跨語言和文字的一致性表現(xiàn)。
  • 確保了在處理真實世界中混亂、嘈雜的數(shù)據(jù)時的魯棒性。
  • 顯著降低計算成本,使得更大規(guī)模、更復(fù)雜的 NLP 應(yīng)用成為可能。

本文轉(zhuǎn)載自 ??NLP前沿??,作者: ??NLP前沿??




已于2024-12-18 10:54:01修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦