自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Tokenization不存在了?Meta最新研究,無(wú)需Tokenizer的架構(gòu)來(lái)了

人工智能 新聞
該研究提出字節(jié)潛在 Transformer(Byte Latent Transformer,簡(jiǎn)稱(chēng) BLT)挑戰(zhàn)了這種常規(guī)做法。BLT 通過(guò)直接建模原始字節(jié)流,將它們根據(jù)熵動(dòng)態(tài)分組為 patch 以實(shí)現(xiàn)高效計(jì)算。

最近幾天,來(lái)自 Meta 、芝加哥大學(xué)等機(jī)構(gòu)的合著論文《 Byte Latent Transformer: Patches Scale Better Than Tokens 》火了,在 Hacker News 上受到廣泛討論。

圖片

有人表示,非常期待這項(xiàng)研究取得成功,這樣就可以和 tokenizer 拜拜了!

圖片

還有人擔(dān)心的表示,「現(xiàn)在 tokenization 是大多數(shù)模型的基礎(chǔ),這項(xiàng)研究被采用的可能性究竟有多大?」

圖片

總結(jié)而言,該研究提出了一種新的 LLM 思想。傳統(tǒng)的語(yǔ)言模型依賴(lài)于 tokenizer 來(lái)預(yù)處理數(shù)據(jù),但 tokenization 有其固有的局限性,包括固定的詞匯表、處理多語(yǔ)言或噪聲數(shù)據(jù)的效率低下,以及由壓縮啟發(fā)式方法引入的偏見(jiàn)。

該研究提出字節(jié)潛在 Transformer(Byte Latent Transformer,簡(jiǎn)稱(chēng) BLT)挑戰(zhàn)了這種常規(guī)做法。BLT 通過(guò)直接建模原始字節(jié)流,將它們根據(jù)熵動(dòng)態(tài)分組為 patch 以實(shí)現(xiàn)高效計(jì)算。

具體而言,BLT 不需要 tokenizer 架構(gòu),可以直接從原始字節(jié)數(shù)據(jù)中學(xué)習(xí),避免了靜態(tài)詞匯表的限制,并能更好地處理多樣化和帶噪聲的輸入。

基于熵的 Patch:根據(jù)信息復(fù)雜度動(dòng)態(tài)地將字節(jié)分組為 Patch,對(duì)高熵區(qū)域(復(fù)雜輸入)分配更多的計(jì)算資源,在低熵區(qū)域節(jié)省資源。 

高效擴(kuò)展:通過(guò)優(yōu)化 patch 大小并利用輕量級(jí)局部模型,BLT 實(shí)現(xiàn)了與基于 token 模型(如 LLaMA)相當(dāng)或更好的性能,并在推理過(guò)程中節(jié)省高達(dá) 50% 的計(jì)算資源。

魯棒性與靈活性:BLT 在需要字符級(jí)理解、噪聲輸入或長(zhǎng)尾泛化的任務(wù)中表現(xiàn)出色,在許多基準(zhǔn)測(cè)試中超越了基于 token 的架構(gòu)。

圖片

圖源:https://x.com/theraggedflesh/status/1867911485428482131

此外,該研究首次提出了對(duì)字節(jié)級(jí)模型進(jìn)行 flop 控制的擴(kuò)展研究,參數(shù)規(guī)模高達(dá) 8B,訓(xùn)練字節(jié)高達(dá) 4T,從而展示了在沒(méi)有固定詞匯表 tokenization 的情況下,從字節(jié)級(jí)別端到端地大規(guī)模訓(xùn)練模型。

總體而言,BLT 在訓(xùn)練時(shí)的 flop 控制性能與 Llama 3 相當(dāng),同時(shí)在推理時(shí)使用的 flop 減少了高達(dá) 50%。該研究還進(jìn)行了 inference-flop 控制的擴(kuò)展實(shí)驗(yàn)(圖 1),并觀察到與基于 tokenization 架構(gòu)相比,BLT 擴(kuò)展趨勢(shì)明顯更好。


圖片

這篇論文貢獻(xiàn)如下:

  • 提出了 BLT,這是一種字節(jié)潛在 LLM 架構(gòu),動(dòng)態(tài)分配計(jì)算資源以提高 flop 效率;
  • 展示了在 8B(即 80 億)參數(shù)規(guī)模下,能夠?qū)崿F(xiàn)與 Llama 3 模型相當(dāng)?shù)挠?xùn)練 flop 控制,同時(shí)可以通過(guò)犧牲一小部分評(píng)估指標(biāo)來(lái)?yè)Q取高達(dá) 50% 的 flop 效率提升;
  • BLT 模型為擴(kuò)展大型語(yǔ)言模型開(kāi)啟了一個(gè)新的維度,現(xiàn)在可以在保持固定推理預(yù)算的同時(shí)擴(kuò)展模型大小。

圖片

  • 論文標(biāo)題:Byte Latent Transformer: Patches Scale Better Than Tokens
  • 論文地址:https://arxiv.org/pdf/2412.09871
  • 項(xiàng)目地址:https://github.com/facebookresearch/blt

這種無(wú)需 tokenizer 的方法代表了語(yǔ)言建模的重大轉(zhuǎn)變,為更高效、可擴(kuò)展和魯棒的人工智能系統(tǒng)鋪平了道路。

對(duì)此,有研究者表示:「Meta 剛剛殺死了 TOKENIZATION,他們發(fā)布的 BLT 是一種無(wú) tokenizer 的架構(gòu),可以動(dòng)態(tài)地將字節(jié)編碼為 patch,并實(shí)現(xiàn)更好的推理效率和穩(wěn)健性!」

圖片

「2025 年可能是我們告別 tokenization 的一年?!?/span>

圖片

BLT 架構(gòu)

BLT 由一個(gè)對(duì) patch 表征進(jìn)行操作的大型全局自回歸語(yǔ)言模型以及兩個(gè)較小的局部模型組成,兩個(gè)較小的局部模型將字節(jié)序列編碼為 patch 并將 patch 表征解碼回字節(jié)(圖 2)。

圖片

潛在全局 Transformer 模型

潛在全局 Transformer 是一個(gè)具有 l_G 層的自回歸 transformer 模型 G,它將一系列潛在輸入 patch 表征 p_j 映射到一系列輸出 patch 表征 o_j。

論文使用下標(biāo) j 表示 patch,使用下標(biāo) i 表示字節(jié)。全局模型使用塊因果注意力掩碼(Dubey et al., 2024)。

局部編碼器 

局部編碼器模型(用 ε 表示)是一種基于 transformer 的輕量級(jí)模型,具有圖片層,其主要作用是有效地將輸入字節(jié)序列 b_i 映射為表達(dá)性 patch 表征 p_j。與 Transformer 架構(gòu)的主要區(qū)別是在每個(gè) Transformer 層之后添加了一個(gè)交叉注意力層,其功能是將字節(jié)表征池化為 patch 表征(圖 5)。

首先,使用圖片矩陣嵌入輸入字節(jié)序列 b_i ,表示為 x_i 。然后,這些嵌入可以選擇以散列嵌入的形式添加附加信息。然后,一系列交替的 transformer 和交叉注意力層將這些表征轉(zhuǎn)換為由全局 transformer G 處理的 patch 表征 p_i。transformer 層使用局部塊因果注意力掩碼;每個(gè)字節(jié)都關(guān)注前面字節(jié)的固定窗口,該窗口通常可以跨越動(dòng)態(tài) patch 邊界,但不能跨越文檔邊界。

局部解碼器 

與局部編碼器類(lèi)似,局部解碼器 D 是一個(gè)基于 transformer 的輕量級(jí)模型,具有圖片層,它將全局 patch 表征序列 o_j 解碼為原始字節(jié) y_i 。局部解碼器根據(jù)先前解碼的字節(jié)來(lái)預(yù)測(cè)原始字節(jié)序列,因此將局部編碼器為字節(jié)序列生成的隱藏表征作為輸入。它應(yīng)用了一系列交叉注意力層和 transformer 層的 lD 交替層。解碼器中的交叉注意力層在 transformer 層之前應(yīng)用,以首先從 patch 表征創(chuàng)建字節(jié)表征,并且局部解碼器 transformer 層對(duì)生成的字節(jié)序列進(jìn)行操作。

擴(kuò)展趨勢(shì) 

該研究展示了字節(jié)級(jí)模型擴(kuò)展趨勢(shì)的整體圖景,可以為 BLT 模型的進(jìn)一步擴(kuò)展提供信息,旨在通過(guò)以下方式解決先前字節(jié)級(jí)模型研究的局限性:

  • 比較計(jì)算最優(yōu)訓(xùn)練方案的趨勢(shì);
  • 在大量訓(xùn)練上訓(xùn)練匹配的 8B 模型數(shù)據(jù)并評(píng)估下游任務(wù);
  • 測(cè)量推理成本控制設(shè)置中的擴(kuò)展趨勢(shì)。

參數(shù)匹配計(jì)算最優(yōu)擴(kuò)展趨勢(shì) 

使用 Llama 2 數(shù)據(jù)集,該研究訓(xùn)練了四種不同大?。▍?shù)范圍從 1B 到 8B)的各種計(jì)算最優(yōu) bpe 和 BLT 模型。然后在訓(xùn)練數(shù)據(jù)混合物的代表性子集上根據(jù)語(yǔ)言建模性能繪制訓(xùn)練 flops 圖。BPE 模型使用 Llama 3 確定的模型參數(shù)與訓(xùn)練數(shù)據(jù)的最佳比率進(jìn)行訓(xùn)練(Dubey et al., 2024)。這種計(jì)算最優(yōu)設(shè)置理論上旨在在給定的訓(xùn)練預(yù)算內(nèi)實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)集的最佳性能(Hoffmann et al., 2022),為模型提供魯棒的基線。對(duì)于每個(gè) bpe 模型,該研究還使用與相應(yīng) bpe Transformer 的大小和架構(gòu)相匹配的潛在 Transformer 在相同數(shù)據(jù)上訓(xùn)練相應(yīng)的 BLT 模型。 

如圖 6(右)所示,BLT 模型要么相當(dāng),要么優(yōu)于 BPE 模型,并且隨著擴(kuò)展模型大小和 flops,這種趨勢(shì)仍然存在。

圖片

為了進(jìn)一步評(píng)估擴(kuò)展特性,該研究在更大的高質(zhì)量數(shù)據(jù)集 BLT-1T 上訓(xùn)練了一個(gè) 8B 參數(shù)規(guī)模的 BLT 模型。表 1 比較了在 BLT-1T 數(shù)據(jù)集上訓(xùn)練的三個(gè)模型,基于 tokenizer 的 BPE Llama 3 模型和 BLT 模型的兩個(gè)變體(一個(gè)采用空間 - patch 方案 (BLT-Space),另一個(gè)采用基于熵的 patch 方案 (BLT-Entropy))。

結(jié)果顯示,BLT-Entropy 模型在 7 項(xiàng)任務(wù)中的 4 項(xiàng)上的表現(xiàn)優(yōu)于 Llama 3 模型。這種改進(jìn)是由于 (1) 通過(guò)動(dòng)態(tài) patch 更好地利用了訓(xùn)練計(jì)算,以及 (2) 直接對(duì)字節(jié)級(jí)信息進(jìn)行建模,而不是對(duì) token 進(jìn)行建模。

圖片

此外,論文還介紹了 Patch 比 Token 更容易擴(kuò)展。

圖片

總結(jié)來(lái)說(shuō),對(duì) patch 長(zhǎng)度擴(kuò)展研究表明,BLT 這種基于 patch 的架構(gòu)可以通過(guò)同時(shí)增加 patch 和模型的大小來(lái)實(shí)現(xiàn)更好的擴(kuò)展趨勢(shì)。這樣的趨勢(shì)似乎在更大規(guī)模的模型中持續(xù)存在,甚至有所改善。

字節(jié)建模提高魯棒性

字符級(jí)任務(wù)

在對(duì)帶噪聲的 HellaSwag 測(cè)試結(jié)果發(fā)現(xiàn),BLT 確實(shí)在魯棒性方面全面超越了基于 tokenizer 的模型,平均優(yōu)勢(shì)達(dá)到 8 個(gè)百分點(diǎn),甚至超過(guò)了在更大數(shù)據(jù)集上訓(xùn)練的 Llama 3.1 模型。

圖片

圖 7 展示了 Llama 3 tokenizer 模型表現(xiàn)不佳,但 BLT 模型表現(xiàn)良好的幾個(gè)場(chǎng)景。

圖片

表 4 表明,BLT 的表現(xiàn)超過(guò)了使用 Llama 3 tokenizer 訓(xùn)練的模型。在流行的語(yǔ)言對(duì)中,BLT 的表現(xiàn)與 Llama 3 相當(dāng)或略好。然而,在資源較少的語(yǔ)言對(duì)上,BLT 的表現(xiàn)超過(guò)了 Llama 3,這強(qiáng)調(diào)了字節(jié)建模在泛化到長(zhǎng)尾字節(jié)序列上的有效性。

圖片

從 Llama 3 到 BLT 

最后,作者還探討了一種工作流,其中 BLT 模型可以利用經(jīng)過(guò)預(yù)訓(xùn)練的基于 tokenizer 的模型,通過(guò)使用經(jīng)過(guò)預(yù)訓(xùn)練的 Llama 3.1 初始化 BLT 的全局 tokenizer 參數(shù)來(lái)實(shí)現(xiàn)更好更快的訓(xùn)練收斂。表 5 為結(jié)果。

很明顯,經(jīng)過(guò) Llama 3.1 初始化的 BLT 顯著優(yōu)于 Llama 3 和 BLT 基線,這些基線是用相同數(shù)量的 flop 訓(xùn)練的。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-05-14 09:22:51

模型技術(shù)

2023-03-02 11:44:08

AI技術(shù)

2024-12-13 08:25:59

DML操作SQL

2018-07-03 14:20:10

數(shù)據(jù)庫(kù)恢復(fù)備份

2018-07-19 06:14:09

2021-01-25 07:21:24

GitHub 開(kāi)源代碼下載

2023-09-12 08:02:13

viewport斷點(diǎn)

2024-07-22 08:03:55

2020-11-03 10:23:22

云計(jì)算容器技術(shù)

2010-01-05 13:52:02

2015-10-20 10:30:59

創(chuàng)業(yè)時(shí)機(jī)

2009-09-12 09:34:18

Windows 7中國(guó)售價(jià)

2019-12-31 09:11:01

后臺(tái)Android系統(tǒng)

2012-05-16 11:35:16

SQL Server拒絕訪問(wèn)

2017-12-07 14:57:13

404互聯(lián)網(wǎng)錯(cuò)誤代碼

2017-12-26 08:25:57

硬盤(pán)數(shù)據(jù)丟失

2025-02-07 14:08:45

2025-01-07 07:05:00

生成式檢索系統(tǒng)GenAI人工智能

2009-05-05 17:07:56

2024-03-14 08:15:18

COUNT(*)數(shù)據(jù)庫(kù)LIMIT 1?
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)