自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Meta公布BLT新架構(gòu):告別token,擁抱patch

譯文 精選
人工智能
未來的語言模型可能不再需要僵化的標(biāo)記化機(jī)制。通過以動態(tài)方式直接處理字節(jié),我們或?qū)?gòu)建起效率更高、更善于處理人類語言復(fù)雜要素的新一代大模型。

譯者 | 核子可樂

審校 | 重樓

Meta發(fā)布的BLT架構(gòu)為大模型擴(kuò)展找到又一條出路,也開啟了用patch方法取代token的全新可能性。

開篇先提問:我們?yōu)槭裁捶堑冒盐谋静鸱殖蓆oken?直接用原始字節(jié)怎么就不行?

要回答這個(gè)問題,我們得先從大語言模型的文本處理方式入手。它們需要用關(guān)于常用詞塊的規(guī)則將文本拆分成一個(gè)個(gè)token,而這個(gè)標(biāo)記化過程也一直面臨質(zhì)疑。無論模型的其余部分在訓(xùn)練期間如何學(xué)習(xí)和適應(yīng),標(biāo)記化階段的初始規(guī)則都始終保持不變。因此一旦相關(guān)語言的訓(xùn)練數(shù)據(jù)不足、或者訓(xùn)練素材的文本格式比較特殊,大模型的處理能力就將大打折扣。

Meta提出的全新字節(jié)級標(biāo)記化(BLT)架構(gòu)則采用一種完全不同的方法。它不再預(yù)先定義token,而是查看文本的原始字節(jié),并根據(jù)其可預(yù)測程度以動態(tài)方式對各字節(jié)進(jìn)行分組。如果下一字節(jié)的可預(yù)測度極高(例如可補(bǔ)全為一個(gè)常用詞),該架構(gòu)就會將更多字節(jié)組合起來;而當(dāng)下一字節(jié)不可預(yù)測(例如開始另一新句),則將字節(jié)劃入多個(gè)較小的組。

使用固定推理預(yù)算進(jìn)行訓(xùn)練時(shí),模型的擴(kuò)展趨勢

傳統(tǒng)基于token的模型(例如Llama 2和3)會根據(jù)推理預(yù)算對模型大小進(jìn)行縮放。相比之下,BLT架構(gòu)則能夠在同等預(yù)算條件下,同時(shí)縮放模型大小與patch大小。patch大小為6和8的BLT模型在性能上迅速超越了Llama 2和3。而在使用更高推理預(yù)算時(shí),較大的patch大?。ɡ?)則對應(yīng)更佳性能和更高計(jì)算效率。上圖中的垂直線所示,為計(jì)算效率與性能表現(xiàn)的關(guān)鍵交匯點(diǎn)。

這種動態(tài)方法具備以下三大核心優(yōu)勢:

第一,它在性能方面足以比肩Llama 3等基于標(biāo)記器的頂尖模型,同時(shí)以較低的性能損失換取高達(dá)50%的推理次數(shù)削減。更高的計(jì)算效率,意味著該模型能夠以更低資源需求處理文本中的可預(yù)測部分。

第二,它能夠更好地處理極端情況。以需要字符級理解的任務(wù)為例,包括糾正拼寫錯誤或處理較為凌亂的文本,BLT在這些任務(wù)上的表現(xiàn)明顯優(yōu)于基于token的模型,原因就在于它可以直接訪問并操作單個(gè)字符。

第三,它引入了一種新的語言模型擴(kuò)展方法。在基于標(biāo)記器的傳統(tǒng)模型中,擴(kuò)展工作往往面臨一定限制。而BLT架構(gòu)允許同時(shí)增加模型大小和字節(jié)組的平均大小,同時(shí)保持計(jì)算預(yù)算不變。這就為構(gòu)建更高效的大模型開辟了新的可能性。

BLT各核心組件

要了解BLT在實(shí)踐中的工作原理,需從以下三大核心組件入手:

1. 輕量級本地編碼器,負(fù)責(zé)處理原始字節(jié)并根據(jù)其可預(yù)測性進(jìn)行分組。

2. 大型Transformer,負(fù)責(zé)處理各字節(jié)組(即「patch」)。

3. 輕量級本地解碼器,負(fù)責(zé)將patch表示轉(zhuǎn)換回字節(jié)。

BLT架構(gòu)包含三大主要模塊:輕量級本地編碼器,負(fù)責(zé)將輸入字節(jié)轉(zhuǎn)換為patch形式;Latent Transformer,負(fù)責(zé)處理各patch;輕量級本地解碼器,用于生成下一個(gè)字節(jié)patch。BLT使用字節(jié)n-gram嵌入與交叉注意力以增強(qiáng)Latent Transformer與字節(jié)級模塊之間的信息流。與固定詞匯標(biāo)記化不同,BLT會將字節(jié)動態(tài)分組為patch,從而保持對字節(jié)級信息的訪問能力。

架構(gòu)中基于熵的分組機(jī)制特別值得一提。BLT使用小語言模型實(shí)現(xiàn)了令人驚喜的下一字節(jié)預(yù)測效果。一旦遇到很難預(yù)測的字節(jié)(例如新單詞的開頭),BLT會創(chuàng)建一個(gè)邊界并開啟新的ptach。這樣它就能將更多計(jì)算資源用于處理文中最具挑戰(zhàn)性的部分,同時(shí)高效處理難度較低的部分。

以下結(jié)果令人眼前一亮。在標(biāo)準(zhǔn)基準(zhǔn)測試中,BLT的性能已經(jīng)追平甚至超越了Llama 3,而且在需要字符級理解的任務(wù)方面尤其出彩。以測試字符操作的CUTE基準(zhǔn)測試為例,BLT的表現(xiàn)比基于token的模型高出25分以上——相應(yīng)訓(xùn)練數(shù)據(jù)則僅相當(dāng)于最新Llama模型的十六分之一。

8B BLT模型與8B BPE Llama 3的比對結(jié)果。二者均使用1T token訓(xùn)練而成,測試內(nèi)容為針對噪聲及語言結(jié)構(gòu)的穩(wěn)健性任務(wù)。單項(xiàng)最佳結(jié)果以粗體標(biāo)出,整體最佳結(jié)果(包括Llama 3.1)則以下劃線標(biāo)出。很明顯,BLT在多項(xiàng)任務(wù)上的表現(xiàn)均優(yōu)于Llama 3,甚至超越Llama 3.1。這表明字節(jié)級感知具備暴力堆砌訓(xùn)練數(shù)據(jù)所難以實(shí)現(xiàn)的優(yōu)勢。

由此看來,未來的語言模型可能不再需要僵化的標(biāo)記化機(jī)制。通過以動態(tài)方式直接處理字節(jié),我們或?qū)?gòu)建起效率更高、更善于處理人類語言復(fù)雜要素的新一代大模型。

原文標(biāo)題:Bye Tokens, Hello Patches,作者:Mike Young

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2024-07-09 13:06:52

2024-12-17 10:40:26

2018-12-17 09:57:11

服務(wù)器LinuxBoot開源

2020-07-10 10:48:01

基礎(chǔ)架構(gòu)

2015-10-08 13:48:00

Cocos引擎

2023-11-24 12:36:00

模型訓(xùn)練

2024-09-18 00:15:58

2024-05-20 15:19:25

訓(xùn)練模型

2015-06-11 10:19:18

新聞熱點(diǎn)

2021-09-03 10:45:12

量子計(jì)算芯片超算

2015-11-27 14:38:46

中國軟件資訊網(wǎng)

2010-10-22 14:43:09

移動開發(fā)

2023-08-07 15:13:28

VR模型

2015-06-23 10:53:30

互聯(lián)網(wǎng)+華三通信

2018-07-25 11:53:39

IBM業(yè)務(wù)永續(xù)人機(jī)融合

2016-04-28 16:57:07

AWS

2024-03-11 04:00:00

C#除List遍歷

2022-06-17 14:41:54

VR數(shù)字人

2022-12-05 16:55:01

AI模型

2015-04-16 16:05:25

博科/網(wǎng)絡(luò)建設(shè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號