Meta公布BLT新架構(gòu):告別token,擁抱patch 原創(chuàng)
Meta發(fā)布的BLT架構(gòu)為大模型擴(kuò)展找到又一條出路,也開啟了用patch方法取代token的全新可能性。
開篇先提問:我們?yōu)槭裁捶堑冒盐谋静鸱殖蓆oken?直接用原始字節(jié)怎么就不行?
要回答這個(gè)問題,我們得先從大語言模型的文本處理方式入手。它們需要用關(guān)于常用詞塊的規(guī)則將文本拆分成一個(gè)個(gè)token,而這個(gè)標(biāo)記化過程也一直面臨質(zhì)疑。無論模型的其余部分在訓(xùn)練期間如何學(xué)習(xí)和適應(yīng),標(biāo)記化階段的初始規(guī)則都始終保持不變。因此一旦相關(guān)語言的訓(xùn)練數(shù)據(jù)不足、或者訓(xùn)練素材的文本格式比較特殊,大模型的處理能力就將大打折扣。
Meta提出的全新字節(jié)級(jí)標(biāo)記化(BLT)架構(gòu)則采用一種完全不同的方法。它不再預(yù)先定義token,而是查看文本的原始字節(jié),并根據(jù)其可預(yù)測(cè)程度以動(dòng)態(tài)方式對(duì)各字節(jié)進(jìn)行分組。如果下一字節(jié)的可預(yù)測(cè)度極高(例如可補(bǔ)全為一個(gè)常用詞),該架構(gòu)就會(huì)將更多字節(jié)組合起來;而當(dāng)下一字節(jié)不可預(yù)測(cè)(例如開始另一新句),則將字節(jié)劃入多個(gè)較小的組。
使用固定推理預(yù)算進(jìn)行訓(xùn)練時(shí),模型的擴(kuò)展趨勢(shì)
傳統(tǒng)基于token的模型(例如Llama 2和3)會(huì)根據(jù)推理預(yù)算對(duì)模型大小進(jìn)行縮放。相比之下,BLT架構(gòu)則能夠在同等預(yù)算條件下,同時(shí)縮放模型大小與patch大小。patch大小為6和8的BLT模型在性能上迅速超越了Llama 2和3。而在使用更高推理預(yù)算時(shí),較大的patch大?。ɡ?)則對(duì)應(yīng)更佳性能和更高計(jì)算效率。上圖中的垂直線所示,為計(jì)算效率與性能表現(xiàn)的關(guān)鍵交匯點(diǎn)。
這種動(dòng)態(tài)方法具備以下三大核心優(yōu)勢(shì):
第一,它在性能方面足以比肩Llama 3等基于標(biāo)記器的頂尖模型,同時(shí)以較低的性能損失換取高達(dá)50%的推理次數(shù)削減。更高的計(jì)算效率,意味著該模型能夠以更低資源需求處理文本中的可預(yù)測(cè)部分。
第二,它能夠更好地處理極端情況。以需要字符級(jí)理解的任務(wù)為例,包括糾正拼寫錯(cuò)誤或處理較為凌亂的文本,BLT在這些任務(wù)上的表現(xiàn)明顯優(yōu)于基于token的模型,原因就在于它可以直接訪問并操作單個(gè)字符。
第三,它引入了一種新的語言模型擴(kuò)展方法。在基于標(biāo)記器的傳統(tǒng)模型中,擴(kuò)展工作往往面臨一定限制。而BLT架構(gòu)允許同時(shí)增加模型大小和字節(jié)組的平均大小,同時(shí)保持計(jì)算預(yù)算不變。這就為構(gòu)建更高效的大模型開辟了新的可能性。
BLT各核心組件
要了解BLT在實(shí)踐中的工作原理,需從以下三大核心組件入手:
1. 輕量級(jí)本地編碼器,負(fù)責(zé)處理原始字節(jié)并根據(jù)其可預(yù)測(cè)性進(jìn)行分組;
2. 大型Transformer,負(fù)責(zé)處理各字節(jié)組(即「patch」);
3. 輕量級(jí)本地解碼器,負(fù)責(zé)將patch表示轉(zhuǎn)換回字節(jié)。
BLT架構(gòu)包含三大主要模塊:輕量級(jí)本地編碼器,負(fù)責(zé)將輸入字節(jié)轉(zhuǎn)換為patch形式;Latent Transformer,負(fù)責(zé)處理各patch;輕量級(jí)本地解碼器,用于生成下一個(gè)字節(jié)patch。BLT使用字節(jié)n-gram嵌入與交叉注意力以增強(qiáng)Latent Transformer與字節(jié)級(jí)模塊之間的信息流。與固定詞匯標(biāo)記化不同,BLT會(huì)將字節(jié)動(dòng)態(tài)分組為patch,從而保持對(duì)字節(jié)級(jí)信息的訪問能力。
架構(gòu)中基于熵的分組機(jī)制特別值得一提。BLT使用小語言模型實(shí)現(xiàn)了令人驚喜的下一字節(jié)預(yù)測(cè)效果。一旦遇到很難預(yù)測(cè)的字節(jié)(例如新單詞的開頭),BLT會(huì)創(chuàng)建一個(gè)邊界并開啟新的ptach。這樣它就能將更多計(jì)算資源用于處理文中最具挑戰(zhàn)性的部分,同時(shí)高效處理難度較低的部分。
以下結(jié)果令人眼前一亮。在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中,BLT的性能已經(jīng)追平甚至超越了Llama 3,而且在需要字符級(jí)理解的任務(wù)方面尤其出彩。以測(cè)試字符操作的CUTE基準(zhǔn)測(cè)試為例,BLT的表現(xiàn)比基于token的模型高出25分以上——相應(yīng)訓(xùn)練數(shù)據(jù)則僅相當(dāng)于最新Llama模型的十六分之一。
8B BLT模型與8B BPE Llama 3的比對(duì)結(jié)果。二者均使用1T token訓(xùn)練而成,測(cè)試內(nèi)容為針對(duì)噪聲及語言結(jié)構(gòu)的穩(wěn)健性任務(wù)。單項(xiàng)最佳結(jié)果以粗體標(biāo)出,整體最佳結(jié)果(包括Llama 3.1)則以下劃線標(biāo)出。很明顯,BLT在多項(xiàng)任務(wù)上的表現(xiàn)均優(yōu)于Llama 3,甚至超越Llama 3.1。這表明字節(jié)級(jí)感知具備暴力堆砌訓(xùn)練數(shù)據(jù)所難以實(shí)現(xiàn)的優(yōu)勢(shì)。
由此看來,未來的語言模型可能不再需要僵化的標(biāo)記化機(jī)制。通過以動(dòng)態(tài)方式直接處理字節(jié),我們或?qū)?gòu)建起效率更高、更善于處理人類語言復(fù)雜要素的新一代大模型。
原文標(biāo)題:??Bye Tokens, Hello Patches??,作者:Mike Young
