自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Meta公布BLT新架構(gòu)：告別token，擁抱patch

作者：核子可樂 2025-01-22 08:17:03

未來的語言模型可能不再需要僵化的標(biāo)記化機(jī)制。通過以動態(tài)方式直接處理字節(jié)，我們或?qū)?gòu)建起效率更高、更善于處理人類語言復(fù)雜要素的新一代大模型。

譯者 | 核子可樂

審校 | 重樓

Meta發(fā)布的BLT架構(gòu)為大模型擴(kuò)展找到又一條出路，也開啟了用patch方法取代token的全新可能性。

開篇先提問：我們?yōu)槭裁捶堑冒盐谋静鸱殖蓆oken？直接用原始字節(jié)怎么就不行？

要回答這個(gè)問題，我們得先從大語言模型的文本處理方式入手。它們需要用關(guān)于常用詞塊的規(guī)則將文本拆分成一個(gè)個(gè)token，而這個(gè)標(biāo)記化過程也一直面臨質(zhì)疑。無論模型的其余部分在訓(xùn)練期間如何學(xué)習(xí)和適應(yīng)，標(biāo)記化階段的初始規(guī)則都始終保持不變。因此一旦相關(guān)語言的訓(xùn)練數(shù)據(jù)不足、或者訓(xùn)練素材的文本格式比較特殊，大模型的處理能力就將大打折扣。

Meta提出的全新字節(jié)級標(biāo)記化（BLT）架構(gòu)則采用一種完全不同的方法。它不再預(yù)先定義token，而是查看文本的原始字節(jié)，并根據(jù)其可預(yù)測程度以動態(tài)方式對各字節(jié)進(jìn)行分組。如果下一字節(jié)的可預(yù)測度極高（例如可補(bǔ)全為一個(gè)常用詞），該架構(gòu)就會將更多字節(jié)組合起來；而當(dāng)下一字節(jié)不可預(yù)測（例如開始另一新句），則將字節(jié)劃入多個(gè)較小的組。

使用固定推理預(yù)算進(jìn)行訓(xùn)練時(shí)，模型的擴(kuò)展趨勢

傳統(tǒng)基于token的模型（例如Llama 2和3）會根據(jù)推理預(yù)算對模型大小進(jìn)行縮放。相比之下，BLT架構(gòu)則能夠在同等預(yù)算條件下，同時(shí)縮放模型大小與patch大小。patch大小為6和8的BLT模型在性能上迅速超越了Llama 2和3。而在使用更高推理預(yù)算時(shí)，較大的patch大?。ɡ?）則對應(yīng)更佳性能和更高計(jì)算效率。上圖中的垂直線所示，為計(jì)算效率與性能表現(xiàn)的關(guān)鍵交匯點(diǎn)。

這種動態(tài)方法具備以下三大核心優(yōu)勢：

第一，它在性能方面足以比肩Llama 3等基于標(biāo)記器的頂尖模型，同時(shí)以較低的性能損失換取高達(dá)50%的推理次數(shù)削減。更高的計(jì)算效率，意味著該模型能夠以更低資源需求處理文本中的可預(yù)測部分。

第二，它能夠更好地處理極端情況。以需要字符級理解的任務(wù)為例，包括糾正拼寫錯誤或處理較為凌亂的文本，BLT在這些任務(wù)上的表現(xiàn)明顯優(yōu)于基于token的模型，原因就在于它可以直接訪問并操作單個(gè)字符。

第三，它引入了一種新的語言模型擴(kuò)展方法。在基于標(biāo)記器的傳統(tǒng)模型中，擴(kuò)展工作往往面臨一定限制。而BLT架構(gòu)允許同時(shí)增加模型大小和字節(jié)組的平均大小，同時(shí)保持計(jì)算預(yù)算不變。這就為構(gòu)建更高效的大模型開辟了新的可能性。

BLT各核心組件

要了解BLT在實(shí)踐中的工作原理，需從以下三大核心組件入手：

1. 輕量級本地編碼器，負(fù)責(zé)處理原始字節(jié)并根據(jù)其可預(yù)測性進(jìn)行分組。

2. 大型Transformer，負(fù)責(zé)處理各字節(jié)組（即「patch」）。

3. 輕量級本地解碼器，負(fù)責(zé)將patch表示轉(zhuǎn)換回字節(jié)。

BLT架構(gòu)包含三大主要模塊：輕量級本地編碼器，負(fù)責(zé)將輸入字節(jié)轉(zhuǎn)換為patch形式；Latent Transformer，負(fù)責(zé)處理各patch；輕量級本地解碼器，用于生成下一個(gè)字節(jié)patch。BLT使用字節(jié)n-gram嵌入與交叉注意力以增強(qiáng)Latent Transformer與字節(jié)級模塊之間的信息流。與固定詞匯標(biāo)記化不同，BLT會將字節(jié)動態(tài)分組為patch，從而保持對字節(jié)級信息的訪問能力。

架構(gòu)中基于熵的分組機(jī)制特別值得一提。BLT使用小語言模型實(shí)現(xiàn)了令人驚喜的下一字節(jié)預(yù)測效果。一旦遇到很難預(yù)測的字節(jié)（例如新單詞的開頭），BLT會創(chuàng)建一個(gè)邊界并開啟新的ptach。這樣它就能將更多計(jì)算資源用于處理文中最具挑戰(zhàn)性的部分，同時(shí)高效處理難度較低的部分。

以下結(jié)果令人眼前一亮。在標(biāo)準(zhǔn)基準(zhǔn)測試中，BLT的性能已經(jīng)追平甚至超越了Llama 3，而且在需要字符級理解的任務(wù)方面尤其出彩。以測試字符操作的CUTE基準(zhǔn)測試為例，BLT的表現(xiàn)比基于token的模型高出25分以上——相應(yīng)訓(xùn)練數(shù)據(jù)則僅相當(dāng)于最新Llama模型的十六分之一。

8B BLT模型與8B BPE Llama 3的比對結(jié)果。二者均使用1T token訓(xùn)練而成，測試內(nèi)容為針對噪聲及語言結(jié)構(gòu)的穩(wěn)健性任務(wù)。單項(xiàng)最佳結(jié)果以粗體標(biāo)出，整體最佳結(jié)果（包括Llama 3.1）則以下劃線標(biāo)出。很明顯，BLT在多項(xiàng)任務(wù)上的表現(xiàn)均優(yōu)于Llama 3，甚至超越Llama 3.1。這表明字節(jié)級感知具備暴力堆砌訓(xùn)練數(shù)據(jù)所難以實(shí)現(xiàn)的優(yōu)勢。

由此看來，未來的語言模型可能不再需要僵化的標(biāo)記化機(jī)制。通過以動態(tài)方式直接處理字節(jié)，我們或?qū)?gòu)建起效率更高、更善于處理人類語言復(fù)雜要素的新一代大模型。

原文標(biāo)題：Bye Tokens, Hello Patches，作者：Mike Young

責(zé)任編輯：姜華來源： 51CTO內(nèi)容精選

語言模型 BLT架構(gòu)token

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營