Tokenization,再見!Meta提出大概念模型LCM,1B模型干翻70B?
最近,受人類構(gòu)思交流的高層級(jí)思路啟發(fā),Meta AI研究員提出全新語言建模新范式「大概念模型」,解耦語言表示與推理。
網(wǎng)友Chuby興奮地表示:「如果Meta的大概念模型真的有用,那么同等或更高效率的模型,其規(guī)模將更小。比如說1B模型將堪比70B的Llama 4。進(jìn)步如此之大!」
而在最近的訪談中,Meta的首席科學(xué)家Yann LeCun表示下一代AI系統(tǒng)LCM(大概念模型)。新系統(tǒng)將不再單純基于下一個(gè)token預(yù)測,而是像嬰兒和小動(dòng)物那樣通過觀察和互動(dòng)來理解世界。
華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程博士Yuchen Jin,非常認(rèn)同Meta的新論文,認(rèn)為新模型增強(qiáng)了其對「tokenization將一去不復(fù)返」這一看法的信心,而大語言模型要實(shí)現(xiàn)AGI則需要更像人類一樣思考。
甚至有人因此猜測Meta是這次AI競賽的黑馬,他們會(huì)用模型給帶來驚喜。
簡而言之,「大概念模型」(LCM)是在「句子表示空間」對推理(reasoning)建模,拋棄token,直接操作高層級(jí)顯式語義表示信息,徹底讓推理擺脫語言和模態(tài)制約。
具體而言,只需要固定長度的句子嵌入空間的編碼器和解碼器,就可以構(gòu)造LCM,處理流程非常簡單:
- 首先將輸入內(nèi)容分割成句子,然后用編碼器對每個(gè)句子進(jìn)行編碼,以獲得概念序列,即句子嵌入。
- 然后,大概念模型(LCM)對概念序列進(jìn)行處理,在輸出端生成新的概念序列。
- 最后,解碼器將生成的概念解碼為子詞(subword)序列。
論文鏈接:https://arxiv.org/pdf/2412.08821
代碼鏈接:https://github.com/facebookresearch/large_concept_model
文中對推理(inference)效率的分析頗具看點(diǎn):在大約1000個(gè)token數(shù)左右,新模型理論上需要的計(jì)算資源就比LLama2-7b具備優(yōu)勢,且之后隨著下上文中token數(shù)越大,新模型優(yōu)勢越大。具體結(jié)果見論文中的圖15,其中的藍(lán)色表示LLama2-7b模型,紅色和綠色分別代表新模型;紅色的參數(shù)規(guī)模為7b,而綠色為1.6b;右圖是左圖在0-3000的token數(shù)下的局部放大圖。
新模型的其他亮點(diǎn)如下:
- 在抽象的語言和模態(tài)無關(guān)的層面上進(jìn)行推理,超越token:(1)新方法模擬的是底層推理過程,而不是推理在特定語言中的實(shí)例。(2)LCM可同時(shí)對所有語言和模態(tài)進(jìn)行訓(xùn)練,即獲取相關(guān)知識(shí),從而有望以無偏見的方式實(shí)現(xiàn)可擴(kuò)展性。目前支持200種語言文本。
- 明確的層次結(jié)構(gòu):(1)提高長文輸出的可讀性。(2)方便用戶進(jìn)行本地交互式編輯。
- 處理長上下文和長格式輸出:原始的Transformer模型的復(fù)雜性隨序列長度的增加而呈二次方增長,而LCM需要處理的序列至少要短一個(gè)數(shù)量級(jí)。
- 無與倫比的零樣本(zero-shot)泛化能力:LCM可在任何語言或模態(tài)下進(jìn)行預(yù)訓(xùn)練和微調(diào)。
- 模塊化和可擴(kuò)展性:(1)多模態(tài)LLM可能會(huì)受到模態(tài)競爭的影響,而概念編碼器和解碼器則不同,它們可以獨(dú)立開發(fā)和優(yōu)化,不存在任何競爭或干擾。(2)可輕松向現(xiàn)有系統(tǒng)添加新的語言或模態(tài)。
為什么需要「概念」?
雖然大語言模型取得了無可置疑的成功和持續(xù)不斷的進(jìn)步,但現(xiàn)有的LLM都缺少人類智能的一個(gè)重要的特點(diǎn):在多級(jí)別抽象上顯式的推理和規(guī)劃。
人腦并不在單詞層面運(yùn)作。
比如在解決一項(xiàng)復(fù)雜的任務(wù)或撰寫一份長篇文檔時(shí),人類通常采用自上而下的流程:首先在較高的層次上規(guī)劃整體結(jié)構(gòu),然后逐步在較低的抽象層次上添加細(xì)節(jié)。
有人可能會(huì)說,LLM是在隱式地學(xué)習(xí)分層表示,但具有顯式的分層結(jié)構(gòu)模型更適合創(chuàng)建長篇輸出。
新方法將與token級(jí)別的處理大大不同,更靠近在抽象空間的(分層)推理。
上下文在LCM所設(shè)計(jì)的抽象空間內(nèi)表達(dá),但抽象空間與語言或模態(tài)無關(guān)。
也就是說在純粹的語義層面對基本推理過程進(jìn)行建模,而不是對推理在特定語言中的實(shí)例建模。
為了驗(yàn)證新方法,文中將抽象層次限制為2種:子詞token(subword token)和概念。
而所謂的「概念」被定義為整體的不可分的「抽象原子見解」。
在現(xiàn)實(shí)中,一個(gè)概念往往對應(yīng)于文本文檔中的一個(gè)句子,或者等效的語音片段。
作者認(rèn)為,與單詞相比,句子才是實(shí)現(xiàn)語言獨(dú)立性的恰當(dāng)?shù)膯卧?/span>
這與當(dāng)前基于token的LLMs技術(shù)形成了鮮明對比。
大概念模型總體架構(gòu)
訓(xùn)練大概念模型需要句子嵌入空間的解碼器和編碼器。而且可以訓(xùn)練一個(gè)新的嵌入空間,針對推理架構(gòu)進(jìn)行優(yōu)化。
在此研究使用其開源的SONAR作為句子嵌入的解碼器和編碼器。
SONAR解碼器和編碼器(圖中藍(lán)色部分)是固定的,不用訓(xùn)練。
更重要的是,LCM(圖中綠色部分)輸出的概念可以解碼為其他語言或模態(tài),而不必從頭執(zhí)行整個(gè)推理過程。
同樣, 某個(gè)特定的推理操作,如歸納總結(jié),可以在任何語言或模態(tài)的輸入上以零樣本(zero-shot)模式進(jìn)行。
因?yàn)橥评碇恍璨僮鞲拍睢?/span>
總之,LCM既不掌握輸入語言或模態(tài)的信息,也不以特定語言或模態(tài)生成輸出。
在某種程度上,LCM架構(gòu)類似于Jepa方法(見下文),后者也旨在預(yù)測下一個(gè)觀測點(diǎn)在嵌入空間中的表示。
論文鏈接:https://openreview.net/pdf?id=BZ5a1r-kVsf
不過,Jepa更強(qiáng)調(diào)以自監(jiān)督的方式學(xué)習(xí)表示空間,而LCM則不同,它側(cè)重于在現(xiàn)有的嵌入空間中進(jìn)行準(zhǔn)確預(yù)測。
模型架構(gòu)設(shè)計(jì)原理
SONAR嵌入空間
SONAR文本嵌入空間使用編碼器/解碼器架構(gòu)進(jìn)行訓(xùn)練,以固定大小的瓶頸代替交叉注意力,如下圖2。
SONAR廣泛用于機(jī)器翻譯任務(wù),支持200種語言的文本輸入輸出,76種語言的語音輸入和英文輸出。
因?yàn)長CM直接在SONAR概念嵌入上運(yùn)行,因此可對其支持的全部語言和模態(tài)進(jìn)行推理。
數(shù)據(jù)準(zhǔn)備
為了訓(xùn)練和評(píng)估LCM需要將原始文本數(shù)據(jù)集轉(zhuǎn)換為SONAR嵌入序列,每個(gè)句子對應(yīng)嵌入空間的一個(gè)點(diǎn)。
然而處理大型文本數(shù)據(jù)集有幾個(gè)實(shí)際限制。包括精準(zhǔn)的分割句子很難,此外一些句子很長很復(fù)雜,這些都會(huì)給SONAR嵌入空間的質(zhì)量帶來負(fù)面影響。
文中使用SpaCy分割器(記為SpaCy)和Segment any Text (記為SaT)。
其中SpaCy是基于規(guī)則的句子分割器,SaT在token級(jí)別預(yù)測句子的邊界進(jìn)行句子分割。
通過限制句子的長度的長度還定制了新的分割器SpaCy Capped和SaT Capped。
好的分割器產(chǎn)生的片段,經(jīng)過編碼后再解碼而不會(huì)丟失信號(hào),可以獲得更高的AutoBLEU分值。
為了分析分割器器的質(zhì)量,從預(yù)訓(xùn)練數(shù)據(jù)集中抽取了10k份文件,代表了大約500k個(gè)句子。
測試中,使用每個(gè)分割器處理文檔,然后對句子進(jìn)行編碼和解碼,并計(jì)算AutoBLEU分?jǐn)?shù)。
如圖3所示,如果字符上限為200個(gè),與SpaCy Capped相比,SaT Capped方法總是略勝一籌。
然而,隨著句子長度增加,兩種分割器都表現(xiàn)出明顯的性能不足。
當(dāng)句子長度超過250個(gè)字符時(shí),這種性能低下的情況尤為明顯,這突出表明了在不設(shè)置上限的情況下使用分段器的局限性。
Base-LCM
下個(gè)概念預(yù)測(next concept prediction)的基線架構(gòu)是一個(gè)標(biāo)準(zhǔn)的只含解碼器的Transformer,它將一系列先行概念(即句子嵌入)轉(zhuǎn)換為一系列將來的概念。
如圖4所示,Base-LCM配備了「PostNet」和「PreNet」。PreNet對輸入的SONAR嵌入進(jìn)行歸一化處理,并將它們映射到模型的隱藏維度。
Base-LCM在半監(jiān)督任務(wù)上學(xué)習(xí), 模型會(huì)預(yù)測下一個(gè)概念,通過優(yōu)化預(yù)測的下一個(gè)概念與真實(shí)的下一個(gè)概念的距離來優(yōu)化參數(shù),也就是通過MSE回歸來優(yōu)化參數(shù)。
基于擴(kuò)散的LCM(Diffusion-based LCM)
基于擴(kuò)散的LCM是一種生成式潛變量模型,它能學(xué)習(xí)一個(gè)模型分布pθ ,用于逼近數(shù)據(jù)分布q。
與基礎(chǔ)LCM相似,將擴(kuò)散LCM建模被視為自動(dòng)回歸模型,每次在文檔中生成一個(gè)概念。
大概念模型「Large Concept Model」并不是單純的「next token prediction」, 而是某種「next concept predition」,也就是說下一個(gè)概念的生成是以之前的語境為條件的。
具體而言, 在序列的位置n上,模型以之前全部的概念為條件預(yù)測在此處某概念的概率, 學(xué)習(xí)的是連續(xù)嵌入的條件概率。
學(xué)習(xí)連續(xù)數(shù)據(jù)的條件概率,可以借鑒計(jì)算機(jī)視覺中的擴(kuò)散模型用于生成句子嵌入。
在文中討論了如何設(shè)計(jì)不同擴(kuò)展模型用于生成句子嵌入, 包括不同類型的正向加噪過程和反向去噪過程。
根據(jù)不同的方差進(jìn)度(variance schedule), 生成不同的噪音進(jìn)度(noise schedule),從而產(chǎn)生對應(yīng)的前向過程;通過不同的權(quán)重策略,反映不同的初始狀態(tài)對模型的影響。
文中提出了3類噪音進(jìn)度:余弦Cosine,二次函數(shù)Quadratic以及Sigmoid。
并提出了重建損失加權(quán)策略:
論文詳細(xì)討論了不同噪音進(jìn)度和加權(quán)策略策略的影響,結(jié)果如下:
單塔擴(kuò)散LCM(One-Tower Diffusion LCM)
使用圖像領(lǐng)域的擴(kuò)散加速技巧,也可以加速LCM的推理。
如圖6左圖,單塔擴(kuò)散LCM由一個(gè)Transformer主干組成,其任務(wù)是在給定句子嵌入和噪音輸入的條件下預(yù)測干凈的下一個(gè)句子嵌入 。
雙塔擴(kuò)散LCM(Two-Tower Diffusion-LCM)
如圖6右側(cè),雙塔擴(kuò)散LCM模型將前一語境的編碼與下一嵌入的擴(kuò)散分開。
第一個(gè)模型,即上下文標(biāo)注模型,將上下文向量作為輸入,并對其進(jìn)行因果編碼。
也就是說,應(yīng)用一個(gè)帶有因果自關(guān)注的純解碼器Transformer。
然后,上下文分析器的輸出結(jié)果會(huì)被輸入第二個(gè)模型,即去噪器(denoiser)。
它通過迭代去噪潛高斯隱變量來預(yù)測干凈的下一個(gè)句子嵌入 。
去噪器由一系列Transformer和交叉注意力塊組成,交叉注意力塊用于關(guān)注編碼上下文。
去噪器和上下文轉(zhuǎn)換器共享同一個(gè)Transformer隱藏維度。
去噪器中每個(gè)Transformer層(包括交叉注意力層)的每個(gè)區(qū)塊都使用自適應(yīng)層規(guī)范(AdaLN)。
在訓(xùn)練時(shí),Two-Tower的參數(shù)會(huì)針對無監(jiān)督嵌入序列的下一句預(yù)測任務(wù)進(jìn)行優(yōu)化。
因果嵌入在去噪器中移動(dòng)一個(gè)位置,并在交叉注意力層中使用因果掩碼。在上下文向量中預(yù)置一個(gè)零向量,以便預(yù)測序列中的第一個(gè)位置(見圖8)。為了有條件和無條件地訓(xùn)練模型,為無分類器引導(dǎo)縮放推理做準(zhǔn)備,以一定的比率從交叉注意力掩碼中刪除隨機(jī)行,并僅以零向量作為上下文對相應(yīng)位置進(jìn)行去噪處理。
量化LCM
在圖像或語音生成領(lǐng)域,目前有兩種處理連續(xù)數(shù)據(jù)生成的主要方法:一種是擴(kuò)散建模,另一種是先對數(shù)據(jù)進(jìn)行學(xué)習(xí)量化,然后再在這些離散單元的基礎(chǔ)上建模。
此外,文本模態(tài)仍然是離散的,盡管處理的是SONAR空間中的連續(xù)表示,但全部可能的文本句子(少于給定字符數(shù))都是SONAR空間中的點(diǎn)云,而不是真正的連續(xù)分布。
這些考慮因素促使作者探索對SONAR表示進(jìn)行量化,然后在這些離散單元上建模,以解決下一個(gè)句子預(yù)測任務(wù)。
最后,采用這種方法可以自然地使用溫度、top-p或top-k采樣,以控制下一句話表示采樣的隨機(jī)性和多樣性水平。
可以使用殘差矢量量化作為從粗到細(xì)的量化技術(shù)來離散SONAR表示。
矢量量化將連續(xù)輸入嵌入映射到所學(xué)編碼本中最近的元素。
RVQ每次迭代都會(huì)使用額外的碼本,對之前量化的殘余誤差進(jìn)行迭代量化。
在試驗(yàn)中從Common Crawl提取的1500萬個(gè)英語句子上訓(xùn)練了RVQ編碼本,使用64個(gè)量化器,每個(gè)編碼本使用8192個(gè)單元。
RVQ的一個(gè)特性是,第一個(gè)碼本的中心點(diǎn)嵌入累積和是輸入SONAR向量的中等粗略近似。
這樣,在使用SONAR文本解碼器解碼量化嵌入之前,可以先探索碼本數(shù)量SONAR嵌入自動(dòng)編碼BLEU分?jǐn)?shù)的影響。
正如圖9中所示, 隨著編碼本數(shù)量的增加,自動(dòng)編碼BLEU不斷提高。
當(dāng)使用全部64個(gè)碼本時(shí),自動(dòng)編碼BLEU分?jǐn)?shù)約為連續(xù)SONAR內(nèi)嵌時(shí)自動(dòng)編碼BLEU分?jǐn)?shù)的70%。
模型分析
推理效率
作者直接比較了雙塔擴(kuò)散LCM和LLM的推理計(jì)算成本,也就是在不同prompt和輸出總長度(以詞組為單位)的情況下的計(jì)算成本。
具體而言,論文中的圖13,作者分析了理論上大概念模型(LCM)和大語言模型的推理需要的每秒浮點(diǎn)運(yùn)算次數(shù)(flops)。
如左圖所示,只有在非常短的句子(小于等于10個(gè)token), LLM才有優(yōu)勢。
在上下文超過10000個(gè)token左右時(shí),不論是Two-tower LCM(1.6B)還是Two-tower LCM(7B),token數(shù)幾乎不再影響推理需要的計(jì)算量。
SONAR 空間的脆弱性
在潛在空間中建模時(shí),主要依靠誘導(dǎo)幾何(L2-距離)。
然而,任何潛在表示的同質(zhì)歐幾里得幾何都不會(huì)完全符合底層文本語義。
嵌入空間中的微小擾動(dòng)都可能導(dǎo)致解碼后語義信息的急劇丟失,這就是明證。
這種性質(zhì)被叫做嵌入為「脆弱性」。
因此,需要量化語義嵌入(即SONAR代碼)的脆弱性,以便于了解LCM訓(xùn)練數(shù)據(jù)的質(zhì)量以及這種脆弱性如何阻礙LCM的訓(xùn)練動(dòng)態(tài)。
給定一個(gè)文本片段w及其SONAR代碼x=encode(w),將w的脆弱性定義為
隨機(jī)抽取了5000萬個(gè)文本片段,并為每個(gè)樣本生成了9 個(gè)不同噪音水平的擾動(dòng)。且在實(shí)驗(yàn)中,對于外部余弦相似度(CosSim)指標(biāo),使用mGTE作為外部編碼器。
具體的脆弱性得分結(jié)果在圖14中。
圖14中左圖和右圖分別描繪了BLUE和CosSIM得分隨文本長度和噪聲水平變化的曲線。
可以觀察到,BLEU分?jǐn)?shù)的下降速度比余弦相似度更快。
最重要的是,脆性得分對解碼器的選擇很敏感。具體而言,隨著噪聲量的增加,微調(diào)解碼器的自動(dòng)編碼 BLEU 和余弦相似度得分的下降速度明顯低于基本解碼器。
還注意到,在平均擾動(dòng)水平下,總體得分分布如圖15所示,在SONAR樣本中,脆弱性得分差距很大。
這種差異的原因可能是句子長度。與自動(dòng)編碼BLEU指標(biāo)相比(該指標(biāo)在長句子中僅下降1-2%),脆弱性對句子長度更為敏感,在兩種相似性指標(biāo)中都下降得更快。
這表明,使用最大句子長度超過250的SONAR和LCM模型會(huì)面臨極大的挑戰(zhàn)。另一方面,雖然短句的平均魯棒性更高,但在錯(cuò)誤的位置拆分長句可能會(huì)導(dǎo)致更短但更脆弱的子句。
不同任務(wù)的測評(píng)
表10列出了不同基線和LCM在摘要任務(wù)上的結(jié)果,分別包括CNN DailyMail 和 XSum數(shù)據(jù)集。
與經(jīng)過專門調(diào)整的LLM(T5-3B)相比,LCM的Rouge-L(表中的R-L列)分?jǐn)?shù)也具有競爭力。
而較低的OVL-3分?jǐn)?shù)則表示,新模型傾向于生成更抽象的摘要,而不是提取性摘要。LCM產(chǎn)生的重復(fù)次數(shù)比LLM更少,更重要的是,其重復(fù)率更接近真實(shí)的重復(fù)率。
根據(jù)CoLA分類器得分,LCM生成的摘要總體上不太流暢。
不過,在該得分上,即使是人工生成摘要的得分也比LLM低。
在來源歸屬(SH-4)和語義覆蓋(SH-5)上也有類似的現(xiàn)象。
這可能是由于基于模型的指標(biāo)更偏向于LLM生成的內(nèi)容。
表11列出長文檔總結(jié)總結(jié)(LCFO.5%、LCFO.10%和LCFO.20%)的結(jié)果。
在預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)中,LCM只看到了有限數(shù)量的長文檔。
不過,它在這項(xiàng)任務(wù)中表現(xiàn)良好。
在5%和10%的條件下,它在Rouge-L指標(biāo)上優(yōu)于Mistral-7B-v0.3-IT和Gemma-7B-IT。
在5%和10%條件下的度量Rouge-L優(yōu)于Mistral-7B-v0.3-IT和Gemma-7B-IT,在 20%條件下接近Gemma-7B-IT 。
還觀察到,LCM在所有條件下都能獲得較高的SH-5分?jǐn)?shù),也就是說,摘要可以歸因于來源。
LCM的擴(kuò)寫
摘要擴(kuò)展是說在給定摘要的情況下,創(chuàng)建更長的文本,其目標(biāo)并不是重新創(chuàng)建初始文檔的事實(shí)信息,而是評(píng)估模型以有意義和流暢的方式擴(kuò)展輸入文本的能力。
當(dāng)考慮到簡明扼要的文件具有摘要類似的屬性(即主要是從細(xì)節(jié)中抽象出來的獨(dú)立文件)時(shí), 摘要擴(kuò)展任務(wù)可以被描述為生成一個(gè)更長的文檔的行為,該文檔保留了相應(yīng)短文檔中的基本要素以及連接這些要素的邏輯結(jié)構(gòu)。
由于這是一項(xiàng)更加自由的生成任務(wù),因此還需要考慮到連貫性要求(例如,生成的一個(gè)句子中包含的詳細(xì)信息不應(yīng)與另一個(gè)句子中包含的信息相矛盾)。
這里介紹的摘要擴(kuò)展任務(wù)包括將來自CNN DailyMail和XSum的摘要作為輸入,并生成一份長文檔。
表12顯示了CNN DailyMail和XSum的摘要擴(kuò)展結(jié)果。
圖中,加黑加粗的表示最佳的結(jié)果。
零樣本(zero-shot)泛化能力
使用XLSum語料庫測試新模型的泛化能力。
XLSum語料庫是涵蓋45種語言的大規(guī)模多語言抽象新聞?wù)鶞?zhǔn)。
文中將LCM的性能與支持八種語言的Llama-3.1-8B-IT進(jìn)行了比較:英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。
作者在圖 16 中報(bào)告了42種語言的Rouge-L分?jǐn)?shù)。排除了SONAR目前不支持的三種語言:Pidgin、拉丁字母塞爾維亞語和西里爾字母烏茲別克語。
在英語方面,LCM大大優(yōu)于Llama-3.1-8B-IT。
LCM可以很好地推廣到許多其他語言,特別是像南普什圖語、緬甸語、豪薩語或韋爾什語這樣的低資源語言,它們的Rouge-L分?jǐn)?shù)都大于20。
其他表現(xiàn)良好的低資源語言還有索馬里語、伊博語或基隆迪語。
最后,LCM的越南語Rouge-L得分為30.4。
總之,這些結(jié)果凸顯了LCM對其從未見過的語言的令人印象深刻的零樣本(zero-shot)泛化性能。
總結(jié)
此外,文章也描述了顯式規(guī)劃、方法論、相關(guān)方法以及模型限制等。
文章討論的模型和結(jié)果是朝著提高科學(xué)多樣性邁出的一步,也是對當(dāng)前大規(guī)模語言建模最佳實(shí)踐的一種超越。
作者也承認(rèn),要達(dá)到當(dāng)前最強(qiáng)的LLM的性能,還有很長的路要走。