自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="f2gag"></style>

<cite id="f2gag"><track id="f2gag"></track></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

Tokenization，再見！Meta提出大概念模型LCM，1B模型干翻70B？

作者：新智元 2025-01-08 09:30:00

人工智能新聞

Meta提出大概念模型，拋棄token，采用更高級(jí)別的「概念」在句子嵌入空間上建模，徹底擺脫語言和模態(tài)對模型的制約。

最近，受人類構(gòu)思交流的高層級(jí)思路啟發(fā)，Meta AI研究員提出全新語言建模新范式「大概念模型」，解耦語言表示與推理。

網(wǎng)友Chuby興奮地表示：「如果Meta的大概念模型真的有用，那么同等或更高效率的模型，其規(guī)模將更小。比如說1B模型將堪比70B的Llama 4。進(jìn)步如此之大！」

而在最近的訪談中，Meta的首席科學(xué)家Yann LeCun表示下一代AI系統(tǒng)LCM（大概念模型）。新系統(tǒng)將不再單純基于下一個(gè)token預(yù)測，而是像嬰兒和小動(dòng)物那樣通過觀察和互動(dòng)來理解世界。

華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程博士Yuchen Jin，非常認(rèn)同Meta的新論文，認(rèn)為新模型增強(qiáng)了其對「tokenization將一去不復(fù)返」這一看法的信心，而大語言模型要實(shí)現(xiàn)AGI則需要更像人類一樣思考。

甚至有人因此猜測Meta是這次AI競賽的黑馬，他們會(huì)用模型給帶來驚喜。

簡而言之，「大概念模型」（LCM）是在「句子表示空間」對推理（reasoning）建模，拋棄token，直接操作高層級(jí)顯式語義表示信息，徹底讓推理擺脫語言和模態(tài)制約。

具體而言，只需要固定長度的句子嵌入空間的編碼器和解碼器，就可以構(gòu)造LCM，處理流程非常簡單：

首先將輸入內(nèi)容分割成句子，然后用編碼器對每個(gè)句子進(jìn)行編碼，以獲得概念序列，即句子嵌入。
然后，大概念模型（LCM）對概念序列進(jìn)行處理，在輸出端生成新的概念序列。
最后，解碼器將生成的概念解碼為子詞（subword）序列。

論文鏈接：https://arxiv.org/pdf/2412.08821

代碼鏈接：https://github.com/facebookresearch/large_concept_model

文中對推理（inference）效率的分析頗具看點(diǎn)：在大約1000個(gè)token數(shù)左右，新模型理論上需要的計(jì)算資源就比LLama2-7b具備優(yōu)勢，且之后隨著下上文中token數(shù)越大，新模型優(yōu)勢越大。具體結(jié)果見論文中的圖15，其中的藍(lán)色表示LLama2-7b模型，紅色和綠色分別代表新模型；紅色的參數(shù)規(guī)模為7b，而綠色為1.6b；右圖是左圖在0-3000的token數(shù)下的局部放大圖。

新模型的其他亮點(diǎn)如下：

在抽象的語言和模態(tài)無關(guān)的層面上進(jìn)行推理，超越token：（1）新方法模擬的是底層推理過程，而不是推理在特定語言中的實(shí)例。（2）LCM可同時(shí)對所有語言和模態(tài)進(jìn)行訓(xùn)練，即獲取相關(guān)知識(shí)，從而有望以無偏見的方式實(shí)現(xiàn)可擴(kuò)展性。目前支持200種語言文本。
明確的層次結(jié)構(gòu):（1）提高長文輸出的可讀性。（2）方便用戶進(jìn)行本地交互式編輯。
處理長上下文和長格式輸出：原始的Transformer模型的復(fù)雜性隨序列長度的增加而呈二次方增長，而LCM需要處理的序列至少要短一個(gè)數(shù)量級(jí)。
無與倫比的零樣本（zero-shot）泛化能力：LCM可在任何語言或模態(tài)下進(jìn)行預(yù)訓(xùn)練和微調(diào)。
模塊化和可擴(kuò)展性：（1）多模態(tài)LLM可能會(huì)受到模態(tài)競爭的影響，而概念編碼器和解碼器則不同，它們可以獨(dú)立開發(fā)和優(yōu)化，不存在任何競爭或干擾。（2）可輕松向現(xiàn)有系統(tǒng)添加新的語言或模態(tài)。

為什么需要「概念」？

雖然大語言模型取得了無可置疑的成功和持續(xù)不斷的進(jìn)步，但現(xiàn)有的LLM都缺少人類智能的一個(gè)重要的特點(diǎn)：在多級(jí)別抽象上顯式的推理和規(guī)劃。

人腦并不在單詞層面運(yùn)作。

比如在解決一項(xiàng)復(fù)雜的任務(wù)或撰寫一份長篇文檔時(shí)，人類通常采用自上而下的流程：首先在較高的層次上規(guī)劃整體結(jié)構(gòu)，然后逐步在較低的抽象層次上添加細(xì)節(jié)。

有人可能會(huì)說，LLM是在隱式地學(xué)習(xí)分層表示，但具有顯式的分層結(jié)構(gòu)模型更適合創(chuàng)建長篇輸出。

新方法將與token級(jí)別的處理大大不同，更靠近在抽象空間的（分層）推理。

上下文在LCM所設(shè)計(jì)的抽象空間內(nèi)表達(dá)，但抽象空間與語言或模態(tài)無關(guān)。

也就是說在純粹的語義層面對基本推理過程進(jìn)行建模，而不是對推理在特定語言中的實(shí)例建模。

為了驗(yàn)證新方法，文中將抽象層次限制為2種：子詞token（subword token）和概念。

而所謂的「概念」被定義為整體的不可分的「抽象原子見解」。

在現(xiàn)實(shí)中，一個(gè)概念往往對應(yīng)于文本文檔中的一個(gè)句子，或者等效的語音片段。

作者認(rèn)為，與單詞相比，句子才是實(shí)現(xiàn)語言獨(dú)立性的恰當(dāng)?shù)膯卧?/span>

這與當(dāng)前基于token的LLMs技術(shù)形成了鮮明對比。

大概念模型總體架構(gòu)

訓(xùn)練大概念模型需要句子嵌入空間的解碼器和編碼器。而且可以訓(xùn)練一個(gè)新的嵌入空間，針對推理架構(gòu)進(jìn)行優(yōu)化。

在此研究使用其開源的SONAR作為句子嵌入的解碼器和編碼器。

SONAR解碼器和編碼器（圖中藍(lán)色部分）是固定的，不用訓(xùn)練。

更重要的是，LCM（圖中綠色部分）輸出的概念可以解碼為其他語言或模態(tài)，而不必從頭執(zhí)行整個(gè)推理過程。

同樣，某個(gè)特定的推理操作，如歸納總結(jié)，可以在任何語言或模態(tài)的輸入上以零樣本（zero-shot）模式進(jìn)行。

因?yàn)橥评碇恍璨僮鞲拍睢?/span>

總之，LCM既不掌握輸入語言或模態(tài)的信息，也不以特定語言或模態(tài)生成輸出。

在某種程度上，LCM架構(gòu)類似于Jepa方法（見下文），后者也旨在預(yù)測下一個(gè)觀測點(diǎn)在嵌入空間中的表示。

論文鏈接：https://openreview.net/pdf?id=BZ5a1r-kVsf

不過，Jepa更強(qiáng)調(diào)以自監(jiān)督的方式學(xué)習(xí)表示空間，而LCM則不同，它側(cè)重于在現(xiàn)有的嵌入空間中進(jìn)行準(zhǔn)確預(yù)測。

模型架構(gòu)設(shè)計(jì)原理

SONAR嵌入空間

SONAR文本嵌入空間使用編碼器/解碼器架構(gòu)進(jìn)行訓(xùn)練，以固定大小的瓶頸代替交叉注意力，如下圖2。

SONAR廣泛用于機(jī)器翻譯任務(wù)，支持200種語言的文本輸入輸出，76種語言的語音輸入和英文輸出。

因?yàn)長CM直接在SONAR概念嵌入上運(yùn)行，因此可對其支持的全部語言和模態(tài)進(jìn)行推理。

數(shù)據(jù)準(zhǔn)備

為了訓(xùn)練和評(píng)估LCM需要將原始文本數(shù)據(jù)集轉(zhuǎn)換為SONAR嵌入序列，每個(gè)句子對應(yīng)嵌入空間的一個(gè)點(diǎn)。

然而處理大型文本數(shù)據(jù)集有幾個(gè)實(shí)際限制。包括精準(zhǔn)的分割句子很難，此外一些句子很長很復(fù)雜，這些都會(huì)給SONAR嵌入空間的質(zhì)量帶來負(fù)面影響。

文中使用SpaCy分割器（記為SpaCy）和Segment any Text （記為SaT）。

其中SpaCy是基于規(guī)則的句子分割器，SaT在token級(jí)別預(yù)測句子的邊界進(jìn)行句子分割。

通過限制句子的長度的長度還定制了新的分割器SpaCy Capped和SaT Capped。

好的分割器產(chǎn)生的片段，經(jīng)過編碼后再解碼而不會(huì)丟失信號(hào)，可以獲得更高的AutoBLEU分值。

為了分析分割器器的質(zhì)量，從預(yù)訓(xùn)練數(shù)據(jù)集中抽取了10k份文件，代表了大約500k個(gè)句子。

測試中，使用每個(gè)分割器處理文檔，然后對句子進(jìn)行編碼和解碼，并計(jì)算AutoBLEU分?jǐn)?shù)。

如圖3所示，如果字符上限為200個(gè)，與SpaCy Capped相比，SaT Capped方法總是略勝一籌。

然而，隨著句子長度增加，兩種分割器都表現(xiàn)出明顯的性能不足。

當(dāng)句子長度超過250個(gè)字符時(shí)，這種性能低下的情況尤為明顯，這突出表明了在不設(shè)置上限的情況下使用分段器的局限性。

Base-LCM

下個(gè)概念預(yù)測（next concept prediction）的基線架構(gòu)是一個(gè)標(biāo)準(zhǔn)的只含解碼器的Transformer，它將一系列先行概念（即句子嵌入）轉(zhuǎn)換為一系列將來的概念。

如圖4所示，Base-LCM配備了「PostNet」和「PreNet」。PreNet對輸入的SONAR嵌入進(jìn)行歸一化處理，并將它們映射到模型的隱藏維度。

Base-LCM在半監(jiān)督任務(wù)上學(xué)習(xí)，模型會(huì)預(yù)測下一個(gè)概念，通過優(yōu)化預(yù)測的下一個(gè)概念與真實(shí)的下一個(gè)概念的距離來優(yōu)化參數(shù)，也就是通過MSE回歸來優(yōu)化參數(shù)。

基于擴(kuò)散的LCM（Diffusion-based LCM）

基于擴(kuò)散的LCM是一種生成式潛變量模型，它能學(xué)習(xí)一個(gè)模型分布pθ ，用于逼近數(shù)據(jù)分布q。

與基礎(chǔ)LCM相似，將擴(kuò)散LCM建模被視為自動(dòng)回歸模型，每次在文檔中生成一個(gè)概念。

大概念模型「Large Concept Model」并不是單純的「next token prediction」，而是某種「next concept predition」,也就是說下一個(gè)概念的生成是以之前的語境為條件的。

具體而言，在序列的位置n上，模型以之前全部的概念為條件預(yù)測在此處某概念的概率，學(xué)習(xí)的是連續(xù)嵌入的條件概率。

學(xué)習(xí)連續(xù)數(shù)據(jù)的條件概率，可以借鑒計(jì)算機(jī)視覺中的擴(kuò)散模型用于生成句子嵌入。

在文中討論了如何設(shè)計(jì)不同擴(kuò)展模型用于生成句子嵌入，包括不同類型的正向加噪過程和反向去噪過程。

根據(jù)不同的方差進(jìn)度（variance schedule），生成不同的噪音進(jìn)度（noise schedule），從而產(chǎn)生對應(yīng)的前向過程；通過不同的權(quán)重策略，反映不同的初始狀態(tài)對模型的影響。

文中提出了3類噪音進(jìn)度：余弦Cosine，二次函數(shù)Quadratic以及Sigmoid。

并提出了重建損失加權(quán)策略：

論文詳細(xì)討論了不同噪音進(jìn)度和加權(quán)策略策略的影響，結(jié)果如下：

單塔擴(kuò)散LCM（One-Tower Diffusion LCM）

使用圖像領(lǐng)域的擴(kuò)散加速技巧，也可以加速LCM的推理。

如圖6左圖，單塔擴(kuò)散LCM由一個(gè)Transformer主干組成，其任務(wù)是在給定句子嵌入和噪音輸入的條件下預(yù)測干凈的下一個(gè)句子嵌入。

雙塔擴(kuò)散LCM（Two-Tower Diffusion-LCM）

如圖6右側(cè)，雙塔擴(kuò)散LCM模型將前一語境的編碼與下一嵌入的擴(kuò)散分開。

第一個(gè)模型，即上下文標(biāo)注模型，將上下文向量作為輸入，并對其進(jìn)行因果編碼。

也就是說，應(yīng)用一個(gè)帶有因果自關(guān)注的純解碼器Transformer。

然后，上下文分析器的輸出結(jié)果會(huì)被輸入第二個(gè)模型，即去噪器（denoiser）。

它通過迭代去噪潛高斯隱變量來預(yù)測干凈的下一個(gè)句子嵌入。

去噪器由一系列Transformer和交叉注意力塊組成，交叉注意力塊用于關(guān)注編碼上下文。

去噪器和上下文轉(zhuǎn)換器共享同一個(gè)Transformer隱藏維度。

去噪器中每個(gè)Transformer層（包括交叉注意力層）的每個(gè)區(qū)塊都使用自適應(yīng)層規(guī)范（AdaLN）。

在訓(xùn)練時(shí)，Two-Tower的參數(shù)會(huì)針對無監(jiān)督嵌入序列的下一句預(yù)測任務(wù)進(jìn)行優(yōu)化。

因果嵌入在去噪器中移動(dòng)一個(gè)位置，并在交叉注意力層中使用因果掩碼。在上下文向量中預(yù)置一個(gè)零向量，以便預(yù)測序列中的第一個(gè)位置（見圖8）。為了有條件和無條件地訓(xùn)練模型，為無分類器引導(dǎo)縮放推理做準(zhǔn)備，以一定的比率從交叉注意力掩碼中刪除隨機(jī)行，并僅以零向量作為上下文對相應(yīng)位置進(jìn)行去噪處理。

量化LCM

在圖像或語音生成領(lǐng)域，目前有兩種處理連續(xù)數(shù)據(jù)生成的主要方法：一種是擴(kuò)散建模，另一種是先對數(shù)據(jù)進(jìn)行學(xué)習(xí)量化，然后再在這些離散單元的基礎(chǔ)上建模。

此外，文本模態(tài)仍然是離散的，盡管處理的是SONAR空間中的連續(xù)表示，但全部可能的文本句子（少于給定字符數(shù)）都是SONAR空間中的點(diǎn)云，而不是真正的連續(xù)分布。

這些考慮因素促使作者探索對SONAR表示進(jìn)行量化，然后在這些離散單元上建模，以解決下一個(gè)句子預(yù)測任務(wù)。

最后，采用這種方法可以自然地使用溫度、top-p或top-k采樣，以控制下一句話表示采樣的隨機(jī)性和多樣性水平。

可以使用殘差矢量量化作為從粗到細(xì)的量化技術(shù)來離散SONAR表示。

矢量量化將連續(xù)輸入嵌入映射到所學(xué)編碼本中最近的元素。

RVQ每次迭代都會(huì)使用額外的碼本，對之前量化的殘余誤差進(jìn)行迭代量化。

在試驗(yàn)中從Common Crawl提取的1500萬個(gè)英語句子上訓(xùn)練了RVQ編碼本，使用64個(gè)量化器，每個(gè)編碼本使用8192個(gè)單元。

RVQ的一個(gè)特性是，第一個(gè)碼本的中心點(diǎn)嵌入累積和是輸入SONAR向量的中等粗略近似。

這樣，在使用SONAR文本解碼器解碼量化嵌入之前，可以先探索碼本數(shù)量SONAR嵌入自動(dòng)編碼BLEU分?jǐn)?shù)的影響。

正如圖9中所示，隨著編碼本數(shù)量的增加，自動(dòng)編碼BLEU不斷提高。

當(dāng)使用全部64個(gè)碼本時(shí)，自動(dòng)編碼BLEU分?jǐn)?shù)約為連續(xù)SONAR內(nèi)嵌時(shí)自動(dòng)編碼BLEU分?jǐn)?shù)的70%。

模型分析

推理效率

作者直接比較了雙塔擴(kuò)散LCM和LLM的推理計(jì)算成本，也就是在不同prompt和輸出總長度（以詞組為單位）的情況下的計(jì)算成本。

具體而言，論文中的圖13，作者分析了理論上大概念模型（LCM）和大語言模型的推理需要的每秒浮點(diǎn)運(yùn)算次數(shù)(flops)。

如左圖所示，只有在非常短的句子（小于等于10個(gè)token）， LLM才有優(yōu)勢。

在上下文超過10000個(gè)token左右時(shí)，不論是Two-tower LCM（1.6B）還是Two-tower LCM（7B），token數(shù)幾乎不再影響推理需要的計(jì)算量。

SONAR 空間的脆弱性

在潛在空間中建模時(shí)，主要依靠誘導(dǎo)幾何（L2-距離）。

然而，任何潛在表示的同質(zhì)歐幾里得幾何都不會(huì)完全符合底層文本語義。

嵌入空間中的微小擾動(dòng)都可能導(dǎo)致解碼后語義信息的急劇丟失，這就是明證。

這種性質(zhì)被叫做嵌入為「脆弱性」。

因此，需要量化語義嵌入（即SONAR代碼）的脆弱性，以便于了解LCM訓(xùn)練數(shù)據(jù)的質(zhì)量以及這種脆弱性如何阻礙LCM的訓(xùn)練動(dòng)態(tài)。

給定一個(gè)文本片段w及其SONAR代碼x=encode(w)，將w的脆弱性定義為

隨機(jī)抽取了5000萬個(gè)文本片段，并為每個(gè)樣本生成了9 個(gè)不同噪音水平的擾動(dòng)。且在實(shí)驗(yàn)中，對于外部余弦相似度(CosSim)指標(biāo)，使用mGTE作為外部編碼器。

具體的脆弱性得分結(jié)果在圖14中。

圖14中左圖和右圖分別描繪了BLUE和CosSIM得分隨文本長度和噪聲水平變化的曲線。

可以觀察到，BLEU分?jǐn)?shù)的下降速度比余弦相似度更快。

最重要的是，脆性得分對解碼器的選擇很敏感。具體而言，隨著噪聲量的增加，微調(diào)解碼器的自動(dòng)編碼 BLEU 和余弦相似度得分的下降速度明顯低于基本解碼器。

還注意到，在平均擾動(dòng)水平下，總體得分分布如圖15所示，在SONAR樣本中，脆弱性得分差距很大。

這種差異的原因可能是句子長度。與自動(dòng)編碼BLEU指標(biāo)相比（該指標(biāo)在長句子中僅下降1-2%），脆弱性對句子長度更為敏感，在兩種相似性指標(biāo)中都下降得更快。

這表明，使用最大句子長度超過250的SONAR和LCM模型會(huì)面臨極大的挑戰(zhàn)。另一方面，雖然短句的平均魯棒性更高，但在錯(cuò)誤的位置拆分長句可能會(huì)導(dǎo)致更短但更脆弱的子句。

不同任務(wù)的測評(píng)

表10列出了不同基線和LCM在摘要任務(wù)上的結(jié)果，分別包括CNN DailyMail 和 XSum數(shù)據(jù)集。

與經(jīng)過專門調(diào)整的LLM（T5-3B）相比，LCM的Rouge-L（表中的R-L列）分?jǐn)?shù)也具有競爭力。

而較低的OVL-3分?jǐn)?shù)則表示，新模型傾向于生成更抽象的摘要，而不是提取性摘要。LCM產(chǎn)生的重復(fù)次數(shù)比LLM更少，更重要的是，其重復(fù)率更接近真實(shí)的重復(fù)率。

根據(jù)CoLA分類器得分，LCM生成的摘要總體上不太流暢。

不過，在該得分上，即使是人工生成摘要的得分也比LLM低。

在來源歸屬（SH-4）和語義覆蓋（SH-5）上也有類似的現(xiàn)象。

這可能是由于基于模型的指標(biāo)更偏向于LLM生成的內(nèi)容。

表11列出長文檔總結(jié)總結(jié)（LCFO.5%、LCFO.10%和LCFO.20%）的結(jié)果。

在預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)中，LCM只看到了有限數(shù)量的長文檔。

不過，它在這項(xiàng)任務(wù)中表現(xiàn)良好。

在5%和10%的條件下，它在Rouge-L指標(biāo)上優(yōu)于Mistral-7B-v0.3-IT和Gemma-7B-IT。

在5%和10%條件下的度量Rouge-L優(yōu)于Mistral-7B-v0.3-IT和Gemma-7B-IT，在 20%條件下接近Gemma-7B-IT 。

還觀察到，LCM在所有條件下都能獲得較高的SH-5分?jǐn)?shù)，也就是說，摘要可以歸因于來源。

LCM的擴(kuò)寫

摘要擴(kuò)展是說在給定摘要的情況下，創(chuàng)建更長的文本，其目標(biāo)并不是重新創(chuàng)建初始文檔的事實(shí)信息，而是評(píng)估模型以有意義和流暢的方式擴(kuò)展輸入文本的能力。

當(dāng)考慮到簡明扼要的文件具有摘要類似的屬性（即主要是從細(xì)節(jié)中抽象出來的獨(dú)立文件）時(shí)，摘要擴(kuò)展任務(wù)可以被描述為生成一個(gè)更長的文檔的行為，該文檔保留了相應(yīng)短文檔中的基本要素以及連接這些要素的邏輯結(jié)構(gòu)。

由于這是一項(xiàng)更加自由的生成任務(wù)，因此還需要考慮到連貫性要求（例如，生成的一個(gè)句子中包含的詳細(xì)信息不應(yīng)與另一個(gè)句子中包含的信息相矛盾）。

這里介紹的摘要擴(kuò)展任務(wù)包括將來自CNN DailyMail和XSum的摘要作為輸入，并生成一份長文檔。

表12顯示了CNN DailyMail和XSum的摘要擴(kuò)展結(jié)果。

圖中，加黑加粗的表示最佳的結(jié)果。

零樣本（zero-shot）泛化能力

使用XLSum語料庫測試新模型的泛化能力。

XLSum語料庫是涵蓋45種語言的大規(guī)模多語言抽象新聞?wù)鶞?zhǔn)。

文中將LCM的性能與支持八種語言的Llama-3.1-8B-IT進(jìn)行了比較：英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。

作者在圖 16 中報(bào)告了42種語言的Rouge-L分?jǐn)?shù)。排除了SONAR目前不支持的三種語言：Pidgin、拉丁字母塞爾維亞語和西里爾字母烏茲別克語。

在英語方面，LCM大大優(yōu)于Llama-3.1-8B-IT。

LCM可以很好地推廣到許多其他語言，特別是像南普什圖語、緬甸語、豪薩語或韋爾什語這樣的低資源語言，它們的Rouge-L分?jǐn)?shù)都大于20。

其他表現(xiàn)良好的低資源語言還有索馬里語、伊博語或基隆迪語。

最后，LCM的越南語Rouge-L得分為30.4。

總之，這些結(jié)果凸顯了LCM對其從未見過的語言的令人印象深刻的零樣本（zero-shot）泛化性能。

總結(jié)

此外，文章也描述了顯式規(guī)劃、方法論、相關(guān)方法以及模型限制等。

文章討論的模型和結(jié)果是朝著提高科學(xué)多樣性邁出的一步，也是對當(dāng)前大規(guī)模語言建模最佳實(shí)踐的一種超越。

作者也承認(rèn)，要達(dá)到當(dāng)前最強(qiáng)的LLM的性能，還有很長的路要走。

責(zé)任編輯：張燕妮來源：新智元

Meta 大模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營