自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Tokenization,再見!Meta提出大概念模型LCM,1B模型干翻70B?

人工智能 新聞
Meta提出大概念模型,拋棄token,采用更高級(jí)別的「概念」在句子嵌入空間上建模,徹底擺脫語言和模態(tài)對模型的制約。

最近,受人類構(gòu)思交流的高層級(jí)思路啟發(fā),Meta AI研究員提出全新語言建模新范式「大概念模型」,解耦語言表示與推理。

圖片

網(wǎng)友Chuby興奮地表示:「如果Meta的大概念模型真的有用,那么同等或更高效率的模型,其規(guī)模將更小。比如說1B模型將堪比70B的Llama 4。進(jìn)步如此之大!」

圖片

而在最近的訪談中,Meta的首席科學(xué)家Yann LeCun表示下一代AI系統(tǒng)LCM(大概念模型)。新系統(tǒng)將不再單純基于下一個(gè)token預(yù)測,而是像嬰兒和小動(dòng)物那樣通過觀察和互動(dòng)來理解世界。

圖片

華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程博士Yuchen Jin,非常認(rèn)同Meta的新論文,認(rèn)為新模型增強(qiáng)了其對「tokenization將一去不復(fù)返」這一看法的信心,而大語言模型要實(shí)現(xiàn)AGI則需要更像人類一樣思考。

圖片

甚至有人因此猜測Meta是這次AI競賽的黑馬,他們會(huì)用模型給帶來驚喜。

圖片

簡而言之,「大概念模型」(LCM)是在「句子表示空間」對推理(reasoning)建模,拋棄token,直接操作高層級(jí)顯式語義表示信息,徹底讓推理擺脫語言和模態(tài)制約。

具體而言,只需要固定長度的句子嵌入空間的編碼器和解碼器,就可以構(gòu)造LCM,處理流程非常簡單:

  1. 首先將輸入內(nèi)容分割成句子,然后用編碼器對每個(gè)句子進(jìn)行編碼,以獲得概念序列,即句子嵌入。
  2. 然后,大概念模型(LCM)對概念序列進(jìn)行處理,在輸出端生成新的概念序列。
  3. 最后,解碼器將生成的概念解碼為子詞(subword)序列。

圖片

論文鏈接:https://arxiv.org/pdf/2412.08821

代碼鏈接:https://github.com/facebookresearch/large_concept_model

文中對推理(inference)效率的分析頗具看點(diǎn):在大約1000個(gè)token數(shù)左右,新模型理論上需要的計(jì)算資源就比LLama2-7b具備優(yōu)勢,且之后隨著下上文中token數(shù)越大,新模型優(yōu)勢越大。具體結(jié)果見論文中的圖15,其中的藍(lán)色表示LLama2-7b模型,紅色和綠色分別代表新模型;紅色的參數(shù)規(guī)模為7b,而綠色為1.6b;右圖是左圖在0-3000的token數(shù)下的局部放大圖。

圖片

新模型的其他亮點(diǎn)如下:

  1. 在抽象的語言和模態(tài)無關(guān)的層面上進(jìn)行推理,超越token:(1)新方法模擬的是底層推理過程,而不是推理在特定語言中的實(shí)例。(2)LCM可同時(shí)對所有語言和模態(tài)進(jìn)行訓(xùn)練,即獲取相關(guān)知識(shí),從而有望以無偏見的方式實(shí)現(xiàn)可擴(kuò)展性。目前支持200種語言文本。
  2. 明確的層次結(jié)構(gòu):(1)提高長文輸出的可讀性。(2)方便用戶進(jìn)行本地交互式編輯。
  3. 處理長上下文和長格式輸出:原始的Transformer模型的復(fù)雜性隨序列長度的增加而呈二次方增長,而LCM需要處理的序列至少要短一個(gè)數(shù)量級(jí)。
  4. 無與倫比的零樣本(zero-shot)泛化能力:LCM可在任何語言或模態(tài)下進(jìn)行預(yù)訓(xùn)練和微調(diào)。
  5. 模塊化和可擴(kuò)展性:(1)多模態(tài)LLM可能會(huì)受到模態(tài)競爭的影響,而概念編碼器和解碼器則不同,它們可以獨(dú)立開發(fā)和優(yōu)化,不存在任何競爭或干擾。(2)可輕松向現(xiàn)有系統(tǒng)添加新的語言或模態(tài)。

為什么需要「概念」?

雖然大語言模型取得了無可置疑的成功和持續(xù)不斷的進(jìn)步,但現(xiàn)有的LLM都缺少人類智能的一個(gè)重要的特點(diǎn):在多級(jí)別抽象上顯式的推理和規(guī)劃。

人腦并不在單詞層面運(yùn)作。

比如在解決一項(xiàng)復(fù)雜的任務(wù)或撰寫一份長篇文檔時(shí),人類通常采用自上而下的流程:首先在較高的層次上規(guī)劃整體結(jié)構(gòu),然后逐步在較低的抽象層次上添加細(xì)節(jié)。

有人可能會(huì)說,LLM是在隱式地學(xué)習(xí)分層表示,但具有顯式的分層結(jié)構(gòu)模型更適合創(chuàng)建長篇輸出。

新方法將與token級(jí)別的處理大大不同,更靠近在抽象空間的(分層)推理。

上下文在LCM所設(shè)計(jì)的抽象空間內(nèi)表達(dá),但抽象空間與語言或模態(tài)無關(guān)。

也就是說在純粹的語義層面對基本推理過程進(jìn)行建模,而不是對推理在特定語言中的實(shí)例建模。

為了驗(yàn)證新方法,文中將抽象層次限制為2種:子詞token(subword token)和概念。

而所謂的「概念」被定義為整體的不可分的「抽象原子見解」。

在現(xiàn)實(shí)中,一個(gè)概念往往對應(yīng)于文本文檔中的一個(gè)句子,或者等效的語音片段。

作者認(rèn)為,與單詞相比,句子才是實(shí)現(xiàn)語言獨(dú)立性的恰當(dāng)?shù)膯卧?/span>

這與當(dāng)前基于token的LLMs技術(shù)形成了鮮明對比。

大概念模型總體架構(gòu)

訓(xùn)練大概念模型需要句子嵌入空間的解碼器和編碼器。而且可以訓(xùn)練一個(gè)新的嵌入空間,針對推理架構(gòu)進(jìn)行優(yōu)化。

圖片

在此研究使用其開源的SONAR作為句子嵌入的解碼器和編碼器。

SONAR解碼器和編碼器(圖中藍(lán)色部分)是固定的,不用訓(xùn)練。

更重要的是,LCM(圖中綠色部分)輸出的概念可以解碼為其他語言或模態(tài),而不必從頭執(zhí)行整個(gè)推理過程。

同樣, 某個(gè)特定的推理操作,如歸納總結(jié),可以在任何語言或模態(tài)的輸入上以零樣本(zero-shot)模式進(jìn)行。

因?yàn)橥评碇恍璨僮鞲拍睢?/span>

總之,LCM既不掌握輸入語言或模態(tài)的信息,也不以特定語言或模態(tài)生成輸出。

在某種程度上,LCM架構(gòu)類似于Jepa方法(見下文),后者也旨在預(yù)測下一個(gè)觀測點(diǎn)在嵌入空間中的表示。

圖片

論文鏈接:https://openreview.net/pdf?id=BZ5a1r-kVsf

不過,Jepa更強(qiáng)調(diào)以自監(jiān)督的方式學(xué)習(xí)表示空間,而LCM則不同,它側(cè)重于在現(xiàn)有的嵌入空間中進(jìn)行準(zhǔn)確預(yù)測。

模型架構(gòu)設(shè)計(jì)原理

SONAR嵌入空間

SONAR文本嵌入空間使用編碼器/解碼器架構(gòu)進(jìn)行訓(xùn)練,以固定大小的瓶頸代替交叉注意力,如下圖2。

圖片

SONAR廣泛用于機(jī)器翻譯任務(wù),支持200種語言的文本輸入輸出,76種語言的語音輸入和英文輸出。

因?yàn)長CM直接在SONAR概念嵌入上運(yùn)行,因此可對其支持的全部語言和模態(tài)進(jìn)行推理。

數(shù)據(jù)準(zhǔn)備

為了訓(xùn)練和評(píng)估LCM需要將原始文本數(shù)據(jù)集轉(zhuǎn)換為SONAR嵌入序列,每個(gè)句子對應(yīng)嵌入空間的一個(gè)點(diǎn)。

然而處理大型文本數(shù)據(jù)集有幾個(gè)實(shí)際限制。包括精準(zhǔn)的分割句子很難,此外一些句子很長很復(fù)雜,這些都會(huì)給SONAR嵌入空間的質(zhì)量帶來負(fù)面影響。

文中使用SpaCy分割器(記為SpaCy)和Segment any Text (記為SaT)。

其中SpaCy是基于規(guī)則的句子分割器,SaT在token級(jí)別預(yù)測句子的邊界進(jìn)行句子分割。

通過限制句子的長度的長度還定制了新的分割器SpaCy Capped和SaT Capped。

好的分割器產(chǎn)生的片段,經(jīng)過編碼后再解碼而不會(huì)丟失信號(hào),可以獲得更高的AutoBLEU分值。

為了分析分割器器的質(zhì)量,從預(yù)訓(xùn)練數(shù)據(jù)集中抽取了10k份文件,代表了大約500k個(gè)句子。

測試中,使用每個(gè)分割器處理文檔,然后對句子進(jìn)行編碼和解碼,并計(jì)算AutoBLEU分?jǐn)?shù)。

圖片

如圖3所示,如果字符上限為200個(gè),與SpaCy Capped相比,SaT Capped方法總是略勝一籌。

然而,隨著句子長度增加,兩種分割器都表現(xiàn)出明顯的性能不足。

當(dāng)句子長度超過250個(gè)字符時(shí),這種性能低下的情況尤為明顯,這突出表明了在不設(shè)置上限的情況下使用分段器的局限性。

Base-LCM

下個(gè)概念預(yù)測(next concept prediction)的基線架構(gòu)是一個(gè)標(biāo)準(zhǔn)的只含解碼器的Transformer,它將一系列先行概念(即句子嵌入)轉(zhuǎn)換為一系列將來的概念。

圖片

如圖4所示,Base-LCM配備了「PostNet」和「PreNet」。PreNet對輸入的SONAR嵌入進(jìn)行歸一化處理,并將它們映射到模型的隱藏維度。

圖片

Base-LCM在半監(jiān)督任務(wù)上學(xué)習(xí), 模型會(huì)預(yù)測下一個(gè)概念,通過優(yōu)化預(yù)測的下一個(gè)概念與真實(shí)的下一個(gè)概念的距離來優(yōu)化參數(shù),也就是通過MSE回歸來優(yōu)化參數(shù)。

基于擴(kuò)散的LCM(Diffusion-based LCM)

基于擴(kuò)散的LCM是一種生成式潛變量模型,它能學(xué)習(xí)一個(gè)模型分布pθ ,用于逼近數(shù)據(jù)分布q。

與基礎(chǔ)LCM相似,將擴(kuò)散LCM建模被視為自動(dòng)回歸模型,每次在文檔中生成一個(gè)概念。

大概念模型「Large Concept Model」并不是單純的「next token prediction」, 而是某種「next  concept predition」,也就是說下一個(gè)概念的生成是以之前的語境為條件的。

具體而言, 在序列的位置n上,模型以之前全部的概念為條件預(yù)測在此處某概念的概率, 學(xué)習(xí)的是連續(xù)嵌入的條件概率。

學(xué)習(xí)連續(xù)數(shù)據(jù)的條件概率,可以借鑒計(jì)算機(jī)視覺中的擴(kuò)散模型用于生成句子嵌入。

在文中討論了如何設(shè)計(jì)不同擴(kuò)展模型用于生成句子嵌入, 包括不同類型的正向加噪過程和反向去噪過程。

根據(jù)不同的方差進(jìn)度(variance schedule), 生成不同的噪音進(jìn)度(noise schedule),從而產(chǎn)生對應(yīng)的前向過程;通過不同的權(quán)重策略,反映不同的初始狀態(tài)對模型的影響。

文中提出了3類噪音進(jìn)度:余弦Cosine,二次函數(shù)Quadratic以及Sigmoid。

并提出了重建損失加權(quán)策略:

圖片

論文詳細(xì)討論了不同噪音進(jìn)度和加權(quán)策略策略的影響,結(jié)果如下:

圖片

單塔擴(kuò)散LCM(One-Tower Diffusion LCM)

使用圖像領(lǐng)域的擴(kuò)散加速技巧,也可以加速LCM的推理。

如圖6左圖,單塔擴(kuò)散LCM由一個(gè)Transformer主干組成,其任務(wù)是在給定句子嵌入和噪音輸入的條件下預(yù)測干凈的下一個(gè)句子嵌入 。

圖片

雙塔擴(kuò)散LCM(Two-Tower Diffusion-LCM)

如圖6右側(cè),雙塔擴(kuò)散LCM模型將前一語境的編碼與下一嵌入的擴(kuò)散分開。

第一個(gè)模型,即上下文標(biāo)注模型,將上下文向量作為輸入,并對其進(jìn)行因果編碼。

也就是說,應(yīng)用一個(gè)帶有因果自關(guān)注的純解碼器Transformer。

然后,上下文分析器的輸出結(jié)果會(huì)被輸入第二個(gè)模型,即去噪器(denoiser)。

它通過迭代去噪潛高斯隱變量來預(yù)測干凈的下一個(gè)句子嵌入 。

去噪器由一系列Transformer和交叉注意力塊組成,交叉注意力塊用于關(guān)注編碼上下文。

去噪器和上下文轉(zhuǎn)換器共享同一個(gè)Transformer隱藏維度。

去噪器中每個(gè)Transformer層(包括交叉注意力層)的每個(gè)區(qū)塊都使用自適應(yīng)層規(guī)范(AdaLN)。

在訓(xùn)練時(shí),Two-Tower的參數(shù)會(huì)針對無監(jiān)督嵌入序列的下一句預(yù)測任務(wù)進(jìn)行優(yōu)化。

圖片

因果嵌入在去噪器中移動(dòng)一個(gè)位置,并在交叉注意力層中使用因果掩碼。在上下文向量中預(yù)置一個(gè)零向量,以便預(yù)測序列中的第一個(gè)位置(見圖8)。為了有條件和無條件地訓(xùn)練模型,為無分類器引導(dǎo)縮放推理做準(zhǔn)備,以一定的比率從交叉注意力掩碼中刪除隨機(jī)行,并僅以零向量作為上下文對相應(yīng)位置進(jìn)行去噪處理。

圖片

量化LCM

在圖像或語音生成領(lǐng)域,目前有兩種處理連續(xù)數(shù)據(jù)生成的主要方法:一種是擴(kuò)散建模,另一種是先對數(shù)據(jù)進(jìn)行學(xué)習(xí)量化,然后再在這些離散單元的基礎(chǔ)上建模。

此外,文本模態(tài)仍然是離散的,盡管處理的是SONAR空間中的連續(xù)表示,但全部可能的文本句子(少于給定字符數(shù))都是SONAR空間中的點(diǎn)云,而不是真正的連續(xù)分布。

這些考慮因素促使作者探索對SONAR表示進(jìn)行量化,然后在這些離散單元上建模,以解決下一個(gè)句子預(yù)測任務(wù)。

最后,采用這種方法可以自然地使用溫度、top-p或top-k采樣,以控制下一句話表示采樣的隨機(jī)性和多樣性水平。

可以使用殘差矢量量化作為從粗到細(xì)的量化技術(shù)來離散SONAR表示。

矢量量化將連續(xù)輸入嵌入映射到所學(xué)編碼本中最近的元素。

RVQ每次迭代都會(huì)使用額外的碼本,對之前量化的殘余誤差進(jìn)行迭代量化。

在試驗(yàn)中從Common Crawl提取的1500萬個(gè)英語句子上訓(xùn)練了RVQ編碼本,使用64個(gè)量化器,每個(gè)編碼本使用8192個(gè)單元。

RVQ的一個(gè)特性是,第一個(gè)碼本的中心點(diǎn)嵌入累積和是輸入SONAR向量的中等粗略近似。

這樣,在使用SONAR文本解碼器解碼量化嵌入之前,可以先探索碼本數(shù)量SONAR嵌入自動(dòng)編碼BLEU分?jǐn)?shù)的影響。

正如圖9中所示, 隨著編碼本數(shù)量的增加,自動(dòng)編碼BLEU不斷提高。

當(dāng)使用全部64個(gè)碼本時(shí),自動(dòng)編碼BLEU分?jǐn)?shù)約為連續(xù)SONAR內(nèi)嵌時(shí)自動(dòng)編碼BLEU分?jǐn)?shù)的70%。

圖片

模型分析

推理效率

作者直接比較了雙塔擴(kuò)散LCM和LLM的推理計(jì)算成本,也就是在不同prompt和輸出總長度(以詞組為單位)的情況下的計(jì)算成本。

具體而言,論文中的圖13,作者分析了理論上大概念模型(LCM)和大語言模型的推理需要的每秒浮點(diǎn)運(yùn)算次數(shù)(flops)。

圖片

如左圖所示,只有在非常短的句子(小于等于10個(gè)token), LLM才有優(yōu)勢。

在上下文超過10000個(gè)token左右時(shí),不論是Two-tower LCM(1.6B)還是Two-tower LCM(7B),token數(shù)幾乎不再影響推理需要的計(jì)算量。

SONAR 空間的脆弱性

在潛在空間中建模時(shí),主要依靠誘導(dǎo)幾何(L2-距離)。

然而,任何潛在表示的同質(zhì)歐幾里得幾何都不會(huì)完全符合底層文本語義。

嵌入空間中的微小擾動(dòng)都可能導(dǎo)致解碼后語義信息的急劇丟失,這就是明證。

這種性質(zhì)被叫做嵌入為「脆弱性」。

因此,需要量化語義嵌入(即SONAR代碼)的脆弱性,以便于了解LCM訓(xùn)練數(shù)據(jù)的質(zhì)量以及這種脆弱性如何阻礙LCM的訓(xùn)練動(dòng)態(tài)。

給定一個(gè)文本片段w及其SONAR代碼x=encode(w),將w的脆弱性定義為

圖片

隨機(jī)抽取了5000萬個(gè)文本片段,并為每個(gè)樣本生成了9 個(gè)不同噪音水平的擾動(dòng)。且在實(shí)驗(yàn)中,對于外部余弦相似度(CosSim)指標(biāo),使用mGTE作為外部編碼器。

具體的脆弱性得分結(jié)果在圖14中。

圖片

圖14中左圖和右圖分別描繪了BLUE和CosSIM得分隨文本長度和噪聲水平變化的曲線。

可以觀察到,BLEU分?jǐn)?shù)的下降速度比余弦相似度更快。

最重要的是,脆性得分對解碼器的選擇很敏感。具體而言,隨著噪聲量的增加,微調(diào)解碼器的自動(dòng)編碼 BLEU 和余弦相似度得分的下降速度明顯低于基本解碼器。

還注意到,在平均擾動(dòng)水平下,總體得分分布如圖15所示,在SONAR樣本中,脆弱性得分差距很大。

圖片

這種差異的原因可能是句子長度。與自動(dòng)編碼BLEU指標(biāo)相比(該指標(biāo)在長句子中僅下降1-2%),脆弱性對句子長度更為敏感,在兩種相似性指標(biāo)中都下降得更快。

這表明,使用最大句子長度超過250的SONAR和LCM模型會(huì)面臨極大的挑戰(zhàn)。另一方面,雖然短句的平均魯棒性更高,但在錯(cuò)誤的位置拆分長句可能會(huì)導(dǎo)致更短但更脆弱的子句。

不同任務(wù)的測評(píng)

表10列出了不同基線和LCM在摘要任務(wù)上的結(jié)果,分別包括CNN DailyMail 和 XSum數(shù)據(jù)集。

圖片

與經(jīng)過專門調(diào)整的LLM(T5-3B)相比,LCM的Rouge-L(表中的R-L列)分?jǐn)?shù)也具有競爭力。

而較低的OVL-3分?jǐn)?shù)則表示,新模型傾向于生成更抽象的摘要,而不是提取性摘要。LCM產(chǎn)生的重復(fù)次數(shù)比LLM更少,更重要的是,其重復(fù)率更接近真實(shí)的重復(fù)率。

根據(jù)CoLA分類器得分,LCM生成的摘要總體上不太流暢。

不過,在該得分上,即使是人工生成摘要的得分也比LLM低。

在來源歸屬(SH-4)和語義覆蓋(SH-5)上也有類似的現(xiàn)象。

這可能是由于基于模型的指標(biāo)更偏向于LLM生成的內(nèi)容。

表11列出長文檔總結(jié)總結(jié)(LCFO.5%、LCFO.10%和LCFO.20%)的結(jié)果。

圖片

在預(yù)訓(xùn)練和微調(diào)數(shù)據(jù)中,LCM只看到了有限數(shù)量的長文檔。

不過,它在這項(xiàng)任務(wù)中表現(xiàn)良好。

在5%和10%的條件下,它在Rouge-L指標(biāo)上優(yōu)于Mistral-7B-v0.3-IT和Gemma-7B-IT。

在5%和10%條件下的度量Rouge-L優(yōu)于Mistral-7B-v0.3-IT和Gemma-7B-IT,在 20%條件下接近Gemma-7B-IT 。

還觀察到,LCM在所有條件下都能獲得較高的SH-5分?jǐn)?shù),也就是說,摘要可以歸因于來源。

LCM的擴(kuò)寫

摘要擴(kuò)展是說在給定摘要的情況下,創(chuàng)建更長的文本,其目標(biāo)并不是重新創(chuàng)建初始文檔的事實(shí)信息,而是評(píng)估模型以有意義和流暢的方式擴(kuò)展輸入文本的能力。

當(dāng)考慮到簡明扼要的文件具有摘要類似的屬性(即主要是從細(xì)節(jié)中抽象出來的獨(dú)立文件)時(shí), 摘要擴(kuò)展任務(wù)可以被描述為生成一個(gè)更長的文檔的行為,該文檔保留了相應(yīng)短文檔中的基本要素以及連接這些要素的邏輯結(jié)構(gòu)。

由于這是一項(xiàng)更加自由的生成任務(wù),因此還需要考慮到連貫性要求(例如,生成的一個(gè)句子中包含的詳細(xì)信息不應(yīng)與另一個(gè)句子中包含的信息相矛盾)。

這里介紹的摘要擴(kuò)展任務(wù)包括將來自CNN DailyMail和XSum的摘要作為輸入,并生成一份長文檔。

表12顯示了CNN DailyMail和XSum的摘要擴(kuò)展結(jié)果。

圖片

圖中,加黑加粗的表示最佳的結(jié)果。

零樣本(zero-shot)泛化能力

使用XLSum語料庫測試新模型的泛化能力。

XLSum語料庫是涵蓋45種語言的大規(guī)模多語言抽象新聞?wù)鶞?zhǔn)。

文中將LCM的性能與支持八種語言的Llama-3.1-8B-IT進(jìn)行了比較:英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語。

圖片

作者在圖 16 中報(bào)告了42種語言的Rouge-L分?jǐn)?shù)。排除了SONAR目前不支持的三種語言:Pidgin、拉丁字母塞爾維亞語和西里爾字母烏茲別克語。

在英語方面,LCM大大優(yōu)于Llama-3.1-8B-IT。

LCM可以很好地推廣到許多其他語言,特別是像南普什圖語、緬甸語、豪薩語或韋爾什語這樣的低資源語言,它們的Rouge-L分?jǐn)?shù)都大于20。

其他表現(xiàn)良好的低資源語言還有索馬里語、伊博語或基隆迪語。

最后,LCM的越南語Rouge-L得分為30.4。

總之,這些結(jié)果凸顯了LCM對其從未見過的語言的令人印象深刻的零樣本(zero-shot)泛化性能。

總結(jié)

此外,文章也描述了顯式規(guī)劃、方法論、相關(guān)方法以及模型限制等。

文章討論的模型和結(jié)果是朝著提高科學(xué)多樣性邁出的一步,也是對當(dāng)前大規(guī)模語言建模最佳實(shí)踐的一種超越。

作者也承認(rèn),要達(dá)到當(dāng)前最強(qiáng)的LLM的性能,還有很長的路要走。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-12-24 09:29:16

2024-09-14 09:31:00

2024-12-18 07:10:00

2024-06-19 13:02:01

2024-08-26 10:00:00

模型數(shù)據(jù)

2024-05-30 12:50:05

2024-02-07 12:39:00

AI數(shù)據(jù)

2025-03-27 08:15:38

2024-09-09 08:50:00

2023-10-11 13:21:12

模型數(shù)據(jù)

2024-12-09 07:10:00

Llama 3.3GeminiGPT-4.5

2024-06-05 08:33:29

2024-04-19 08:01:01

Llama 3 8BMeta

2017-01-13 10:51:13

RPC模型解析

2025-01-10 14:15:02

2024-09-05 14:25:00

訓(xùn)練代碼

2023-08-14 13:29:37

2025-03-31 09:46:00

2023-10-09 12:36:08

人工智能數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)