自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

增強(qiáng)大模型智能:數(shù)學(xué)推理能力的提升策略與實(shí)踐

人工智能
本文將分享如何提升大模型的數(shù)學(xué)推理能力。我們沒(méi)有把數(shù)學(xué)推理能力與翻譯、長(zhǎng)文本生成等專項(xiàng)分開(kāi)優(yōu)化,而是視為通用能力的一部分。因?yàn)槲覀冋J(rèn)為數(shù)學(xué)推理能力是衡量大模型智能水平的關(guān)鍵指標(biāo)。

一、大語(yǔ)言模型概述

圖片

首先來(lái)回顧一下大模型的基本結(jié)構(gòu)。上圖中列出了當(dāng)前一些主流大模型,比如 GPT 系列中的 GPT-3,發(fā)布于 2020 年,擁有 175B 參數(shù),還有 Huggingface 的 Bloom、清華的 GLM 系列、Meta 的 LLaMA、百川的 Baichuan 和阿里的 Qwen 系列等等。除了清華的 GLM 使用的是 Prefix decoder,這些模型大多采用與 GPT 類似的架構(gòu)。

這些模型的參數(shù)規(guī)模各不相同。GLM 系列除了最大 130B 的模型外,還有 6B 和 10B 的版本。Meta 的 LLaMA 系列有 65B 及其他不同規(guī)模的版本。千問(wèn)系列有 7B、14B 和最大的 110B。這些開(kāi)源模型為業(yè)界公司提供了很多優(yōu)化的思路。

圖片

大模型的結(jié)構(gòu)在業(yè)界已較為標(biāo)準(zhǔn)化,主要基于 transformer 結(jié)構(gòu)。關(guān)鍵參數(shù)包括詞表、transformer 層數(shù)、Multi-head 和全連接層。以 GPT-2 為例,它是一個(gè) 1.3B 參數(shù)的模型,詞表大小 5 萬(wàn),層數(shù) 24 層。根據(jù)參數(shù)計(jì)算公式, Embedding 層的 d_model 為 2048,乘以 5 萬(wàn),得到其參數(shù)規(guī)模。QKV 計(jì)算、Attention Project 和 FFN 等參數(shù)加起來(lái),最終得到 1.3B 的總參數(shù)。

大模型優(yōu)化方面,常用的方法包括 SparseAttention、FlashAttention,以及其他結(jié)構(gòu)如 MAQ 和 GQA 的優(yōu)化,但整體結(jié)構(gòu)仍基于 transformer。

圖片

大模型結(jié)構(gòu)中,關(guān)鍵部分包括圖上面的 Multi-head 和下面的點(diǎn)積注意力計(jì)算,右側(cè)是大模型的總體結(jié)構(gòu)示意。針對(duì) Attention 的優(yōu)化有 FlashAttention、SparseAttention 和 GQA,位置編碼有絕對(duì)位置編碼和 RoPE 等相對(duì)位置編碼。優(yōu)化主要是為了提升大模型的外推能力,尤其對(duì)長(zhǎng)文本效果更好。此外,還有對(duì)激活函數(shù)和其他細(xì)節(jié)的優(yōu)化,業(yè)界在這些方向上都做了很多工作。

圖片

大語(yǔ)言模型的構(gòu)建通常分為四個(gè)部分。以 OpenAI 為例:①預(yù)訓(xùn)練,這是資源消耗最大的一環(huán),通常使用 1000 多塊 GPU,訓(xùn)練周期長(zhǎng),數(shù)據(jù)量達(dá)到數(shù)千億 token,約幾 TB;②SFT 層(有監(jiān)督微調(diào)),主要優(yōu)化指令對(duì)齊,數(shù)據(jù)量較少,通常為百萬(wàn)級(jí),少數(shù)達(dá)千萬(wàn)級(jí),訓(xùn)練時(shí)間為天級(jí)別;③訓(xùn)練獎(jiǎng)勵(lì)模型(Reward Model);④人工反饋強(qiáng)化學(xué)習(xí)(RLHF),這部分的成本與 SFT 相似,但如果使用傳統(tǒng) PPU 顯存占用較高,數(shù)據(jù)量允許天級(jí)別完成。

LLaMA 等模型也遵循類似流程,比如說(shuō) LLaMA2-Chat,分為預(yù)訓(xùn)練、SFT、強(qiáng)化等階段,根據(jù)人類反饋調(diào)整指令偏好。

圖片

大模型的構(gòu)建可以分為三個(gè)部分。第一階段是指令學(xué)習(xí)階段,通過(guò)訓(xùn)練基座模型,使其理解人類指令,并根據(jù)人類編寫(xiě)的指令和高質(zhì)量回答進(jìn)行 SFT。第二階段是讓大模型更擬人性或者是更符合人類偏好(人類對(duì)模型輸出進(jìn)行偏好排序)。第三階段是人類反饋強(qiáng)化學(xué)習(xí)階段,是由四個(gè)模型構(gòu)成:Reference Model(訓(xùn)練好的參考模型)、Reward Model(對(duì)生成結(jié)果評(píng)分的模型)、Actor Model(需要強(qiáng)化的模型)和 Critique Model(訓(xùn)練過(guò)程中的評(píng)分模型)。

圖片

前面回顧了大語(yǔ)言模型的基礎(chǔ)結(jié)構(gòu),接下來(lái)將介紹數(shù)學(xué)推理優(yōu)化的流程,分為四塊:數(shù)據(jù)構(gòu)建、數(shù)據(jù)篩選、模型構(gòu)建、模型訓(xùn)練與優(yōu)化。數(shù)學(xué)推理的數(shù)據(jù)分為混合指令和合成數(shù)據(jù)。其中合成數(shù)據(jù)是對(duì)當(dāng)前數(shù)據(jù)的擴(kuò)展,因?yàn)楦哔|(zhì)量的數(shù)學(xué)數(shù)據(jù),尤其是應(yīng)用類指令較少。數(shù)據(jù)篩選,包括質(zhì)量篩選和多樣性篩選,避免重復(fù)或相似問(wèn)題。篩選原則依賴于 Reward Model 或 Critique Model。模型訓(xùn)練使用 Reference Model,訓(xùn)練好 SFT 后進(jìn)行質(zhì)量和多樣性篩選,歸為 RFT 流程,即拒絕采樣流程。在 Reward Model 或 Critique Model 中,使用 PPO、DPO 或 RFT 流程。

接下來(lái)將詳細(xì)介紹混合指令、合成數(shù)據(jù)和訓(xùn)練優(yōu)化的具體做法。

二、混合指令

圖片

數(shù)學(xué)問(wèn)題可以拆解為邏輯推理和數(shù)學(xué)應(yīng)用兩類。數(shù)學(xué)應(yīng)用早期主要采用思維鏈(CoT)模式,后來(lái)為解決計(jì)算問(wèn)題,引入了 PoT(Program-of-Thought)模式。當(dāng)前的思路是數(shù)學(xué)分析或邏輯推理放到 CoT 部分處理,涉及計(jì)算的問(wèn)題,如解方程或微積分計(jì)算,放到 PoT 部分。因此,混合指令由這兩部分構(gòu)成。

圖片

這樣做有兩個(gè)原因。首先,CoT 并不擅長(zhǎng)復(fù)雜運(yùn)算,尤其是積分和方程運(yùn)算。盡管大模型在預(yù)訓(xùn)練中可以處理簡(jiǎn)單運(yùn)算(如三位數(shù)的加減乘除),但對(duì)于更高階的數(shù)學(xué)運(yùn)算,PoT 的準(zhǔn)確率更高,讓大模型專注于擅長(zhǎng)的部分。

其次,單純使用 PoT 也有問(wèn)題。在涉及需要推理的數(shù)學(xué)場(chǎng)景(如抽象代數(shù)和幾何運(yùn)算)時(shí),PoT 顯得不夠直觀,難以一步步推理。此外,它在整合前后邏輯關(guān)系時(shí)也存在問(wèn)題。

圖片

所以現(xiàn)在我們使用的是混合指令?;旌现噶畹那耙徊糠质菢?biāo)準(zhǔn)的 CoT 模式,比如 GPT-4o 的回答,前面的推理、中間的評(píng)分計(jì)算、合并同類項(xiàng)都是靠其數(shù)學(xué)推理能力一步步解決的。但我們發(fā)現(xiàn)最后的合并同類項(xiàng)出現(xiàn)了錯(cuò)誤,前面的推理是完全正確的,公式引用也沒(méi)問(wèn)題,但在數(shù)值計(jì)算方面有誤。

左側(cè)的方案將其拆分為:前面采用 CoT 思維鏈模式,類似于 GPT-4o,而在最后的計(jì)算部分,使用 PoT 來(lái)提高準(zhǔn)確性。這個(gè)方法對(duì)于大模型的數(shù)學(xué)推理來(lái)說(shuō)雖然不復(fù)雜,但確實(shí)簡(jiǎn)單有效。

三、合成數(shù)據(jù)

圖片

接下來(lái)介紹合成數(shù)據(jù)。在預(yù)訓(xùn)練時(shí)我們能獲得大量數(shù)學(xué)題目,但以英文為主。進(jìn)行二階段 SFT 時(shí),我們發(fā)現(xiàn)開(kāi)源的好數(shù)據(jù)很少。常用的數(shù)據(jù)集如 GSM8K 和 MATH,雖然不錯(cuò),但數(shù)量有限。GSM8K 是小學(xué)數(shù)學(xué)推理題,MATH 類偏向競(jìng)賽題。

大模型在解題時(shí)表現(xiàn)優(yōu)秀,但讓它生成新問(wèn)題則相對(duì)困難。這是因?yàn)榻忸}需要的是運(yùn)算能力,而生成新問(wèn)題需要更高層次的思考和創(chuàng)造能力。

圖片

合成數(shù)據(jù)的 Self Instruct 是常用的方法,此方法早已提出。我們?cè)诜N子任務(wù)中有部分高質(zhì)量的數(shù)學(xué)問(wèn)題集合,無(wú)論是購(gòu)買的還是自建的。我們希望從這些高質(zhì)量集合中擴(kuò)展出更多樣化的數(shù)學(xué)指令。為此,將其細(xì)分為數(shù)學(xué)問(wèn)題,按學(xué)科拆解,如矩陣運(yùn)算、微積分、方程等。拆解后,再對(duì)每個(gè)子問(wèn)題進(jìn)行 Self Instruct,以擴(kuò)展種子任務(wù)。篩選時(shí),若只對(duì)指令篩選,可用最長(zhǎng)公共子序列或 Jaccard 距離等簡(jiǎn)單方法。

圖片

指令構(gòu)建和篩選相對(duì)容易,但指令能否提供更多樣化的問(wèn)題則是一個(gè)難點(diǎn)。有些解出的題目不適合作為訓(xùn)練集,因此需嚴(yán)格把控指令和回答的質(zhì)量。我們訓(xùn)練過(guò) Reward Model,最新的英偉達(dá) 340B 模型評(píng)分最高為 92 分,我們的模型為 86.8 分,排第五。86.8 分包括所有任務(wù),如生成任務(wù)和翻譯任務(wù)。

針對(duì)數(shù)學(xué)類問(wèn)題,我們理想的 Reward Model 評(píng)分分布應(yīng)是正態(tài)分布,實(shí)際情況中,GPT-4o 評(píng)分在正確和錯(cuò)誤回答間有明顯區(qū)分度,但我們 Reward Model 的評(píng)分分布不明顯。訓(xùn)練時(shí),Reward Model 對(duì)同一問(wèn)題的正確和錯(cuò)誤答案進(jìn)行排序,而非絕對(duì)值評(píng)分。因此,Reward Model 能合理地對(duì)相同問(wèn)題的生成進(jìn)行排序,但不同問(wèn)題間的絕對(duì)值評(píng)分參考意義不大。

圖片

在質(zhì)量過(guò)濾時(shí),不僅考慮相同問(wèn)題,還要考慮不同問(wèn)題之間的差異。因此,我們選擇了 Critique Model 進(jìn)行絕對(duì)值打分。例如,左圖中,先用 Reward Model 對(duì) n 個(gè)問(wèn)題評(píng)分,取前 M 個(gè)高分,再用 Critique Model 從下往上卡絕對(duì)值。

Critique Model 的訓(xùn)練如中圖所示:首先構(gòu)建指令,明確角色;然后提供參考答案和模型回答;最后,GPT-4o 給出步驟和最終分值。

圖片

整個(gè) Critique Model 訓(xùn)練流程如下:從數(shù)據(jù)中提取問(wèn)題和對(duì)應(yīng)的參考答案,中間部分是標(biāo)準(zhǔn)指令,指導(dǎo)模型生成評(píng)判標(biāo)準(zhǔn)。最下面是 GPT-4o 或其他模型生成的打分結(jié)果。我們用這些數(shù)據(jù)訓(xùn)練 Critique Model。GPT-4o 對(duì)問(wèn)題的打分準(zhǔn)確率為 85.94%,Critique Model 訓(xùn)練后約為 84.76%??梢钥吹?,GPT-4o 和 Critique Model 的最終打分分布差異明顯。

四、訓(xùn)練優(yōu)化

圖片

訓(xùn)練分兩階段:RFT 階段和強(qiáng)化階段。

在 RFT 階段,我們采用這種方法有其背景。之前在大模型進(jìn)行數(shù)學(xué)推理時(shí)發(fā)現(xiàn),即使指令集不大,如果為每個(gè)問(wèn)題生成多條不同的合理推理路徑,可以提升模型的多樣性和能力。因此,在 RFT 階段,我們先訓(xùn)練一個(gè) chat 模型,例如 LLaMA 進(jìn)行 SFT 訓(xùn)練。一階段訓(xùn)練后的模型在二階段生成多條推理路徑,經(jīng)過(guò) Reward Model 和 Critique Model 的質(zhì)量過(guò)濾和多樣性篩選。最終數(shù)據(jù)包含每個(gè)問(wèn)題的多條推理路徑,再用于更大模型進(jìn)行 RFT。

使用小模型生成和篩選數(shù)據(jù),是因?yàn)榇竽P筒蓸映杀具^(guò)高。例如,10 萬(wàn)條指令每條采樣 100 次,共生成 1000 萬(wàn)條數(shù)據(jù),用大模型成本較高,而小模型生成數(shù)據(jù)更節(jié)省時(shí)間成本,其生成的推理路徑更為多樣化。

圖片

上圖中可以反映出小模型的優(yōu)勢(shì),比如右上角的 LLaMA 模型,我們可以看到 33B、7B 和 13B 的模型,其中推理路徑貢獻(xiàn)最大的一部分并不是 33B,而是 7B。下面的圖也顯示,7B 和 14B 的模型分別貢獻(xiàn)了 41% 和 39% 的推理路徑,而中間兩個(gè)模型相交的推理路徑只有 19%。這說(shuō)明更小的模型在數(shù)據(jù)生成和采樣方面,能得到更加多樣化的推理路徑。

圖片

整個(gè) RFT 流程是使用較小的模型,例如我們會(huì)用 LLaMA 的小參數(shù)模型,來(lái)生成和過(guò)濾推理路徑,并進(jìn)行多樣性選擇,然后再將這些數(shù)據(jù)用于更大的模型進(jìn)行 RFT。質(zhì)量過(guò)濾包括 Reward Model 打分和 Critique Model 打分,多樣性篩選是關(guān)鍵,因?yàn)橹貜?fù)的回答對(duì)大模型并不友好。

圖片

上圖中展示了詳細(xì)流程,比如左邊圖中的推理路徑由 r1 到 r3,再加入一個(gè)新路徑 r4。我們會(huì)計(jì)算 r1 到 r4 的相關(guān)性或距離,如果 r4 超過(guò)前兩個(gè)路徑的距離,就會(huì)替換其中一個(gè),以保證選出路徑間距離最大化。在我們的流程中,重點(diǎn)在 PoT 部分的多樣性選擇。PoT 部分相對(duì)結(jié)構(gòu)化,不同推理路徑會(huì)反映在 PoT 部分的不同實(shí)現(xiàn)方式上。

圖片

可以看一下,有三條路徑對(duì)應(yīng)三個(gè)部分的 PoT。路徑一和路徑二在 PoT 部分看似不同,但只是注釋和變量命名不同。如果抽取關(guān)鍵信息,規(guī)范化變量命名并去掉冗余信息,會(huì)發(fā)現(xiàn)它們是完全相同的推理路徑。只有路徑三是真正不同的推理路徑,通過(guò)設(shè)未知數(shù)和方程來(lái)實(shí)現(xiàn)不同的推理。因此,設(shè)置關(guān)鍵信息抽取模塊,去掉冗余信息和規(guī)范化變量命名后,再計(jì)算相關(guān)性或距離度量,用作多樣性篩選的一個(gè)評(píng)判標(biāo)準(zhǔn)。

最終實(shí)驗(yàn)結(jié)果顯示,我們的模型每次采樣 100 次,平均生成約 7.8 條推理路徑。

圖片

我們也評(píng)估了準(zhǔn)確率。在一個(gè)評(píng)測(cè)集上,SFT 后的準(zhǔn)確率為 71%,RFT 為 77%。但 DPO 部分沒(méi)有顯著提升。DPO 從 RFT 中采樣得分最高的答案(如九分)作為正例,得分最低的(如兩分)作為負(fù)例,并訓(xùn)練 DPO 模型。訓(xùn)練時(shí)加了輔助 loss 以與 reference 對(duì)齊。但九分和兩分的差距較大,DPO 能學(xué)到兩者的差異,但在難以區(qū)分的問(wèn)題上優(yōu)化效果不佳。

復(fù)盤發(fā)現(xiàn),DPO 提升不明顯的主要原因:①在簡(jiǎn)單問(wèn)題上,答案更固定化,導(dǎo)致多樣性減少。②字?jǐn)?shù)控制等方面做得更好,使得模型的分布更尖銳,logistic 輸出更精準(zhǔn),但對(duì)難題的優(yōu)化效果有限。

圖片

我們對(duì) DPO 部分進(jìn)行了優(yōu)化,不再用九分和兩分構(gòu)建數(shù)據(jù) pair 訓(xùn)練 DPO 模型,而是使用一些難以區(qū)分的問(wèn)題。例如,數(shù)學(xué)中的精度控制問(wèn)題,CoT 錯(cuò)誤但 PoT 正確的問(wèn)題,或多步 PoT 的難題。我們將這些難以通過(guò) SFT 解決的案例放入 DPO。

我們做了兩部分優(yōu)化:PPO 和 DPO。最終效果顯示,DPO 勝率為 17%,負(fù)率為 10%,差距為 7%;而 PPO 的差距僅為 1%。上圖中右邊的案例顯示,SFT 難以解決的問(wèn)題在 DPO 后確定性更好,減少了生成的隨機(jī)性。

圖片

這是一個(gè)早期的工作,講述了為什么要使用動(dòng)態(tài) loss。我們發(fā)現(xiàn)簡(jiǎn)單的數(shù)學(xué)或邏輯推理,7B 或 10B 模型就能很好地解決。在訓(xùn)練初期,準(zhǔn)確率在前兩個(gè)樣本達(dá)到峰值,后續(xù)訓(xùn)練效果不明顯。

而 hard sample 則需要更多輪訓(xùn)練才能收斂。舉例來(lái)說(shuō),從前面 233 個(gè) step 到最后 2047 個(gè) step,loss 在后期才平緩。我們定義 hard sample 為模型有十條推理路徑,但 Critique Model 打分準(zhǔn)確率低于 50% 的問(wèn)題。對(duì)這些 hard sample,特別是 PoT 部分,進(jìn)行動(dòng)態(tài) loss 加權(quán)。

圖片

我們一直在進(jìn)行數(shù)學(xué)推理的研究,作為大模型通用能力的一部分。上圖中展示了今年 4 月的 Superclue 評(píng)測(cè)數(shù)據(jù),這是一個(gè)閉源的第三方評(píng)測(cè),看不到具體問(wèn)題。數(shù)據(jù)顯示 GPT-4-Turbo-0125 擁有最佳表現(xiàn)(GPT-4o 尚未推出),國(guó)內(nèi)大模型中成績(jī)最好的是從容大模型,接著就是 360gpt-pro,得分為 75.5 分。

以上就是本次分享的內(nèi)容,謝謝大家。

五、問(wèn)答環(huán)節(jié)

Q1:之前提到的 DPO 和 PPO 是基于兩個(gè)測(cè)試集的結(jié)果,還是在兩個(gè)不同的問(wèn)題領(lǐng)域中的表現(xiàn)?另外,這兩個(gè)方法之間存在什么主要差異?

A1:那個(gè)評(píng)測(cè)是在一個(gè)評(píng)測(cè)集上的,都是數(shù)學(xué)推理類的問(wèn)題。我們做了兩部分工作,一部分是 PPO,另一部分是 DPO。當(dāng)時(shí)在構(gòu)建 pair 對(duì)時(shí),是根據(jù) RFT 的最高得分和最低得分來(lái)構(gòu)建的。這部分?jǐn)?shù)據(jù)是重新構(gòu)建的。

Q2:關(guān)于您們的合成數(shù)據(jù)工作,包括最近其他的合成數(shù)據(jù)研究,比如騰訊的 10 億人設(shè)研究。您覺(jué)得為什么這種合成數(shù)據(jù)能在復(fù)雜推理任務(wù)中發(fā)揮作用?另外,您認(rèn)為合成數(shù)據(jù)在復(fù)雜推理任務(wù)中的上限是什么?因?yàn)榭打v訊的研究,Scaling 曲線表現(xiàn)很好。

A2:這個(gè)問(wèn)題很好,也是我們目前在做的,我們數(shù)據(jù)組尤其關(guān)注合成數(shù)據(jù)。為什么要做合成數(shù)據(jù)?因?yàn)楝F(xiàn)有指令少,尤其是數(shù)學(xué)類的。我們需要更多的指令,同時(shí)要提高指令的難度。比如,現(xiàn)有的 GSM8K 和 MAS 類指令只能擴(kuò)展到小學(xué)數(shù)學(xué)應(yīng)用和競(jìng)賽題目,這在多樣性和難度上都有問(wèn)題。我們的做法是將問(wèn)題細(xì)分為數(shù)學(xué)應(yīng)用類、矩陣運(yùn)算類、積分類等子類。每個(gè)子類下由標(biāo)注人員構(gòu)建種子指令,然后再進(jìn)行數(shù)據(jù)合成。第一步必須做到位,第二步才能有效。

合成數(shù)據(jù)在復(fù)雜推理任務(wù)的天花板在于篩選邏輯。如果篩選機(jī)制好,生成模型足夠優(yōu)秀,就能生成更好的指令。要對(duì)指令進(jìn)行關(guān)鍵詞抽取,再根據(jù) token 級(jí)別擴(kuò)展,生成的指令才會(huì)更好。篩選機(jī)制也很重要,不僅要篩選好的指令,還要篩選指令的回答,這兩者決定了天花板的高度。

英偉達(dá)的研究也展示了合成數(shù)據(jù)的重要性。只有 2 萬(wàn)條數(shù)據(jù)是人工標(biāo)注的,98% 是合成數(shù)據(jù)。他們的篩選方法尤其對(duì) MAS 類問(wèn)題進(jìn)行了分類,但主要針對(duì)簡(jiǎn)單問(wèn)題,像 GSM8K 的簡(jiǎn)單替換。而在數(shù)學(xué)推理外,如 close QA 或 open QA 類問(wèn)題,英偉達(dá)的方法可能會(huì)生成與原數(shù)據(jù)分布相似的數(shù)據(jù),這不是我們想要的。我們需要分布之外的數(shù)據(jù),有擴(kuò)展性的合成數(shù)據(jù)。英偉達(dá)還注重 reward model 的訓(xùn)練,特別是 340B 的 reward model,這部分工作在于區(qū)分難分的指令。因此,合成數(shù)據(jù)需要細(xì)分領(lǐng)域或技能,最終的質(zhì)量和多樣性決定了效果。

Q3:老師您好,我們看到 Critique Model 和 GPT-4o 的打分分布已經(jīng)接近,Critique Model 的大小是否考慮了不同參數(shù)量的影響?您提到生成樣本數(shù)據(jù)時(shí)會(huì)用一個(gè)特別小的模型,所以判別模型也會(huì)很小,但英偉達(dá)的 reward model 很大。

A3:Critique Model 比 reference model 小很多。Critique Model 和 reward model 不同,reward model 很大,但Critique Model 不能太大。reward model 推理速度快很多,但它是二分類模型;而 Critique Model 是語(yǔ)言模型,兩者屬于不同類型的模型。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2025-01-27 12:03:11

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2023-11-15 14:17:23

微軟語(yǔ)言模型AI 模型

2024-09-12 13:50:00

模型訓(xùn)練

2022-04-12 14:12:43

谷歌研究模型

2024-07-10 09:37:57

2024-11-08 08:39:39

2023-06-05 13:02:19

OlaGPT語(yǔ)言模型

2025-02-13 08:51:23

DeepSeek大模型

2024-11-11 11:05:00

大語(yǔ)言模型系統(tǒng)

2024-03-13 11:58:00

自動(dòng)化數(shù)據(jù)

2025-04-10 08:23:11

2023-06-20 13:44:49

清華推理

2023-05-15 15:38:59

AI模型

2024-11-11 08:50:24

2024-11-06 08:13:28

2023-06-04 13:29:24

OpenAI員工UC

2023-10-11 12:32:53

AI模型

2024-09-26 16:43:26

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)