自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AliceMind大規(guī)模預(yù)訓(xùn)練實(shí)踐及AIGC在ModelScope中的應(yīng)用

人工智能
隨著 ChatGPT 的火出圈,AIGC 開(kāi)始受到廣泛的關(guān)注。數(shù)據(jù)量,硬件成本,預(yù)訓(xùn)練范式等多方因素的發(fā)展造就了 ChatGPT 亮眼的成果。本次由阿里達(dá)摩院為大家分享文本及多模態(tài)生成在過(guò)去幾年的成果。

一、AIGC 背景介紹

圖片

AIGC 的成功開(kāi)始于 OpenAI 提出的 GPT-3。之前沒(méi)有預(yù)訓(xùn)練的生成模型效果和現(xiàn)在有差距,即使用監(jiān)督學(xué)習(xí) + fine-tune 的方式可以在某些 task 得到不錯(cuò)的效果,但是它的泛化能力比較差,因此當(dāng)時(shí)的 AIGC 并沒(méi)有被大家關(guān)注。所以當(dāng) OpenAI 提出的 GPT-3 可以根據(jù) Prompt 提示詞或者 instruction 指令去生成代碼以及各種各樣的文本時(shí),大家才開(kāi)始更多去關(guān)注和探索 AIGC 方向。另外,除了文本生成以外,DALL-E 和 DALL-E2 在圖片生成方面的進(jìn)展也是推動(dòng) AIGC 發(fā)展的重要因素。

圖片

二、AliceMind 純文本生成大小模型協(xié)同

1、AI 文本生成的三個(gè)階段

本次分享主要關(guān)注文本生成,下面回顧一下文本生成發(fā)展的過(guò)程。

?最早的生成是 Encoder-Decoder 架構(gòu),沒(méi)有預(yù)訓(xùn)練,只是做一些任務(wù)上的 fine-tune 工作,當(dāng)時(shí)效果比較差。隨著 GPT-1 預(yù)訓(xùn)練的提出才開(kāi)始有不錯(cuò)的效果,之后 BART 和 T5 這兩個(gè)模型提出之后發(fā)現(xiàn),用一個(gè)生成模型可以做很多 task,而且這些 task 其實(shí)效果都可以比較好。比如 T5 可以把各種不同的 NLP 任務(wù)都轉(zhuǎn)化成生成的方式。AliceMind 在 20 年的時(shí)候自研了一個(gè) PALM(Pre-training an Autoencoding & Autoregressive Language Model)的生成預(yù)訓(xùn)練模型,后面會(huì)介紹。

第二階段的發(fā)展從大規(guī)模 Language Model 開(kāi)始。大家發(fā)現(xiàn) GPT-3 有很強(qiáng)的 few-shot 生成和泛化能力,所以也開(kāi)始廣泛地去做一些大規(guī)模的預(yù)訓(xùn)練。包括我們自研中文 PLUG 模型、M6、以及 Google 提出的 PaLM(Pathways Language Model,注意如果忽略大小寫(xiě)和上面的模型縮寫(xiě)都是 PALM,這倆模型全稱不一樣,不是一回事),這幾個(gè)都是大規(guī)模預(yù)訓(xùn)練模型。相比于 GPT-3,后面的模型更偏重于 Prompt,instruct 的生成。我們的 PLUG 也是基于 Prompt,區(qū)別在于它是 Encoder-Ddecoder 架構(gòu),這個(gè)架構(gòu)和 Decoder-only 不一樣的地方在于,它會(huì)更偏理解類(lèi)的一些生成任務(wù)。Google 的PaLM,走的是推理的路線,更能體現(xiàn)模型的智能。

第三階段想要解決的問(wèn)題是,無(wú)監(jiān)督的大規(guī)模預(yù)訓(xùn)練模型在指令方面生成效果比較差。因?yàn)樗峭ㄟ^(guò)無(wú)監(jiān)督訓(xùn)練 Language Model 任務(wù)去訓(xùn)練得到的,所以更多偏向續(xù)寫(xiě)的模型。當(dāng)用戶有一些指令輸入進(jìn)來(lái),讓模型去做什么事,模型會(huì)根據(jù)用戶輸入的最后一個(gè)詞做續(xù)寫(xiě),而不是按照指令去回復(fù)問(wèn)題或者回復(fù)指令。所以 OpenAI 在 2022 年一月份的時(shí)候提出了 Instruct GPT。

Instruct GPT 通過(guò)人工標(biāo)注的指令和 Label 數(shù)據(jù)訓(xùn)練,使得模型可以按照指令去生成這個(gè)數(shù)據(jù),比如我要模型幫我用某種語(yǔ)言寫(xiě)一個(gè)算法。論文中寫(xiě)到用了 13K Prompt,在無(wú)監(jiān)督訓(xùn)練得到的 GPT-3 基礎(chǔ)上去做 Supervise 的 fine-tune。這樣模型獲得了對(duì)指令的理解能力。同時(shí)它因?yàn)榻?jīng)過(guò)了大量無(wú)監(jiān)督訓(xùn)練,指令還可以泛化到更多相似的指令。這就是現(xiàn)在 ChatGPT 能在很多場(chǎng)景上都有不錯(cuò)效果的原因。之后的進(jìn)一步升級(jí)是利用人工標(biāo)注數(shù)據(jù)的答案質(zhì)量高低,再用 Reinforcement Learning 去學(xué)習(xí)排序,這樣可以提升模型生成的句子。?

2、AliceMind 文本生成模型的發(fā)展

?接下來(lái)主要介紹 AliceMind 在文本生成大模型上的一些探索。AliceMind 整體是個(gè)預(yù)訓(xùn)練模型體系,它包含了很多預(yù)訓(xùn)練模型,今天主要介紹其中的三個(gè)。

第一個(gè)是生成式預(yù)訓(xùn)練模型 PALM,第二個(gè)是我們自研的超大規(guī)模中文預(yù)訓(xùn)練的 PLUG,以及我們基于 GPT-3 架構(gòu)在中文大量無(wú)監(jiān)督數(shù)據(jù)上去訓(xùn)練的一個(gè)中文 GPT-3。以上是純文本的大模型,還有一個(gè)是在圖像多模態(tài)上的大模型 mPLUG,它做的是圖文場(chǎng)景、多模態(tài)場(chǎng)景的文本生成。?

圖片

首先介紹純文本的這幾個(gè)模型。對(duì)比一下前面介紹過(guò)的大小模型,它們各自適用于文本生成哪些場(chǎng)景。

?小模型更偏向資源有限,同時(shí)又有一些數(shù)據(jù)集,而且要求精度和 RT 比較高的一些下游場(chǎng)景。這也可以用預(yù)訓(xùn)練生成小模型,比如 GPT-1,BART 以及 T5,還有我們的 PALM 模型。這些都是參數(shù)規(guī)模比較小一些的模型,比如這幾個(gè)模型的 base、large 規(guī)模分別為 1 億、3 億參數(shù)。

大模型主要是適用于多生成任務(wù)場(chǎng)景。比如我有很多生成任務(wù),但同時(shí)我又沒(méi)有數(shù)據(jù),或者只有很少量數(shù)據(jù)的情況下,我可以用大模型的一些 few-shot 的泛化能力去實(shí)現(xiàn)很多能力。比如現(xiàn)在大模型其實(shí)有很多通用能力,比如小說(shuō)續(xù)寫(xiě)、詩(shī)詞生成,對(duì)聯(lián)生成,還有 QA 問(wèn)答這些。相比于小模型 fine-tune 之后的效果肯定會(huì)差一些,但是可以兼容更多場(chǎng)景。?

圖片

這里看一下文本生成任務(wù)里面幾種重要的形式。

圖片


AliceMind 走了一條先做小模型,取得成果再遷移到大模型,最后再?gòu)奈谋具w移到多模態(tài)這樣的道路。下面先從 20 年提出的小模型 PALM 講起。

(1)PALM?

當(dāng)時(shí)的生成預(yù)訓(xùn)練模型,在預(yù)訓(xùn)練任務(wù)上都是更偏生成類(lèi)的,比如 GPT 是 Language Model,把所有的文本去預(yù)測(cè)下一個(gè)詞。BART是把輸入端去做一些 mask,再 decoder 去做一些還原。

我們認(rèn)為有一類(lèi)生成類(lèi)任務(wù),比如文本摘要,有輸入序列長(zhǎng),輸出序列短的特點(diǎn),這種場(chǎng)景很依賴 encoder 的理解能力。motivation 是看到 EMNLP 上有一篇 paper ,把 BERT encoder 直接拿過(guò)來(lái),再加一個(gè)隨機(jī) decoder,fine-tune 訓(xùn)練摘要任務(wù),都得可以得到很好的效果,這說(shuō)明了 encoder 的重要性。所以我們在做 PALM 的時(shí)候結(jié)合了自編碼和自回歸的預(yù)訓(xùn)練。

① 自回歸類(lèi)似于 Language Model 這種去做生成,只不過(guò)我們這里會(huì)把一個(gè) document 隨機(jī)從中間切開(kāi),切成兩部分,一部分輸入到 encoder 里面,讓 decoder 去預(yù)測(cè)后半部分。

② 自編碼預(yù)訓(xùn)練就是在 encoder 側(cè)加一個(gè)任務(wù),讓模型去提升模型的理解能力。encoder 任務(wù)我們采用的是 maskLM,類(lèi)似于 BERT 的,經(jīng)過(guò)驗(yàn)證有效的方式去做 mask,直接在 encoder 去做預(yù)測(cè)。

聯(lián)合自編碼自回歸的預(yù)訓(xùn)練它既有 encoder 的理解能力,同時(shí) decoder 也有很好的生成能力。

圖片

下面來(lái)看實(shí)驗(yàn)的結(jié)果。從右側(cè)的表可以看出,把自編碼和自回歸任務(wù)單獨(dú)去掉之后,模型的效果都會(huì)下降一個(gè)點(diǎn)。另外還對(duì)比了幾個(gè)生成預(yù)訓(xùn)練模型在大部分?jǐn)?shù)據(jù)集上都有提升。

圖片

?PALM 2.0 在 1.0 版本上主要是針對(duì)中文場(chǎng)景的升級(jí),我們發(fā)現(xiàn)通過(guò)多階段多任務(wù)漸進(jìn)式預(yù)訓(xùn)練可以進(jìn)一步提升模型效果。采用課程學(xué)習(xí)(curriculum learning)的思想,從易到難的學(xué)習(xí)思路。因?yàn)橹暗脑~編碼這種詞級(jí)別的 mask,對(duì)于生成有點(diǎn)太簡(jiǎn)單了。所以我們這里采用了一個(gè) text infilling,同時(shí)也對(duì)句子做一些 Shuffle。類(lèi)似于 BART 的這種方式,只不過(guò)它會(huì) mask 更多的詞,同時(shí)也會(huì)把句子打斷,這樣會(huì)使模型生成起來(lái)難度更高。相當(dāng)于從最簡(jiǎn)單的這種 maskLM 任務(wù)到中間第二階段 text infilling任務(wù)。第三階段是延續(xù) PALM 1.0 的自回歸任務(wù)。

我們對(duì)比了模型在預(yù)訓(xùn)練過(guò)程中的這幾個(gè)任務(wù)的 Accuracy,從 Accuracy 指標(biāo)的結(jié)果可以看出,這幾個(gè)任務(wù)確實(shí)是從易到難的。第一個(gè)任務(wù),我們訓(xùn)練過(guò)程中 Accuracy 可以達(dá)到 90% 多。第二階段 text infilling & Shuffle 任務(wù),可以達(dá)到 80% 的結(jié)果。第三階段模型最多能夠達(dá)到 40% 以上。畢竟是一個(gè)開(kāi)放性的生成任務(wù),即使人去寫(xiě)也是比較難的。?

圖片

下面看一下多階段漸進(jìn)式預(yù)訓(xùn)練的實(shí)驗(yàn)結(jié)果。開(kāi)始的詞級(jí)別的 mask 作為 Baseline,在此之上加入 text Infilling 對(duì)片段 mask 之后,可以看到比較顯著的提升。第三階段再加入自回歸生成之后,模型除了在 ADGEN 數(shù)據(jù)以外,都有進(jìn)一步的提升。ADGEN 數(shù)據(jù)集效果下降是一個(gè)比較有趣的現(xiàn)象,原因可能是因?yàn)轭A(yù)訓(xùn)練的任務(wù),如果和下游任務(wù)貼合,就會(huì)得到不錯(cuò)的效果。這時(shí)候如果進(jìn)一步進(jìn)行三階段訓(xùn)練,效果反而會(huì)下降。

圖片

PALM 2.0 在幾個(gè)中文數(shù)據(jù)集上面的實(shí)驗(yàn)效果,base/large 均高于其他的 SOTA 模型。

圖片

PALM 2.0 模型以及預(yù)訓(xùn)練的 backbone 都已經(jīng)上傳到 ModelScope 社區(qū)中,可以獲取到 modelcard 以及 checkpoint。

圖片

下面介紹下游和訓(xùn)練場(chǎng)景的應(yīng)用。下游場(chǎng)景以前面介紹的摘要任務(wù)為例,只需要寫(xiě)幾行代碼調(diào)用 Pipeline 即可直接做摘要任務(wù)的預(yù)測(cè)。

圖片

訓(xùn)練場(chǎng)景中,用戶只需構(gòu)造自己的數(shù)據(jù)集,配置超參就可以做訓(xùn)練了,也可以更換其中的模型和 backbone。另外訓(xùn)練過(guò)程中會(huì)對(duì)常用的評(píng)價(jià)指標(biāo)進(jìn)行自動(dòng)評(píng)估,最后保存最好的 checkpoint 模型。之后調(diào)用 Pipeline 即可對(duì)訓(xùn)練好的模型做 inference。如果沒(méi)有 GPU 機(jī)器,也可以用我們提供的一些免費(fèi)時(shí)長(zhǎng),使用在線 notebook 體驗(yàn)。

(2)中文 GPT-3?

圖片

上面講的主要是針對(duì)小模型,對(duì)預(yù)訓(xùn)練的 backbone 做 fine-tune,下面講兩個(gè)大模型,中文 GPT 和我們自研的 PLUG。中文 GPT 延續(xù)了英文 GPT Decoder-only 的架構(gòu),數(shù)據(jù)方面用的更多的是中文的無(wú)監(jiān)督語(yǔ)料。因?yàn)闆](méi)有 Instruct GPT 那么多的標(biāo)注數(shù)據(jù),所以模型的泛化能力差一些。在推理上我們基于 allSpark 做了一些優(yōu)化,13B 模型生成128 個(gè) tokens 只需要 1 秒??紤]到不同開(kāi)發(fā)者的硬件條件不同,我們目前開(kāi)放了 6 種不同大小的模型,大家可以根據(jù)自己的機(jī)器條件選擇。

圖片

我們也提供了在線體驗(yàn)版本供大家測(cè)試。詩(shī)詞生成場(chǎng)景,模型可以預(yù)測(cè)詩(shī)詞的下半句。小說(shuō)續(xù)寫(xiě)場(chǎng)景,模型可以根據(jù)小說(shuō)的前半部分續(xù)寫(xiě)。代碼生成場(chǎng)景,可以根據(jù)用戶要求的功能以及編程語(yǔ)言生成相應(yīng)的代碼。

圖片

下面展示一個(gè) GPT-3 的訓(xùn)練體驗(yàn)樣例。原本的模型不支持詩(shī)詞生成(生成的結(jié)果并不是一句五個(gè)字),對(duì)模型使用 Pipeline 重新訓(xùn)練之后就可以生成詩(shī)詞了。

(3)PLUG?

圖片

PLUG 中文大模型延續(xù)的是 PALM 的思路,結(jié)合 NLU 和 NLG 的任務(wù),得到一個(gè)理解和生成同時(shí)做的模型。NLU 任務(wù)是我們自研的 StructBERT 模型,在 BERT的基礎(chǔ)上引入三分類(lèi)以及對(duì)詞級(jí)別打亂。NLG 是 PALM 的自編碼自回歸結(jié)合。訓(xùn)練分為兩個(gè)階段,第一階段是 StructBERT 的思路,把模型大小提升。第二階段延續(xù) PALM 的思路,用 encoder 做初始化,加上 decoder 之后做生成的訓(xùn)練。這樣可以得到一個(gè) Encoder-Decoder 統(tǒng)一理解生成模型。做理解相關(guān)任務(wù),比如分類(lèi)/預(yù)測(cè)時(shí),只需要把 encoder 部分拿出來(lái),沿用 BERT 的方法。做生成相關(guān)任務(wù)時(shí),再使用全部的 Encoder-Decoder 架構(gòu)。這里也做了一些推理加速的工作,和中文 GPT 是相同的技術(shù),獲得了 10x 加速的效果。

圖片

PLUG 模型在 GLUE 榜單上測(cè)試,理解和生成任務(wù)都取得了很好的效果。

圖片

270 億參數(shù)的 PLUG 模型已經(jīng)在 ModelScope 上開(kāi)放,大家可以按照流程申請(qǐng)獲取下載鏈接,然后使用 Pipeline 做部署推理。

圖片

三、多模態(tài)統(tǒng)一生成預(yù)訓(xùn)練模型 mPLUG

下面介紹多模態(tài)場(chǎng)景的工作,主要是針對(duì)輸入圖+文,輸出文字的情況。

圖片

?多模態(tài)相關(guān)主要的任務(wù)有兩種。一個(gè)是 VQA,輸入圖片和針對(duì)圖片的問(wèn)題,模型預(yù)測(cè)答案。另一個(gè)是 COCO Caption,輸入圖片,模型預(yù)測(cè)圖片的描述。

我們提出了多模態(tài)統(tǒng)一生成的預(yù)訓(xùn)練模型 mPLUG,主要解決的是多模態(tài)融合時(shí),視覺(jué)特征序列過(guò)長(zhǎng)導(dǎo)致的低效性和信息淹沒(méi)問(wèn)題。Vit 結(jié)構(gòu)的問(wèn)題是,在切 patch 的過(guò)程中,如果切的比較小且圖片分辨率高,切下來(lái)序列就會(huì)很長(zhǎng),序列長(zhǎng)會(huì)帶來(lái)訓(xùn)練低效的問(wèn)題。另外在和文本模態(tài)融合的過(guò)程中,如果圖片數(shù)據(jù)過(guò)長(zhǎng),會(huì)淹沒(méi)一部分文本的信息。?

圖片

mPLUG 結(jié)構(gòu)的底層還是先分別對(duì)文本和圖片做編碼,之后用對(duì)比學(xué)習(xí)把兩個(gè)維度的特征拉到同一空間,再傳入我們提出的 skip-connection 網(wǎng)絡(luò)。之前的 co-attention 或者圖文拼接的方式會(huì)存在信息淹沒(méi)問(wèn)題,我們的核心點(diǎn)在于只做非對(duì)稱的 attention,即只將視覺(jué)特征 cross 到文本側(cè)。因?yàn)橛?xùn)練速度慢主要在視覺(jué),這樣可以極大提升模型訓(xùn)練速度。但是如果只采用這種方式,因?yàn)槲谋拘蛄斜容^短,會(huì)帶來(lái)視覺(jué)信息的丟失。所以我們?cè)?skip-connection 網(wǎng)絡(luò)里面,先通過(guò)一個(gè)多層的非對(duì)稱的 co-attention 網(wǎng)絡(luò),之后把視覺(jué)信息拼接進(jìn)來(lái),然后再過(guò)一層的 connected attention。這樣既可以保證視覺(jué)信息不丟失,同時(shí)防止文本信息被視覺(jué)信息淹沒(méi)。

以上就是圖片和文本信息融合的 encoder,之后再加上 decoder 做生成的預(yù)訓(xùn)練。這就是我們整體的架構(gòu)了。這種架構(gòu)的優(yōu)勢(shì)在,一方面通過(guò)這種模塊化多流的 Transformer 結(jié)構(gòu),可以統(tǒng)一理解和生成。同時(shí)它又可以靈活地拆拔不同模塊進(jìn)行微調(diào)。比如做圖文檢索任務(wù),可以不要 decoder,只把 vision 和 text encoder 拆出來(lái)做向量檢索,也可以用 ITM 圖文匹配 Score。如果是 caption 任務(wù),則不需要 text encoder,只需要 vision encoder 直接 cross 到 decoder 做圖片描述的生成。如果做開(kāi)放域的視覺(jué)問(wèn)答,則全部的模塊都會(huì)用到。

圖片

?在 VQA 任務(wù)中,只用了 1400 萬(wàn)數(shù)據(jù)就超過(guò)了很多用更多數(shù)據(jù)的模型。在 caption 任務(wù)中,我們通過(guò)模型的 fine-tune 和加 theta 的優(yōu)化可以達(dá)到很好的效果。圖文檢索中我們用向量和 ITM 的兩個(gè) Score 得到了很好的效果。

在訓(xùn)練時(shí)間方面,skip-connection 相比于之前的幾種方式會(huì)減少一些。非對(duì)稱 attention 節(jié)省的時(shí)間更多,但是效果差一些。效果差的原因是,如果只是視覺(jué)信息 cross 到文本,文本信息序列太短,不足以承載整個(gè)視覺(jué)和文本的表示。?

圖片

展示幾個(gè) VQA 在開(kāi)放域上的樣例。

圖片

mPLUG 模型同樣放在 ModelScope上。

圖片

圖片

圖片

同樣也有快速體驗(yàn)和調(diào)用,以及針對(duì)用戶個(gè)性化場(chǎng)景的訓(xùn)練優(yōu)化。

四、總結(jié)

圖片


圖片

五、問(wèn)答環(huán)節(jié)

Q1:中文 GPT-3 代碼生成是怎么做的,用的什么數(shù)據(jù)?

A1:第一階段預(yù)訓(xùn)練數(shù)據(jù)的 common crawl 中包含一些代碼數(shù)據(jù)。第二階段還專(zhuān)門(mén)加了一些代碼數(shù)據(jù),另外做了一些 Prompt 整理,優(yōu)化和標(biāo)注。

Q2:PLUG 2 萬(wàn)億是 Dense 的嗎?

A2:不是。開(kāi)始想嘗試 Dense,但是訓(xùn)練難度大,所以其實(shí)是 MOE 的模型。我們也做一些測(cè)試,它在性能上等價(jià)于百億千億這種級(jí)別。

Q3:中文 GPT-3 開(kāi)源了嗎?

A3:開(kāi)源在 ModelScope 社區(qū)了。

Q4:海量數(shù)據(jù)做預(yù)訓(xùn)練,如何加速?

A4:和 NVIDIA 做了一些合作,使用 Megatron 框架做了一些算子,并行上的優(yōu)化。

Q5:訓(xùn)練用了多少資源?

A5:base/large 級(jí)別的模型,用了 8 卡 A100 的機(jī)器訓(xùn)練了 4-5 天完成的。1.3B/2.7B,用 32 卡的 A100 訓(xùn)練一兩周的時(shí)間。更大的模型,比如 13B/30B 要上百卡級(jí)別,接近一個(gè)月時(shí)間訓(xùn)練。

Q6:一個(gè)是 GPT-3,用于理解類(lèi)下游任務(wù)效果不好?

A6:Decoder-only 結(jié)構(gòu),不是雙向理解。構(gòu)建 Prompt 的方式去生成,不如用 encoder 的方式效果好。

Q7:中文 GPT 和 ChatGPT 的區(qū)別?

A7:中文 GPT 的架構(gòu)和 GPT3,ChatGPT 差不多。差別主要在訓(xùn)練數(shù)據(jù)上,ChatGPT 使用了有 Label 的 instruction 數(shù)據(jù)集,效果確實(shí)好一些。

今天的分享就到這里,謝謝大家。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2023-05-26 08:39:44

深度學(xué)習(xí)Alluxio

2025-02-18 09:48:58

2023-04-04 07:32:35

TorchRec模型訓(xùn)練

2021-11-15 10:00:22

模型人工智能NLP

2018-10-31 14:31:56

UCloud虛擬網(wǎng)絡(luò)灰度發(fā)布

2020-06-10 10:00:53

Serverless數(shù)據(jù)處理函數(shù)

2021-04-22 13:38:21

前端開(kāi)發(fā)技術(shù)

2020-11-18 10:29:07

模型人工智能開(kāi)源

2017-01-11 15:54:53

SDN網(wǎng)絡(luò)數(shù)據(jù)中心中國(guó)移動(dòng)

2023-06-12 07:50:45

2021-10-18 11:54:46

2017-06-27 15:35:02

機(jī)器學(xué)習(xí)Spark微博應(yīng)用

2023-06-28 08:23:41

搜索語(yǔ)義模型

2023-07-10 07:42:38

2024-04-26 09:38:36

2020-10-19 19:37:18

區(qū)塊鏈李鳴數(shù)字

2013-03-22 14:44:52

大規(guī)模分布式系統(tǒng)飛天開(kāi)放平臺(tái)

2023-11-27 13:51:00

模型訓(xùn)練

2024-05-27 07:21:43

2024-01-30 07:56:57

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)