自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

512張GPU煉出10萬億參數(shù)巨模型!這個模型今年雙十一已經(jīng)用上了

新聞 人工智能
超大規(guī)模的預(yù)訓(xùn)練模型的參數(shù)量級又雙叒被刷爆了!而且還是用512張GPU,訓(xùn)練了10天搞出來的!

 [[434190]]

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

超大規(guī)模的預(yù)訓(xùn)練模型的參數(shù)量級又雙叒被刷爆了!

100000億!

(沒錯,是10萬億)

而且還是用512張GPU,訓(xùn)練了10天搞出來的!

[[434191]]

這就是達摩院最新推出的超大規(guī)模通用性人工智能大模型,M6-10T。

它在電商、制造業(yè)、文學(xué)藝術(shù)、科學(xué)研究等領(lǐng)域都有著多模態(tài)、多任務(wù)的能力,在各自現(xiàn)實場景的下游任務(wù)中也頻頻出現(xiàn)。

而且還能做到即開即用,你今年的雙十一背后就有M6-10T的身影。

少量資源快速訓(xùn)練大模型

不過剁手節(jié)的事可以先放一邊,問題關(guān)鍵是:M6-10T到底是怎么使用少量資源完成對極限規(guī)模模型的訓(xùn)練的?

要知道,之前微軟的DeepSpeed MoE模型,也是使用了512張A100才完成了3.5萬億參數(shù)的訓(xùn)練。

而自家在5個月前推出的萬億級參數(shù)的M6,則是用480塊GPU訓(xùn)練的。

所以,512張GPU怎么就放下了10萬億參數(shù)?

這就要提到達摩院自研的分布式框架Whale。

512張GPU煉出10萬億參數(shù)巨模型!這個模型今年雙十一已經(jīng)用上了

基于這一框架,M6模型可以使用粒度可控的CPU offload方法,靈活地選擇offload的模型層。

也就是說,可以不用將所有的權(quán)重offload到CPU memory中,而選擇保留部分權(quán)重在GPU memory上進行計算,以進一步地提高GPU利用率。

放下了參數(shù),下一步就是提高訓(xùn)練效率。

M6-10T模型采用了一種叫做共享解除(Pseudo-to-Real)的新的訓(xùn)練策略:

512張GPU煉出10萬億參數(shù)巨模型!這個模型今年雙十一已經(jīng)用上了

這一策略分為兩個階段。

第一階段,利用跨層參數(shù)共享機制快速構(gòu)建并訓(xùn)練小模型Pseudo Giant。

參數(shù)少得多的Pseudo Giant不受內(nèi)存的限制,因此可以用大批量訓(xùn)練來加速。

再配合上專家拆分和合并的機制,最終只需要使用256張GPU即可快速訓(xùn)練一個Pseudo Giant。

第二階段則解除共享參數(shù)的聯(lián)系,得到新的Real Giant模型。

“共享”階段訓(xùn)練好的模型層的參數(shù)會為Real Giant的每一層提供初始化,大模型即可在訓(xùn)練好的小模型的基礎(chǔ)上繼續(xù)優(yōu)化。

在下游評估中可以看到,從頭開始訓(xùn)練Real Giant模型非常耗時,而Pseudo Giant訓(xùn)練的收斂速度比Real Giant訓(xùn)練有5倍左右的優(yōu)勢:

512張GPU煉出10萬億參數(shù)巨模型!這個模型今年雙十一已經(jīng)用上了

△在48個NVIDIA V100 GPU設(shè)備上訓(xùn)練

這一機制不僅能夠使M6-10T在樣本量的維度上具有更快的收斂速度,也能將模型的訓(xùn)練速度提升7倍以上。

而相對于之前的M6-MoE和M6-T,采用了新的訓(xùn)練策略的M60-10T迷惑度(perplexity)更低,模型更優(yōu)越:

512張GPU煉出10萬億參數(shù)巨模型!這個模型今年雙十一已經(jīng)用上了

可以說,之前使用480GPU的萬億參數(shù)模型M6,如果采用現(xiàn)在的方法,那就只需要64張GPU就能完成訓(xùn)練。

雙十一背后的模型

而除了算法層面的價值,M6-10T一經(jīng)推出就能夠投入使用。

比如說即將來臨的雙十一中,你或許就能發(fā)現(xiàn)這些AI設(shè)計款的衣服上架。

512張GPU煉出10萬億參數(shù)巨模型!這個模型今年雙十一已經(jīng)用上了

△基于M6設(shè)計生成的服裝款式

這就是大模型帶來的創(chuàng)造力。

在結(jié)合了StyleGAN后,M6能夠在少樣本情況下自動生成圖像,且保持良好的細節(jié)質(zhì)量和可編輯性。

而且與傳統(tǒng)的設(shè)計款式圖不同,M6生成的還是更接近實物的照片效果。

在手機淘寶和支付寶中,也會有基于M6智能生成的內(nèi)容文案:

512張GPU煉出10萬億參數(shù)巨模型!這個模型今年雙十一已經(jīng)用上了

同時,大模型的多模態(tài)特征提取能力,也能進行商品屬性標(biāo)簽補充,用于進行認知召回。

可以說,阿里巴巴內(nèi)部超過40個業(yè)務(wù)團隊背后,都有著基于個版本的M6模型形成的服務(wù)化平臺的支撐。

而除了電商領(lǐng)域,還有金融、工業(yè)、傳統(tǒng)科學(xué)等諸多應(yīng)用方向。

現(xiàn)在,M6服務(wù)化平臺以及成為了前業(yè)界覆蓋最廣泛的大模型生態(tài)的服務(wù)化平臺。

那么未來是繼續(xù)追求更大量級的模型,進行參數(shù)規(guī)模的迭代嗎?

阿里達摩院M6的科研團隊表示:

伴隨著參數(shù)規(guī)模的擴大,當(dāng)前的預(yù)訓(xùn)練模型在語言模型建模之類的任務(wù)上取得了不錯的進展,
但對知識的理解還比較淺薄。

因此,如何將大模型有效遷移到多種類型的下游任務(wù)上,讓大模型真正地理解并運用知識,這將是研究人員會進一步探索的問題。

論文:
https://arxiv.org/abs/2110.03888

 

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-05-27 15:43:29

鴻蒙安卓和iOS

2023-10-18 13:26:00

訓(xùn)練模型

2021-02-02 13:00:30

快手參數(shù)推薦精排模型

2023-12-16 12:47:59

2014-11-10 21:50:54

阿里巴巴雙十一

2020-11-16 15:10:56

Widows 10WidowsEdge瀏覽器

2023-07-13 12:54:42

GPT-4OpenAI

2015-10-10 12:56:14

路由寶

2020-09-11 10:48:49

微軟機器學(xué)習(xí)開源AI

2015-11-09 16:47:27

蟻視

2015-11-03 16:52:15

天貓

2022-01-25 10:40:30

Windows 10微軟升級

2023-11-16 16:41:36

AI 模型

2012-12-20 09:55:22

阿里巴巴淘寶成長淘寶雙十一

2025-03-18 08:19:01

2022-08-20 07:52:56

語言模型參數(shù)PaLM

2021-06-25 10:40:38

阿里云AIM6
點贊
收藏

51CTO技術(shù)棧公眾號