自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀

發(fā)布于 2024-4-7 09:58
瀏覽
0收藏

“只需”10萬(wàn)美元,訓(xùn)練Llama-2級(jí)別的大模型。


尺寸更小但性能不減的MoE模型來(lái)了:


它叫JetMoE,來(lái)自MIT、普林斯頓等研究機(jī)構(gòu)。


性能妥妥超過(guò)同等規(guī)模的Llama-2。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

△賈揚(yáng)清轉(zhuǎn)發(fā)

要知道,后者可是數(shù)十億美元級(jí)別的投入成本。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

JetMoE發(fā)布即完全開(kāi)源,且學(xué)術(shù)界友好:僅使用公開(kāi)數(shù)據(jù)集和開(kāi)源代碼,用消費(fèi)級(jí)GPU就能進(jìn)行微調(diào)。


不得說(shuō),大模型的打造成本,真的比人們想的要便宜更多了。


Ps. Stable Diffusion前老板Emad也點(diǎn)了贊:

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

10萬(wàn)美刀實(shí)現(xiàn)Llama-2性能

JetMoE啟發(fā)于ModuleFormer的稀疏激活架構(gòu)。


(ModuleFormer,一種基于稀疏專(zhuān)家混合(SMoE)的模塊化架構(gòu),可提高大模型效率和靈活性,去年6月提出)它的注意力層中仍然使用了MoE:


80億參數(shù)的JetMoE一共有24個(gè)區(qū)塊,每塊包含2個(gè)MoE層,分別是注意力頭混合 (MoA) 和MLP專(zhuān)家混合 (MoE)。


每個(gè)MoA和MoE層又有8個(gè)專(zhuān)家,每次輸入token激活2個(gè)。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

JetMoE-8B使用公開(kāi)數(shù)據(jù)集中的1.25T token進(jìn)行訓(xùn)練,學(xué)習(xí)率5.0 x 10-4,全局batch size為4M token。


具體訓(xùn)練方案遵循MiniCPM(來(lái)自面壁智能,2B模型就能趕超Mistral-7B)的思路,共包含兩階段


第一階段使用線(xiàn)性預(yù)熱的恒定學(xué)習(xí)率,用來(lái)自大規(guī)模開(kāi)源預(yù)訓(xùn)練數(shù)據(jù)集的1萬(wàn)億個(gè)token進(jìn)行訓(xùn)練,這些數(shù)據(jù)集包括RefinedWeb、Pile、Github data等等。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

第二階段則使用指數(shù)學(xué)習(xí)率衰減,用2500億個(gè)token訓(xùn)練來(lái)自第一階段數(shù)據(jù)集和超高質(zhì)量開(kāi)源數(shù)據(jù)集的token。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

最終,團(tuán)隊(duì)使用96×H100的GPU集群,花費(fèi)2周時(shí)間、約8萬(wàn)美元搞定JetMoE-8B。

更多技術(shù)細(xì)節(jié)將在不久后發(fā)布的技術(shù)報(bào)告上揭露。


而在推理過(guò)程中,由于JetMoE-8B僅具有22億個(gè)激活參數(shù),因此計(jì)算成本大大降低——

同時(shí),它還收獲了不錯(cuò)的性能表現(xiàn)。


如下圖所示:

JetMoE-8B在8個(gè)評(píng)測(cè)基準(zhǔn)上獲得了5個(gè)sota(包括大模型競(jìng)技場(chǎng)Open LLMLeaderboard),超過(guò)LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

在MT-Bench基準(zhǔn)上得分6.681,也超過(guò)了130億參數(shù)的LLaMA2、Vicuna等模型。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

作者介紹

JetMoE一共4位作者,分別是:


  • Yikang Shen

MIT-IBM Watson Lab研究員,研究方向NLP。


本碩畢業(yè)于北航,博士經(jīng)歷于Yoshua Bengio創(chuàng)辦的Mila研究機(jī)構(gòu)。


  • 國(guó)振 (Gavin Guo)

MIT博士在讀, 研究方向?yàn)?D成像的數(shù)據(jù)高效機(jī)器學(xué)習(xí)。


UC伯克利本科畢業(yè),去年夏天作為學(xué)生研究員加入MIT-IBM Watson Lab,導(dǎo)師為Yikang Shen等人。


  • 蔡天樂(lè)

普林斯頓博士在讀生,本科畢業(yè)于北大應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué),??目前也是Together.ai?? 的兼職研究員,與Tri Dao合作。


  • Zengyi Qin

MIT博士在讀,同時(shí)在創(chuàng)業(yè),MyShell的AI研發(fā)主管。

這家公司剛剛?cè)谫Y了1100萬(wàn)美元,投資者包括Transformer的作者。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型!全華人打造新型MoE,賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

傳送門(mén):?????https://github.com/myshell-ai/JetMoE??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/98TmAe_c4H64RTZXIG5yfg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦