自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="shz6n"><track id="shz6n"></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀

發(fā)布于 2024-4-7 09:58

瀏覽

0收藏

“只需”10萬(wàn)美元，訓(xùn)練Llama-2級(jí)別的大模型。

尺寸更小但性能不減的MoE模型來(lái)了：

它叫JetMoE，來(lái)自MIT、普林斯頓等研究機(jī)構(gòu)。

性能妥妥超過(guò)同等規(guī)模的Llama-2。

△賈揚(yáng)清轉(zhuǎn)發(fā)

要知道，后者可是數(shù)十億美元級(jí)別的投入成本。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

JetMoE發(fā)布即完全開(kāi)源，且學(xué)術(shù)界友好：僅使用公開(kāi)數(shù)據(jù)集和開(kāi)源代碼，用消費(fèi)級(jí)GPU就能進(jìn)行微調(diào)。

不得說(shuō)，大模型的打造成本，真的比人們想的要便宜更多了。

Ps. Stable Diffusion前老板Emad也點(diǎn)了贊：

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

10萬(wàn)美刀實(shí)現(xiàn)Llama-2性能

JetMoE啟發(fā)于ModuleFormer的稀疏激活架構(gòu)。

（ModuleFormer，一種基于稀疏專(zhuān)家混合(SMoE)的模塊化架構(gòu)，可提高大模型效率和靈活性，去年6月提出）它的注意力層中仍然使用了MoE：

80億參數(shù)的JetMoE一共有24個(gè)區(qū)塊，每塊包含2個(gè)MoE層，分別是注意力頭混合 (MoA) 和MLP專(zhuān)家混合 (MoE）。

每個(gè)MoA和MoE層又有8個(gè)專(zhuān)家，每次輸入token激活2個(gè)。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

JetMoE-8B使用公開(kāi)數(shù)據(jù)集中的1.25T token進(jìn)行訓(xùn)練，學(xué)習(xí)率5.0 x 10-4，全局batch size為4M token。

具體訓(xùn)練方案遵循MiniCPM（來(lái)自面壁智能，2B模型就能趕超Mistral-7B）的思路，共包含兩階段：

第一階段使用線(xiàn)性預(yù)熱的恒定學(xué)習(xí)率，用來(lái)自大規(guī)模開(kāi)源預(yù)訓(xùn)練數(shù)據(jù)集的1萬(wàn)億個(gè)token進(jìn)行訓(xùn)練，這些數(shù)據(jù)集包括RefinedWeb、Pile、Github data等等。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

第二階段則使用指數(shù)學(xué)習(xí)率衰減，用2500億個(gè)token訓(xùn)練來(lái)自第一階段數(shù)據(jù)集和超高質(zhì)量開(kāi)源數(shù)據(jù)集的token。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

最終，團(tuán)隊(duì)使用96×H100的GPU集群，花費(fèi)2周時(shí)間、約8萬(wàn)美元搞定JetMoE-8B。

更多技術(shù)細(xì)節(jié)將在不久后發(fā)布的技術(shù)報(bào)告上揭露。

而在推理過(guò)程中，由于JetMoE-8B僅具有22億個(gè)激活參數(shù)，因此計(jì)算成本大大降低——

同時(shí)，它還收獲了不錯(cuò)的性能表現(xiàn)。

如下圖所示：

JetMoE-8B在8個(gè)評(píng)測(cè)基準(zhǔn)上獲得了5個(gè)sota（包括大模型競(jìng)技場(chǎng)Open LLMLeaderboard），超過(guò)LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

在MT-Bench基準(zhǔn)上得分6.681，也超過(guò)了130億參數(shù)的LLaMA2、Vicuna等模型。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

作者介紹

JetMoE一共4位作者，分別是：

Yikang Shen

MIT-IBM Watson Lab研究員，研究方向NLP。

本碩畢業(yè)于北航，博士經(jīng)歷于Yoshua Bengio創(chuàng)辦的Mila研究機(jī)構(gòu)。

國(guó)振 (Gavin Guo)

MIT博士在讀，研究方向?yàn)?D成像的數(shù)據(jù)高效機(jī)器學(xué)習(xí)。

UC伯克利本科畢業(yè)，去年夏天作為學(xué)生研究員加入MIT-IBM Watson Lab，導(dǎo)師為Yikang Shen等人。

蔡天樂(lè)

普林斯頓博士在讀生，本科畢業(yè)于北大應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)，??目前也是Together.ai?? 的兼職研究員，與Tri Dao合作。

Zengyi Qin

MIT博士在讀，同時(shí)在創(chuàng)業(yè)，MyShell的AI研發(fā)主管。

這家公司剛剛?cè)谫Y了1100萬(wàn)美元，投資者包括Transformer的作者。

10萬(wàn)美元訓(xùn)出Llama-2級(jí)大模型！全華人打造新型MoE，賈揚(yáng)清SD前CEO圍觀-AI.x社區(qū)

傳送門(mén)：?????https://github.com/myshell-ai/JetMoE??

本文轉(zhuǎn)自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/98TmAe_c4H64RTZXIG5yfg??

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

加速擴(kuò)散模型，最快1步生成SOTA級(jí)圖片，字節(jié)Hyper-SD開(kāi)源了

輕薄滴假象 ? 2626瀏覽 ? 0回復(fù)
【乘風(fēng)進(jìn)階學(xué)習(xí)季】夏日初長(zhǎng)，乘風(fēng)而上，碼出未來(lái)！

AI.x社區(qū)官方賬號(hào) ? 52.9w瀏覽 ? 36回復(fù)
大語(yǔ)言模型llama-2-7b推理服務(wù)實(shí)戰(zhàn)

zhcs333 ? 4306瀏覽 ? 0回復(fù)
英偉達(dá)開(kāi)源3400億巨獸，98%合成數(shù)據(jù)訓(xùn)出最強(qiáng)開(kāi)源通用模型！性能對(duì)標(biāo)GPT-4o

duhorse ? 2687瀏覽 ? 0回復(fù)
用大模型開(kāi)卡車(chē)，還融了2億美元

Aceryt ? 2182瀏覽 ? 0回復(fù)
Llama-2 vs. Llama-3：利用微型基準(zhǔn)測(cè)試（井字游戲）評(píng)估大模型

Baihai_IDP ? 2596瀏覽 ? 0回復(fù)
性能超Llama 3，可商用！開(kāi)源大模型Falcon 2

Aceryt ? 2993瀏覽 ? 0回復(fù)
AI大神賈揚(yáng)清銳評(píng)Llama3.1：很難盈利、成本巨高、速度卻馬馬虎虎

51CTO技術(shù)棧 ? 2456瀏覽 ? 0回復(fù)
能訓(xùn)出SOTA模型的優(yōu)質(zhì)數(shù)據(jù)集發(fā)布！復(fù)旦最新VidGen-1M: 文生視頻還得靠好數(shù)據(jù)

angel ? 2385瀏覽 ? 0回復(fù)
1890美元訓(xùn)出11.6億參數(shù)高質(zhì)量文生圖模型

duhorse ? 2090瀏覽 ? 0回復(fù)
一篇大模型NL2SQL全棧技術(shù)最新綜述

PaperAgent ? 5778瀏覽 ? 0回復(fù)
Llama-4使用10萬(wàn)塊GPU訓(xùn)練、更好開(kāi)源，扎克伯格親口確認(rèn)！

Aceryt ? 3150瀏覽 ? 0回復(fù)
馬斯克遲到近一個(gè)小時(shí)后終現(xiàn)身，親自乘坐Robotaxi、量產(chǎn)成本3萬(wàn)美元起！

51CTO技術(shù)棧 ? 1751瀏覽 ? 0回復(fù)
微軟10大商用智能體一鍋出！Agent要重塑辦公了！實(shí)績(jī)可查：500強(qiáng)企業(yè)六成都在用，有公司一年省出5000 萬(wàn)！

51CTO技術(shù)棧 ? 2138瀏覽 ? 0回復(fù)
【人工智能】10分鐘解讀-深入淺出大語(yǔ)言模型（LLM）——從ChatGPT到未來(lái)AI的演進(jìn)

唐克 ? 4998瀏覽 ? 0回復(fù)
DeepSeek-VL2開(kāi)源，VLM邁入MoE時(shí)代！

xuxiangda ? 2811瀏覽 ? 0回復(fù)
剛剛，DeepSeek開(kāi)源DeepEP通信庫(kù)，千億MoE訓(xùn)推顛覆級(jí)創(chuàng)新！FP8狂飆，帶飛GPU

duhorse ? 2073瀏覽 ? 0回復(fù)
阿里前高管賈揚(yáng)清創(chuàng)業(yè)公司將被英偉達(dá)天價(jià)收購(gòu)，對(duì)AI基建有何影響？

算家計(jì)算 ? 1040瀏覽 ? 0回復(fù)
Llama 4 凌晨震撼發(fā)布：Meta開(kāi)源最強(qiáng)MoE多模態(tài)模型，1000萬(wàn)上下文碾壓行業(yè)！

AI博物院 ? 1180瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

何愷明開(kāi)辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成 2025-02-26 11:59:41發(fā)布
達(dá)摩院開(kāi)源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線(xiàn)可玩 2025-02-14 13:02:21發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線(xiàn)！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)？！中科院等：8項(xiàng)測(cè)試第一，遠(yuǎn)超知乎豆瓣小紅書(shū)

下一篇：谷歌更新Transformer架構(gòu)，更節(jié)省計(jì)算資源！50%性能提升

社區(qū)精華內(nèi)容

目錄

<rt id="z6hag"></rt>

^{<blockquote id="z6hag"></blockquote>}

<pre id="z6hag"></pre>