自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<center id="fyucr"><i id="fyucr"></i></center>}

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

來了！Kimi開源Moonlight-16B-A3B的MoE模型?。?

發(fā)布于 2025-2-25 12:49

瀏覽

0收藏

言簡意賅，發(fā)現(xiàn)月之暗面開源MoE模型，總參數(shù)量15.29B，激活參數(shù)2.24B，使用Muon優(yōu)化器，在5.7T Tokens的訓(xùn)練數(shù)據(jù)下，拿到了很好的效果。

Github：https://github.com/MoonshotAI/Moonlight

HF：https://huggingface.co/moonshotai/Moonlight-16B-A3B

Paper：https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

效果如下：

來了！Kimi開源Moonlight-16B-A3B的MoE模型?。?AI.x社區(qū)

來了！Kimi開源Moonlight-16B-A3B的MoE模型?。?AI.x社區(qū)

比較 Muon 和 Adam 的擴(kuò)展定律實(shí)驗(yàn)，發(fā)現(xiàn)Muon 的樣本效率比 Adam 高 2 倍。

來了！Kimi開源Moonlight-16B-A3B的MoE模型！！-AI.x社區(qū)

Muon 優(yōu)化器原理如下：

來了！Kimi開源Moonlight-16B-A3B的MoE模型?。?AI.x社區(qū)

同時(shí)，Moonlight-16B-A3B的模型架構(gòu)與DeepSeek-V3一致。

HF快速使用：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "moonshotai/Moonlight-16B-A3B-Instruct"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="auto",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

messages = [
    {"role": "system", "content": "You are a helpful assistant provided by Moonshot-AI."},
    {"role": "user", "content": "Is 123 a prime?"}
]
input_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt").to(model.device)
generated_ids = model.generate(inputs=input_ids, max_new_tokens=500)
response = tokenizer.batch_decode(generated_ids)[0]
print(response)

本文轉(zhuǎn)載自??NLP工作站??，作者：劉聰NLP

標(biāo)簽

已于2025-2-25 13:57:45修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

Meta無限長文本大模型來了：參數(shù)僅7B，已開源

輕薄滴假象 ? 2573瀏覽 ? 0回復(fù)
大模型參數(shù)量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.2w瀏覽 ? 0回復(fù)
Llama 3來了！首批開源 8B 和 70B兩個(gè)版本，未來有望開源400B大模型！

AIGC最前線 ? 1.2w瀏覽 ? 0回復(fù)
大模型競技場全面測評結(jié)果出爐：Llama3 70B成開源模型中最強(qiáng)王者！

AIGC最前線 ? 5708瀏覽 ? 0回復(fù)
僅需Llama3 1/17的訓(xùn)練成本，Snowflake開源128x3B MoE模型

輕薄滴假象 ? 2610瀏覽 ? 0回復(fù)
本地使用Groq Llama 3 70B的逐步指南

51CTO內(nèi)容精選 ? 3228瀏覽 ? 0回復(fù)
開源的金融分析工具，Llama3-70B-Instruct模型編織開放的金融智能網(wǎng)

xuxiangda ? 3040瀏覽 ? 0回復(fù)
將端側(cè)大模型進(jìn)行到底-MiniCPM3-4B開源

NLP工作站 ? 2548瀏覽 ? 0回復(fù)
Mistral開源首個(gè)多模態(tài)大模型—Pixtral 12B

Aceryt ? 2410瀏覽 ? 0回復(fù)
Llama3.2開源：Meta發(fā)布1B和3B端側(cè)模型、11B和90B多模態(tài)模型

NLP工作站 ? 4047瀏覽 ? 0回復(fù)
Mistral AI 發(fā)布革命性邊緣模型 Ministral 3B 和8B：性能與隱私雙料俱佳

Syrupup ? 2171瀏覽 ? 0回復(fù)
不只是更快：Ministral 3B和8B如何保障您的數(shù)據(jù)安全與隱私？

Halo咯咯 ? 1820瀏覽 ? 0回復(fù)
AMD 開源 AMD OLMo：完全開源的 1B 語言模型系列

Halo咯咯 ? 2132瀏覽 ? 0回復(fù)
Qwen開源強(qiáng)大、多樣、實(shí)用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Halo咯咯 ? 3633瀏覽 ? 0回復(fù)
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 3942瀏覽 ? 0回復(fù)
Pixtral Large：124B的最強(qiáng)開源多模態(tài)大模型

kede96 ? 2505瀏覽 ? 0回復(fù)
Infinigence AI 發(fā)布 Megrez-3B-Omni：3B 設(shè)備上開源多模態(tài)大語言模型 MLLM

Halo咯咯 ? 1837瀏覽 ? 0回復(fù)
達(dá)摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 1818瀏覽 ? 0回復(fù)
千億模型做不到的事，7B小模型實(shí)現(xiàn)了？阿里這次開源有點(diǎn)狠！

蜂耘網(wǎng)iphoneyun ? 1165瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM實(shí)戰(zhàn)系列 | 大模型的多Lora部署，將顯存節(jié)省到極致 8天前發(fā)布
Llama4 模型細(xì)節(jié) & 效果實(shí)測 2025-04-09 07:07:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：滿血DeepSeek-R1免費(fèi)用！附帶數(shù)據(jù)蒸餾的一些想法！

下一篇：探討大模型預(yù)訓(xùn)練與微調(diào)之間的相互作用

社區(qū)精華內(nèi)容

目錄

<sup id="wvj36"><rt id="wvj36"></rt></sup>

<style id="wvj36"><rp id="wvj36"></rp></style><style id="wvj36"></style>