自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AMD開源30億小參數(shù)模型,媲美Qwen-2.5

發(fā)布于 2025-3-19 12:06
瀏覽
0收藏

AMD在官網(wǎng)開源了最新小參數(shù)模型Instella-3B。比較特別的是,這是一個(gè)基AMD Instinct? MI300X GPU從頭訓(xùn)練的模型。


根據(jù)測(cè)試數(shù)據(jù)顯示,Instella-3B的性能超過了Llama-3.2-3B、Gemma-2-2B,可以媲美阿里開源的Qwen-2.5-3B,這也證明了AMD的GPU也能訓(xùn)練出高性能的大模型。

AMD開源30億小參數(shù)模型,媲美Qwen-2.5-AI.x社區(qū)

開源地址:https://huggingface.co/amd/Instella-3B


Instella-3B-SFT是經(jīng)過監(jiān)督微調(diào)的模型,使用了89.02億tokens的數(shù)據(jù),增強(qiáng)了遵循指令的能力。Instella-3B-Instruct則是經(jīng)過直接偏好優(yōu)化的模型,使用了7.6億tokens的數(shù)據(jù),使模型的輸出更符合人類偏好,增強(qiáng)了聊天能力。


架構(gòu)方面,Instella模型是基于文本的自回歸Transformer架構(gòu),擁有30億參數(shù),包含36個(gè)解碼器層,每層有32個(gè)注意力頭,支持最長(zhǎng)4096tokens的序列長(zhǎng)度,詞匯量約為50,000tokens。


在預(yù)訓(xùn)練和微調(diào)過程中,AMD使用了FlashAttention-2、Torch Compile和bfloat16混合精度訓(xùn)練,以減少內(nèi)存使用,提高計(jì)算速度和資源利用率。此外,AMD還采用了全分片數(shù)據(jù)并行(FSDP)與混合分片技術(shù),以平衡集群內(nèi)節(jié)點(diǎn)間的內(nèi)存效率和節(jié)點(diǎn)內(nèi)通信開銷。

AMD開源30億小參數(shù)模型,媲美Qwen-2.5-AI.x社區(qū)

Instella模型的訓(xùn)練分為四個(gè)階段,每個(gè)階段都逐步增強(qiáng)了模型從基礎(chǔ)自然語(yǔ)言理解到遵循指令以及與人類偏好對(duì)齊的能力。在第一階段預(yù)訓(xùn)練中,AMD使用了4.065萬(wàn)億tokens的數(shù)據(jù),這些數(shù)據(jù)來(lái)自O(shè)LMoE-mix-0924,是一個(gè)涵蓋編碼、學(xué)術(shù)、數(shù)學(xué)和網(wǎng)絡(luò)爬取等領(lǐng)域的高質(zhì)量數(shù)據(jù)集組合。這一階段為Instella模型奠定了自然語(yǔ)言理解的基礎(chǔ)。


在第二階段預(yù)訓(xùn)練中,AMD在第一階段的基礎(chǔ)上進(jìn)一步訓(xùn)練了模型,使用了額外的575.75億tokens的數(shù)據(jù),這些數(shù)據(jù)來(lái)自多個(gè)高質(zhì)量和多樣化的數(shù)據(jù)集,包括Dolmino-Mix-1124、SmolLM-Corpus(python-edu)、Deepmind Mathematics以及對(duì)話數(shù)據(jù)集等。

AMD開源30億小參數(shù)模型,媲美Qwen-2.5-AI.x社區(qū)

此外,AMD還使用了內(nèi)部合成數(shù)據(jù)集,專注于數(shù)學(xué)問題。這些合成數(shù)據(jù)是通過使用GSM8k數(shù)據(jù)集的訓(xùn)練集生成的,通過抽象數(shù)值、生成Python程序解決問題,并替換數(shù)值以生成新的問題-答案對(duì)。這一階段的訓(xùn)練使Instella-3B模型在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,與現(xiàn)有的先進(jìn)開源權(quán)重模型相比具有競(jìng)爭(zhēng)力。


在指令微調(diào)階段,AMD使用Instella-3B作為基礎(chǔ)模型,使用89億tokens的高質(zhì)量指令-響應(yīng)對(duì)數(shù)據(jù)進(jìn)行了三個(gè)周期的訓(xùn)練,以增強(qiáng)模型在交互式環(huán)境中的表現(xiàn),使其更適合執(zhí)行用戶指令的任務(wù)。訓(xùn)練數(shù)據(jù)來(lái)自多個(gè)任務(wù)和領(lǐng)域的精選數(shù)據(jù)集,確保模型能夠泛化各種指令類型。


在最后的對(duì)齊階段,AMD使用直接偏好優(yōu)化(DPO)技術(shù),以Instella-3B-SFT為基礎(chǔ)模型,使用7.6億tokens的數(shù)據(jù)進(jìn)行了訓(xùn)練,以確保模型的輸出符合人類價(jià)值觀和期望,從而提高其輸出的質(zhì)量和可靠性。


Instella-3B在多個(gè)基準(zhǔn)測(cè)試中超越了現(xiàn)有的全開源模型,并且與阿里開源的Qwen-2.5-3B能力差不多。例如,在MMLU、BBH和GSM8k等基準(zhǔn)測(cè)試中,Instella-3B模型的表現(xiàn)優(yōu)于Llama-3.2-3B和Gemma-2-2B等模型。

AMD開源30億小參數(shù)模型,媲美Qwen-2.5-AI.x社區(qū)

經(jīng)過指令微調(diào)和對(duì)齊后的Instella-3B-Instruct模型在指令遵循任務(wù)和多輪問答任務(wù)中表現(xiàn)出色,同時(shí)在訓(xùn)練數(shù)據(jù)量上更少。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/UefvMir-v6Bzc--TDIyBaA??


標(biāo)簽
已于2025-3-19 13:30:32修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦