AMD開源30億小參數(shù)模型,媲美Qwen-2.5
AMD在官網(wǎng)開源了最新小參數(shù)模型Instella-3B。比較特別的是,這是一個(gè)基AMD Instinct? MI300X GPU從頭訓(xùn)練的模型。
根據(jù)測(cè)試數(shù)據(jù)顯示,Instella-3B的性能超過了Llama-3.2-3B、Gemma-2-2B,可以媲美阿里開源的Qwen-2.5-3B,這也證明了AMD的GPU也能訓(xùn)練出高性能的大模型。
開源地址:https://huggingface.co/amd/Instella-3B
Instella-3B-SFT是經(jīng)過監(jiān)督微調(diào)的模型,使用了89.02億tokens的數(shù)據(jù),增強(qiáng)了遵循指令的能力。Instella-3B-Instruct則是經(jīng)過直接偏好優(yōu)化的模型,使用了7.6億tokens的數(shù)據(jù),使模型的輸出更符合人類偏好,增強(qiáng)了聊天能力。
架構(gòu)方面,Instella模型是基于文本的自回歸Transformer架構(gòu),擁有30億參數(shù),包含36個(gè)解碼器層,每層有32個(gè)注意力頭,支持最長(zhǎng)4096tokens的序列長(zhǎng)度,詞匯量約為50,000tokens。
在預(yù)訓(xùn)練和微調(diào)過程中,AMD使用了FlashAttention-2、Torch Compile和bfloat16混合精度訓(xùn)練,以減少內(nèi)存使用,提高計(jì)算速度和資源利用率。此外,AMD還采用了全分片數(shù)據(jù)并行(FSDP)與混合分片技術(shù),以平衡集群內(nèi)節(jié)點(diǎn)間的內(nèi)存效率和節(jié)點(diǎn)內(nèi)通信開銷。
Instella模型的訓(xùn)練分為四個(gè)階段,每個(gè)階段都逐步增強(qiáng)了模型從基礎(chǔ)自然語(yǔ)言理解到遵循指令以及與人類偏好對(duì)齊的能力。在第一階段預(yù)訓(xùn)練中,AMD使用了4.065萬(wàn)億tokens的數(shù)據(jù),這些數(shù)據(jù)來(lái)自O(shè)LMoE-mix-0924,是一個(gè)涵蓋編碼、學(xué)術(shù)、數(shù)學(xué)和網(wǎng)絡(luò)爬取等領(lǐng)域的高質(zhì)量數(shù)據(jù)集組合。這一階段為Instella模型奠定了自然語(yǔ)言理解的基礎(chǔ)。
在第二階段預(yù)訓(xùn)練中,AMD在第一階段的基礎(chǔ)上進(jìn)一步訓(xùn)練了模型,使用了額外的575.75億tokens的數(shù)據(jù),這些數(shù)據(jù)來(lái)自多個(gè)高質(zhì)量和多樣化的數(shù)據(jù)集,包括Dolmino-Mix-1124、SmolLM-Corpus(python-edu)、Deepmind Mathematics以及對(duì)話數(shù)據(jù)集等。
此外,AMD還使用了內(nèi)部合成數(shù)據(jù)集,專注于數(shù)學(xué)問題。這些合成數(shù)據(jù)是通過使用GSM8k數(shù)據(jù)集的訓(xùn)練集生成的,通過抽象數(shù)值、生成Python程序解決問題,并替換數(shù)值以生成新的問題-答案對(duì)。這一階段的訓(xùn)練使Instella-3B模型在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,與現(xiàn)有的先進(jìn)開源權(quán)重模型相比具有競(jìng)爭(zhēng)力。
在指令微調(diào)階段,AMD使用Instella-3B作為基礎(chǔ)模型,使用89億tokens的高質(zhì)量指令-響應(yīng)對(duì)數(shù)據(jù)進(jìn)行了三個(gè)周期的訓(xùn)練,以增強(qiáng)模型在交互式環(huán)境中的表現(xiàn),使其更適合執(zhí)行用戶指令的任務(wù)。訓(xùn)練數(shù)據(jù)來(lái)自多個(gè)任務(wù)和領(lǐng)域的精選數(shù)據(jù)集,確保模型能夠泛化各種指令類型。
在最后的對(duì)齊階段,AMD使用直接偏好優(yōu)化(DPO)技術(shù),以Instella-3B-SFT為基礎(chǔ)模型,使用7.6億tokens的數(shù)據(jù)進(jìn)行了訓(xùn)練,以確保模型的輸出符合人類價(jià)值觀和期望,從而提高其輸出的質(zhì)量和可靠性。
Instella-3B在多個(gè)基準(zhǔn)測(cè)試中超越了現(xiàn)有的全開源模型,并且與阿里開源的Qwen-2.5-3B能力差不多。例如,在MMLU、BBH和GSM8k等基準(zhǔn)測(cè)試中,Instella-3B模型的表現(xiàn)優(yōu)于Llama-3.2-3B和Gemma-2-2B等模型。
經(jīng)過指令微調(diào)和對(duì)齊后的Instella-3B-Instruct模型在指令遵循任務(wù)和多輪問答任務(wù)中表現(xiàn)出色,同時(shí)在訓(xùn)練數(shù)據(jù)量上更少。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
原文鏈接:??https://mp.weixin.qq.com/s/UefvMir-v6Bzc--TDIyBaA??
