自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超級(jí)新星降臨:Arcee AI發(fā)布SuperNova-Medius,14億參數(shù)的小模型,大作為! 原創(chuàng)

發(fā)布于 2024-11-1 09:15
瀏覽
0收藏

01 引言

在人工智能(AI)的世界里,大型語言模型已經(jīng)成為解決復(fù)雜任務(wù)、提升決策過程的重要工具。但這些模型的擴(kuò)展也帶來了高計(jì)算成本、低可訪問性和環(huán)境影響等挑戰(zhàn)。Arcee AI直面這些挑戰(zhàn),推出了SuperNova-Medius——一款旨在保持大型模型高質(zhì)量輸出的同時(shí),克服其局限性的小語言模型。

02 SuperNova-Medius

SuperNova-Medius是一款14億參數(shù)的小語言模型,它顛覆了傳統(tǒng)AI模型中大小與性能的關(guān)系。它在保持相對(duì)較小的模型大小的同時(shí),力求與擁有高達(dá)700億參數(shù)的大型模型相媲美。通過整合突破性的優(yōu)化技術(shù)和創(chuàng)新的架構(gòu)設(shè)計(jì),SuperNova-Medius為如何在確保小型組織也能利用AI潛力的同時(shí),設(shè)計(jì)出適用于現(xiàn)實(shí)世界的語言模型提供了新視角。

03 技術(shù)亮點(diǎn)與訓(xùn)練過程

SuperNova-Medius基于優(yōu)化的Transformer架構(gòu),結(jié)合先進(jìn)的量化方法,保持了驚人的準(zhǔn)確性和效率。其開發(fā)涉及復(fù)雜的多l(xiāng)ogits、跨架構(gòu)蒸餾過程,包括以下幾個(gè)關(guān)鍵步驟:

  • 從Llama 3.1 405B的Logit蒸餾:使用離線方法蒸餾Llama 3.1 405B的logits,存儲(chǔ)每個(gè)token的頂部K個(gè)logits,以捕獲大部分概率質(zhì)量,同時(shí)管理存儲(chǔ)需求。
  • 跨架構(gòu)適應(yīng):使用mergekit-tokensurgeon,創(chuàng)建了一個(gè)使用Llama 3.1 405B詞匯表的Qwen2.5-14B版本,這允許在訓(xùn)練基于Qwen的模型時(shí)使用Llama 3.1 405B的logits。
  • 蒸餾到Qwen架構(gòu):使用存儲(chǔ)的405B logits作為目標(biāo),訓(xùn)練適應(yīng)后的Qwen2.5-14B模型。
  • 并行Qwen蒸餾:在另一個(gè)過程中,將Qwen2-72B蒸餾成14B模型。
  • 最終融合和微調(diào):將Llama蒸餾的Qwen模型的詞匯表恢復(fù)為Qwen詞匯表。在重新對(duì)齊詞匯表后,使用EvolKit的專業(yè)數(shù)據(jù)集進(jìn)行最終融合和微調(diào),確保SuperNova-Medius在廣泛的任務(wù)中保持連貫性、流暢性和上下文理解。

04 性能表現(xiàn)與應(yīng)用場(chǎng)景

盡管SuperNova-Medius模型小,但SuperNova-Medius使用多樣和廣泛的數(shù)據(jù)集進(jìn)行了廣泛的微調(diào),涵蓋了多個(gè)領(lǐng)域和語言。這種廣泛的訓(xùn)練使SuperNova-Medius能夠展現(xiàn)出對(duì)上下文的強(qiáng)大理解,生成連貫的響應(yīng),并有效地執(zhí)行復(fù)雜的推理任務(wù)。此外,通過采用參數(shù)共享的創(chuàng)新和利用稀疏策略,該模型提供了與參數(shù)數(shù)量高得多的模型相當(dāng)?shù)慕Y(jié)果。

超級(jí)新星降臨:Arcee AI發(fā)布SuperNova-Medius,14億參數(shù)的小模型,大作為!-AI.x社區(qū)

SuperNova-Medius在指令遵循(IFEval)和復(fù)雜推理任務(wù)(BBH)方面表現(xiàn)出色,超越了Qwen2.5-14B和SuperNova-Lite等多個(gè)基準(zhǔn)。這使其成為高質(zhì)量生成性AI應(yīng)用的強(qiáng)大、高效的解決方案。

05 結(jié)論

SuperNova-Medius是Arcee AI致力于推動(dòng)語言模型可能性的證明,同時(shí)使高級(jí)AI更加包容和可持續(xù)。通過成功地減小模型大小而不犧牲性能,Arcee AI提供了一個(gè)解決方案,滿足從初創(chuàng)公司和小型企業(yè)到教育機(jī)構(gòu)等不同行業(yè)的需求。隨著AI繼續(xù)塑造我們的未來,像SuperNova-Medius這樣的創(chuàng)新對(duì)于確保所有人均能獲得先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)的好處至關(guān)重要,為全球AI的更公平和有影響力的應(yīng)用鋪平了道路。

參考:

  1. ??https://huggingface.co/arcee-ai/SuperNova-Medius??
  2. ??https://blog.arcee.ai/introducing-arcee-supernova-medius-a-14b-model-that-rivals-a-70b-2/??


本文轉(zhuǎn)載自公眾號(hào)Halo咯咯  作者:基咯咯

原文鏈接:??https://mp.weixin.qq.com/s/Pi3YAfPdJp3vY1_chmPIKg???

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2024-11-1 10:25:11修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦