自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊放大招,超Meta!史上參數(shù)最大,開源專家混合模型

發(fā)布于 2024-11-6 09:58
瀏覽
0收藏

開源大模型領(lǐng)域迎又來一位重磅玩家——騰訊。


騰訊一出手就是個(gè)超大模型,開源的Hunyuan-Large是目前市面上最大基于 Transformer架構(gòu)的專家混合(MoE)模型。一共有3890 億參數(shù),其中激活參數(shù)為 520 億,具備處理長達(dá)256K上下文能力。


根據(jù)騰訊公開測試數(shù)據(jù)顯示,Hunyuan-Large不僅超過了社交巨頭Meta開源的最新、最大模型LLama3.1 - 405B,并且在激活參數(shù)數(shù)量顯著減少的情況下,實(shí)現(xiàn)了高達(dá)3.2%的性能提升。在數(shù)學(xué)、日常推理、文本生成等方面非常優(yōu)秀。


開源地址:https://github.com/Tencent/Tencent-Hunyuan-Large

huggingface:https://huggingface.co/tencent/Tencent-Hunyuan-Large

云開發(fā)平臺:https://cloud.tencent.com/document/product/851/112032

騰訊放大招,超Meta!史上參數(shù)最大,開源專家混合模型-AI.x社區(qū)

Hunyuan-Large采用了高效的MoE結(jié)構(gòu),使用多個(gè)專家替換了Transformer中的原始前饋網(wǎng)絡(luò)。在訓(xùn)練過程中,只有一小部分專家會被激活,這樣的設(shè)計(jì)使得模型能夠更加高效地進(jìn)行訓(xùn)練和推理。


一共包含共享專家和專用專家兩種模式,不僅能夠捕捉所有token所需的共同知識,還能夠動態(tài)學(xué)習(xí)特定領(lǐng)域的知識。同時(shí)Hunyuan-Large還開發(fā)了一種新的回收路由策略,用于處理在原始top-k路由過程中被丟棄的token。這種策略通過將這些token重新分配給未超過容量的其他專家,以優(yōu)化訓(xùn)練效率和穩(wěn)定性。


Hunyuan-Large還對KV緩存進(jìn)行了創(chuàng)新,使用了壓縮技術(shù)。在傳統(tǒng)的Transformer架構(gòu)中,每層都會維護(hù)一個(gè)用于存儲先前計(jì)算出的鍵值對的緩存,這對于支持長序列輸入非常必要。但隨著序列長度的增長,這種緩存機(jī)制會導(dǎo)致巨大的內(nèi)存開銷。


而KV緩存壓縮技術(shù)通過減少KV緩存的存儲需求來降低內(nèi)存占用,同時(shí)保持了模型對于長序列處理的能力,可以有效地減少鍵值對的存儲空間,而不犧牲準(zhǔn)確性或速度。即使面對非常長的文本輸入,模型也能高效運(yùn)行,不會因?yàn)閮?nèi)存限制而受到阻礙。

騰訊放大招,超Meta!史上參數(shù)最大,開源專家混合模型-AI.x社區(qū)

在專家特定的學(xué)習(xí)率縮放方面,Hunyuan-Large采用了AdamW作為優(yōu)化器,并根據(jù)批量大小調(diào)整學(xué)習(xí)率。根據(jù)最新的研究,對于Adam風(fēng)格的優(yōu)化器,最佳學(xué)習(xí)率與批量大小之間的關(guān)系有了新的理解。Hunyuan-Large根據(jù)每個(gè)專家在單次迭代中處理的token數(shù)量不同,為不同專家分配了不同的學(xué)習(xí)率,以優(yōu)化訓(xùn)練效率。


訓(xùn)練數(shù)據(jù)方面,Hunyuan-Large一共使用了7萬億token數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練,其中包括近1.5萬億的高質(zhì)量和多樣化的合成數(shù)據(jù)。這些合成數(shù)據(jù)的生成過程涉及四個(gè)關(guān)鍵步驟:指令生成、指令演化、響應(yīng)生成和響應(yīng)過濾。


在指令生成階段,利用高質(zhì)量的數(shù)據(jù)源,如網(wǎng)頁、問答數(shù)據(jù)、代碼庫、書籍等,配合多樣化的指令生成提示,生成覆蓋多個(gè)領(lǐng)域的多樣化指令。在指令演化階段,通過增強(qiáng)指令的清晰度和信息量、擴(kuò)展低資源領(lǐng)域指令以及增加指令難度等手段,進(jìn)一步提升指令的質(zhì)量。


響應(yīng)生成階段則利用多個(gè)專業(yè)化模型為這些演化后的指令生成信息豐富、準(zhǔn)確的答案。最后,在響應(yīng)過濾階段,通過批評模型和自一致性檢查,確保合成的指令-響應(yīng)對的質(zhì)量,有效去除低質(zhì)量或不一致的數(shù)據(jù)。

騰訊放大招,超Meta!史上參數(shù)最大,開源專家混合模型-AI.x社區(qū)

在Hunyuan-Large的訓(xùn)練過程中,學(xué)習(xí)率調(diào)度扮演了至關(guān)重要的作用,一共分為三個(gè)階段:初始的預(yù)熱階段、隨后的逐漸衰減階段,以及最后的退火階段。這種設(shè)計(jì)使得模型能夠在初始階段有效地探索解空間,避免過早收斂到次優(yōu)的局部最小值。隨著訓(xùn)練的進(jìn)行,學(xué)習(xí)率的逐漸降低確保了模型能夠向更優(yōu)解收斂。


在預(yù)訓(xùn)練的最后5%階段,Hunyuan-Large引入了退火階段,將學(xué)習(xí)率降低到峰值的十分之一。這有助于模型細(xì)致地調(diào)整參數(shù),實(shí)現(xiàn)更高的泛化能力,從而提升整體性能。在這個(gè)階段,模型優(yōu)先使用最高質(zhì)量的數(shù)據(jù)集,這對于增強(qiáng)模型在退火階段的性能至關(guān)重要。

在退火階段之后,Hunyuan-Large還進(jìn)行了長文本預(yù)訓(xùn)練,以增強(qiáng)其處理長文本的能力,逐漸增加token長度從32K增長至256K。Hunyuan-Large采用了RoPE來構(gòu)建位置嵌入,并在256K預(yù)訓(xùn)練階段將RoPE的基礎(chǔ)頻率擴(kuò)展到10億。


長文本預(yù)訓(xùn)練的數(shù)據(jù)主要來自書籍和代碼等自然長文本數(shù)據(jù),這些數(shù)據(jù)與正常長度的預(yù)訓(xùn)練數(shù)據(jù)混合,形成了長文本預(yù)訓(xùn)練語料庫。

騰訊放大招,超Meta!史上參數(shù)最大,開源專家混合模型-AI.x社區(qū)

騰訊將Hunyuan-Large與LLama3.1-405B、LLama3.1-70B、Mixtral-8x22B和DeepSeek-V2市面上超大開源模型進(jìn)行了綜合評測。


結(jié)果顯示,Hunyuan-Large皆取得了超強(qiáng)的性能表現(xiàn),例如,在CommonsenseQA測試中,Hunyuan-Large 的準(zhǔn)確率達(dá)到 92.9%,而 LLama3.1 - 70B 為 84.1%,LLama3.1 - 405B 為 85.8%。


在PIQA 測試中,Hunyuan-Large 的準(zhǔn)確率為 88.3%,優(yōu)于LLama3.1 - 405B的83.7%。在WinoGrande 測試中,Hunyuan-Large的準(zhǔn)確率達(dá)到 88.7%,超過了LLama3.1 - 70B 的 85.3%和LLama3.1 - 405B的86.7%。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/7QvcYCjPKfzpueW2gHPMtQ??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦