自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="0smzq"></blockquote>}

<s id="0smzq"><li id="0smzq"></li></s>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主原創(chuàng)

發(fā)布于 2024-11-6 15:58

瀏覽

0收藏

騰訊最近發(fā)布了一款名為Hunyuan的先進Moe（Mixture of Experts）模型，該模型在多個基準測試中表現(xiàn)出色，超越了Llama 3，成為自然語言處理（NLP）領(lǐng)域的新領(lǐng)導(dǎo)者。地址如下：

github: https://github.com/Tencent/Tencent-Hunyuan-Large/blob/main/README_CN.md
hf: https://huggingface.co/tencent/Tencent-Hunyuan-Large

以下是Hunyuan模型的一些關(guān)鍵優(yōu)勢：

合成數(shù)據(jù)增強：Hunyuan-Large通過合成數(shù)據(jù)增強訓(xùn)練，能夠?qū)W習(xí)到更豐富的表示，處理長上下文輸入，并更好地泛化到未見數(shù)據(jù)。
KV緩存壓縮：采用分組查詢注意力（GQA）和跨層注意力（CLA）策略，顯著減少了KV緩存的內(nèi)存占用和計算開銷，提高了推理吞吐。
專家特定學(xué)習(xí)率縮放：為不同專家設(shè)置不同的學(xué)習(xí)率，確保每個子模型都能有效地從數(shù)據(jù)中學(xué)習(xí)，并為整體性能做出貢獻。
長上下文處理能力：預(yù)訓(xùn)練模型支持高達256K的文本序列，Instruct模型支持128K的文本序列，顯著提升了長上下文任務(wù)的處理能力。
廣泛的基準測試：在多種語言和任務(wù)上進行廣泛實驗，驗證了Hunyuan-Large的實際應(yīng)用效果和安全性。

推理框架：

騰訊為Hunyuan-Large模型提供了vLLM-backend推理框架。該框架在vLLM開源框架的基礎(chǔ)上進行了適配，新增的CLA結(jié)構(gòu)可以節(jié)省顯存，保障超長文本場景。通過FP8量化優(yōu)化，相比FP16/BF16常規(guī)量化，在最大限度保障精度的條件下，節(jié)省50%顯存，吞吐提升70%。

訓(xùn)練框架：

Hunyuan-Large模型已經(jīng)支持huggingface格式，用戶可以采用hf-deepspeed框架進行模型精調(diào)。同時，騰訊也支持利用flash-attn進行訓(xùn)練加速，并開放了相關(guān)的訓(xùn)練腳本和模型實現(xiàn)，方便研發(fā)者進行后續(xù)的模型訓(xùn)練和精調(diào)。

Benchmark評估榜單：

在多個基準測試中，Hunyuan-Large預(yù)訓(xùn)練模型與具有相似激活參數(shù)大小的Dense和MoE競爭對手相比，實現(xiàn)了最佳的整體性能。在常識理解和推理以及經(jīng)典的NLP任務(wù)，如QA和閱讀理解任務(wù)方面表現(xiàn)出色。在數(shù)學(xué)能力方面，Hunyuan-Large在GSM8K和Math數(shù)學(xué)數(shù)據(jù)集上優(yōu)于所有基線，在CMATH中文數(shù)據(jù)集上也取得了最好的成績。同時，Hunyuan-Large在所有中文任務(wù)中實現(xiàn)了整體最佳的性能。

騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主-AI.x社區(qū)

Hunyuan-Large-Instruct與具有相似激活參數(shù)的llm相比在大多數(shù)的任務(wù)上實現(xiàn)了一致的性能提升。在不同類別的基準測試中，Instruct模型在MMLU和MATH數(shù)據(jù)集上取得了最好的性能。值得注意的是，在MMLU數(shù)據(jù)集上，表現(xiàn)出了顯著的提升，相比與LLama3.1-405B模型高出2.6%。這種增強表明Hunyuan-Large-Instruct在廣泛的語言理解任務(wù)中具有優(yōu)越的理解和推理能力。該模型在MATH數(shù)據(jù)集上的表現(xiàn)進一步強調(diào)了它的實力，相比于LLama3.1-405B高出了3.6%的指標。值得注意的是，僅用520億個激活參數(shù)就實現(xiàn)了精度的飛躍，證明了Hunyuan-Large-Instruct的卓越能力。

騰訊Hunyuan超越Llama 3，成為NLP領(lǐng)域新霸主-AI.x社區(qū)

騰訊Hunyuan模型的開源，不僅展示了其在NLP領(lǐng)域的技術(shù)實力，也為全球的AI研究者和開發(fā)者提供了一個強大的工具，以推動NLP技術(shù)的發(fā)展。

本文轉(zhuǎn)載自公眾號哎呀AIYA

原文鏈接：??https://mp.weixin.qq.com/s/4AH3JE8PAXs6ZpBj0uHdDQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

集體出走的Stability AI 發(fā)布全新代碼大模型，3B以下性能最優(yōu)，超越Code Llama和DeepSeek-Coder

pangguiyu ? 4234瀏覽 ? 0回復(fù)
超越GPT-4！最強大模型 Claude 3 完全解讀

開發(fā)者阿橙 ? 5733瀏覽 ? 0回復(fù)
新測試基準發(fā)布，最強開源Llama 3尷尬了

Crystalcxt ? 2954瀏覽 ? 0回復(fù)
超越GPT-4！騰訊AI新研究打破長文本生成模型限制，序列并行技術(shù)再突破

AI論文解讀 ? 5418瀏覽 ? 0回復(fù)
?Mojo崛起：AI-first 的編程語言能否成為新流行？

51CTO技術(shù)棧 ? 3093瀏覽 ? 0回復(fù)
Meta LlaMA 3模型深度解析

51CTO內(nèi)容精選 ? 3894瀏覽 ? 0回復(fù)
5秒完成3D生成，真香合成數(shù)據(jù)集已開源，上交港中文新框架超越Instant3D

Crystalcxt ? 2506瀏覽 ? 0回復(fù)
AI視頻新霸主誕生！Dream Machine官宣免費用，電影級大片全網(wǎng)玩瘋

duhorse ? 2770瀏覽 ? 0回復(fù)
3D人體重建新SOTA！清華&騰訊等重磅發(fā)布MagicMan：單一圖像生成高質(zhì)量人體新突破

angel ? 2918瀏覽 ? 0回復(fù)
Qwen2.5：13個新模型來襲！開源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測試

老蛀蟲 ? 4802瀏覽 ? 0回復(fù)
超越CLIP，視覺大模型訓(xùn)練新范式？

kede96 ? 1967瀏覽 ? 0回復(fù)
實測騰訊開源的Hunyuan-Large大模型，感覺......

NLP工作站 ? 2100瀏覽 ? 0回復(fù)
英偉達穩(wěn)坐全球第一，成為新霸主！回顧這波AI潮的起源：辛頓、黃仁勛、李飛飛的歷史交匯

51CTO技術(shù)棧 ? 2126瀏覽 ? 0回復(fù)
Qwen2.5：13個新模型來襲！開源通用、編碼、數(shù)學(xué)模型全解讀，72B超越Llama 405B - 本地安裝測試

老蛀蟲 ? 4017瀏覽 ? 0回復(fù)
NLP范式總結(jié) | 擁抱新范式

zhcs333 ? 1813瀏覽 ? 0回復(fù)
騰訊發(fā)布全新混元大模型Hunyuan-Large：全球最大開源Transformer模型，助力AI發(fā)展新高度

Halo咯咯 ? 2303瀏覽 ? 0回復(fù)
大規(guī)模情感分析：將NLP應(yīng)用于多語言和特定領(lǐng)域的文本

51CTO內(nèi)容精選 ? 2096瀏覽 ? 0回復(fù)
AI領(lǐng)域的“新王”誕生! 馬斯克發(fā)布Grok 3，趕超OpenAI o1和Deepseek R1！

AI博物院 ? 1522瀏覽 ? 0回復(fù)
騰訊Hunyuan-T1來襲：Mamba架構(gòu)重塑語言模型推理能力

Halo咯咯 ? 895瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

LLM-R：基于RAG和層次化Agent落地案例解析 2024-11-15 09:58:18發(fā)布
TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備 2024-11-13 09:10:07發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Auto-Retrieval: RAG的智能進化

下一篇： TextIn：一款優(yōu)秀的文檔解析神器，提升RAG性能必備

社區(qū)精華內(nèi)容

目錄