自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<acronym id="7uyhi"><rt id="7uyhi"><tt id="7uyhi"></tt></rt></acronym>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠(chǎng)商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線(xiàn)學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線(xiàn)教育平臺(tái)

ViT篇外：NVIDIA Llama-3.1-Minitron 4B

發(fā)布于 2024-8-22 13:55

瀏覽

0收藏

大家也許會(huì)很好奇為什么在ViT章節(jié)插入了NVIDIA Llama-3.1-Minitron 4B，ViT因?yàn)閼?yīng)用場(chǎng)景的特殊性所以都寄希望于高效率的模型，因此各種針對(duì)大參數(shù)模型的提煉和優(yōu)化技術(shù)層出不窮。而NVIDIA Llama-3.1-Minitron則復(fù)現(xiàn)了這些系列的教科書(shū)實(shí)驗(yàn)。對(duì)于一些基本的術(shù)語(yǔ)，可以移步??ViT 1??溫習(xí)一下。

ViT篇外：NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)

1.Llama-3.1-Minitron 4B

LLMs例如Llama 3.1 405B和NVIDIA Nemotron-4 340B在許多具有挑戰(zhàn)性的任務(wù)中表現(xiàn)出色，包括編碼、推理和數(shù)學(xué)。但是部署它們需要大量資源。所以在可以預(yù)見(jiàn)的未來(lái)，開(kāi)發(fā)小型且高效的語(yǔ)言模型成為熱門(mén)，畢竟好用且部署成本要低很多。

NVIDIA近日的研究表明，??結(jié)構(gòu)化權(quán)重修剪???與??知識(shí)蒸餾??相結(jié)合，形成了一種有效且高效的策略，可以從較大的兄弟模型中提煉較小的語(yǔ)言模型。NVIDIA Minitron 8B和4B就是通過(guò)修剪和蒸餾NVIDIA Nemotron系列中較大的15B而得到的。

的確修剪和蒸餾這些大模型的提煉方法與從頭開(kāi)始訓(xùn)練相比，MMLU分?jǐn)?shù)提高了16%。每個(gè)額外的模型需要的訓(xùn)練令牌更少，最多減少40倍，與從頭開(kāi)始訓(xùn)練所有模型相比，訓(xùn)練一個(gè)療程可節(jié)省高達(dá)1.8倍的計(jì)算成本。當(dāng)然最重要的是性能也不能拉胯，性能與Mistral 7B、Gemma 7B和Llama-3 8B相當(dāng)，最高可達(dá) 15T。

NVIDIA的本次研究提出了一套實(shí)用且有效的結(jié)構(gòu)化壓縮最佳實(shí)踐，將LLMs深度、寬度、注意力和MLP修剪與基于知識(shí)蒸餾的方法相結(jié)合。最后將它們應(yīng)用于Llama 3.1 8B模型以獲得Llama-3.1-Minitron 4B。

ViT篇外：NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)

Llama-3.1-Minitron 4B與類(lèi)似大小的最先進(jìn)的開(kāi)源模型相比表現(xiàn)出色，包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B和Qwen2-1.5B，Llama-3.1-Minitron 4B即將發(fā)布到HuggingFace。

ViT篇外：NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)

Nvidia進(jìn)一步優(yōu)化了Llama-3.1-Minitron 4B模型，以使用其TensorRT-LLM工具包進(jìn)行部署，從而增強(qiáng)了其推理性能。例如，與原始的Llama 3.1 8B模型相比，該模型在各種情況下的FP8精度吞吐量增加到2.7倍。在 Llama-3.1-Minitron 4B上執(zhí)行的額外優(yōu)化使該模型非常強(qiáng)大和高效，易于應(yīng)用于許多領(lǐng)域。

2.經(jīng)驗(yàn)總結(jié)

具體的過(guò)程如下：從15B模型開(kāi)始評(píng)估每個(gè)組件（層、神經(jīng)元、頭部和嵌入通道）的重要性，然后對(duì)模型進(jìn)行排序和修剪到目標(biāo)大小的8B模型。之后使用模型蒸餾執(zhí)行了輕度二次訓(xùn)練，原始模型作為老師，修剪后的模型作為學(xué)生。訓(xùn)練后8B模型作為修剪和提煉為較小的4B模型的起點(diǎn)。

ViT篇外：NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)

要修剪模型，首先要了解模型哪些部分是重要的，這點(diǎn)至關(guān)重要。這里使用一種純粹基于激活的重要性估計(jì)策略。這種策略使用1024個(gè)樣本數(shù)據(jù)集通過(guò)并行的前向傳播來(lái)評(píng)估所有這個(gè)神經(jīng)網(wǎng)絡(luò)中組件的重要性（depth, neuron, head, and embedding channel）。研究指出可以迭代地交替使用修剪和重要性評(píng)估方法，然而實(shí)證研究表明，使用單次重要性估計(jì)就足夠了，迭代多次并沒(méi)有帶來(lái)想象中的收益。

ViT篇外：NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)

上圖顯示使用學(xué)生模型（修剪模型）的蒸餾過(guò)程，該模型具有N層，是從具有M層的教師模型（原始未修剪模型）中蒸餾出來(lái)的。學(xué)生通過(guò)最小化映射在學(xué)生塊S和教師塊T上的Embedding Loss、Logit Loss等Loss組合學(xué)習(xí)和訓(xùn)練。

基于通過(guò)剪枝和知識(shí)蒸餾的消融研究<就是拿掉一個(gè)組件，看看缺失的情況對(duì)于整體的影響力>，本次研究將學(xué)習(xí)成果總結(jié)出一些壓縮的最佳實(shí)踐：

要訓(xùn)練一個(gè)家族的LLMs，首先挑選最大號(hào)的模型然后進(jìn)行修剪和迭代蒸餾以獲得較小的LLMs
如果使用的大模型是使用多階段訓(xùn)練策略進(jìn)行訓(xùn)練的，則最好選擇最后階段的模型。
當(dāng)源模型最接近目標(biāo)期望大小的模型時(shí)候可以修剪
最好進(jìn)行??寬度修剪???而不是深度修剪，這對(duì)于≤ 15B效果很棒
針對(duì)神經(jīng)網(wǎng)絡(luò)中各個(gè)組件的重要性評(píng)估，一次就夠了
使用蒸餾損失進(jìn)行再訓(xùn)練，當(dāng)深度顯著減少時(shí)使用Logit+Embedding +中間狀態(tài)進(jìn)行蒸餾，當(dāng)深度沒(méi)有顯著減少時(shí)，僅使用Logit蒸餾。?

本文轉(zhuǎn)載自??魯班模錘??，作者：龐德公 ????

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

NVIDIA新模型Nemotron-4 340B系列：98%的訓(xùn)練數(shù)據(jù)是合成生成的，你敢信？

AI論文解讀 ? 3426瀏覽 ? 0回復(fù)
Llama 3.1磁力鏈提前泄露！開(kāi)源模型王座一夜易主，GPT-4o被超越

duhorse ? 2014瀏覽 ? 0回復(fù)
最強(qiáng)模型Llama 3.1 405B正式發(fā)布，扎克伯格：開(kāi)源引領(lǐng)新時(shí)代

輕薄滴假象 ? 2199瀏覽 ? 0回復(fù)
最強(qiáng)大模型 Llama 3.1-405B 架構(gòu)設(shè)計(jì)剖析

玄姐聊AGI ? 2847瀏覽 ? 0回復(fù)
Meta正式發(fā)布Llama-3.1，超大杯405B！千呼萬(wàn)喚始出來(lái)！

PaperAgent ? 2916瀏覽 ? 0回復(fù)
Llama3.1系列模型正式開(kāi)源，最大405B，閉源模型的統(tǒng)治時(shí)代將迎來(lái)結(jié)束？

NLP工作站 ? 2221瀏覽 ? 0回復(fù)
一大堆Llama3.1-Chinese正在襲來(lái)

NLP工作站 ? 2746瀏覽 ? 0回復(fù)
基于Llama 3.1和一臺(tái)MacBook搭建商用級(jí)知識(shí)庫(kù)

玄姐聊AGI ? 2687瀏覽 ? 0回復(fù)
AI界的新寵：揭秘Llama 3.1如何革新AI合成技術(shù)

ermulong ? 2159瀏覽 ? 0回復(fù)
微軟開(kāi)源Phi-3.5：支持手機(jī)、平板電腦，性能超Llama 3.1

Aceryt ? 2136瀏覽 ? 0回復(fù)
阿里史上最大規(guī)模開(kāi)源發(fā)布，超GPT-4o 、Llama-3.1！

Aceryt ? 2085瀏覽 ? 0回復(fù)
從 Llama 1 到 3.1：Llama 模型架構(gòu)演進(jìn)詳解

Baihai_IDP ? 3905瀏覽 ? 0回復(fù)
Llama 3.1 70B AQLM-PV版發(fā)布！大模型壓縮后可在24GB顯存GPU上本地運(yùn)行！！

老蛀蟲(chóng) ? 2431瀏覽 ? 0回復(fù)
Good Fire AI 針對(duì) Llama 3.1 8B 和 Llama 3.3 70B 的開(kāi)源稀疏自動(dòng)編碼器 (SAE)

Halo咯咯 ? 1581瀏覽 ? 0回復(fù)
9B參數(shù)吊打GPT-4V！NVIDIA開(kāi)源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？

Halo咯咯 ? 1656瀏覽 ? 0回復(fù)
Llama 4三大模型來(lái)襲，開(kāi)源免費(fèi)還超能打

Halo咯咯 ? 1586瀏覽 ? 0回復(fù)
llama 4，開(kāi)源！

NLP前沿1 ? 1094瀏覽 ? 0回復(fù)
NVIDIA開(kāi)源Llama-3.1-Nemotron-Ultra-253B-v1，性能直逼DeepSeek

Halo咯咯 ? 962瀏覽 ? 0回復(fù)
NVIDIA發(fā)布DAM-3B：讓圖像和視頻的局部描述“有模有樣”！

Halo咯咯 ? 370瀏覽 ? 0回復(fù)

這個(gè)用戶(hù)很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

學(xué)會(huì)LLM思維：語(yǔ)料質(zhì)量的自評(píng)估 8天前發(fā)布
扒一扒最近較火的MCP 2025-04-10 06:28:30發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線(xiàn)！滿(mǎn)血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： AI架構(gòu)系列：去其形而留其意

下一篇： Jamba前生今世：1.5開(kāi)源來(lái)襲

社區(qū)精華內(nèi)容

目錄

<sub id="mhubf"></sub>

<blockquote id="mhubf"></blockquote>

<ol id="mhubf"><i id="mhubf"></i></ol>