自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ViT篇外:NVIDIA Llama-3.1-Minitron 4B

發(fā)布于 2024-8-22 13:55
瀏覽
0收藏

大家也許會(huì)很好奇為什么在ViT章節(jié)插入了NVIDIA Llama-3.1-Minitron 4B,ViT因?yàn)閼?yīng)用場(chǎng)景的特殊性所以都寄希望于高效率的模型,因此各種針對(duì)大參數(shù)模型的提煉和優(yōu)化技術(shù)層出不窮。而NVIDIA Llama-3.1-Minitron則復(fù)現(xiàn)了這些系列的教科書(shū)實(shí)驗(yàn)。對(duì)于一些基本的術(shù)語(yǔ),可以移步??ViT 1??溫習(xí)一下。


ViT篇外:NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)


1.Llama-3.1-Minitron 4B

LLMs例如Llama 3.1 405B和NVIDIA Nemotron-4 340B在許多具有挑戰(zhàn)性的任務(wù)中表現(xiàn)出色,包括編碼、推理和數(shù)學(xué)。但是部署它們需要大量資源。所以在可以預(yù)見(jiàn)的未來(lái),開(kāi)發(fā)小型且高效的語(yǔ)言模型成為熱門(mén),畢竟好用且部署成本要低很多。

NVIDIA近日的研究表明,??結(jié)構(gòu)化權(quán)重修剪???與??知識(shí)蒸餾??相結(jié)合,形成了一種有效且高效的策略,可以從較大的兄弟模型中提煉較小的語(yǔ)言模型。NVIDIA Minitron 8B和4B就是通過(guò)修剪和蒸餾NVIDIA Nemotron系列中較大的15B而得到的。

的確修剪和蒸餾這些大模型的提煉方法與從頭開(kāi)始訓(xùn)練相比,MMLU分?jǐn)?shù)提高了16%。每個(gè)額外的模型需要的訓(xùn)練令牌更少,最多減少40倍,與從頭開(kāi)始訓(xùn)練所有模型相比,訓(xùn)練一個(gè)療程可節(jié)省高達(dá)1.8倍的計(jì)算成本。當(dāng)然最重要的是性能也不能拉胯,性能與Mistral 7B、Gemma 7B和Llama-3 8B相當(dāng),最高可達(dá) 15T。

NVIDIA的本次研究提出了一套實(shí)用且有效的結(jié)構(gòu)化壓縮最佳實(shí)踐,將LLMs深度、寬度、注意力和MLP修剪與基于知識(shí)蒸餾的方法相結(jié)合。最后將它們應(yīng)用于Llama 3.1 8B模型以獲得Llama-3.1-Minitron 4B。

ViT篇外:NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)


Llama-3.1-Minitron 4B與類(lèi)似大小的最先進(jìn)的開(kāi)源模型相比表現(xiàn)出色,包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B和Qwen2-1.5B,Llama-3.1-Minitron 4B即將發(fā)布到HuggingFace。

ViT篇外:NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)


Nvidia進(jìn)一步優(yōu)化了Llama-3.1-Minitron 4B模型,以使用其TensorRT-LLM工具包進(jìn)行部署,從而增強(qiáng)了其推理性能。例如,與原始的Llama 3.1 8B模型相比,該模型在各種情況下的FP8精度吞吐量增加到2.7倍。在 Llama-3.1-Minitron 4B上執(zhí)行的額外優(yōu)化使該模型非常強(qiáng)大和高效,易于應(yīng)用于許多領(lǐng)域。

2.經(jīng)驗(yàn)總結(jié)

具體的過(guò)程如下:從15B模型開(kāi)始評(píng)估每個(gè)組件(層、神經(jīng)元、頭部和嵌入通道)的重要性,然后對(duì)模型進(jìn)行排序和修剪到目標(biāo)大小的8B模型。之后使用模型蒸餾執(zhí)行了輕度二次訓(xùn)練,原始模型作為老師,修剪后的模型作為學(xué)生。訓(xùn)練后8B模型作為修剪和提煉為較小的4B模型的起點(diǎn)。


ViT篇外:NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)


要修剪模型,首先要了解模型哪些部分是重要的,這點(diǎn)至關(guān)重要。這里使用一種純粹基于激活的重要性估計(jì)策略。這種策略使用1024個(gè)樣本數(shù)據(jù)集通過(guò)并行的前向傳播來(lái)評(píng)估所有這個(gè)神經(jīng)網(wǎng)絡(luò)中組件的重要性(depth, neuron, head, and embedding channel)。研究指出可以迭代地交替使用修剪和重要性評(píng)估方法,然而實(shí)證研究表明,使用單次重要性估計(jì)就足夠了,迭代多次并沒(méi)有帶來(lái)想象中的收益。


ViT篇外:NVIDIA Llama-3.1-Minitron 4B-AI.x社區(qū)

上圖顯示使用學(xué)生模型(修剪模型)的蒸餾過(guò)程,該模型具有N層,是從具有M層的教師模型(原始未修剪模型)中蒸餾出來(lái)的。學(xué)生通過(guò)最小化映射在學(xué)生塊S和教師塊T上的Embedding Loss、Logit Loss等Loss組合學(xué)習(xí)和訓(xùn)練。

基于通過(guò)剪枝和知識(shí)蒸餾的消融研究<就是拿掉一個(gè)組件,看看缺失的情況對(duì)于整體的影響力>,本次研究將學(xué)習(xí)成果總結(jié)出一些壓縮的最佳實(shí)踐:

  • 要訓(xùn)練一個(gè)家族的LLMs,首先挑選最大號(hào)的模型然后進(jìn)行修剪和迭代蒸餾以獲得較小的LLMs
  • 如果使用的大模型是使用多階段訓(xùn)練策略進(jìn)行訓(xùn)練的,則最好選擇最后階段的模型。
  • 當(dāng)源模型最接近目標(biāo)期望大小的模型時(shí)候可以修剪
  • 最好進(jìn)行??寬度修剪???而不是深度修剪,這對(duì)于≤ 15B效果很棒
  • 針對(duì)神經(jīng)網(wǎng)絡(luò)中各個(gè)組件的重要性評(píng)估,一次就夠了
  • 使用蒸餾損失進(jìn)行再訓(xùn)練,當(dāng)深度顯著減少時(shí)使用Logit+Embedding +中間狀態(tài)進(jìn)行蒸餾,當(dāng)深度沒(méi)有顯著減少時(shí),僅使用Logit蒸餾。?

本文轉(zhuǎn)載自??魯班模錘??,作者: 龐德公 ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦