自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

7B新王登基!Zamba 2完勝同級模型,推理效率比Llama 3提升20%,內(nèi)存用量更少

人工智能 新聞
Zamba2-7B是一款小型語言模型,在保持輸出質(zhì)量的同時,通過創(chuàng)新架構(gòu)實現(xiàn)了比同類模型更快的推理速度和更低的內(nèi)存占用,在圖像描述等任務(wù)上表現(xiàn)出色,能在各種邊緣設(shè)備和消費級GPU上高效運行。

除了不斷增加語言模型的尺寸來提升性能外,小語言模型(SLM)賽道也是越來越卷,研究人員在保證輸出質(zhì)量盡量不變的情況下,不斷降低模型尺寸,減少內(nèi)存占用量,提升推理效率,從而能夠在各種邊緣計算設(shè)備和消費級GPU上部署使用。

最近,Zyphra發(fā)布Zamba2-7B模型,在質(zhì)量和性能上都優(yōu)于Mistral、Google的Gemma和Meta的Llama3系列同尺寸小語言模型;在推理效率上,與 Llama3-8B 等模型相比,第一個token的時間縮短了 25%,每秒token數(shù)量提高了 20%,并且內(nèi)存使用量顯著減少。

圖片

Instruct下載鏈接:https://huggingface.co/Zyphra/Zamba2-7B-Instruct

base下載鏈接:https://huggingface.co/Zyphra/Zamba2-7B

相對于上一代Zamba1-7B,新模型在架構(gòu)上的改進包括:

1. 把Mamba1塊已替換為Mamba2塊;

2. 把單個共享注意力塊增加為兩個共享注意力塊,在整個網(wǎng)絡(luò)中以 ABAB 模式交錯排列,增強了網(wǎng)絡(luò)對信息的處理能力;

3. 為每個共享的多層感知機(MLP)模塊應(yīng)用了一個LoRA投影器,可以讓網(wǎng)絡(luò)在每次調(diào)用共享層時,針對不同層次專門化(specialize)MLP模塊以適應(yīng)不同層次的數(shù)據(jù)處理,從而提高網(wǎng)絡(luò)的性能和效率。

模型質(zhì)量

Zamba2在標(biāo)準(zhǔn)語言建模評估集上表現(xiàn)非常出色,考慮到延遲和生成速度,其在小語言模型(≤8B)中,在質(zhì)量和性能上都處于領(lǐng)先地位,主要原因如下:

1. 新型共享注意力架構(gòu)可以讓更多的參數(shù)分配到Mamba2智能體的骨干網(wǎng)絡(luò)中,從而讓共享的Transformer模塊就能夠保留注意力計算中豐富的跨序列依賴性;新架構(gòu)通過優(yōu)化參數(shù)分配,使得智能體在處理圖像描述等任務(wù)時,能夠更好地理解和利用數(shù)據(jù)中的復(fù)雜關(guān)系。

2. 預(yù)訓(xùn)練數(shù)據(jù)集達(dá)到了3萬億個token的規(guī)模,混合了Zyda數(shù)據(jù)和公開可用的數(shù)據(jù),經(jīng)過了嚴(yán)格的過濾和去重處理,確保了數(shù)據(jù)的高質(zhì)量,在與現(xiàn)有的頂級開源預(yù)訓(xùn)練數(shù)據(jù)集的比較中,數(shù)據(jù)處理也達(dá)到了最先進的水平。

3. 模型中還有一個特別的「退火」(annealing)預(yù)訓(xùn)練階段,在處理100B個高質(zhì)量token的過程中快速降低學(xué)習(xí)率,其中退火數(shù)據(jù)集是精心策劃和從多個高質(zhì)量來源整理而來的,以確保質(zhì)量。智能體在這個階段通過處理大量高質(zhì)量的數(shù)據(jù),能夠更快地學(xué)習(xí)和適應(yīng),從而提高其在圖像描述等任務(wù)上的表現(xiàn)。

圖片

由于我們的預(yù)訓(xùn)練和退火數(shù)據(jù)集的卓越質(zhì)量,Zamba2-7B智能體在每個訓(xùn)練token上的表現(xiàn)非常出色,輕松超越了競爭對手模型的性能曲線。

圖片

Zamba2-7B智能體利用并擴展了初代的Zamba混合SSM-注意力架構(gòu),核心的Zamba架構(gòu)由Mamba層構(gòu)成的骨干網(wǎng)絡(luò)與一個或多個共享注意力層交錯組成(Zamba1有一個共享注意力層,Zamba2有兩個),注意力機制的權(quán)重共享,以最小化模型的參數(shù)成本。

研究人員發(fā)現(xiàn),將輸入的原始模型嵌入與這個注意力塊進行連接可以提高性能,很可能是因為可以更好地保持了信息在網(wǎng)絡(luò)深度上的傳遞。

Zamba2架構(gòu)還對共享的MLP應(yīng)用了LoRA投影矩陣,以在每個模塊中獲得一些額外的表達(dá)能力,并允許每個共享模塊稍微專門化,以適應(yīng)其獨特的位置,同時保持額外的參數(shù)開銷很小。

圖片

類似于在智能體的「大腦」中添加了一種特殊的「眼鏡」,使其能夠更清晰地看到每個數(shù)據(jù)點的獨特之處,同時保持整體的簡潔和高效。

通過這種方式,Zamba2-7B智能體在處理圖像描述等任務(wù)時,能夠更加精準(zhǔn)地理解和生成內(nèi)容。

Zamba2-7B 推理性能

模型實現(xiàn)了最先進的推理效率,包括延遲、吞吐量和內(nèi)存使用,主要原因如下:

1. Mamba2模塊的效率極高,其吞吐量大約是同等參數(shù)Transformer模塊的4倍,也就意味著Mamba2模塊在處理數(shù)據(jù)時更快,能夠更迅速地完成圖像描述等智能體任務(wù)。

2. Mamba模塊只需要存儲較小的隱藏狀態(tài),并且不需要KV緩存,所以只需要為共享注意力模塊的調(diào)用存儲KV狀態(tài),就好像智能體在記憶信息時,不需要記住每一個細(xì)節(jié),而是只記住最關(guān)鍵的部分,既節(jié)省了空間,也提高了效率。

3. 選擇的模型尺寸非常適合在現(xiàn)代硬件上進行并行處理(例如,GPU上的多個流式多處理器,CPU上的多個核心),像是在工廠里使用多條生產(chǎn)線同時工作,可以大大提高生產(chǎn)速度和效率。

圖片

圖片

圖片

這些設(shè)計使得該智能體在處理圖像描述等任務(wù)時,不僅速度快,而且資源消耗少,為用戶提供了高效且流暢的體驗。

訓(xùn)練消耗

使用基于Megatron-LM開發(fā)的內(nèi)部訓(xùn)練框架,在128個H100 GPU上進行了訓(xùn)練了大約50天,表明即使在70億參數(shù)的規(guī)模上,前沿技術(shù)仍然是可及且可以超越的,即使是小團隊和適度預(yù)算也能實現(xiàn)。

Zamba2-7B智能體的開源許可證允許研究人員、開發(fā)者和公司使用。

Zamba1架構(gòu)

今年5月,Zamba發(fā)布,開創(chuàng)性地結(jié)合了Mamba骨干網(wǎng)絡(luò)和單一共享注意力模塊的獨特架構(gòu),以最小的參數(shù)成本,保持了注意力機制的優(yōu)勢,實現(xiàn)了比同類的Transformer模型更高的推理效率,并且在生成長序列時所需的內(nèi)存量也大大減少。

論文鏈接:https://arxiv.org/pdf/2405.16712

Zamba的預(yù)訓(xùn)練分為兩個階段:

1. 基于現(xiàn)有的網(wǎng)絡(luò)數(shù)據(jù)集預(yù)訓(xùn)練;

2. 退火階段包括在高質(zhì)量的指導(dǎo)性和合成數(shù)據(jù)集上對模型進行退火處理,其特點是學(xué)習(xí)率快速衰減。

Zamba智能體的架構(gòu)設(shè)計上,由一系列標(biāo)準(zhǔn)的Mamba模塊構(gòu)成骨干網(wǎng)絡(luò),并與一個共享的注意力和多層感知機(MLP)模塊相連,其中共享模塊每6個Mamba模塊重復(fù)一次,但參數(shù)是共享的,使得Mamba能夠在相同的內(nèi)存成本下利用更多的浮點運算(FLOPs)來提升性能。

輸入的嵌入始終與殘差流一起連接到共享注意力模塊,為模型提供了一個額外的路徑來記住輸入信息;在模塊處理完畢后,用一個可學(xué)習(xí)的線性投影將輸出映射回殘差流。

圖片

在推理和生成效率方面,Zamba智能體表現(xiàn)出色,雖然參數(shù)共享機制導(dǎo)致每個參數(shù)使用的FLOPs更多,但Zamba智能體的前向傳遞速度明顯快于7B規(guī)模的競品模型,隨著序列長度的增加,優(yōu)勢更加明顯。

圖片

由于Zamba智能體的SSM骨干網(wǎng)絡(luò),Mamba所需的KV緩存內(nèi)存比其他類似規(guī)模的模型減少了很多,從而使Zamba智能體能夠更有效地生成內(nèi)容,并在單個設(shè)備上實現(xiàn)更長的上下文。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-10-13 19:58:33

Mistral7B模型

2023-10-29 22:41:29

模型開源

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2024-06-11 14:30:18

2024-04-03 12:32:00

數(shù)據(jù)訓(xùn)練

2024-03-04 13:36:00

模型訓(xùn)練

2024-07-17 12:13:11

2022-04-12 14:12:43

谷歌研究模型

2024-03-25 08:00:00

2024-02-22 10:09:00

開源模型

2024-06-03 10:43:34

2023-08-27 12:54:59

GPT-4神秘版本Code

2024-09-13 09:14:32

2023-11-29 13:52:00

模型訓(xùn)練

2024-07-23 10:20:57

2024-06-25 12:45:02

2023-06-28 21:47:54

2023-02-28 07:03:09

AIMeta大型語言

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2023-12-07 11:46:00

蘋果芯片開源
點贊
收藏

51CTO技術(shù)棧公眾號