自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

換掉Transformer,7B開源模型立刻登頂!任意長(zhǎng)序列都能處理

人工智能 新聞
它采用Mamba狀態(tài)空間語言模型架構(gòu)來處理各種文本生成任務(wù)。

只是換掉Transformer架構(gòu),立馬性能全方位提升,問鼎同規(guī)模開源模型!

(注意力機(jī)制不存在了)

這就是最新Falcon Mamba 7B模型。

圖片

它采用Mamba狀態(tài)空間語言模型架構(gòu)來處理各種文本生成任務(wù)。

通過取消傳統(tǒng)注意力機(jī)制,有效提升了模型處理長(zhǎng)序列時(shí)計(jì)算效率低下的問題。

它可以處理無限長(zhǎng)序列,但內(nèi)存需求不增加。

無論上下文多長(zhǎng),生成每個(gè)token的時(shí)間基本一樣。

由此,F(xiàn)alcon Mamba模型性能全方位提升,打敗一眾Transformer架構(gòu)模型,如Llama-3.1(8B)、Mistral(7B)以及Falcon-2(11B)。

圖片圖片

如上成果由阿聯(lián)酋阿布扎比技術(shù)創(chuàng)新研究所(TII)帶來,他們正是Falcon模型的開發(fā)團(tuán)隊(duì)。

該系列共包含四個(gè)模型:基礎(chǔ)版本、指令微調(diào)版本、4bit版本和指令微調(diào)4bit版本。

最新模型遵循TII Falcon License 2.0開放協(xié)議,它在Apache 2.0協(xié)議下。

圍觀網(wǎng)友直呼:游戲規(guī)則要改變了!

全球首個(gè)開源SSLM

在性能上,F(xiàn)alcon Mamba 7B全方位超越一眾開源模型。

它基于第一代Mamba。

Mamba是一種狀態(tài)空間模型(SSM,State Space Model)。它結(jié)合了RNN和CNN的特點(diǎn),通過引入一種選擇機(jī)制,它允許模型根據(jù)當(dāng)前的輸入有選擇地傳播或忘記信息,從而提高處理文本信息的效率。

同時(shí),它設(shè)計(jì)了一種硬件感知的并行算法,以遞歸模式運(yùn)行,避免了GPU內(nèi)存層級(jí)之間IO訪問,提高計(jì)算效率。

最后它還簡(jiǎn)化了架構(gòu),將SSM架構(gòu)和Transformer中的MLP塊結(jié)合為單一的塊。

從Transformer換到Mamba,能夠讓Falcon模型可以處理任意長(zhǎng)序列,但無需增加內(nèi)存。尤其適合單個(gè)A10 24GB GPU。

研究還討論了兩種不同的處理序列方法。

并行預(yù)填充方法適用于GPU并行處理,對(duì)內(nèi)存需求較高;順序填充方法適用于SSM模型,可以處理任意長(zhǎng)度序列,從而不會(huì)受到內(nèi)存限制。

為了確保大規(guī)模訓(xùn)練穩(wěn)定,F(xiàn)alcon Mamba模型使用了額外的RMS標(biāo)準(zhǔn)化層。

RMS標(biāo)準(zhǔn)化層能夠簡(jiǎn)化LayerNorm的計(jì)算過程,可減少計(jì)算量。

模型使用了5500GT數(shù)據(jù)訓(xùn)練,這些數(shù)據(jù)主要來自RefedWeb數(shù)據(jù)集以及公開數(shù)據(jù)。訓(xùn)練過程基本勻速,在訓(xùn)練后期增加了一小部分高質(zhì)量策劃數(shù)據(jù),這有助于模型在最后階段的優(yōu)化。

在H100上,批大小為1、提示詞長(zhǎng)度為1-130k生成token的測(cè)試中,F(xiàn)alcon Mamba能夠在生成新token時(shí)保持穩(wěn)定的吞吐量,這意味著它的性能不受文本長(zhǎng)度影響,可以穩(wěn)定處理長(zhǎng)序列,不會(huì)出現(xiàn)性能下降情況。

圖片圖片

Falcon Mamba支持多種Hugging Face API,包括AutoModelForCausalLM、pipline。

還推出了一個(gè)指令調(diào)優(yōu)版本,通過額外50億個(gè)token進(jìn)行微調(diào),可以讓模型準(zhǔn)確性更高。

在Hugging Face、GitHub上都可訪問最新模型~

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-03-25 08:00:00

2024-07-18 12:53:13

2024-06-03 10:43:34

2024-07-15 08:58:00

2024-09-13 09:14:32

2025-03-27 12:30:36

2024-02-07 12:39:00

AI數(shù)據(jù)

2025-03-17 12:13:26

AI模型生成

2024-07-17 13:40:01

2024-07-22 09:00:00

2023-01-03 10:06:08

模型計(jì)算

2024-02-04 08:00:00

Zephyr 7B大語言模型算法

2025-02-10 14:30:00

模型數(shù)據(jù)開源

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2023-10-13 19:58:33

Mistral7B模型

2024-03-25 00:05:00

開源模型AI

2024-02-22 10:09:00

開源模型

2024-09-05 14:25:00

訓(xùn)練代碼

2024-03-18 07:01:42

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)