自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

人工智能 新聞
目前 RWKV 已經(jīng)迭代到第六代 RWKV-6,由于 RWKV 的性能與大小相似的 Transformer 相當(dāng),未來研究者可以利用這種架構(gòu)創(chuàng)建更高效的模型。

無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍

在 AI 賽道中,與動(dòng)輒上千億參數(shù)的模型相比,最近,小模型開始受到大家的青睞。比如法國 AI 初創(chuàng)公司發(fā)布的 Mistral-7B 模型,其在每個(gè)基準(zhǔn)測試中,都優(yōu)于 Llama 2 13B,并且在代碼、數(shù)學(xué)和推理方面也優(yōu)于 LLaMA 1 34B。

與大模型相比,小模型具有很多優(yōu)點(diǎn),比如對算力的要求低、可在端側(cè)運(yùn)行等。

近日,又有一個(gè)新的語言模型出現(xiàn)了,即 7.52B 參數(shù) Eagle 7B,來自開源非盈利組織 RWKV,其具有以下特點(diǎn):


  • 基于 RWKV-v5 架構(gòu)構(gòu)建,該架構(gòu)的推理成本較低(RWKV 是一個(gè)線性 transformer,推理成本降低 10-100 倍以上);
  • 在 100 多種語言、1.1 萬億 token 上訓(xùn)練而成;
  • 在多語言基準(zhǔn)測試中優(yōu)于所有的 7B 類模型;
  • 在英語評測中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;
  • 英語評測中與 MPT-7B (1T) 相當(dāng);
  • 沒有注意力的 Transformer。

圖片

前面我們已經(jīng)了解到 Eagle 7B 是基于 RWKV-v5 架構(gòu)構(gòu)建而成,RWKV(Receptance Weighted Key Value)是一種新穎的架構(gòu),有效地結(jié)合了 RNN 和 Transformer 的優(yōu)點(diǎn),同時(shí)規(guī)避了兩者的缺點(diǎn)。該架構(gòu)設(shè)計(jì)精良,能夠緩解 Transformer 所帶來的內(nèi)存瓶頸和二次方擴(kuò)展問題,實(shí)現(xiàn)更有效的線性擴(kuò)展,同時(shí)保留了使 Transformer 在這個(gè)領(lǐng)域占主導(dǎo)的一些性質(zhì)。

目前 RWKV 已經(jīng)迭代到第六代 RWKV-6,由于 RWKV 的性能與大小相似的 Transformer 相當(dāng),未來研究者可以利用這種架構(gòu)創(chuàng)建更高效的模型。

關(guān)于 RWKV 更多信息,大家可以參考「Transformer 時(shí)代重塑 RNN,RWKV 將非 Transformer 架構(gòu)擴(kuò)展到數(shù)百億參數(shù)」。

值得一提的是,RWKV-v5 Eagle 7B 可以不受限制地供個(gè)人或商業(yè)使用。

在 23 種語言上的測試結(jié)果

不同模型在多語言上的性能如下所示,測試基準(zhǔn)包括 xLAMBDA、xStoryCloze、xWinograd、xCopa。

圖片


圖片

共 23 種語言

這些基準(zhǔn)測試包含了大部分常識推理,顯示出 RWKV 架構(gòu)從 v4 到 v5 在多語言性能上的巨大飛躍。不過由于缺乏多語言基準(zhǔn),該研究只能測試其在 23 種較常用語言上的能力,其余 75 種以上語言的能力目前仍無法得知。

在英語上的性能

不同模型在英語上的性能通過 12 個(gè)基準(zhǔn)來判別,包括常識性推理和世界知識。

圖片

從結(jié)果可以再次看出 RWKV 從 v4 到 v5 架構(gòu)的巨大飛躍。v4 之前輸給了 1T  token 的 MPT-7b,但 v5 卻在基準(zhǔn)測試中開始追上來,在某些情況下(甚至在某些基準(zhǔn)測試 LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq 上)它可以超過 Falcon,甚至 llama2。

此外,根據(jù)給定的近似 token 訓(xùn)練統(tǒng)計(jì),v5 性能開始與預(yù)期的 Transformer 性能水平保持一致。

此前,Mistral-7B 利用 2-7 萬億 Token 的訓(xùn)練方法在 7B 規(guī)模的模型上保持領(lǐng)先。該研究希望縮小這一差距,使得 RWKV-v5 Eagle 7B 超越 llama2 性能并達(dá)到 Mistral 的水平。

下圖表明,RWKV-v5 Eagle 7B 在 3000 億 token 點(diǎn)附近的 checkpoints 顯示出與 pythia-6.9b 類似的性能:

這與之前在 RWKV-v4 架構(gòu)上進(jìn)行的實(shí)驗(yàn)(pile-based)一致,像 RWKV 這樣的線性 transformers 在性能水平上與 transformers 相似,并且具有相同的 token 數(shù)訓(xùn)練。

可以預(yù)見,該模型的出現(xiàn)標(biāo)志著迄今為止最強(qiáng)的線性 transformer(就評估基準(zhǔn)而言)已經(jīng)來了。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-02-19 14:09:00

模型Eagle 7BRNN

2024-09-05 14:25:00

訓(xùn)練代碼

2024-07-01 12:17:54

2021-08-10 15:37:45

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2023-01-05 21:25:06

毫末

2024-06-28 08:04:43

語言模型應(yīng)用

2024-12-27 13:59:33

數(shù)據(jù)訓(xùn)練模型

2024-12-09 00:00:10

2024-06-03 10:56:53

2025-02-19 15:17:24

2024-07-08 13:04:01

2024-01-26 13:18:00

AI訓(xùn)練

2023-05-05 13:11:16

2025-02-12 09:20:12

2023-12-11 15:40:32

PyTorch代碼大模型

2023-12-14 13:30:00

AI模型

2025-04-11 09:15:00

語言模型AI數(shù)據(jù)

2025-03-18 09:23:22

2024-12-17 14:39:16

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號