自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

魔改RNN挑戰(zhàn)Transformer,RWKV上新:推出兩種新架構(gòu)模型

人工智能 新聞
新架構(gòu)的設(shè)計進步包括多頭矩陣值狀態(tài)(multi-headed matrix-valued states)和動態(tài)遞歸機制(dynamic recurrence mechanism),這些改進提高了RWKV模型的表達能力,同時保持RNN的推理效率特征。

不走Transformer尋常路,魔改RNN的國產(chǎn)新架構(gòu)RWKV,有了新進展:

提出了兩種新的RWKV架構(gòu),即Eagle (RWKV-5) 和Finch(RWKV-6)。

這兩種序列模型以RWKV-4架構(gòu)為基礎(chǔ),然后作了改進。

新架構(gòu)的設(shè)計進步包括多頭矩陣值狀態(tài)(multi-headed matrix-valued states)動態(tài)遞歸機制(dynamic recurrence mechanism),這些改進提高了RWKV模型的表達能力,同時保持RNN的推理效率特征。

同時,新架構(gòu)引入了一個新的多語言語料庫,包含1.12萬億個令牌。

團隊還基于貪婪匹配(greedy matching)開發(fā)了一種快速的分詞器,以增強RWKV的多語言性。

目前,4個Eagle模型和2個Finch模型,都已經(jīng)在抱抱臉上發(fā)布了~

圖片

新模型Eagle和Finch

此次更新的RWKV,共包含6個模型,分別是:

4個Eagle(RWKV-5)模型:分別為0.4B、1.5B、3B、7B參數(shù)大??;
2個Finch(RWKV-6)模型:分別是1.6B、3B參數(shù)大小。

圖片

Eagle通過使用多頭矩陣值狀態(tài)(而非向量值狀態(tài))、重新構(gòu)造的接受態(tài)和額外的門控機制,改進了從RWKV-4中學習到的架構(gòu)和學習衰減進度。

Finch則通過引入新的數(shù)據(jù)相關(guān)函數(shù),進一步改進架構(gòu)的表現(xiàn)能力和靈活性,用于時間混合和令牌移位模塊,包括參數(shù)化線性插值。

此外,F(xiàn)inch提出了對低秩自適應(yīng)函數(shù)的新用法,以使可訓(xùn)練的權(quán)重矩陣能夠以一種上下文相關(guān)的方式有效地增強學習到的數(shù)據(jù)衰減向量。

最后,RWKV新架構(gòu)引入了一種新的分詞器RWKV World Tokenizer,和一個新數(shù)據(jù)集RWKV World v2,兩者均用于提高RWKV模型在多語言和代碼數(shù)據(jù)上的性能。

其中的新分詞器RWKV World Tokenizer包含不常見語言的詞匯,并且通過基于Trie的貪婪匹配(greedy matching)進行快速分詞。

而新數(shù)據(jù)集RWKV World v2是一個新的多語言1.12T tokens數(shù)據(jù)集,取自各種手工選擇的公開可用數(shù)據(jù)源。

其數(shù)據(jù)組成中,約70%是英語數(shù)據(jù),15%是多語言數(shù)據(jù),15%是代碼數(shù)據(jù)。

基準測試結(jié)果如何?

光有架構(gòu)創(chuàng)新還不夠,關(guān)鍵要看模型的實際表現(xiàn)。

來看看新模型在各大權(quán)威評測榜單上的成績——

MQAR測試結(jié)果

MQAR (Multiple Query Associative Recall)任務(wù)是一種用于評估語言模型的任務(wù),旨在測試模型在多次查詢情況下的聯(lián)想記憶能力。

在這類任務(wù)中,模型需要通過給定的多個查詢來檢索相關(guān)的信息。

MQAR任務(wù)的目標是衡量模型在多次查詢下檢索信息的能力,以及其對不同查詢的適應(yīng)性和準確性。

下圖為RWKV-4、Eagle、 Finch和其他非Transformer架構(gòu)的MQAR任務(wù)測試結(jié)果。

圖片

可以看出,在MQAR任務(wù)的準確度測試中, Finch在多種序列長度測試中的準確度表現(xiàn)都非常穩(wěn)定,對比RWKV-4、RWKV-5和其他非Transformer架構(gòu)的模型有顯著的性能優(yōu)勢。

長上下文實驗

在PG19測試集上測試了從2048 tokens開始的RWKV-4、Eagle和Finch的loss與序列位置。

(所有模型均基于上下文長度4096進行預(yù)訓(xùn)練)。

圖片

測試結(jié)果顯示, Eagle在長序列任務(wù)上比RWKV-4有了顯著的改進,而在上下文長度4096訓(xùn)練的Finch的表現(xiàn)比Eagle更好,可以良好地自動適應(yīng)到20000以上的上下文長度。

速度和顯存基準測試

速度和內(nèi)存基準測試中,團隊比較了Finch、Mamba和Flash Attention的類Attention內(nèi)核的速度和顯存利用率。

圖片
圖片

可以看到,F(xiàn)inch在內(nèi)存使用方面始終優(yōu)于Mamba和Flash Attention,而內(nèi)存使用量分別比Flash Attention和Mamba少40%和17%。

多語言任務(wù)表現(xiàn)

日語

圖片

西班牙語

圖片

阿拉伯語

圖片

日語-英語

圖片

下一步工作

以上研究內(nèi)容,來自RWKV Foundation發(fā)布的最新論文《Eagle and Finch:RWKV with Matrix-Valued States and Dynamic Recurrence》。

論文由RWKV創(chuàng)始人Bo PENG(彭博)和RWKV開源社區(qū)成員共同完成。

共同一作彭博,畢業(yè)于香港大學物理系,編程經(jīng)驗20+年,曾在世界最大外匯對沖基金之一Ortus Capital就職,負責高頻量化交易。

還出版過一本關(guān)于深度卷積網(wǎng)絡(luò)的書籍《深度卷積網(wǎng)絡(luò)·原理與實踐》。

他的主要關(guān)注和興趣方向在軟硬件開發(fā)方面,在此前的公開訪談中,他曾明確表示AIGC是自己的興趣所在,尤其是小說生成。

目前,彭博在Github有2.1k的followers。

但他的最主要公開身份是一家燈具公司稟臨科技的聯(lián)合創(chuàng)始人,主要是做陽光燈、吸頂燈、便攜臺燈什么的。

并且其人應(yīng)該是一個喵星人資深愛好者,Github、知乎、微信頭像,以及燈具公司的官網(wǎng)首頁、微博上,都有一只橘貓的身影。

圖片

量子位獲悉,RWKV當前的多模態(tài)工作包含RWKV Music(音樂方向)和 VisualRWKV(圖像方向)。

接下來,RWKV的重點工作將放在以下幾個方向:

  • 擴展訓(xùn)練語料庫,使其更加多樣化(這是改進模型性能的關(guān)鍵事項);
  • 訓(xùn)練和發(fā)布更大版本的Finch,如7B和14B參數(shù),并通過MoE降低推理和訓(xùn)練成本,進一步擴展其性能。
  • 對Finch的CUDA實現(xiàn)做進一步優(yōu)化(包括算法改進),帶來速度的提升和更大的并行化。

論文鏈接:

https://arxiv.org/pdf/2404.05892.pdf

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2011-06-15 13:07:10

JSP和JavaBea

2024-03-04 08:20:00

谷歌架構(gòu)AI

2023-05-24 09:36:43

模型架構(gòu)

2024-07-09 13:29:37

新架構(gòu)RNNFPS

2015-09-18 12:17:52

華三通信

2021-10-26 17:26:46

JVM架構(gòu)模型

2016-12-07 13:41:32

AWS混合云云功能

2025-01-26 13:20:49

谷歌AI模型Titans

2017-04-18 14:31:39

機器學習模型架構(gòu)

2024-03-04 13:23:34

數(shù)據(jù)模型

2024-09-02 10:07:52

2024-02-01 12:43:16

模型數(shù)據(jù)

2024-03-26 13:35:19

模型架構(gòu)框架

2020-04-01 10:48:28

業(yè)務(wù)設(shè)計架構(gòu)模型CIO

2023-11-22 09:00:00

NLP語言模型LSTM

2025-01-16 08:20:00

2024-02-19 14:09:00

模型Eagle 7BRNN

2013-05-24 09:28:15

云計算

2013-05-23 16:31:14

SDDCSDNSDS
點贊
收藏

51CTO技術(shù)棧公眾號