無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
無注意力大模型Eagle7B:基于RWKV,推理成本降低10-100 倍
在 AI 賽道中,與動(dòng)輒上千億參數(shù)的模型相比,最近,小模型開始受到大家的青睞。比如法國 AI 初創(chuàng)公司發(fā)布的 Mistral-7B 模型,其在每個(gè)基準(zhǔn)測試中,都優(yōu)于 Llama 2 13B,并且在代碼、數(shù)學(xué)和推理方面也優(yōu)于 LLaMA 1 34B。
與大模型相比,小模型具有很多優(yōu)點(diǎn),比如對算力的要求低、可在端側(cè)運(yùn)行等。
近日,又有一個(gè)新的語言模型出現(xiàn)了,即 7.52B 參數(shù) Eagle 7B,來自開源非盈利組織 RWKV,其具有以下特點(diǎn):
- 基于 RWKV-v5 架構(gòu)構(gòu)建,該架構(gòu)的推理成本較低(RWKV 是一個(gè)線性 transformer,推理成本降低 10-100 倍以上);
- 在 100 多種語言、1.1 萬億 token 上訓(xùn)練而成;
- 在多語言基準(zhǔn)測試中優(yōu)于所有的 7B 類模型;
- 在英語評測中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;
- 英語評測中與 MPT-7B (1T) 相當(dāng);
- 沒有注意力的 Transformer。
前面我們已經(jīng)了解到 Eagle 7B 是基于 RWKV-v5 架構(gòu)構(gòu)建而成,RWKV(Receptance Weighted Key Value)是一種新穎的架構(gòu),有效地結(jié)合了 RNN 和 Transformer 的優(yōu)點(diǎn),同時(shí)規(guī)避了兩者的缺點(diǎn)。該架構(gòu)設(shè)計(jì)精良,能夠緩解 Transformer 所帶來的內(nèi)存瓶頸和二次方擴(kuò)展問題,實(shí)現(xiàn)更有效的線性擴(kuò)展,同時(shí)保留了使 Transformer 在這個(gè)領(lǐng)域占主導(dǎo)的一些性質(zhì)。
目前 RWKV 已經(jīng)迭代到第六代 RWKV-6,由于 RWKV 的性能與大小相似的 Transformer 相當(dāng),未來研究者可以利用這種架構(gòu)創(chuàng)建更高效的模型。
關(guān)于 RWKV 更多信息,大家可以參考「Transformer 時(shí)代重塑 RNN,RWKV 將非 Transformer 架構(gòu)擴(kuò)展到數(shù)百億參數(shù)」。
值得一提的是,RWKV-v5 Eagle 7B 可以不受限制地供個(gè)人或商業(yè)使用。
在 23 種語言上的測試結(jié)果
不同模型在多語言上的性能如下所示,測試基準(zhǔn)包括 xLAMBDA、xStoryCloze、xWinograd、xCopa。
共 23 種語言
這些基準(zhǔn)測試包含了大部分常識推理,顯示出 RWKV 架構(gòu)從 v4 到 v5 在多語言性能上的巨大飛躍。不過由于缺乏多語言基準(zhǔn),該研究只能測試其在 23 種較常用語言上的能力,其余 75 種以上語言的能力目前仍無法得知。
在英語上的性能
不同模型在英語上的性能通過 12 個(gè)基準(zhǔn)來判別,包括常識性推理和世界知識。
從結(jié)果可以再次看出 RWKV 從 v4 到 v5 架構(gòu)的巨大飛躍。v4 之前輸給了 1T token 的 MPT-7b,但 v5 卻在基準(zhǔn)測試中開始追上來,在某些情況下(甚至在某些基準(zhǔn)測試 LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq 上)它可以超過 Falcon,甚至 llama2。
此外,根據(jù)給定的近似 token 訓(xùn)練統(tǒng)計(jì),v5 性能開始與預(yù)期的 Transformer 性能水平保持一致。
此前,Mistral-7B 利用 2-7 萬億 Token 的訓(xùn)練方法在 7B 規(guī)模的模型上保持領(lǐng)先。該研究希望縮小這一差距,使得 RWKV-v5 Eagle 7B 超越 llama2 性能并達(dá)到 Mistral 的水平。
下圖表明,RWKV-v5 Eagle 7B 在 3000 億 token 點(diǎn)附近的 checkpoints 顯示出與 pythia-6.9b 類似的性能:
這與之前在 RWKV-v4 架構(gòu)上進(jìn)行的實(shí)驗(yàn)(pile-based)一致,像 RWKV 這樣的線性 transformers 在性能水平上與 transformers 相似,并且具有相同的 token 數(shù)訓(xùn)練。
可以預(yù)見,該模型的出現(xiàn)標(biāo)志著迄今為止最強(qiáng)的線性 transformer(就評估基準(zhǔn)而言)已經(jīng)來了。