自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<bdo id="qtzjl"></bdo>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

無注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

作者：機(jī)器之心 2024-02-01 12:43:16

人工智能新聞

目前 RWKV 已經(jīng)迭代到第六代 RWKV-6，由于 RWKV 的性能與大小相似的 Transformer 相當(dāng)，未來研究者可以利用這種架構(gòu)創(chuàng)建更高效的模型。

無注意力大模型Eagle7B：基于RWKV，推理成本降低10-100 倍

在 AI 賽道中，與動(dòng)輒上千億參數(shù)的模型相比，最近，小模型開始受到大家的青睞。比如法國 AI 初創(chuàng)公司發(fā)布的 Mistral-7B 模型，其在每個(gè)基準(zhǔn)測試中，都優(yōu)于 Llama 2 13B，并且在代碼、數(shù)學(xué)和推理方面也優(yōu)于 LLaMA 1 34B。

與大模型相比，小模型具有很多優(yōu)點(diǎn)，比如對算力的要求低、可在端側(cè)運(yùn)行等。

近日，又有一個(gè)新的語言模型出現(xiàn)了，即 7.52B 參數(shù) Eagle 7B，來自開源非盈利組織 RWKV，其具有以下特點(diǎn)：

基于 RWKV-v5 架構(gòu)構(gòu)建，該架構(gòu)的推理成本較低（RWKV 是一個(gè)線性 transformer，推理成本降低 10-100 倍以上）；
在 100 多種語言、1.1 萬億 token 上訓(xùn)練而成；
在多語言基準(zhǔn)測試中優(yōu)于所有的 7B 類模型；
在英語評測中，Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral；
英語評測中與 MPT-7B (1T) 相當(dāng)；
沒有注意力的 Transformer。

前面我們已經(jīng)了解到 Eagle 7B 是基于 RWKV-v5 架構(gòu)構(gòu)建而成，RWKV（Receptance Weighted Key Value）是一種新穎的架構(gòu)，有效地結(jié)合了 RNN 和 Transformer 的優(yōu)點(diǎn)，同時(shí)規(guī)避了兩者的缺點(diǎn)。該架構(gòu)設(shè)計(jì)精良，能夠緩解 Transformer 所帶來的內(nèi)存瓶頸和二次方擴(kuò)展問題，實(shí)現(xiàn)更有效的線性擴(kuò)展，同時(shí)保留了使 Transformer 在這個(gè)領(lǐng)域占主導(dǎo)的一些性質(zhì)。

目前 RWKV 已經(jīng)迭代到第六代 RWKV-6，由于 RWKV 的性能與大小相似的 Transformer 相當(dāng)，未來研究者可以利用這種架構(gòu)創(chuàng)建更高效的模型。

關(guān)于 RWKV 更多信息，大家可以參考「Transformer 時(shí)代重塑 RNN，RWKV 將非 Transformer 架構(gòu)擴(kuò)展到數(shù)百億參數(shù)」。

值得一提的是，RWKV-v5 Eagle 7B 可以不受限制地供個(gè)人或商業(yè)使用。

在 23 種語言上的測試結(jié)果

不同模型在多語言上的性能如下所示，測試基準(zhǔn)包括 xLAMBDA、xStoryCloze、xWinograd、xCopa。

共 23 種語言

這些基準(zhǔn)測試包含了大部分常識推理，顯示出 RWKV 架構(gòu)從 v4 到 v5 在多語言性能上的巨大飛躍。不過由于缺乏多語言基準(zhǔn)，該研究只能測試其在 23 種較常用語言上的能力，其余 75 種以上語言的能力目前仍無法得知。

在英語上的性能

不同模型在英語上的性能通過 12 個(gè)基準(zhǔn)來判別，包括常識性推理和世界知識。

從結(jié)果可以再次看出 RWKV 從 v4 到 v5 架構(gòu)的巨大飛躍。v4 之前輸給了 1T token 的 MPT-7b，但 v5 卻在基準(zhǔn)測試中開始追上來，在某些情況下（甚至在某些基準(zhǔn)測試 LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq 上）它可以超過 Falcon，甚至 llama2。

此外，根據(jù)給定的近似 token 訓(xùn)練統(tǒng)計(jì)，v5 性能開始與預(yù)期的 Transformer 性能水平保持一致。

此前，Mistral-7B 利用 2-7 萬億 Token 的訓(xùn)練方法在 7B 規(guī)模的模型上保持領(lǐng)先。該研究希望縮小這一差距，使得 RWKV-v5 Eagle 7B 超越 llama2 性能并達(dá)到 Mistral 的水平。

下圖表明，RWKV-v5 Eagle 7B 在 3000 億 token 點(diǎn)附近的 checkpoints 顯示出與 pythia-6.9b 類似的性能：

這與之前在 RWKV-v4 架構(gòu)上進(jìn)行的實(shí)驗(yàn)（pile-based）一致，像 RWKV 這樣的線性 transformers 在性能水平上與 transformers 相似，并且具有相同的 token 數(shù)訓(xùn)練。

可以預(yù)見，該模型的出現(xiàn)標(biāo)志著迄今為止最強(qiáng)的線性 transformer（就評估基準(zhǔn)而言）已經(jīng)來了。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營