自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<big id="xz1v2"><code id="xz1v2"><option id="xz1v2"></option></code></big>

<blockquote id="xz1v2"><i id="xz1v2"></i></blockquote>

<legend id="xz1v2"><abbr id="xz1v2"></abbr></legend>

^{<blockquote id="xz1v2"></blockquote>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

Meta無限長文本大模型來了：參數僅7B，已開源

輕薄滴假象

發(fā)布于 2024-4-18 10:06

瀏覽

0收藏

Transformers 的二次復雜度和弱長度外推限制了它們擴展到長序列的能力，雖然存在線性注意力和狀態(tài)空間模型等次二次解決方案，但從以往的經驗來看，它們在預訓練效率和下游任務準確性方面表現不佳。

長文本是大語言模型一直在努力的方向。近日，谷歌提出的 Infini-Transformer 引入有效方法，可以將基于 Transformer 的大型語言模型 (LLM) 擴展到無限長輸入，而不增加內存和計算需求，吸引了人們的關注。

幾乎就在同時，Meta 也提出了一種無限長文本技術。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

論文地址：https://arxiv.org/pdf/2404.08801.pdf
論文標題：MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length
代碼：https://github.com/XuezheMax/megalodon

在 4 月 12 日提交的一篇論文中，來自 Meta、南加州大學、CMU、UCSD 等公司、機構引入了 MEGALODON，一種用于高效序列建模的神經架構，上下文長度不受限制。

MEGALODON 繼承了 MEGA（帶有門控注意力的指數移動平均）的架構，并進一步引入了多種技術組件來提高其能力和穩(wěn)定性，包括復數指數移動平均（CEMA）、時間步歸一化層、歸一化注意力機制和具有兩個特征的預歸一化（pre-norm）殘差配置。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

在與 LLAMA2 的直接比較中，MEGALODON 在 70 億參數和 2 萬億訓練 token 的規(guī)模上取得了比 Transformer 更好的效率。MEGALODON 的訓練損失達到 1.70，處于 LLAMA2-7B (1.75) 和 13B (1.67) 之間。MEGALODON 相對于 Transformers 的改進在不同任務和模式的一系列基準測試中表現強勁。

MEGALODON 本質上是一種改進的 MEGA 架構（Ma et al., 2023），它利用了門控注意力機制和經典指數移動平均（EMA）方法。為了進一步提高 MEGALODON 在大規(guī)模長上下文預訓練方面的能力和效率，作者提出了多種技術組件。首先，MEGALODON 引入了復數指數移動平均 (CEMA) 組件，將 MEGA 中的多維阻尼 EMA 擴展到復數域。其次，MEGALODON 提出了時間步長歸一化層，它將組歸一化層推廣到自回歸序列建模任務，以允許沿順序維度進行歸一化。

為了提高大規(guī)模預訓練的穩(wěn)定性，MEGALODON 進一步提出了歸一化注意力，以及通過修改廣泛采用的預歸一化和后歸一化方法而具有兩跳殘差配置的預歸一化。通過簡單地將輸入序列分塊為固定塊，如 MEGA-chunk 中所做的那樣，MEGALODON 在模型訓練和推理中實現了線性計算和內存復雜性。

在與 LLAMA2 的直接比較上，控制了數據和計算的同時，MEGALODON-7B 在訓練困惑度方面顯著優(yōu)于用于訓練 LLAMA2-7B 的最先進的 Transformer 變體。在對長上下文建模的評估上，包括高達 2M 的各種上下文長度中的困惑度以及 Scrolls 中的長上下文 QA 任務證明了 MEGALODON 對無限長度序列進行建模的能力。中小型基準的其他實驗結果，包括 LRA、ImageNet、Speech Commands、WikiText-103 和 PG19 證明了 MEGALODON 在體量和多模態(tài)上的能力。

方法介紹

首先，文章簡單回顧了 MEGA（ Moving Average Equipped Gated Attention ）架構中的關鍵組件，并討論了 MEGA 中存在的問題。

MEGA 將 EMA（ exponential moving average ）組件嵌入到注意力矩陣的計算中，以納入跨時間步長維度的歸納偏差。具體而言，多維阻尼 EMA 首先通過擴展矩陣

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

將輸入序列 X 的每個維度單獨擴展為 h 維，然后將阻尼 EMA 應用于 h 維隱藏空間。形式如下：

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

為了降低全注意力機制中的二次復雜度，MEGA 簡單地將 (14-16) 中的查詢、鍵和值序列拆分為長度為 c 的塊。(17) 中的注意力單獨應用于每個塊，產生線性復雜度 O (kc^2 ) = O (nc)。

從技術上講，MEGA 中的 EMA 子層有助于捕獲每個 token 附近的本地上下文信息，從而緩解了在超出塊邊界的上下文中丟失信息的問題。盡管 MEGA 取得了令人深刻的印象，但面臨如下問題：

i）由于 MEGA 中 EMA 子層的表達能力有限，具有塊級注意力的 MEGA 性能仍然落后于全注意力 MEGA。

ii) 對于不同的任務、數據類型，最終的 MEGA 架構可能存在架構差異，例如，不同的歸一化層、歸一化模式和注意力函數 f (?) 。

iii) 沒有經驗證據表明 MEGA 可擴展用于大規(guī)模預訓練。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

CEMA：將多維阻尼 EMA 擴展到復數域

為了解決 MEGA 面臨的問題，該研究提出了 MEGALODON。

具體而言，他們創(chuàng)造性地提出了復指數移動平均 CEMA（ complex exponential moving average ），將上式（1）改寫為如下形式：

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

并將（2）中的 θ_j 參數化為：

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

時間步（Timestep）歸一化

盡管層歸一化與 Transformer 相結合的性能令人印象深刻，但很明顯，層歸一化不能直接減少沿空間維度（也稱為時間步長或序列維度）的內部協(xié)變量偏移。

在 MEGALODON 中，該研究通過計算累積均值和方差將組歸一化擴展到自回歸情況。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

圖 2 說明了層歸一化和時間步標準化。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

MEGALODON 中的歸一化注意力

此外，該研究還提出了專門為 MEGA 定制的歸一化注意力機制，以提高其穩(wěn)定性。形式如下：

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

則上式 (17) 中的注意力操作改為：

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

具有 Two-hop 殘差的預范數（Pre-Norm）

通過調查發(fā)現，擴大模型大小會造成預歸一化不穩(wěn)定問題?；?Transformer 塊的預歸一化可以表示為（如圖 3 (b) 所示）：

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

在原始 MEGA 架構中，將 φ (19) 用于門控殘差連接 (21) 以緩解此問題。然而，更新門 φ 引入了更多的模型參數，當模型規(guī)模擴大到 70 億時，不穩(wěn)定問題仍然存在。MEGALODON 引入了一種名為 pre-norm 的新配置，具有 two-hop 殘差，它只是簡單地重新排列每個塊中的殘差連接，如圖 3（c）所示：

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

實驗

為了評估 MEGALODON 在長上下文序列建模上的可擴展性和效率，本文將 MEGALODON 擴展到 70 億規(guī)模大小。

LLM 預訓練

為了提高數據效率，研究者在訓練過程中顯示了 MEGALODON-7B、LLAMA2-7B 和 LLAMA2-13B 的負對數似然 (NLL)，如圖 1 所示。

在相同數量的訓練 token 下，MEGALODON-7B 獲得了比 LLAMA2-7B 明顯更好（更低）的 NLL，表現出更好的數據效率。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

圖 4 說明了分別使用 4K 和 32K 上下文長度的 LLAMA2-7B 和 MEGALODON-7B 在每個設備上的平均 WPS（ word/token per second ）。對于 LLAMA2 模型，該研究使用 Flash-Attention V2 加速全注意力的計算。在 4K 上下文長度下，由于引入了 CEMA 和時間步歸一化，MEGALODON-7B 比 LLAMA2-7B 稍慢（約 6%）。當將上下文長度擴展到 32K 時，MEGALODON-7B 明顯比 LLAMA2-7B 快（約 32%），這證明了 MEGALODON 對于長上下文預訓練的計算效率。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

短上下文評估

表 1 總結了 MEGALODON 和 LLAMA2 在學術基準上的結果，以及其他開源基礎模型，包括 MPT、RWKV 、Mamba 、 Mistral 和 Gemma 的比較結果。在相同的 2T token 上進行預訓練后，MEGALODON-7B 在所有基準測試中均優(yōu)于 LLAMA2-7B。在某些任務上，MEGALODON-7B 的性能與 LLAMA2-13B 相當甚至更好。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

長上下文評估

圖 5 顯示了驗證數據集在 4K 到 2M 各種上下文長度下的困惑度 (PPL)?？梢杂^察到 PPL 隨著上下文長度單調下降，驗證了 MEGALODON 在建模極長序列方面的有效性和魯棒性。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

指令微調

表 3 總結了 7B 模型在 MT-Bench 上的性能。與 Vicuna 相比，MEGALODON 在 MT-Bench 上表現出優(yōu)越的性能，并且與 LLAMA2-Chat 相當，而后者利用 RLHF 進行了進一步的對齊微調。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

中等規(guī)?；鶞试u估

為了評估 MEGALODON 在圖像分類任務上的性能，該研究在 Imagenet-1K 數據集上進行了實驗。表 4 報告了驗證集上的 Top-1 準確率。MEGALODON 的準確率比 DeiT-B 提高了 1.3%，比 MEGA 提高了 0.8%。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

表 5 說明了 MEGALODON 在 PG-19 上的字級困惑度 (PPL)，以及與之前最先進的模型，包括 Compressive Transformer 、Perceiver AR、Perceiver AR、塊循環(huán) Transformer 和 MEGABYTE 等的對比。MEGALODON 性能明顯領先。

Meta無限長文本大模型來了：參數僅7B，已開源-AI.x社區(qū)

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/VML5hExo5iPsyEavxzIZSA??

標簽

贊

收藏

回復

舉報

回復

相關推薦

華為諾亞頻域LLM「帝江」：僅需1/50訓練成本，7B模型媲美LLaMA，推理加速5倍

輕薄滴假象 ? 2669瀏覽 ? 0回復
2萬億訓練數據，120億參數！開源大模型Stable LM 2-12B

Aceryt ? 3561瀏覽 ? 0回復
7B超越百億級，北大開源aiXcoder-7B最強代碼大模型，企業(yè)部署最佳選擇

輕薄滴假象 ? 4133瀏覽 ? 0回復
大模型參數量都是7B，13B和65B等背后的原因是什么？

Syrupup ? 1.2w瀏覽 ? 0回復
Llama 3來了！首批開源 8B 和 70B兩個版本，未來有望開源400B大模型！

AIGC最前線 ? 1.2w瀏覽 ? 0回復
首個基于Mamba的MLLM來了！模型權重、訓練代碼等已全部開源

輕薄滴假象 ? 3253瀏覽 ? 0回復
AlphaGo核心算法增強，7B模型數學能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt ? 2742瀏覽 ? 0回復
騰訊放大招，超Meta！史上參數最大，開源專家混合模型

Aceryt ? 1810瀏覽 ? 0回復
Qwen開源強大、多樣、實用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Halo咯咯 ? 3643瀏覽 ? 0回復
Qwen2-VL (2B、7B、72B)：迄今為止最好的開源視覺模型?。。〒魯?Claude 和 GPT-4o）

老蛀蟲 ? 3942瀏覽 ? 0回復
大模型長文本所面臨的主要問題

AI探索時代 ? 2325瀏覽 ? 0回復
Meta AI 開源 Llama 3.3：全新 70B 多語言大語言模型 (LLM)

Halo咯咯 ? 2886瀏覽 ? 0回復
Meta開源多模式模型，輕松混合文本和語音

Aceryt ? 1544瀏覽 ? 0回復
清華團隊靠強化學習讓 7B 模型打敗 GPT-4o 數學推理

Aceryt ? 2087瀏覽 ? 0回復
達摩院開源VideoLLaMA3：僅7B大小，視頻理解拿下SOTA | 在線可玩

Crystalcxt ? 1818瀏覽 ? 0回復
來了！Kimi開源Moonlight-16B-A3B的MoE模型??！

NLP工作站 ? 1862瀏覽 ? 0回復
Vision-R1：多模態(tài)領域的DeepSeek R1-Zero，7B參數比肩OpenAI O1

Syrupup ? 1703瀏覽 ? 0回復
阿里版“Her”上線即開源！7B模型太全能了，全面擊敗Gemini-1.5-pro！所有用戶都能試玩！

51CTO技術棧 ? 1093瀏覽 ? 0回復
千億模型做不到的事，7B小模型實現了？阿里這次開源有點狠！

蜂耘網iphoneyun ? 1170瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發(fā)布
全球首個AI CUDA工程師來了！將PyTorch原生實現提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現 Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：極長序列、極快速度：面向新一代高效大語言模型的LASP序列并行

下一篇：無向圖最小割問題取得新突破，谷歌研究獲SODA 2024最佳論文獎

社區(qū)精華內容

目錄

<sub id="m6gdu"></sub>

<cite id="m6gdu"></cite>

<style id="m6gdu"></style>