自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="pme46"></sub>

<style id="pme46"><rp id="pme46"><delect id="pme46"></delect></rp></style>

<cite id="pme46"><track id="pme46"><sup id="pme46"></sup></track></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

微軟LongRoPE v2：幾乎無損的上下文擴展！

發(fā)布于 2025-3-6 09:15

瀏覽

0收藏

論文筆記，LongRoPE2: Near-Lossless LLM Context Window Scaling， https://arxiv.org/pdf/2502.20082。 longrope v1的升級工作，應對長度外推的。

longrope v1簡單回顧，核心思想是非均勻插值+漸進式微調(diào)：

對比 NTK、YaRN 之類的插值方式，LongROPE 的每個頻率都有自己的縮放因子。所以先進行基于困惑度的進化搜索，得到每個 rope 維度的最佳縮放因子。
在應用當前階段的 Rescaled RoPE 后，對模型進行微調(diào)，讓模型權(quán)重適應新的上下文窗口大小和位置編碼方式。
4k -> 256k -> 2048k，上一階段微調(diào)后的模型作為下一階段的起始模型，重復這個過程。

微軟LongRoPE v2：幾乎無損的上下文擴展！-AI.x社區(qū)

v2 覺著 v1版本，忽略了對高維度位置編碼的重點訓練，傳統(tǒng)的困惑度，是對整個文檔的所有 token 計算平均值，這存在兩個問題：

噪音干擾: 長文檔通常包含大量不重要或低依賴的 token，這些 token 的困惑度對評估長上下文能力貢獻不大，反而會干擾對關(guān)鍵 token 的評估。
無法有效捕捉長上下文能力: 平均困惑度無法有效區(qū)分模型是否真正理解了長上下文，并提取了關(guān)鍵信息。

所以v2提出了，“針驅(qū)動” 的困惑度，更聚焦于聚焦于長文檔中需要深度上下文理解的關(guān)鍵 “針” (Needle) token，只計算這些 “針” token 的困惑度。從而更精準地評估模型的長上下文能力。

最后，為了解決 LongRoPE v1 中存在的短上下文性能下降問題，LongRoPE2 引入了混合上下文窗口訓練方法。。

短上下文窗口：用于訓練模型在原始短上下文下的性能，使用原始 RoPE 編碼，通過注意力掩碼防止跨文檔的注意力。
長上下文窗口：用于訓練模型適應 rescaled RoPE 和長上下文，使用 LongRoPE2 搜索到的最佳縮放因子。

最后LongRoPE2 是第一個能夠在擴展上下文窗口到 128k 的同時，仍然保持超過 97% 原始短上下文性能的 RoPE rescaling 方法。

且只需 10B tokens 的微調(diào)數(shù)據(jù) 即可將 LLaMA3-8B 的上下文窗口擴展到 128k，而 Meta 的 LLaMA3.1 擴展到 128k 需要 800B tokens 的訓練。

微軟LongRoPE v2：幾乎無損的上下文擴展！-AI.x社區(qū)

本文轉(zhuǎn)載自??NLP前沿??，作者：NLP前沿

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

一次性支持 200 萬字無損上下文！Kimi智能助手玩了個大的——月之暗面「登月」最新進展!

pangguiyu ? 3557瀏覽 ? 0回復
「有效上下文」提升20倍！DeepMind發(fā)布ReadAgent框架

duhorse ? 2789瀏覽 ? 0回復
LLM超長上下文查詢-性能評估實戰(zhàn)

ermulong ? 2713瀏覽 ? 0回復
直接擴展到無限長，谷歌Infini-Transformer終結(jié)上下文長度之爭

輕薄滴假象 ? 2260瀏覽 ? 0回復
無限上下文處理，2萬億token碾壓Llama 2

duhorse ? 2647瀏覽 ? 0回復
LLM上下文窗口突破200萬！無需架構(gòu)變化+復雜微調(diào)，輕松擴展8倍

duhorse ? 3159瀏覽 ? 0回復
Next-Level Agents：釋放動態(tài)上下文（Dynamic Context）的巨大潛力

Baihai_IDP ? 3213瀏覽 ? 0回復
百萬上下文RAG，Agent還能這么玩

ermulong ? 3204瀏覽 ? 0回復
LLM超長上下文查詢-性能評估實戰(zhàn)

ermulong ? 2532瀏覽 ? 0回復
長上下文 還是 RAG？ Google:我全都要！

探索AGI ? 2133瀏覽 ? 0回復
在長上下文LLM的時代，RAG是否仍然必要？

sbf_2000 ? 2264瀏覽 ? 0回復
Jina CLIP v2：為多模態(tài)RAG設(shè)計的向量模型

kede96 ? 2986瀏覽 ? 0回復
長上下文語言模型評估體系探析

Baihai_IDP ? 2368瀏覽 ? 0回復
Claude的MCP（模型上下文協(xié)議）簡介

Halo咯咯 ? 4503瀏覽 ? 0回復
AI 編程必備：用 Cline 的四個命令實現(xiàn)無縫上下文管理

凝固的雨_1 ? 5594瀏覽 ? 0回復
谷歌提出Titans：突破算力限制，擴展上下文

Aceryt ? 1595瀏覽 ? 0回復
基于多模態(tài)大語言模型的上下文目標檢測

AIRoobt ? 1843瀏覽 ? 0回復
LLM 上下文管理：智能應用的核心競爭力

草臺AI ? 880瀏覽 ? 0回復
忘掉 Manus 模型上下文協(xié)議MCP 正在重新定義智能體的未來

數(shù)字化助推器 ? 1031瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

推理大模型并非一定要推理 7天前發(fā)布
llama 4，開源！ 2025-04-10 07:06:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇： DeepSeek開源周，第三彈， DeepGEMM來襲！

下一篇：圖RAG統(tǒng)一框架來了，12種RAG方法一網(wǎng)打盡！

社區(qū)精華內(nèi)容

目錄