自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

最多400萬token上下文、推理提速22倍,StreamingLLM火了,已獲GitHub 2.5K星

人工智能 新聞
為了讓 LLM 記住更多、記得更好,研究者們正在不斷努力。最近,來自 MIT、Meta AI、CMU 的研究者提出了一種名為「StreamingLLM」的方法,使語言模型能夠流暢地處理無窮無盡的文本。

如果你體驗(yàn)過與任何一款對話式 AI 機(jī)器人的交流,你一定能想起某些極具「挫敗感」的時刻。比如,你在前一天的對話中講述過的要點(diǎn),被 AI 忘得干干凈凈……

這是因?yàn)楫?dāng)前的多數(shù) LLM 只能記住有限的上下文,就像為考試而臨時抱佛腳的學(xué)生,稍加盤問就會「露出馬腳」。

想象一下,如果 AI 助手在聊天中能夠根據(jù)上下文參考幾周或幾個月前的對話,或者,你可以要求 AI 助手總結(jié)長達(dá)數(shù)千頁的報(bào)告,這樣的能力是不是令人羨慕?

為了讓 LLM 記住更多、記得更好,研究者們正在不斷努力。最近,來自 MIT、Meta AI、CMU 的研究者提出了一種名為「StreamingLLM」的方法,使語言模型能夠流暢地處理無窮無盡的文本。

圖片

  • 論文地址:https://arxiv.org/pdf/2309.17453.pdf
  • 項(xiàng)目地址:https://github.com/mit-han-lab/streaming-llm

StreamingLLM 的工作原理是識別并保存模型固有的「注意力池」(attention sinks)錨定其推理的初始 token。結(jié)合最近 token 的滾動緩存,StreamingLLM 的推理速度提高了 22 倍,而不需要犧牲任何的準(zhǔn)確性。短短幾天,該項(xiàng)目在 GitHub 平臺已斬獲 2.5K 星:

圖片

具體地說,StreamingLLM 使得語言模型能準(zhǔn)確無誤地記住上一場比賽的觸地得分、新生兒的名字、冗長的合同或辯論內(nèi)容,就像升級了 AI 助理的內(nèi)存,可以完美地處理更繁重的工作。

圖片

接下來讓我們看看技術(shù)細(xì)節(jié)。

方法創(chuàng)新

通常,LLM 在預(yù)訓(xùn)練時受到注意力窗口的限制。盡管為擴(kuò)大這一窗口大小、提高訓(xùn)練和推理效率,此前已有很多工作,但 LLM 可接受的序列長度仍然是有限的,這對于持久部署來說并不友好。

在這篇論文中,研究者首先介紹了 LLM 流應(yīng)用的概念,并提出了一個問題:「能否在不犧牲效率和性能的情況下以無限長輸入部署 LLM?」

將 LLM 應(yīng)用于無限長輸入流時,會面臨兩個主要挑戰(zhàn):

1、在解碼階段,基于 transformer 的 LLM 會緩存所有先前 token 的 Key 和 Value 狀態(tài)(KV),如圖 1 (a) 所示,這可能會導(dǎo)致內(nèi)存使用過多,并增加解碼延遲;

2、現(xiàn)有模型的長度外推能力有限,即當(dāng)序列長度超過預(yù)訓(xùn)練時設(shè)定的注意力窗口大小時,其性能就會下降。

圖片

一種直觀的方法被稱為窗口注意力(Window Attention)(如圖 1 b),這種方法只在最近 token 的 KV 狀態(tài)上保持一個固定大小的滑動窗口,雖然能確保在緩存填滿后仍能保持穩(wěn)定的內(nèi)存使用率和解碼速度,但一旦序列長度超過緩存大小,甚至只是驅(qū)逐第一個 token 的 KV,模型就會崩潰。另一種方法是重新計(jì)算滑動窗口(如圖 1 c 所示),這種方法會為每個生成的 token 重建最近 token 的 KV 狀態(tài),雖然性能強(qiáng)大,但需要在窗口內(nèi)計(jì)算二次注意力,因此速度明顯更慢,在實(shí)際的流應(yīng)用中并不理想。

在理解窗口注意力失效的過程中,研究者發(fā)現(xiàn)了自回歸 LLM 的一個有趣現(xiàn)象:如圖 2 所示,大量注意力分?jǐn)?shù)被分配給了初始 token,而不管這些 token 與語言建模任務(wù)是否相關(guān)。

圖片

研究者將這些 token 稱為「注意力池」:盡管它們?nèi)狈φZ義上的意義,但卻占據(jù)了大量的注意力分?jǐn)?shù)。研究者將這一現(xiàn)象歸因于于 Softmax(要求所有上下文 token 的注意力分?jǐn)?shù)總和為 1),即使當(dāng)前查詢在許多以前的 token 中沒有很強(qiáng)的匹配,模型仍然需要將這些不需要的注意力值分配到某處,從而使其總和為 1。初始 token 成為「池」的原因很直觀:由于自回歸語言建模的特性,初始 token 對幾乎所有后續(xù) token 都是可見的,這使得它們更容易被訓(xùn)練成注意力池。

基于上述洞察,研究者提出了 StreamingLLM,這是一個簡單而高效的框架,它可以讓使用有限注意力窗口訓(xùn)練的注意力模型在不進(jìn)行微調(diào)的情況下處理無限長的文本。

StreamingLLM 利用了注意力池具有高注意力值這一事實(shí),保留這些注意力池可以使注意力分?jǐn)?shù)分布接近正態(tài)分布。因此,StreamingLLM 只需保留注意力池 token 的 KV 值(只需 4 個初始 token 即可)和滑動窗口的 KV 值,就能錨定注意力計(jì)算并穩(wěn)定模型的性能。

使用 StreamingLLM,包括 Llama-2-[7,13,70] B、MPT-[7,30] B、Falcon-[7,40] B 和 Pythia [2.9,6.9,12] B 在內(nèi)的模型可以可靠地模擬 400 萬個 token,甚至更多。

與唯一可行的 baseline—— 重新計(jì)算滑動窗口相比,StreamingLLM 的速度提高了 22.2 倍,而沒有損耗性能。

測評

在實(shí)驗(yàn)環(huán)節(jié),如圖 3 所示,在跨度為 20K token 的文本上,StreamingLLM 的困惑度可以與 Oracle 基線(重新計(jì)算滑動窗口)相媲美。同時,當(dāng)輸入長度超過預(yù)訓(xùn)練窗口時,密集注意力就會失效,而當(dāng)輸入長度超過緩存大小時,窗口注意力就會陷入困境,導(dǎo)致初始 token 被剔除。

圖片

圖 5 進(jìn)一步證實(shí)了 StreamingLLM 可以可靠地處理非常規(guī)規(guī)模的文本,包括 400 多萬個 token,涵蓋了各種模型系列和規(guī)模。這包括 Llama-2-[7,13,70] B、Falcon-[7,40] B、Pythia-[2.8,6.9,12] B 和 MPT-[7,30] B。

圖片

隨后,研究者證實(shí)了「注意力池」的假設(shè),并證明語言模型可以通過預(yù)訓(xùn)練,在流式部署時只需要一個注意力池 token。具體來說,他們建議在所有訓(xùn)練樣本的開頭多加一個可學(xué)習(xí)的 token,作為指定的注意力池。通過從頭開始預(yù)訓(xùn)練 1.6 億個參數(shù)的語言模型,研究者證明了本文方法可以保持模型的性能。這與當(dāng)前的語言模型形成了鮮明對比,后者需要重新引入多個初始 token 作為注意力池才能達(dá)到相同的性能水平。

最后,研究者將 StreamingLLM 的解碼延遲和內(nèi)存使用率與重新計(jì)算滑動窗口進(jìn)行了比較,并使用 Llama-2-7B 和 Llama-2-13B 模型在單個英偉達(dá) A6000 GPU 上進(jìn)行了測試。如圖 10 所示,隨著緩存大小的增加,StreamingLLM 的解碼速度呈線性增長。后者解碼延遲則呈二次曲線上升。實(shí)驗(yàn)證明,StreamingLLM 實(shí)現(xiàn)了令人印象深刻的提速,每個 token 速度的提升高達(dá) 22.2 倍。

圖片

更多研究細(xì)節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-10-04 19:52:33

模型論文

2024-01-08 12:51:34

AI數(shù)據(jù)

2024-07-23 09:17:34

開發(fā)者框架

2024-11-20 09:36:00

2024-04-07 08:50:00

谷歌框架

2020-11-19 15:23:08

GitHub代碼工具

2023-07-11 10:02:23

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2025-01-15 13:09:12

2023-08-10 14:04:15

代碼模型

2023-10-18 09:25:08

模型推理

2012-12-31 10:01:34

SELinuxSELinux安全

2024-04-29 13:09:10

LLM架構(gòu)性能

2023-11-13 18:19:54

模型訓(xùn)練

2022-09-14 13:13:51

JavaScript上下文

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2023-05-14 14:15:00

GPT-4AI

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2024-09-30 14:10:00

2017-12-17 17:01:23

限界上下文系統(tǒng)模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號