僅縮小視覺Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬Token!清華大學,香港大學,上海AI Lab新突破
本文共同一作為葛俊岐 (清華大學本科生),陳子熠 (清華大學本科生),林錦濤 (香港大學博士生),祝金國 (上海 AI Lab 青年研究員)。本文的通訊作者是朱錫洲,他的研究方向是視覺基礎模型和多模態(tài)基礎模型,代表作有 Deformable DETR、DCN v2 等。
隨著語言大模型的成功,視覺 - 語言多模態(tài)大模型 (Vision-Language Multimodal Models, 簡寫為 VLMs) 發(fā)展迅速,但在長上下文場景下表現(xiàn)卻不盡如人意,這一問題嚴重制約了多模態(tài)模型在實際應用中的潛力。
為解決這一問題,清華大學,香港大學和上海 AI Lab 聯(lián)合提出了一種新的用于多模態(tài)大模型的位置編碼方法 ——Variable Vision Position Embedding (V2PE) ,取得多模態(tài)大模型在長上下文場景下的新突破。
- 論文地址:https://arxiv.org/abs/2412.09616
- 項目主頁:https://zzdhybthu.github.io/V2PE.github.io/
- 開源代碼:https://github.com/OpenGVLab/V2PE
位置編碼是多模態(tài)大模型中的關鍵技術,用于讓模型理解輸入序列的相對位置關系。它使得 VLMs 能夠理解詞語在句子中的位置,并識別圖像塊在原圖中的二維位置。然而,現(xiàn)有的多模態(tài)模型通常在圖像 token 上沿用文本模型的位置編碼方式,這并非最優(yōu)方案。
V2PE 提出了一種為視覺 token 分配可變位置增量的新方法,有效解決了傳統(tǒng)位置編碼在處理超長上下文任務時的性能瓶頸問題。通過避免位置編碼超出模型訓練上下文窗口的限制,V2PE 顯著提升了模型在 32K 至 1M 長度超長上下文任務中的表現(xiàn)。相比傳統(tǒng)位置編碼的模型,采用 V2PE 的模型在這些任務中實現(xiàn)了突破性改進,甚至超越了最先進的閉源大模型。
V2PE 工作有以下貢獻:
- 構建了一個用于 VLMs 長上下文訓練和評估的混合數(shù)據集。研究團隊通過這一數(shù)據集發(fā)現(xiàn),直接將 LLM 的位置編碼機制應用于視覺 token 是次優(yōu)選擇。
- 提出了可變視覺位置信息編碼 (V2PE),一種創(chuàng)新的位置編碼策略,通過為視覺 token 分配可變且較小的增量,大幅提升了 VLMs 對長多模態(tài)上下文的理解和推理能力。
- 將 V2PE 方法和擴展訓練數(shù)據應用于開源視覺模型 InternVL2-2B, 微調后的模型在統(tǒng)一多模態(tài)基準測試和長上下文多模態(tài)任務中表現(xiàn)優(yōu)異,成功處理長達 1M token 的序列,展現(xiàn)了卓越的長上下文處理能力。
可變視覺位置編碼
突破視覺 - 語言模型在長上下文場景中的新邊界
在人工智能領域,視覺 - 語言模型 因其在多模態(tài)任務中的出色表現(xiàn)而備受關注。然而,在處理視頻、高分辨率圖像或長篇圖文文檔等長上下文場景時,其泛化能力卻顯著下降,這限制了它們在實際應用中的潛力,并影響了用戶體驗的進一步提升。
V2PE 旨在解決的核心問題在于:為什么 VLMs 在長上下文場景下表現(xiàn)不佳,以及如何提升它們在長序列多模態(tài)理解與推理上的能力?
為了研究 VLMs 為什么在長上下文場景表現(xiàn)不佳,研究團隊通過構建大規(guī)模的長上下文多模態(tài)數(shù)據集,系統(tǒng)地評估和分析 VLMs 的能力,在這一過程中,他們意識到位置編碼策略在 VLMs 的性能中起著至關重要的作用。
傳統(tǒng)的 VLMs 位置編碼通常不區(qū)分文本 token 和圖像 token,并在訓練中使用固定的編碼規(guī)則。然而,文本 token 屬于一維數(shù)據,位置編碼僅需傳達先后順序;圖像 token 則為二維數(shù)據,位置編碼需傳遞圖像塊的空間位置信息,還要考慮多分辨率下縮略圖與子圖像塊的對應關系。此外,當模型處理超出訓練上下文窗口的長序列時,固定位置編碼會超出模型已知范圍,導致推理能力受限。
因此,作者提出了 Variable Visual Position Encoding (V2PE),這是一種新穎的位置編碼方法,專門針對視覺 - 語言模型(VLMs)中的長上下文場景。V2PE 通過為視覺 token 分配更小的、可變的位置增量,有效地管理長多模態(tài)序列。
增強的長上下文多模態(tài)數(shù)據集
作者引入了兩個增強的長上下文多模態(tài)數(shù)據集:Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。旨在提升 VLMs 的長上下文能力并建立評估框架。
- Long-VQA 數(shù)據集擴展了 17 個被廣泛采用的數(shù)據集,將內容從短序列擴展到包含高達 32K token 的序列。任務涵蓋常識推理、事實知識和解釋文本和視覺信息。
- Long-MR 數(shù)據集受多模態(tài)大海撈針 benchamrk -- MM-NIAH 的啟發(fā),通過在交錯的文本圖像中檢測目標圖像或段落,評估 VLMs 處理超長上下文的能力。
可變視覺位置編碼
位置編碼在視覺 - 語言模型中的作用
位置編碼是 Transformer 架構中的基本組成部分,它通過為 token 提供位置信息來捕獲序列關系。位置編碼通常涉及兩個步驟:位置索引推導和位置嵌入計算
。
- 位置索引推導:為每個 token
分配位置索引
。
- 位置嵌入計算:將這些索引轉換為影響注意力機制的位置嵌入。
可變位置索引推導
作者提出了一種針對模態(tài)特定的遞歸函數(shù),為文本和視覺 token 分配不同的位置索引:
其中是一個小于 1 的增量,用于減少視覺 token 的位置索引增加速率。在訓練過程中,
可以從一組分數(shù)值中動態(tài)選擇,以適應不同的輸入長度和復雜性。
這種方法與傳統(tǒng)的長上下文方法相比具有幾個優(yōu)勢:
1. V2PE 保留了 VLMs 中的所有視覺 token,保留了視覺內容的豐富性和細節(jié)。
2. V2PE 允許 VLMs 通過在訓練期間動態(tài)選擇來適應任意間隔的位置索引,避免了位置編碼外推引起的不準確。
長上下文能力顯著提升
經過一系列的實驗和分析,研究團隊取得了顯著的成果。通過引入 Variable Visual Position Encoding (V2PE) 和增強的長上下文多模態(tài)數(shù)據集,研究團隊得到了以下幾個重要的發(fā)現(xiàn):
對模型上下文能力的影響
在上下文長度 32k 以內的數(shù)據上訓練模型,在 64k 以內,多種長度的基準測試上進行測試。實驗的結果表明,在測試長度超出訓練的上下文長度時,模型效果會顯著下降,但選用更小的增量可以有效緩解這一現(xiàn)象。
- 在 1M 上下文長度下的表現(xiàn)提升
作者分別在 32k 和 256k 的訓練數(shù)據上微調模型,并在長達 1M 的多種上下文長度上進行測試。實驗結果表明,V2PE 在長上下文場景下的表現(xiàn)明顯優(yōu)于不加 V2PE 的模型,也優(yōu)于使用插值方法的模型,甚至能超越先進的閉源大模型。
此外,作者將訓練好的 V2PE 模型與其他視覺 - 語言模型在多種基準測試進行了對比,結果表明,V2PE 在長上下文多模態(tài)任務上的表現(xiàn)優(yōu)于其他模型,證明了 V2PE 的有效性。
消融實驗中,作者將 V2PE 方法與 token 壓縮的方法以及在訓練時固定視覺 token 的位置編碼增量的方法進行了對比,證明了 V2PE 的優(yōu)勢。
在對注意力圖的分析中,作者關注注意力圖的尾部,即對應序列末端的問題部分的注意力圖。作者發(fā)現(xiàn),隨著的減小,模型能更好地把注意力集中在問題對應的答案附近,證明了 V2PE 能夠有效地提升模型將注意力對齊到輸入序列中的關鍵部分的能力。
V2PE 的提出,為視覺 - 語言模型在長上下文場景下的表現(xiàn)提供了新的思路。通過為視覺 token 分配可變的位置增量,V2PE 有效地解決了位置編碼超出模型訓練上下文窗口的問題,提升了模型在長上下文場景下的表現(xiàn)。
作者相信,V2PE 的提出將為視覺 - 語言模型的發(fā)展帶來新的機遇,為模型在長上下文多模態(tài)任務中的應用提供更多可能性。