首個Mamba+Transformer混合架構多模態(tài)大模型來了，實現單卡千圖推理

作者：機器之心 2024-09-23 08:20:00

LongLLaVA（長上下文大型語言和視覺助手）這一創(chuàng)新性混合架構模型，在長上下文多模態(tài)理解方面表現出色。

本文作者來自于香港中文大學深圳和深圳大數據研究院。其中第一作者為香港中文大學深圳博士生王熙棟和研究助理宋定杰，主要研究方向分別為醫(yī)療AGI和多模態(tài)學習；博士生陳舒年研究方向為多模態(tài)學習，博士生張辰研究方向為高效語言模型。通訊作者為香港中文大學深圳數據科學學院王本友教授。

擴展多模態(tài)大語言模型（MLLMs）的長上下文能力對于視頻理解、高分辨率圖像理解以及多模態(tài)智能體至關重要。這涉及一系列系統性的優(yōu)化，包括模型架構、數據構建和訓練策略，尤其要解決諸如隨著圖像增多性能下降以及高計算成本等挑戰(zhàn)。

該團隊將模型架構調整為 Mamba 和 Transformer 塊的混合體，在數據構建中考慮多個圖像之間的時間和空間依賴性，并采用漸進式訓練策略。提出了首個混合架構多模態(tài)大語言模型 LongLLaVA，在效率和性能之間實現了更好的平衡。

LongLLaVA 不僅在各種基準測試中取得了有競爭力的結果，還保持了高吞吐量和低顯存消耗，其可以在單個 A100 80GB GPU 上處理近千張圖像，展現出了廣闊的應用前景。

論文地址：https://arxiv.org/abs/2409.02889
項目地址：https://github.com/FreedomIntelligence/LongLLaVA

1. 簡介

多模態(tài)大語言模型（MLLMs）的快速進步展示了它們在各個應用領域中的顯著能力。然而，多圖像理解場景仍然是一個重要但尚未充分探索的方面。特別是，將 MLLMs 的應用場景擴展到理解更長的視頻、更高分辨率的圖像以及基于更多歷史信息的決策，對于提升用戶體驗和進一步拓展 MLLMs 的應用范圍至關重要。

然而，將 MLLM 的上下文長度擴展以提高其可用性，面臨著處理更多圖像時性能下降和計算成本高昂的挑戰(zhàn)。一些研究專注于構造包含多個圖像的長上下文訓練數據，以增強性能。其他研究探索了創(chuàng)新性的訓練策略，以減輕性能下降。關于高計算成本的問題，LongVILA 通過降低通信成本在提高多節(jié)點效率方面取得了進展。然而，在管理更長的上下文時，加速計算這個問題本身仍有待解決。

為了解決上述挑戰(zhàn)，該研究提出了 LongLLaVA 系統解決方案，采用混合架構進行加速。該解決方案在三個維度上進行了全面優(yōu)化：多模態(tài)架構、數據構建和訓練策略。

對于多模態(tài)架構，采用結合 Transformer 和 Mamba 的混合架構，并提出了一種高效圖像表示方法，該方法對圖像 Token 應用 2D 池化以降低計算成本同時保持性能。
對于數據構建，為不同的任務設計了獨特的格式，使模型能夠區(qū)分圖像之間的時間和空間的依賴關系。
在訓練策略方面，采用了一種三階段的多模態(tài)自適應方法 —— 單圖像對齊、單圖像指令調整和多圖像指令調整 —— 以逐步提升模型處理多模態(tài)長上下文的能力。

實驗結果表明，LongLLaVA 在高效理解多模態(tài)長上下文方面表現卓越。它在VNBench的檢索、計數和排序任務中領先，并在單張 80GB GPU 上對 1000 張圖像進行大海撈針評估時達到了近 100% 的準確率。從保證研究可復現和促進社區(qū)發(fā)展出發(fā)，團隊將開源所有與 LongLLaVA 相關的模型、代碼和數據集。

2. LongLLaVA: 將 LLaVA 擴展到更長的上下文

為了解決上述挑戰(zhàn)并提高模型對長文本和多圖像場景的適應性，團隊從三個角度進行了改進：多模態(tài)模型架構，數據構造和訓練策略。

2.1 多模態(tài)架構

LongLLaVA 基于 LLaVA 的三個核心組件：視覺編碼器、映射器和大語言模型。

視覺信息處理。團隊使用 CLIP 作為視覺編碼器來編碼視覺信息，并采用兩層 MLP 作為映射器，將視覺特征映射到適合 LLM 的文本嵌入空間。在映射之前，應用2D池化，有效地節(jié)省了訓練和推理時間，同時保持了圖像塊之間的基本空間關系。

混合 LLM 架構。LongLLaVA 采用了一種混合 LLM 架構，將 Transformer 和 Mamba 層以 1:7 的比例集成，如圖 2 所示。在每一層中還采用了混合專家（MoE）方法，使用 16 個專家，并為每個 Token 選擇前兩個專家。在層之間使用 RMSNorm 來增強歸一化，但省略了位置嵌入。該模型集成了分組 Query 注意力（GQA）和 SwiGLU 激活函數，與其他大型語言模型相似。模型的總體參數數量為 530 億，推理過程中的激活參數總數為 130 億。

2.2 數據處理協議

為確保模型在多圖像場景中有效地區(qū)分圖像之間的時序和空間依賴關系，并在各種任務中表現良好，團隊細致地區(qū)分了不同場景下的特殊字符。如圖 3 所示，這些特殊字符全面處理了不同情境下圖像之間的各種關系，從而增強了模型對不同任務的適應性。

常規(guī)單圖和多圖輸入：使用 <img></img> 幫助模型區(qū)分圖像和文本 Token 。
視頻：在不同的幀之間添加 <t>，以表示它們之間的時間依賴性。
高分辨率圖像：使用換行符 "\n" 來區(qū)分主圖像與其子圖像。對于子圖像的排列，通過從左上角遍歷到右下角的方式進行分割，在分割行之間添加"\n"以保留子圖像的相對空間位置。

2.3 訓練策略

團隊逐步實現單模態(tài)和多模態(tài)的適配，將預訓練語言模型轉變?yōu)槎嗄B(tài)長上下文模型。

純文本指令微調。首先提升預訓練語言模型在純文本場景中遵循不同長度指令的能力。這是通過使用包含來自 Evol-instruct-GPT4、WildChat 和 LongAlign 的 278k 條純文本條目的數據集實現的。

在多模態(tài)自適應方面，在 LLaVA 中 “單圖像對齊” 和 “單圖像指令微調” 階段之后，團隊引入了 “多圖像指令微調” 階段，逐步增強模型的多模態(tài)長上下文能力。采用漸進式訓練不僅是為了更好地控制變量，也是為了增加模型的可重用性。具體的數據集使用情況如圖 4 所示。

第一階段：單圖像對齊。這一階段是為了將視覺模態(tài)特征與文本模態(tài)進行對齊。團隊使用了 ALLaVA-Caption 和 ShareGPT4V 等數據集，這些數據集包含大約 600K 個高質量的圖像 - 字幕對。在此階段，僅訓練映射器，同時凍結視覺編碼器和 LLM 的參數。

第二階段：單圖像指令微調。這個階段的目的是賦予模型多模態(tài)指令遵循能力。團隊使用了 LLaVA-1.5 和 Manti-Single 等數據集，總共有約 932K 個高質量的問答對。在此過程中，只凍結了視覺編碼器，而映射器和 LLM 部分進行訓練。

第三階段：多圖像指令微調。在這一階段，模型被訓練以在多模態(tài)長文本場景中遵循指令。團隊分別從 Mantis、VideoChat2 和 ShareGPT4Video 中采樣 200K、200K 和 50K 數據項。為了保留模型的單圖像理解和純文本對話能力，團隊將來自單圖像指令微調和純文本指令微調階段的額外 200K 和 50K 數據項作為 Replay 部分。此外，為了提高模型解釋復雜單圖像（分割成多個子圖像）的能力，團隊從單圖像指令微調階段采樣 50K 條數據，進行填充和分割，將原始圖像分割成尺寸為 336x336 的子圖像作為 SubImage 部分。

3. 評估結果

3.1 主要結果

如表 2 所示，LongLLaVA 在 MileBench 上表現出色，甚至超過了閉源模型Claude-3-Opus，尤其在檢索任務方面表現出色。突顯其在處理多圖像任務方面的強大能力。

LongLLaVA 在涉及中等至長視頻的任務中表現出色，超越了傳統的視頻模型，如 Video-LLaMA2 和 VideoChat2。在取得了這些令人印象深刻結果的同時，LongLLaVA 的 FLOPs 比其他模型少一個數量級。

3.2 長上下文大型語言模型的診斷評估

考慮到以前的評估不能充分捕捉 MLLM 在長語境下的能力，團隊采用了一個新的診斷評估集 VNBench，以進一步分析模型在長語境下的原子能力。VNBench 是一個基于合成視頻生成的長上下文診斷任務框架，包括檢索、排序和計數等任務。

結果顯示如表 3 所示，LongLLaVA 在跨語境檢索、排序和技術能力等任務中的表現與領先的閉源模型相當，甚至在某些方面超過了 GPT-4V。在開源模型中，LongLLaVA 也展現出其卓越的性能。展示了 LongLLaVA 在管理和理解長上下文方面的先進能力。

3.3 消融實驗

表 4 中顯示，使用具有相同數據的混合 LLM 架構，在評估集中都觀察到了顯著的改進，證明了其在多模態(tài)場景中的潛力。對于 Token 壓縮，選擇了 2D 池化，這顯著減少了計算負載，同時將性能下降控制在可接受范圍內。與 1D 池化相比，2D 池化方法得到更好的結果。在數據構建方面，在訓練團隊的單圖像數據后，模型在 SEEDBench 上的準確率提高了 1.5%，在 MileBench 上提高了 12.3%。隨后的多圖像訓練使得 MileBench 上的準確率進一步提高了 7.4%，驗證了數據集構建的有效性。

4. 更多分析

為了解 LongLLaVA 的內部工作原理和跨模態(tài)長文本處理能力，該團隊進行了進一步分析。

4.1 關于混合架構的動機

團隊探討了不同架構在 ICL 能力和推理效率方面的優(yōu)缺點，強調了混合架構的平衡優(yōu)勢。

ICL 分析。團隊評估了在 VL-ICL 基準測試中對多模態(tài)情境學習中匹配圖像任務的性能。該任務的輸入包含一個圖像對，輸出表示是否存在特定的關系。MLLM 需要從示例中學習關系。如表 5 所示，混合架構和 Transformer 架構隨著示例數量的增加表現出快速的性能提升，而 Mamba 架構的提升較少，證實了其在情境學習方面的不足。

效率分析。團隊關注三個方面：預填充時間（首次推理延遲）、吞吐量（每秒生成的下一個 Token 數）和內存使用。團隊將輸入文本長度控制在 100K，并測量生成 1 個 Token 和 1000 個 Token 的輸出所需的時間和最大內存使用。吞吐量計算為。為了更好地模擬實際應用場景，使用 vLLM 框架和 Int8 量化評估了 Transformer 和混合架構。如表 5 所示，Mamba 架構具有最快的預填充時間，最高的吞吐量。與具有相似推理參數的 Transformer 架構相比，混合架構實現了 2.5 倍的吞吐量，75% 的預填充時間，并減少了內存使用。

4.2 圖像數量的縮放定律

隨著可處理圖像數量的增加，模型能夠支持更多圖像塊以進行高分辨率圖像理解，以及使用更多視頻幀進行視頻理解。為了探索增加子圖像和視頻幀數量的影響，團隊分別在 V* Bench 和 Video-MME 基準測試上評估了 LongLLaVA。

增加子圖像數量。V* Bench 評估了一個模型在大型圖像中定位小目標的能力。如圖 5 所示，最初增加子圖像的數量顯著提高了模型性能，表明模型對圖像細節(jié)的理解更好。然而，團隊也發(fā)現，進一步增加子圖像的數量略微降低了性能，這表明過多的子圖像可能會干擾在此任務上的性能。

增加幀數規(guī)模。視頻多模態(tài)編碼器是一個測試模型從視頻中提取信息能力的基準。從圖 6 中可以看到，隨著采樣幀數的增加，模型在基準測試中的性能顯著提高，當提取 256 幀時達到峰值。這表明模型能夠有效地理解和利用額外采樣幀中包含的信息，以提供更好的響應。

5. 進一步將圖像數量擴大到 1000

利用 LongVA 中提出的 V-NIAH 評估框架，團隊進行了 “大海撈針” 測試來評估模型性能?？紤]到模型的訓練序列長度限制為 40,960 個 token，采用 token 池化技術將原始 token 數量從 144 個減少到 36 個。這種調整能夠高效地從大量數據集中檢索相關信息。如圖 7 所示，模型在 1000 張圖像集上實現了近 100% 的檢索準確率，而無需額外的訓練。

然而，當增加測試圖像數量超過 1,000 張時，團隊觀察到檢索準確率下降。這種性能下降可能是因為超出了模型的訓練序列長度，這可能會影響其保持更多圖像準確性的能力。在未來的工作中團隊將延長訓練序列長度至 140,000 Token，即 LongLLaVA 進行單卡推理的極限長度，以進一步釋放模型潛力。

6. 結論

LongLLaVA（長上下文大型語言和視覺助手）這一創(chuàng)新性混合架構模型，在長上下文多模態(tài)理解方面表現出色。該模型集成了 Mamba 和 Transformer 模塊，利用多個圖像之間的時空依賴性構建數據，并采用漸進式訓練策略。

LongLLaVA 在各種基準測試中表現出競爭性的性能，同時確保了效率，為長上下文多模態(tài)大型語言模型（MLLMs）設定了新的標準。

責任編輯：張燕妮來源：機器之心

模型訓練

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個Mamba+Transformer混合架構多模態(tài)大模型來了，實現單卡千圖推理