自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個Mamba+Transformer混合架構多模態(tài)大模型來了,實現單卡千圖推理

人工智能 新聞
LongLLaVA(長上下文大型語言和視覺助手)這一創(chuàng)新性混合架構模型,在長上下文多模態(tài)理解方面表現出色。

本文作者來自于香港中文大學深圳和深圳大數據研究院。其中第一作者為香港中文大學深圳博士生王熙棟和研究助理宋定杰,主要研究方向分別為醫(yī)療AGI和多模態(tài)學習;博士生陳舒年研究方向為多模態(tài)學習,博士生張辰研究方向為高效語言模型。通訊作者為香港中文大學深圳數據科學學院王本友教授。

擴展多模態(tài)大語言模型(MLLMs)的長上下文能力對于視頻理解、高分辨率圖像理解以及多模態(tài)智能體至關重要。這涉及一系列系統性的優(yōu)化,包括模型架構、數據構建和訓練策略,尤其要解決諸如隨著圖像增多性能下降以及高計算成本等挑戰(zhàn)。

該團隊將模型架構調整為 Mamba 和 Transformer 塊的混合體,在數據構建中考慮多個圖像之間的時間和空間依賴性,并采用漸進式訓練策略。提出了首個混合架構多模態(tài)大語言模型 LongLLaVA,在效率和性能之間實現了更好的平衡。

圖片

LongLLaVA 不僅在各種基準測試中取得了有競爭力的結果,還保持了高吞吐量和低顯存消耗,其可以在單個 A100 80GB GPU 上處理近千張圖像,展現出了廣闊的應用前景。

圖片

  • 論文地址:https://arxiv.org/abs/2409.02889
  • 項目地址:https://github.com/FreedomIntelligence/LongLLaVA

1. 簡介

多模態(tài)大語言模型(MLLMs)的快速進步展示了它們在各個應用領域中的顯著能力。然而,多圖像理解場景仍然是一個重要但尚未充分探索的方面。特別是,將 MLLMs 的應用場景擴展到理解更長的視頻、更高分辨率的圖像以及基于更多歷史信息的決策,對于提升用戶體驗和進一步拓展 MLLMs 的應用范圍至關重要。

然而,將 MLLM 的上下文長度擴展以提高其可用性,面臨著處理更多圖像時性能下降和計算成本高昂的挑戰(zhàn)。一些研究專注于構造包含多個圖像的長上下文訓練數據,以增強性能。其他研究探索了創(chuàng)新性的訓練策略,以減輕性能下降。關于高計算成本的問題,LongVILA 通過降低通信成本在提高多節(jié)點效率方面取得了進展。然而,在管理更長的上下文時,加速計算這個問題本身仍有待解決。

為了解決上述挑戰(zhàn),該研究提出了 LongLLaVA 系統解決方案,采用混合架構進行加速。該解決方案在三個維度上進行了全面優(yōu)化:多模態(tài)架構、數據構建和訓練策略。

  • 對于多模態(tài)架構,采用結合 Transformer 和 Mamba 的混合架構,并提出了一種高效圖像表示方法,該方法對圖像 Token 應用 2D 池化以降低計算成本同時保持性能。
  • 對于數據構建,為不同的任務設計了獨特的格式,使模型能夠區(qū)分圖像之間的時間和空間的依賴關系。
  • 訓練策略方面,采用了一種三階段的多模態(tài)自適應方法 —— 單圖像對齊、單圖像指令調整和多圖像指令調整 —— 以逐步提升模型處理多模態(tài)長上下文的能力。

實驗結果表明,LongLLaVA 在高效理解多模態(tài)長上下文方面表現卓越。它在VNBench的檢索、計數和排序任務中領先,并在單張 80GB GPU 上對 1000 張圖像進行大海撈針評估時達到了近 100% 的準確率。從保證研究可復現和促進社區(qū)發(fā)展出發(fā),團隊將開源所有與 LongLLaVA 相關的模型、代碼和數據集。

2. LongLLaVA: 將 LLaVA 擴展到更長的上下文

為了解決上述挑戰(zhàn)并提高模型對長文本和多圖像場景的適應性,團隊從三個角度進行了改進:多模態(tài)模型架構,數據構造和訓練策略。

圖片

2.1 多模態(tài)架構

LongLLaVA 基于 LLaVA 的三個核心組件:視覺編碼器、 映射器 和大語言模型。

視覺信息處理。團隊使用 CLIP 作為視覺編碼器來編碼視覺信息,并采用兩層 MLP 作為映射器,將視覺特征映射到適合 LLM 的文本嵌入空間。在映射之前,應用2D池化,有效地節(jié)省了訓練和推理時間,同時保持了圖像塊之間的基本空間關系。

混合 LLM 架構。LongLLaVA 采用了一種混合 LLM 架構,將 Transformer 和 Mamba 層以 1:7 的比例集成,如圖 2 所示。在每一層中還采用了混合專家(MoE)方法,使用 16 個專家,并為每個 Token 選擇前兩個專家。在層之間使用 RMSNorm 來增強歸一化,但省略了位置嵌入。該模型集成了分組 Query 注意力(GQA)和 SwiGLU 激活函數,與其他大型語言模型相似。模型的總體參數數量為 530 億,推理過程中的激活參數總數為 130 億。

圖片

2.2 數據處理協議

為確保模型在多圖像場景中有效地區(qū)分圖像之間的時序和空間依賴關系,并在各種任務中表現良好,團隊細致地區(qū)分了不同場景下的特殊字符。如圖 3 所示,這些特殊字符全面處理了不同情境下圖像之間的各種關系,從而增強了模型對不同任務的適應性。

  • 常規(guī)單圖和多圖輸入:使用 <img></img> 幫助模型區(qū)分圖像和文本 Token 。
  • 視頻:在不同的幀之間添加 <t>,以表示它們之間的時間依賴性。
  • 高分辨率圖像:使用換行符 "\n" 來區(qū)分主圖像與其子圖像。 對于子圖像的排列,通過從左上角遍歷到右下角的方式進行分割,在分割行之間添加"\n"以保留子圖像的相對空間位置。

2.3 訓練策略

團隊逐步實現單模態(tài)和多模態(tài)的適配,將預訓練語言模型轉變?yōu)槎嗄B(tài)長上下文模型。

純文本指令微調。首先提升預訓練語言模型在純文本場景中遵循不同長度指令的能力。這是通過使用包含來自 Evol-instruct-GPT4、WildChat 和 LongAlign 的 278k 條純文本條目的數據集實現的。

圖片

在多模態(tài)自適應方面,在 LLaVA 中 “單圖像對齊” 和 “單圖像指令微調” 階段之后,團隊引入了 “多圖像指令微調” 階段,逐步增強模型的多模態(tài)長上下文能力。采用漸進式訓練不僅是為了更好地控制變量,也是為了增加模型的可重用性。具體的數據集使用情況如圖 4 所示。

第一階段:單圖像對齊。這一階段是為了將視覺模態(tài)特征與文本模態(tài)進行對齊。團隊使用了 ALLaVA-Caption 和 ShareGPT4V 等數據集,這些數據集包含大約 600K 個高質量的圖像 - 字幕對。在此階段,僅訓練映射器,同時凍結視覺編碼器和 LLM 的參數。

第二階段:單圖像指令微調。這個階段的目的是賦予模型多模態(tài)指令遵循能力。團隊使用了 LLaVA-1.5 和 Manti-Single 等數據集,總共有約 932K 個高質量的問答對。在此過程中,只凍結了視覺編碼器,而映射器和 LLM 部分進行訓練。

第三階段:多圖像指令微調。在這一階段,模型被訓練以在多模態(tài)長文本場景中遵循指令。團隊分別從 Mantis、VideoChat2 和 ShareGPT4Video 中采樣 200K、200K 和 50K 數據項。為了保留模型的單圖像理解和純文本對話能力,團隊將來自單圖像指令微調和純文本指令微調階段的額外 200K 和 50K 數據項作為 Replay 部分。此外,為了提高模型解釋復雜單圖像(分割成多個子圖像)的能力,團隊從單圖像指令微調階段采樣 50K 條數據,進行填充和分割,將原始圖像分割成尺寸為 336x336 的子圖像作為 SubImage 部分。

3. 評估結果

3.1 主要結果

如表 2 所示,LongLLaVA 在 MileBench 上表現出色,甚至超過了閉源模型Claude-3-Opus,尤其在檢索任務方面表現出色。突顯其在處理多圖像任務方面的強大能力。

圖片

LongLLaVA 在涉及中等至長視頻的任務中表現出色,超越了傳統的視頻模型,如 Video-LLaMA2 和 VideoChat2。在取得了這些令人印象深刻結果的同時,LongLLaVA 的 FLOPs 比其他模型少一個數量級

3.2 長上下文大型語言模型的診斷評估

考慮到以前的評估不能充分捕捉 MLLM 在長語境下的能力,團隊采用了一個新的診斷評估集 VNBench,以進一步分析模型在長語境下的原子能力。VNBench 是一個基于合成視頻生成的長上下文診斷任務框架,包括檢索、排序和計數等任務。

圖片

結果顯示如表 3 所示,LongLLaVA 在跨語境檢索、排序和技術能力等任務中的表現與領先的閉源模型相當,甚至在某些方面超過了 GPT-4V。在開源模型中,LongLLaVA 也展現出其卓越的性能。展示了 LongLLaVA 在管理和理解長上下文方面的先進能力。

3.3 消融實驗

圖片

表 4 中顯示,使用具有相同數據的混合 LLM 架構,在評估集中都觀察到了顯著的改進,證明了其在多模態(tài)場景中的潛力。對于 Token 壓縮,選擇了 2D 池化,這顯著減少了計算負載,同時將性能下降控制在可接受范圍內。與 1D 池化相比,2D 池化方法得到更好的結果。在數據構建方面,在訓練團隊的單圖像數據后,模型在 SEEDBench 上的準確率提高了 1.5%,在 MileBench 上提高了 12.3%。隨后的多圖像訓練使得 MileBench 上的準確率進一步提高了 7.4%,驗證了數據集構建的有效性。

4. 更多分析

為了解 LongLLaVA 的內部工作原理和跨模態(tài)長文本處理能力,該團隊進行了進一步分析。

4.1 關于混合架構的動機

圖片

團隊探討了不同架構在 ICL 能力和推理效率方面的優(yōu)缺點,強調了混合架構的平衡優(yōu)勢。

ICL 分析。團隊評估了在 VL-ICL 基準測試中對多模態(tài)情境學習中匹配圖像任務的性能。該任務的輸入包含一個圖像對,輸出表示是否存在特定的關系。MLLM 需要從示例中學習關系。如表 5 所示,混合架構和 Transformer 架構隨著示例數量的增加表現出快速的性能提升,而 Mamba 架構的提升較少,證實了其在情境學習方面的不足。

效率分析。團隊關注三個方面:預填充時間(首次推理延遲)、吞吐量(每秒生成的下一個 Token 數)和內存使用。團隊將輸入文本長度控制在 100K,并測量生成 1 個 Token 和 1000 個 Token 的輸出所需的時間和最大內存使用。吞吐量計算為圖片。為了更好地模擬實際應用場景,使用 vLLM 框架和 Int8 量化評估了 Transformer 和混合架構。如表 5 所示,Mamba 架構具有最快的預填充時間,最高的吞吐量。與具有相似推理參數的 Transformer 架構相比,混合架構實現了 2.5 倍的吞吐量,75% 的預填充時間,并減少了內存使用。

4.2 圖像數量的縮放定律

隨著可處理圖像數量的增加,模型能夠支持更多圖像塊以進行高分辨率圖像理解,以及使用更多視頻幀進行視頻理解。為了探索增加子圖像和視頻幀數量的影響,團隊分別在 V* Bench 和 Video-MME 基準測試上評估了 LongLLaVA。

增加子圖像數量。V* Bench 評估了一個模型在大型圖像中定位小目標的能力。如圖 5 所示,最初增加子圖像的數量顯著提高了模型性能,表明模型對圖像細節(jié)的理解更好。然而,團隊也發(fā)現,進一步增加子圖像的數量略微降低了性能,這表明過多的子圖像可能會干擾在此任務上的性能。

圖片

增加幀數規(guī)模。視頻多模態(tài)編碼器是一個測試模型從視頻中提取信息能力的基準。從圖 6 中可以看到,隨著采樣幀數的增加,模型在基準測試中的性能顯著提高,當提取 256 幀時達到峰值。這表明模型能夠有效地理解和利用額外采樣幀中包含的信息,以提供更好的響應。

圖片

5. 進一步將圖像數量擴大到 1000

利用 LongVA 中提出的 V-NIAH 評估框架,團隊進行了 “大海撈針” 測試來評估模型性能??紤]到模型的訓練序列長度限制為 40,960 個 token,采用 token 池化技術將原始 token 數量從 144 個減少到 36 個。這種調整能夠高效地從大量數據集中檢索相關信息。如圖 7 所示,模型在 1000 張圖像集上實現了近 100% 的檢索準確率,而無需額外的訓練。

圖片

然而,當增加測試圖像數量超過 1,000 張時,團隊觀察到檢索準確率下降。這種性能下降可能是因為超出了模型的訓練序列長度,這可能會影響其保持更多圖像準確性的能力。在未來的工作中團隊將延長訓練序列長度至 140,000 Token,即 LongLLaVA 進行單卡推理的極限長度,以進一步釋放模型潛力。

6. 結論

LongLLaVA(長上下文大型語言和視覺助手)這一創(chuàng)新性混合架構模型,在長上下文多模態(tài)理解方面表現出色。該模型集成了 Mamba 和 Transformer 模塊,利用多個圖像之間的時空依賴性構建數據,并采用漸進式訓練策略。

LongLLaVA 在各種基準測試中表現出競爭性的性能,同時確保了效率,為長上下文多模態(tài)大型語言模型(MLLMs)設定了新的標準。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-10 08:47:00

模型AI訓練

2025-03-11 09:42:00

2024-08-13 12:49:29

2023-03-13 15:56:00

模型框架

2025-01-08 08:21:16

2023-06-06 14:09:32

模型開源

2024-03-25 12:40:19

訓練模型

2024-05-13 10:38:08

2023-09-29 22:31:25

高斯混合模型機器學習

2025-03-24 13:04:12

2023-12-28 17:31:44

PixelLM性能模型

2022-01-21 15:33:56

架構模型AI

2024-09-10 13:30:00

2025-02-28 10:15:00

3D模型編碼器

2025-04-21 09:07:00

2024-07-15 08:20:00

2024-07-08 13:04:01

2024-08-13 13:30:00

點贊
收藏

51CTO技術棧公眾號