數(shù)據(jù)高效和計算高效全都要!中科大&微信等提出多模態(tài)大語言模型EE-MLLM
論文鏈接:https://arxiv.org/pdf/2408.11795
亮點直擊
- 本文重新審視了多模態(tài)大型語言模型中的模態(tài)對齊問題,指出了基于自注意力和交叉注意力方法的效率和效果問題。
- 本文為EE-MLLM提出了一種復(fù)合注意力機制,以提高數(shù)據(jù)和計算效率。
- 本文的EE-MLLM在各種基準(zhǔn)測試中表現(xiàn)出色,同時推理速度得到了很大提升。
在多模態(tài)研究領(lǐng)域,許多研究利用大量圖文對進行模態(tài)對齊學(xué)習(xí),將大型語言模型(LLMs)轉(zhuǎn)變?yōu)槎嗄B(tài)LLMs,并在各種視覺語言任務(wù)中表現(xiàn)出色?,F(xiàn)有的方法主要分為兩類:基于自注意力的方法和基于交叉注意力的方法。雖然基于自注意力的方法由于其簡單的MLP架構(gòu)具有較高的數(shù)據(jù)效率,但由于將視覺和文本token連接為LLM的輸入,通常在計算效率上較低。相反,基于交叉注意力的方法雖然由于額外的可學(xué)習(xí)參數(shù)而數(shù)據(jù)效率較低,但通過避免LLM的長序列輸入表現(xiàn)出較高的計算效率。為解決這些權(quán)衡,本文引入了數(shù)據(jù)高效和計算高效的多模態(tài)大型語言模型(EE-MLLM)。在不引入額外模塊或可學(xué)習(xí)參數(shù)的情況下,EE-MLLM實現(xiàn)了數(shù)據(jù)和計算效率。具體來說,本文將MLLM中的原始自注意力機制修改為復(fù)合注意力機制。該機制有兩個關(guān)鍵特征:1)消除視覺token內(nèi)部自注意力的計算開銷以實現(xiàn)計算效率,2)重用LLM每一層的權(quán)重以促進視覺和語言之間的有效模態(tài)對齊,實現(xiàn)數(shù)據(jù)效率。實驗結(jié)果表明,EE-MLLM在一系列基準(zhǔn)測試中表現(xiàn)出色,包括諸如MMBench和SeedBench等通用數(shù)據(jù)集,以及如TextVQA和DocVQA等細(xì)粒度任務(wù)。
方法
模型結(jié)構(gòu)
EE-MLLM 包括一個視覺編碼器、一個作為投影器的兩層 MLP,以及帶有復(fù)合解碼層的大型語言模型(LLM)。本文提出了一種復(fù)合注意力機制,并為 EE-MLLM 設(shè)計了一個復(fù)合解碼層,以實現(xiàn)數(shù)據(jù)效率和計算效率。復(fù)合解碼層由一個對齊器和一個復(fù)合注意力模塊組成。
復(fù)合注意力模塊。 原始的自注意力機制包括視覺token之間的自注意力、文本token之間的自注意力,以及文本token和視覺token之間的交叉注意力。本文觀察到視覺token之間的自注意力是多余的,原因有兩個:
- 視覺token之間的交互已經(jīng)在視覺編碼器中得到了良好的學(xué)習(xí);
- 大型語言模型(LLM)可以通過信息聚合特性實現(xiàn)視覺token之間的隱式交互。
這可以被視為一個沒有注意力機制的解碼器塊。
計算開銷分析
實驗
實驗細(xì)節(jié)
模型配置。 本文采用 Vicuna-7b-v1.5作為本文的 LLM,并使用 SigLIP作為視覺編碼器。具體來說,SigLIP 從 Idefics2 初始化,該模型支持動態(tài)分辨率,最大可達(dá)980X980 。投影器由一個兩層的 MLP 組成,與 LLaVA 相同。
評估基準(zhǔn)
本文使用VLMEvalKit 進行評估,其他最新模型的結(jié)果也來自同一來源。
通用基準(zhǔn)
- MMBench-EN 是一個綜合的多模態(tài)基準(zhǔn),專門設(shè)計用于評估多模態(tài)語言模型(MLLMs)的性能。它包含超過3,000個多項選擇題,涵蓋20個能力類別。本文在MMBench-ENV1.1上評估了EE-MLLM。
- MME 評估高級MLLMs的感知和認(rèn)知能力,總共包括14個子任務(wù)。為了盡量減少提示工程對MLLMs的影響,MME的指令設(shè)計為引導(dǎo)簡單的二元回答,例如“請回答是或否”。本文報告了MME的感知部分的結(jié)果。
- ScienceQA 來源于小學(xué)和高中的科學(xué)課程。ScienceQA中的問題涵蓋三門學(xué)科:自然科學(xué)、語言科學(xué)和社會科學(xué)。
- HallusionBench 旨在評估圖像-上下文推理,包含346張圖像和1,129個由人類專家制作的問題。HallusionBench考慮了語言幻覺和視覺錯覺,涉及多種主題。
- MMMU (Yue et al. 2023) 收集了來自大學(xué)考試、測驗和教科書的11,500個多模態(tài)問題,涵蓋六個核心學(xué)科,跨越30個主題和183個子領(lǐng)域,包括30種異構(gòu)圖像類型。
- CCBench 由MMBench團隊開發(fā),專門用于評估MLLMs在中國文化領(lǐng)域的表現(xiàn)。
- SeedBench 包含19,000個多項選擇題,涵蓋12個評估維度,包括圖像和視頻。本文僅使用帶有圖像的問題進行評估。
- BLINK 包含14個視覺感知任務(wù),對當(dāng)前的多模態(tài)LLMs構(gòu)成重大挑戰(zhàn)。
細(xì)粒度基準(zhǔn)
- AI2D 強調(diào)圖解的解釋和推理,包含5,000個圖解和15,000個問答。
- OCRBench 旨在促進對MLLM OCR能力的評估,包括29個數(shù)據(jù)集。
- TextVQA 包含45,336個問題和28,408張需要通過文本推理回答的圖像。本文使用包含5,000張圖像的驗證集進行評估。
- ChartQA 是一個大規(guī)?;鶞?zhǔn),包含20,882個圖表,問題集中于邏輯和視覺推理。
- DocVQA 專注于文檔圖像理解,包含50,000個問題和超過12,000張圖像。本文使用包含5,349個問題和1,286張圖像的驗證集進行評估。
- Seed2 Plus 專門為MLLMs的文本豐富視覺理解評估設(shè)計,包括2,300個多項選擇題,涵蓋圖表、地圖和網(wǎng)頁。
與最先進模型的比較
通用基準(zhǔn)測試。 在下表2中,本文將EE-MLLM與各種最先進的MLLM 在八個通用基準(zhǔn)上進行了比較。這些基準(zhǔn)測試評估了MLLM的綜合能力,包括理解和感知,以及幻覺的嚴(yán)重程度。這些因素共同反映了MLLM在現(xiàn)實場景中的泛化能力和適用性。EE-MLLM在通用基準(zhǔn)測試中與最先進的MLLM表現(xiàn)相當(dāng)。具體來說,EE-MLLM在MMBench中獲得了70.4的得分,在MME中獲得了1528.1的得分,這些分?jǐn)?shù)明顯高于同樣支持高分辨率圖像輸入的LLaVA-v1.6。這表明EE-MLLM具備綜合的感知和推理能力。此外,EE-MLLM在CCBench和SeedBench上也取得了可喜的成績。
細(xì)粒度基準(zhǔn)測試。 在下表3中,本文在七個細(xì)粒度基準(zhǔn)上進行了評估。這些基準(zhǔn)測試要求MLLM具備出色的視覺感知能力,因為它們需要探索圖像中的細(xì)粒度信息來回答問題。在傳統(tǒng)的VQA基準(zhǔn)測試中,例如TextVQA、ChartQA和DocVQA,EE-MLLM表現(xiàn)非常出色,相較于同樣支持高分辨率的LLaVA-v1.6,在TextVQA上高出4.6分,在ChartQA上高出13.0分。在專門設(shè)計用于評估MLLM OCR能力的OCRBench中,EE-MLLM比LLaVA-v1.6高出4.2分。這些結(jié)果表明,盡管EE-MLLM顯著減少了與視覺token相關(guān)的計算開銷,但它仍然有效地保持了模型的細(xì)粒度能力。
推理速度比較
盡管EE-MLLM在FLOPs方面表現(xiàn)出了顯著的減少,但在實際場景中,通常會在部署時采用KVCache和Batch Inference等先進技術(shù)。因此,有必要在這些技術(shù)下進行推理速度的比較。本文在單個NVIDIA H800上進行了推理速度的比較。輸入圖像的分辨率設(shè)置為980X980,生成的tokens數(shù)量從2到256不等。本文在下圖4中展示了EE-MLLM與LLaVA的速度比。本文的研究發(fā)現(xiàn),當(dāng)生成8個tokens時,EE-MLLM的推理速度是LLaVA的三倍。然而,隨著生成tokens數(shù)量的增加,速度比下降。當(dāng)生成64個tokens時,EE-MLLM的推理速度是LLaVA的1.6倍。出現(xiàn)這種現(xiàn)象的原因在于本文的EE-MLLM主要在預(yù)填充階段減少了計算成本,該階段計算視覺tokens的KV緩存。第一個token的生成比基于自注意力的方法(如LLaVA)更快。然而,推理速度的優(yōu)勢在第一個token之后減小。具體來說,對于兩個輸入圖像,EE-MLLM的推理速度幾乎是LLaVA的四倍。這清楚地表明,EE-MLLM在多圖像輸入場景中(包括交錯的圖像-文本對話和多模態(tài)上下文學(xué)習(xí))顯著更高效。
EE-MLLM 的 GPU 內(nèi)存開銷
本文評估了EE-MLLM在預(yù)訓(xùn)練和微調(diào)階段的GPU內(nèi)存開銷。同樣,本文在分辨率為336X336時,將EE-MLLM與LLaVA進行了比較。本文在8×H800上進行實驗,預(yù)訓(xùn)練的全局批量大小為256,微調(diào)時為128。
內(nèi)存使用情況的比較詳見下表5。在預(yù)訓(xùn)練階段,EE-MLLM的內(nèi)存使用顯著較低,為32G,而LLaVA的內(nèi)存使用為75G。在微調(diào)階段,由于主要內(nèi)存使用集中在可訓(xùn)練的LLM上,內(nèi)存使用優(yōu)勢變得不太明顯,EE-MLLM消耗66G,而LLaVA-v1.6使用69G。
消融研究
實施細(xì)節(jié)
根據(jù)LLaVA-v1.5,本文采用Vicuna-7b-v1.5 作為本文的基礎(chǔ)LLM。訓(xùn)練數(shù)據(jù)與LLaVA-v1.5一致,包括預(yù)訓(xùn)練數(shù)據(jù)和監(jiān)督微調(diào)數(shù)據(jù)。
與LLaVA的比較
在下表4中,本文在相同的設(shè)置下比較了EE-MLLM和LLaVA在一般和細(xì)粒度基準(zhǔn)測試中的表現(xiàn)。對于分辨率為336X336的情況,本文使用CLIP-ViT-L-14作為視覺編碼器,確保與LLaVA-v1.5完全對齊。EE-MLLM在一般基準(zhǔn)測試中表現(xiàn)與LLaVA相當(dāng)。在細(xì)粒度基準(zhǔn)測試中,EE-MLLM在分辨率為336X336時在AI2D和ChartQA上表現(xiàn)出色,但在OCRBench和TextVQA上略遜于LLaVA。對于336X336分辨率的平均得分為47.1,是LLaVA的48.1的98%。對于分辨率為672X672的情況,本文使用SigLIP作為視覺編碼器。如表4所示,EE-MLLM在AI2D和TextVQA上獲得了相當(dāng)?shù)慕Y(jié)果,平均得分保持在LLaVA性能的98%。
對齊器的消融實驗
在下表6中,本文評估了具有不同映射權(quán)重的對齊器變體。本文使用從Idefics2(Lauren?on等人,2024)初始化的SigLIP在不同的輸入分辨率下進行實驗。本文移除了對齊器中的不同權(quán)重,并在分辨率為336X336下訓(xùn)練模型。對勾token表示在對齊器中使用的權(quán)重。
本文有三個發(fā)現(xiàn):1)如第一行所示,移除整個對齊器會顯著降低多個基準(zhǔn)測試的性能。具體而言,TextVQA的得分從46.1降至44.8,五個基準(zhǔn)測試的平均得分從34.5降至33.5。這個結(jié)果突顯了對齊器在將視覺特征與LLM特征空間對齊方面的有效性,使文本tokens能夠通過因果交叉注意模塊捕捉關(guān)鍵的視覺信息并解決問題。2)當(dāng)消融對齊器中的個別權(quán)重時,本文發(fā)現(xiàn)保持結(jié)構(gòu)更為重要。缺少V或O對低分辨率輸入的影響相對較小,甚至在缺少V時表現(xiàn)略有提升。然而,當(dāng)缺少FFN時,對齊器的結(jié)構(gòu)不再類似于transformer塊,導(dǎo)致顯著的性能損失。3)本文直接將輸入圖像分辨率提高到672X672,而無需額外訓(xùn)練,并比較具有不同對齊器類型的變體。本文觀察到,在高分辨率輸入下,缺少V或O權(quán)重會導(dǎo)致細(xì)粒度基準(zhǔn)測試(如TextVQA、ChartQA和DocVQA)出現(xiàn)顯著下降。這個發(fā)現(xiàn)表明在應(yīng)用于高分辨率圖像時,完整的對齊器是多么重要。
可視化
本文從BLINK 和RealWorldQA 中采樣了四個示例,以評估下圖3中架構(gòu)變化的影響。第一個示例展示了EE-MLLM能夠感知圖像中的細(xì)粒度視覺上下文,例如交通信號燈的顏色。第二和第三個示例強調(diào)了EE-MLLM理解物體位置的能力。具體而言,EE-MLLM可以準(zhǔn)確識別吉他相對于桌子的位置以及狗的位置。最后一個示例揭示了EE-MLLM能夠區(qū)分視覺內(nèi)容中的細(xì)微差別。
結(jié)論
在本文中,本文重新審視了多模態(tài)大語言模型的先前研究,并將其分為兩類:基于自注意力的方法和基于交叉注意力的方法。前者數(shù)據(jù)效率高但計算效率低,而后者計算效率高但數(shù)據(jù)效率低。為了在保持計算效率的同時確保數(shù)據(jù)效率,本文為EE-MLLM提出了復(fù)合注意力機制,該機制結(jié)合了復(fù)合注意力模塊以提高計算效率,以及對齊器以提高數(shù)據(jù)效率。本文在一般基準(zhǔn)和細(xì)粒度基準(zhǔn)上進行了全面實驗,發(fā)現(xiàn)EE-MLLM在大多數(shù)基準(zhǔn)上實現(xiàn)了最先進的性能。本文還評估了EE-MLLM在實際場景中的推理速度,結(jié)果表明EE-MLLM在推理方面具有顯著優(yōu)勢。
本文轉(zhuǎn)自AI生成未來,作者:Feipeng Ma等
