開源模型突破原生多模態(tài)大模型性能瓶頸,上海AI Lab代季峰團(tuán)隊(duì)出品
原生多模態(tài)大模型性能瓶頸,迎來新突破!
上海AI Lab代季峰老師團(tuán)隊(duì),提出了全新的原生多模態(tài)大模型Mono-InternVL。
與非原生模型相比,該模型首個(gè)單詞延遲最多降低67%,在多個(gè)評(píng)測(cè)數(shù)據(jù)集上均達(dá)到了SOTA水準(zhǔn)。
與常見的采用CLIP等結(jié)構(gòu)進(jìn)行視覺編碼的模塊化多模態(tài)大模型不同,Mono-InternVL將視覺感知和多模態(tài)理解均集成到大語(yǔ)言模型中。
相比于現(xiàn)有多模態(tài)大模型,Mono-InternVL有以下技術(shù)亮點(diǎn):
- 開源原生多模態(tài)架構(gòu)最優(yōu)解:無需額外的視覺編碼器,通過內(nèi)嵌視覺專家打通了一條從大語(yǔ)言模型到原生多模態(tài)模型擴(kuò)展的新路徑,2B模型多模態(tài)能力優(yōu)于7B參數(shù)的現(xiàn)有原生多模態(tài)模型,多個(gè)指標(biāo)超越InternVL1.5。
- 兼具視覺靈活性和部署高效性:支持高達(dá)2M像素輸入的動(dòng)態(tài)圖像分辨率,在原生多模態(tài)架構(gòu)中感知精度最高。相比于InternVL1.5,在部署框架上首個(gè)單詞延遲最多降低67%,整體吞吐量提高31%。
破解原生多模態(tài)大模型遺忘問題
現(xiàn)有的多模態(tài)大模型(MLLM)通常采用視覺編碼器-對(duì)齊模塊-語(yǔ)言模型的結(jié)構(gòu),將視覺編碼和語(yǔ)言解碼分別進(jìn)行處理。
具體來說,這些模型通常通過將預(yù)訓(xùn)練的視覺編碼器(例如CLIP)與大語(yǔ)言模型(LLM)結(jié)合來實(shí)現(xiàn),即模塊化MLLM。
最近新興的Chameleon、EVE等原生MLLM,將視覺感知和多模態(tài)理解直接集成到一個(gè)LLM中,可以更方便地通過現(xiàn)有工具進(jìn)行部署、具備更高的推理效率。
然而,由于原生MLLM缺乏視覺能力,視覺相關(guān)的訓(xùn)練通常不可避免,但視覺預(yù)訓(xùn)練過程中語(yǔ)言基座能力常常出現(xiàn)災(zāi)難性遺忘問題,導(dǎo)致現(xiàn)有原生MLLM的性能仍顯著低于模塊化MLLM。
為此,Mono-InternVL提出了采用增量預(yù)訓(xùn)練的方法,解決此前原生MLLM中的災(zāi)難性遺忘問題。
因此,作者在預(yù)訓(xùn)練的LLM中嵌入了專門服務(wù)于視覺建模的視覺專家,通過MoE的方式實(shí)現(xiàn)稀疏化的建模。
基于此,作者通過僅優(yōu)化視覺參數(shù)空間來進(jìn)行視覺預(yù)訓(xùn)練,同時(shí)保留了語(yǔ)言基座的預(yù)訓(xùn)練知識(shí)。
原生多模態(tài)結(jié)構(gòu)
具體來說,Mono-InternVL 由視覺文本嵌入和多模態(tài)MoE結(jié)構(gòu)兩部分組成:
- 視覺和文本嵌入:與使用CLIP等視覺編碼器的模塊化 MLLM 相比,Mono-InternVL 通過patch embedding直接將圖像轉(zhuǎn)換為patch序列。文本嵌入模塊則直接使用LLM的分詞器。
- 多模態(tài)MoE結(jié)構(gòu):Mono-InternVL 的核心是將視覺專家FFN嵌入到預(yù)訓(xùn)練的 LLM 中。視覺FFN從預(yù)訓(xùn)練LLM中的文本FFN初始化。由此不僅可以利用預(yù)訓(xùn)練的 LLM 知識(shí)促進(jìn)視覺預(yù)訓(xùn)練,還能顯著緩解災(zāi)難性遺忘問題。
內(nèi)生視覺預(yù)訓(xùn)練
作者提出內(nèi)生視覺預(yù)訓(xùn)練(EViP)方法,旨在通過在大規(guī)模噪聲數(shù)據(jù)和合成數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練來最大化Mono-InternVL的視覺能力。
EViP被設(shè)計(jì)為一個(gè)從基本視覺概念到復(fù)雜語(yǔ)義知識(shí)的逐步學(xué)習(xí)過程,包括三個(gè)階段:
- 概念學(xué)習(xí),用于掌握基本的視覺概念;
- 語(yǔ)義學(xué)習(xí),用于捕捉高層次語(yǔ)義知識(shí),例如世界知識(shí);
- 對(duì)齊學(xué)習(xí),用于將知識(shí)與下游任務(wù)對(duì)齊。
在視覺預(yù)訓(xùn)練完成后,Mono-InternVL通過指令微調(diào)處理復(fù)雜的多模態(tài)任務(wù)。
在前兩個(gè)階段中保持預(yù)訓(xùn)練LLM的參數(shù)固定,僅訓(xùn)練視覺部分的嵌入模塊和視覺FFN,而在第三階段和指令微調(diào)中逐步放開LLM中的multi-head attention和文本FFN。
得益于這一架構(gòu)和預(yù)訓(xùn)練策略,Mono-InternVL的視覺可擴(kuò)展性得到了充分釋放,隨著預(yù)訓(xùn)練數(shù)據(jù)規(guī)模的增加,其下游性能持續(xù)提高。
原生多模態(tài)大模型性能大幅提升
作者基于InternLM2-1.8B開發(fā)了Mono-InternVL-2B模型,在16個(gè)多模態(tài)基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn)。
下圖展示了中英文OCR、問答、圖表解析等任務(wù)的可視化樣例,體現(xiàn)了Mono-InternVL的實(shí)際效果。
如圖,模型成功識(shí)別出了圖中的“諾貝爾物理學(xué)獎(jiǎng)2024”標(biāo)題,Hopfield、Hinton等人名,以及瑞典皇家科學(xué)院落款等文本。
對(duì)于動(dòng)漫風(fēng)格的圖片,模型識(shí)別出了形狀扭曲的NEC、PANASONIC等品牌名,并提供了細(xì)致生動(dòng)的圖像描述。
在Grounding任務(wù)上,Mono-InternVL可以精準(zhǔn)定位照片中的美短的坐標(biāo)。
對(duì)于中文的手寫文本同樣具備不錯(cuò)的識(shí)別能力。
在代碼生成任務(wù)上也表現(xiàn)較為出色。
數(shù)據(jù)上看,實(shí)驗(yàn)結(jié)果也表明,1.8B激活參數(shù)的Mono-InternVL可以大幅超越此前的7B參數(shù)原生多模態(tài)模型EVE,平均提升15.5%。
與最先進(jìn)的模塊化MLLM InternVL-1.5相比,Mono-InternVL在6個(gè)多模態(tài)基準(zhǔn)上表現(xiàn)更優(yōu)。
通過LMDeploy的部署實(shí)驗(yàn)表明,Mono-InternVL與模塊化模型InternVL-1.5相比,首個(gè)token延遲減少了67%,整體吞吐量提高31%。
消融實(shí)驗(yàn)結(jié)果,也驗(yàn)證了視覺專家和增量預(yù)訓(xùn)練的有效性。
下游任務(wù)性能與預(yù)訓(xùn)練數(shù)據(jù)規(guī)模的曲線圖表明,在三階段的EViP的幫助下,Mono-InternVL 的能力隨著數(shù)據(jù)規(guī)模增加而不斷提升。
作者可視化了不同層的注意力圖,展示了模型淺層部分所存在的視覺局部性、視覺文本交互較少等問題,為未來原生MLLM 的設(shè)計(jì)提供啟發(fā)。
作者簡(jiǎn)介
本文的共同一作為羅根 (上海人工智能實(shí)驗(yàn)室博士后研究員),楊學(xué)(上海人工智能實(shí)驗(yàn)室青年研究員),竇文涵(清華大學(xué)本科生),王肇凱(上海交通大學(xué)&上海人工智能實(shí)驗(yàn)室聯(lián)培博士生)。
本文的通訊作者是朱錫洲,他的研究方向是視覺基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型,代表作有 Deformable DETR、DCN v2等。
論文地址:https://arxiv.org/abs/2410.08202
項(xiàng)目主頁(yè):https://internvl.github.io/blog/2024-10-10-Mono-InternVL/
推理代碼&模型鏈接:https://huggingface.co/OpenGVLab/Mono-InternVL-2B