自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

開源模型突破原生多模態(tài)大模型性能瓶頸，上海AI Lab代季峰團(tuán)隊(duì)出品

作者：量子位 2024-10-25 14:30:00

人工智能新聞

上海AI Lab代季峰老師團(tuán)隊(duì)，提出了全新的原生多模態(tài)大模型Mono-InternVL。

原生多模態(tài)大模型性能瓶頸，迎來新突破！

上海AI Lab代季峰老師團(tuán)隊(duì)，提出了全新的原生多模態(tài)大模型Mono-InternVL。

與非原生模型相比，該模型首個(gè)單詞延遲最多降低67%，在多個(gè)評(píng)測(cè)數(shù)據(jù)集上均達(dá)到了SOTA水準(zhǔn)。

與常見的采用CLIP等結(jié)構(gòu)進(jìn)行視覺編碼的模塊化多模態(tài)大模型不同，Mono-InternVL將視覺感知和多模態(tài)理解均集成到大語(yǔ)言模型中。

相比于現(xiàn)有多模態(tài)大模型，Mono-InternVL有以下技術(shù)亮點(diǎn)：

開源原生多模態(tài)架構(gòu)最優(yōu)解：無需額外的視覺編碼器，通過內(nèi)嵌視覺專家打通了一條從大語(yǔ)言模型到原生多模態(tài)模型擴(kuò)展的新路徑，2B模型多模態(tài)能力優(yōu)于7B參數(shù)的現(xiàn)有原生多模態(tài)模型，多個(gè)指標(biāo)超越InternVL1.5。
兼具視覺靈活性和部署高效性：支持高達(dá)2M像素輸入的動(dòng)態(tài)圖像分辨率，在原生多模態(tài)架構(gòu)中感知精度最高。相比于InternVL1.5，在部署框架上首個(gè)單詞延遲最多降低67%，整體吞吐量提高31%。

破解原生多模態(tài)大模型遺忘問題

現(xiàn)有的多模態(tài)大模型（MLLM）通常采用視覺編碼器-對(duì)齊模塊-語(yǔ)言模型的結(jié)構(gòu)，將視覺編碼和語(yǔ)言解碼分別進(jìn)行處理。

具體來說，這些模型通常通過將預(yù)訓(xùn)練的視覺編碼器（例如CLIP）與大語(yǔ)言模型（LLM）結(jié)合來實(shí)現(xiàn)，即模塊化MLLM。

最近新興的Chameleon、EVE等原生MLLM，將視覺感知和多模態(tài)理解直接集成到一個(gè)LLM中，可以更方便地通過現(xiàn)有工具進(jìn)行部署、具備更高的推理效率。

然而，由于原生MLLM缺乏視覺能力，視覺相關(guān)的訓(xùn)練通常不可避免，但視覺預(yù)訓(xùn)練過程中語(yǔ)言基座能力常常出現(xiàn)災(zāi)難性遺忘問題，導(dǎo)致現(xiàn)有原生MLLM的性能仍顯著低于模塊化MLLM。

為此，Mono-InternVL提出了采用增量預(yù)訓(xùn)練的方法，解決此前原生MLLM中的災(zāi)難性遺忘問題。

因此，作者在預(yù)訓(xùn)練的LLM中嵌入了專門服務(wù)于視覺建模的視覺專家，通過MoE的方式實(shí)現(xiàn)稀疏化的建模。

基于此，作者通過僅優(yōu)化視覺參數(shù)空間來進(jìn)行視覺預(yù)訓(xùn)練，同時(shí)保留了語(yǔ)言基座的預(yù)訓(xùn)練知識(shí)。

原生多模態(tài)結(jié)構(gòu)

具體來說，Mono-InternVL 由視覺文本嵌入和多模態(tài)MoE結(jié)構(gòu)兩部分組成：

視覺和文本嵌入：與使用CLIP等視覺編碼器的模塊化 MLLM 相比，Mono-InternVL 通過patch embedding直接將圖像轉(zhuǎn)換為patch序列。文本嵌入模塊則直接使用LLM的分詞器。
多模態(tài)MoE結(jié)構(gòu)：Mono-InternVL 的核心是將視覺專家FFN嵌入到預(yù)訓(xùn)練的 LLM 中。視覺FFN從預(yù)訓(xùn)練LLM中的文本FFN初始化。由此不僅可以利用預(yù)訓(xùn)練的 LLM 知識(shí)促進(jìn)視覺預(yù)訓(xùn)練，還能顯著緩解災(zāi)難性遺忘問題。

內(nèi)生視覺預(yù)訓(xùn)練

作者提出內(nèi)生視覺預(yù)訓(xùn)練（EViP）方法，旨在通過在大規(guī)模噪聲數(shù)據(jù)和合成數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練來最大化Mono-InternVL的視覺能力。

EViP被設(shè)計(jì)為一個(gè)從基本視覺概念到復(fù)雜語(yǔ)義知識(shí)的逐步學(xué)習(xí)過程，包括三個(gè)階段：

概念學(xué)習(xí)，用于掌握基本的視覺概念；
語(yǔ)義學(xué)習(xí)，用于捕捉高層次語(yǔ)義知識(shí)，例如世界知識(shí)；
對(duì)齊學(xué)習(xí)，用于將知識(shí)與下游任務(wù)對(duì)齊。

在視覺預(yù)訓(xùn)練完成后，Mono-InternVL通過指令微調(diào)處理復(fù)雜的多模態(tài)任務(wù)。

在前兩個(gè)階段中保持預(yù)訓(xùn)練LLM的參數(shù)固定，僅訓(xùn)練視覺部分的嵌入模塊和視覺FFN，而在第三階段和指令微調(diào)中逐步放開LLM中的multi-head attention和文本FFN。

得益于這一架構(gòu)和預(yù)訓(xùn)練策略，Mono-InternVL的視覺可擴(kuò)展性得到了充分釋放，隨著預(yù)訓(xùn)練數(shù)據(jù)規(guī)模的增加，其下游性能持續(xù)提高。

原生多模態(tài)大模型性能大幅提升

作者基于InternLM2-1.8B開發(fā)了Mono-InternVL-2B模型，在16個(gè)多模態(tài)基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn)。

下圖展示了中英文OCR、問答、圖表解析等任務(wù)的可視化樣例，體現(xiàn)了Mono-InternVL的實(shí)際效果。

如圖，模型成功識(shí)別出了圖中的“諾貝爾物理學(xué)獎(jiǎng)2024”標(biāo)題，Hopfield、Hinton等人名，以及瑞典皇家科學(xué)院落款等文本。

對(duì)于動(dòng)漫風(fēng)格的圖片，模型識(shí)別出了形狀扭曲的NEC、PANASONIC等品牌名，并提供了細(xì)致生動(dòng)的圖像描述。

在Grounding任務(wù)上，Mono-InternVL可以精準(zhǔn)定位照片中的美短的坐標(biāo)。

對(duì)于中文的手寫文本同樣具備不錯(cuò)的識(shí)別能力。

在代碼生成任務(wù)上也表現(xiàn)較為出色。

數(shù)據(jù)上看，實(shí)驗(yàn)結(jié)果也表明，1.8B激活參數(shù)的Mono-InternVL可以大幅超越此前的7B參數(shù)原生多模態(tài)模型EVE，平均提升15.5%。

與最先進(jìn)的模塊化MLLM InternVL-1.5相比，Mono-InternVL在6個(gè)多模態(tài)基準(zhǔn)上表現(xiàn)更優(yōu)。

通過LMDeploy的部署實(shí)驗(yàn)表明，Mono-InternVL與模塊化模型InternVL-1.5相比，首個(gè)token延遲減少了67%，整體吞吐量提高31%。

消融實(shí)驗(yàn)結(jié)果，也驗(yàn)證了視覺專家和增量預(yù)訓(xùn)練的有效性。

下游任務(wù)性能與預(yù)訓(xùn)練數(shù)據(jù)規(guī)模的曲線圖表明，在三階段的EViP的幫助下，Mono-InternVL 的能力隨著數(shù)據(jù)規(guī)模增加而不斷提升。

作者可視化了不同層的注意力圖，展示了模型淺層部分所存在的視覺局部性、視覺文本交互較少等問題，為未來原生MLLM 的設(shè)計(jì)提供啟發(fā)。

作者簡(jiǎn)介

本文的共同一作為羅根 (上海人工智能實(shí)驗(yàn)室博士后研究員)，楊學(xué)（上海人工智能實(shí)驗(yàn)室青年研究員），竇文涵（清華大學(xué)本科生），王肇凱（上海交通大學(xué)&上海人工智能實(shí)驗(yàn)室聯(lián)培博士生）。

本文的通訊作者是朱錫洲，他的研究方向是視覺基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型，代表作有 Deformable DETR、DCN v2等。

論文地址：https://arxiv.org/abs/2410.08202
項(xiàng)目主頁(yè)：https://internvl.github.io/blog/2024-10-10-Mono-InternVL/
推理代碼&模型鏈接：https://huggingface.co/OpenGVLab/Mono-InternVL-2B

責(zé)任編輯：張燕妮來源：量子位

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)