自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型

發(fā)布于 2024-3-28 13:48
瀏覽
0收藏

美團(tuán)、浙大等于近日推出了 MobileVLM V2,其中包含參數(shù)量 1.7B、3B、以及 7B 的一系列視覺-語言模型。代碼與模型以及適配的端側(cè)推理方案都已開源。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

論文地址:https://arxiv.org/abs/2402.03766

模型地址:https://huggingface.co/mtgv

代碼地址:https://github.com/Meituan-AutoML/MobileVLM

大模型涌向移動(dòng)端的浪潮愈演愈烈,作為第一個(gè)針對(duì)端側(cè)的視覺語言模型的工作,歸功于 MobileVLM 在小參數(shù)量下的強(qiáng)大性能和完善的端側(cè)實(shí)時(shí)運(yùn)行端側(cè)推理方案,MobileVLM 一經(jīng)推出就受到了國內(nèi)外開源社區(qū)的廣泛關(guān)注。

在延續(xù)前作優(yōu)勢的基礎(chǔ)上,MobileVLM V2 進(jìn)行了顯著的改進(jìn),使用了新穎的架構(gòu)設(shè)計(jì)、針對(duì)移動(dòng)端 VLM 量身定制訓(xùn)練方案、并豐富了高質(zhì)量數(shù)據(jù),使 MobileVLM V2 的性能表現(xiàn)更上一層樓的同時(shí),也為業(yè)界對(duì)于端側(cè)視覺語言模型解決方案提供了新的思路。

具體而言,與參數(shù)量更大的 3B VLM 相比,MobileVLM V2 1.7B 在標(biāo)準(zhǔn) VLM 基準(zhǔn)測試中達(dá)到了同等甚至更好的的性能;特別是 MobileVLM V2 3B 模型在某些標(biāo)準(zhǔn)測試基準(zhǔn)上甚至優(yōu)于參數(shù)規(guī)模 7B 甚至更大的 VLM。

一、簡介

視覺-語言模型(VLM)已成為當(dāng)今人工智能領(lǐng)域的一個(gè)研究熱點(diǎn)。通過融合大型語言模型(LLM)和多模態(tài)功能,視覺-語言模型展現(xiàn)出前所未有的多功能性。例如,Gemini 和 GPT-4V 等專有模型在多種任務(wù)中展示了卓越的性能。盡管 VLM 表現(xiàn)出色,但如何將其部署到如移動(dòng)設(shè)備、自動(dòng)駕駛汽車和嵌入式人工智能系統(tǒng)等實(shí)際應(yīng)用中,依然面臨著挑戰(zhàn)。

最近,MobileVLM 在探索移動(dòng)端硬件架構(gòu)導(dǎo)向的小規(guī)模 VLMs 的能力方面走在了前列。MoE-LLaVA 采用了 mixture-of-experts 方法,顯著提升了小型模型的性能,使其超越了許多大型模型。最新研究顯示,VLMs 正朝著擴(kuò)展模態(tài)、優(yōu)化訓(xùn)練流程、高效架構(gòu)和高質(zhì)量訓(xùn)練數(shù)據(jù)集的方向發(fā)展。

本文基于 MobileVLM 進(jìn)行了大幅改進(jìn),主要集中在三個(gè)方面:首先是訓(xùn)練數(shù)據(jù)的利用:本文通過使用 ShareGPT4V 收集的 120 萬對(duì)高質(zhì)量圖像-文本配對(duì)數(shù)據(jù),有效地對(duì)齊了視覺-語言特征。這一數(shù)據(jù)集的引入提高了數(shù)據(jù)的多樣性,并增強(qiáng)了模型遵循指令的能力,同時(shí)納入了更多學(xué)術(shù)任務(wù),例如 ScienceQA、TextVQA、SBU 等。

其次是訓(xùn)練策略的探索:在訓(xùn)練策略方面,該方法在預(yù)訓(xùn)練和指令微調(diào)階段對(duì)投影網(wǎng)絡(luò)和語言模型的所有參數(shù)進(jìn)行了訓(xùn)練,這種做法在充分利用高質(zhì)量數(shù)據(jù)潛力方面顯示出了有效性。

輕量級(jí)高性能投影網(wǎng)絡(luò)的更新:引入了一個(gè)更加精簡而強(qiáng)大的輕量級(jí)投影機(jī)制并通過該機(jī)制連接視覺和語言模型。通過改進(jìn)圖像 token 的表示、增強(qiáng)了位置信息的手段,MobileVLM V2 能夠在幾乎不降低性能的情況下顯著減少語言模型所需的輸入圖像 token 的數(shù)量。本文的主要貢獻(xiàn)如下:

  • 本文探索并評(píng)估了增加小型視覺-語言模型訓(xùn)練數(shù)據(jù)的性能,顯著縮小了如 MobileVLM 這樣的小型 VLMs 與大參數(shù)量視覺-語言模型之間的性能差距。
  • 本文深入研究了對(duì)于移動(dòng)端場景下更友好的訓(xùn)練策略,并設(shè)計(jì)了一種新穎的訓(xùn)練方案,以充分利用更多高質(zhì)量多模態(tài)數(shù)據(jù)的潛力。本文提出了一個(gè)非常輕量級(jí)的投影網(wǎng)絡(luò),以顯著減少視覺 token 的數(shù)量,同時(shí)對(duì)性能只有輕微的影響。
  • 本文提出的方法在多個(gè)視覺-語言基準(zhǔn)測試中取得了性能與推理速度之間的最佳平衡。通過將 MobileVLM V2 模型的參數(shù)規(guī)模擴(kuò)展到70億,本文的方法大幅超越了之前最先進(jìn)的模型。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

二、MobileVLM V2

1. 總體架構(gòu)設(shè)計(jì)

本文的方法延續(xù)了與 MobileVLM 相似的框架。如圖 2 所示,MobileVLM V2 的整體架構(gòu)包括一個(gè)預(yù)訓(xùn)練的用于提取圖像特征視覺編碼器,一個(gè)預(yù)訓(xùn)練的端側(cè)語言模型 MobileLLaMA 來處理多模態(tài) token 并生成最終回答,以及一個(gè)針對(duì)端側(cè)設(shè)計(jì)的投影網(wǎng)絡(luò),即輕量級(jí)下采樣投影器(表示為 LDPv2),用于將圖像特征在特征空間層面與語言模型對(duì)齊。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

2. 視覺編碼器

延續(xù) MobileVLM 的思想,本文使用 CLIP ViT-L/14 作為視覺編碼器

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū),該編碼器通過對(duì)比學(xué)習(xí)在數(shù)百萬圖像-語言對(duì)上進(jìn)行預(yù)訓(xùn)練,并已被證明對(duì) VLMs 有效。

特別地,圖像端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)首先被調(diào)整大小至 336 × 336 分辨率,并以 14 為步長

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)切割成塊。然后提取高級(jí)視覺嵌入端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)來表示圖像的語義信息,其中端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)表示視覺嵌入的序列長度,端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)表示視覺嵌入的 hidden size。具體如下式所示:

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

3. 語言模型

本文采用 MobileLLaMA 系列作為基礎(chǔ)的語言模型(LLM)。該選擇有三個(gè)原因:首先,MobileLLaMA 設(shè)計(jì)用于即插即用部署,并已在資源有限的設(shè)備上展示了實(shí)時(shí)推理能力和可靠的性能。保持語言模型不變有助于進(jìn)行受控實(shí)驗(yàn),以探索其他因素的影響,例如擴(kuò)大數(shù)據(jù)語料庫、改進(jìn)訓(xùn)練策略、更新投影網(wǎng)絡(luò)等新設(shè)計(jì)。

其次,MobileLLaMA 與 LLaMA2 共享相同的分詞器,這有助于進(jìn)行無障礙的知識(shí)蒸餾。最后,它是在開放數(shù)據(jù)集上訓(xùn)練的,并且沒有因數(shù)據(jù)泄露而導(dǎo)致評(píng)估污染的風(fēng)險(xiǎn)。這也有助于確認(rèn)這個(gè)模型是否能夠在性能上取得優(yōu)勢。

具體來說,本文采用 MobileLLaMA-1.4B-Chat 和 MobileLLaMA-2.7B-Chat 作為語言模型。文本輸入端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)首先被分詞并處理成文本 token 端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū),其中端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)表示文本 token 的序列長度, 端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)是單詞嵌入空間的隱藏尺寸。文本 token  端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)和視覺 token ?端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū) 通過投影網(wǎng)絡(luò)轉(zhuǎn)換,以便作為語言模型的輸入串聯(lián)起來。最終響應(yīng)端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)的長度為端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū),以如下的自回歸方式生成:

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

4. 輕量級(jí)的降采樣投影網(wǎng)絡(luò)

受 MobileVLM 的 LDP 設(shè)計(jì)啟發(fā),本文引入了一個(gè)新的投影網(wǎng)絡(luò),以更少的參數(shù)實(shí)現(xiàn)更好的視覺-語言特征對(duì)齊。它包含三個(gè)組成部分,即特征轉(zhuǎn)換、減少 token 數(shù)、位置信息增強(qiáng)。

首先,投影網(wǎng)絡(luò)在圖像 token 上使用兩個(gè)逐點(diǎn)卷積層來匹配 LLM 的特征維度。然后,引入了一個(gè)平均池化層來極度壓縮圖像 token 的數(shù)量。最后,應(yīng)用了一個(gè)非常簡單但有效的模塊 PEG,它帶有跳躍連接,能夠增強(qiáng)位置信息。與 LDP 相比,該投影網(wǎng)絡(luò)更加高效,減少了 99.8% 的參數(shù)數(shù)量,并且在運(yùn)行速度上略有提升。

在公式化中,輕量級(jí)降采樣投影網(wǎng)絡(luò) LDPv2(標(biāo)記為端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū) )將視覺嵌入端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)轉(zhuǎn)換為具有位置增強(qiáng)的模態(tài)對(duì)齊視覺 token 端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)。這種設(shè)計(jì)針對(duì)部署十分友好,因?yàn)樗芍髁魍评砜蚣苤С值乃阕咏M成。給定一個(gè)平均核 端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū),剩余 token 的數(shù)量只有輸入特征的 端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)。具體來說,如下 LDPv2 的公式化如下所示:

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

其中 PW 和 DW 分別代表逐點(diǎn)卷積和深度卷積,GELU 是 GELU 激活層,AvgPool2×2 是 2×2 平均池化層。

5. 訓(xùn)練策略

MobileVLM V2 的訓(xùn)練過程分為兩個(gè)階段:預(yù)訓(xùn)練和多任務(wù)訓(xùn)練。如表 1 所示,與LLaVA-1.5 和之前的 MobileVLM 的訓(xùn)練范式不同,MobileVLM V2 在兩個(gè)階段中始終訓(xùn)練投影網(wǎng)絡(luò)和大型語言模型的權(quán)重,同時(shí)凍結(jié)視覺編碼器的權(quán)重。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

(1) 預(yù)訓(xùn)練

大多數(shù)視覺-語言模型(VLMs)在預(yù)訓(xùn)練期間通常會(huì)凍結(jié)視覺編碼器和語言模型,以避免優(yōu)化難題。ShareGPT-4V 部分凍結(jié)視覺編碼器并訓(xùn)練語言模型。在本文中分別從 CLIP ViT-L/14 和 MobileLLaMA 初始化視覺編碼器和語言模型的權(quán)重。這種初始化為隨后的統(tǒng)一訓(xùn)練過程提供了一個(gè)堅(jiān)實(shí)的基礎(chǔ)。

本文對(duì)投影網(wǎng)絡(luò)和 LLM 進(jìn)行完整訓(xùn)練,同時(shí)微調(diào)視覺編碼器,在訓(xùn)練過程中凍結(jié) ViT 降低了訓(xùn)練成本。然后,模型利用一個(gè)自回歸損失函數(shù),將訓(xùn)練目標(biāo)集中在下一個(gè) token 的預(yù)測上。通過專注于這個(gè)特定任務(wù),模型更好地學(xué)習(xí)視覺信息背景下語言生成的復(fù)雜性,從而提高了多模態(tài)任務(wù)的性能。

如表 2 所示,在預(yù)訓(xùn)練階段,模型使用 ShareGPT4V-PT 數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含 120 萬圖像-文本對(duì)。該數(shù)據(jù)集在提高模型的圖像-文本對(duì)齊能力方面起著至關(guān)重要的作用,是多模態(tài)表示學(xué)習(xí)的一個(gè)關(guān)鍵方面。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

(2) 多任務(wù)訓(xùn)練

在圖像-文本對(duì)齊學(xué)習(xí)的預(yù)訓(xùn)練階段之后,MobileVLM V2 已經(jīng)獲得了基本的圖像內(nèi)容理解能力。然而,它利用視覺信息進(jìn)行分析和對(duì)話的能力還不成熟,尤其是在一系列特定的下游任務(wù)中。因此,在多任務(wù)訓(xùn)練階段,本文引入了多個(gè)視覺-語言任務(wù),通過對(duì)訓(xùn)練過程中的參數(shù)進(jìn)行調(diào)整,使模型具備多任務(wù)分析和圖像-文本對(duì)話的能力。

在多任務(wù)訓(xùn)練階段,本文使用了大量的數(shù)據(jù)集,包含了多種任務(wù),以進(jìn)一步擴(kuò)充模型的能力集合。如表 2 所概述,這些數(shù)據(jù)集根據(jù)功能不同精挑細(xì)選,例如使用 Visual Dialog 數(shù)據(jù)集提高對(duì)話能力,通過 TextVQA 數(shù)據(jù)集提高 OCR 技能,通過 COCO Caption 和 SBU 數(shù)據(jù)集提高場景理解能力,以及通過 VSR 數(shù)據(jù)集等提高位置理解能力。

總的來說,這一階段的聚合數(shù)據(jù)包含了 240 萬個(gè)樣本,確保了跨不同模態(tài)和任務(wù)的全面學(xué)習(xí)。

三、實(shí)驗(yàn)結(jié)果

表三中列出了本文方法在訓(xùn)練過程中所涉及的參數(shù)設(shè)置:

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

1. 與SOTA視覺-語言模型的比較

本文評(píng)估了 MobileVLM V2 的性能,并在表 4 中展示了準(zhǔn)確性結(jié)果。與 MobileVLM 相同,本文采用了一系列基準(zhǔn)測試,包括圖像問答系列 GQA、SQA、TextVQA,綜合基準(zhǔn)測試 MME、MMBench,以及物體幻覺基準(zhǔn)測試 POPE。

本文的模型的目標(biāo)雖然是針對(duì)真實(shí)應(yīng)用場景而取得準(zhǔn)確性與運(yùn)行時(shí)延遲兩個(gè)方面的平衡,但它們的性能超過了大多數(shù)以前的模型,并有在實(shí)時(shí)推理性能上具有明顯的優(yōu)勢。憑借快 75% 的推理速度優(yōu)勢,MobileVLM V2 3B 在平均性能上仍然比最近的工作 MoE-LLaVA-2.7B×4 高出 1.4 個(gè)百分點(diǎn)。

值得注意的是,MoE-LLaVA-2.7B×4 與許多 7B+ 的 VLMs 相比展現(xiàn)出可比或更好性能。這些 VLM 中的大部分都引入了大量的額外訓(xùn)練成本。相比之下,本文的方法在達(dá)到最均衡的性能表現(xiàn)的同時(shí),訓(xùn)練成本與計(jì)算友好的 LLaVA-1.5 相當(dāng)。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

(1) 與MoE-LLaVA比較

MoE-LLaVA 利用多個(gè)專家模型來實(shí)現(xiàn)良好的性能,每個(gè)專家模型規(guī)模都較小,以提高推理速度。盡管只有一部分參數(shù)被激活,但它仍然需要存儲(chǔ)所有參數(shù),這在移動(dòng)端應(yīng)用場景中不可避免地會(huì)導(dǎo)致 IO 開銷。此外,將模型壓縮技術(shù)應(yīng)用到這些模型上非常困難。

相比之下,本文的方法在實(shí)際優(yōu)化部署方面優(yōu)勢很大。本文所提出的模型在 Tesla A100 GPU 上評(píng)估的推理速度領(lǐng)先于 MoE-LLaVA,如果在真實(shí)的端側(cè)環(huán)境中測試,優(yōu)勢將會(huì)進(jìn)一步擴(kuò)大。原則上,MobileVLM V2 也可以與其 MoE 設(shè)計(jì)相結(jié)合,但在不犧牲 MobileVLM V2 的內(nèi)存占用和推理延遲優(yōu)勢前提下提出一種新的結(jié)合方式,還有待研究。

(2) 與MobileVLM比較

表 4 顯示,MobileVLM V2 顯著提高了 MobileVLM 的性能表現(xiàn),平均準(zhǔn)確率提高了 5.3 個(gè)百分點(diǎn)。由于這兩種方法共享相同的視覺-語言模態(tài)編碼器,性能的提高歸功于更優(yōu)的數(shù)據(jù)、更好的訓(xùn)練策略、以及更有效的投影網(wǎng)絡(luò)。

MobileVLM V2 的良好性能表現(xiàn)說明,MobileLLaMA 作為小型語言模型也能夠成為一個(gè)很好的基線,因?yàn)樗腔陂_放資源數(shù)據(jù)集 Redpajama 構(gòu)建的,該數(shù)據(jù)集可復(fù)現(xiàn)且評(píng)估數(shù)據(jù)泄露的風(fēng)險(xiǎn)低。

(3) NVIDIA A100上的運(yùn)行延遲比較

由于許多模型尚未得到最新的移動(dòng)推理框架支持,本文使用 PyTorch 框架在 NVIDIA A100 GPU 上比較了一些模型的推理延遲,如圖 3 所示。

MobileVLM V2 模型在 token 生成速度和測試基準(zhǔn)平均得分兩方面通常都有優(yōu)勢。MoileVLM V2 1B/3B 的速度分別為 37.37tokens /秒和 28.97tokens /秒,這比 MoE-LLaVA 的對(duì)應(yīng)參數(shù)量的模型快 1.65 倍,且平均性能更好。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

2. 模型規(guī)模分析

雖然本文的目標(biāo)是設(shè)計(jì)應(yīng)用在端側(cè)的多模態(tài)模型,但本文進(jìn)一步擴(kuò)大了模型的參數(shù)規(guī)模到 7B,以驗(yàn)證性能的上限。這也使得 MobileVLM V2 能夠與許多現(xiàn)有 VLM 進(jìn)行同異性比較。在都使用 Vicuna-7B 作為 LLM 模型的條件下,MobileVLM V2 在圖 4 中的結(jié)果展現(xiàn)出全面的多模態(tài)性能改進(jìn)。

如圖 5 和表 5 所示,文中將 MobileVLM V2 7B 與主流的大型 VLM 如 LLaVA-1.5 7B 和 ShareGPT4V 7B 在性能和推理速度上進(jìn)行了比較,可以看出 MobileVLM V2 7B 不僅在多個(gè)基準(zhǔn)測試中獲得了顯著的性能優(yōu)勢,而且在推理速度上也明顯領(lǐng)先。

在幾乎快了 20% 的情況下,MobileVLM V2 7B 在平均性能上比 ShareGPT4V 高出 1.3%。這進(jìn)一步說明了本文數(shù)據(jù)擴(kuò)展策略、訓(xùn)練策略和新的投影網(wǎng)絡(luò)設(shè)計(jì)的有效性。

可以觀察到,7B 模型的推理速度差距較小,所以在去除了減少 token 數(shù)的組件的設(shè)置下,本文的 7B 模型具有與 ShareGPT4V 相同的延遲速度,并且能夠達(dá)到性能上界。

表 4 的最后一行展示了這種設(shè)置下的比較結(jié)果,MobileVLM V2 7B(無 AvgPool)達(dá)到了 73.5% 的平均得分,顯著優(yōu)于 LLaVA-1.5 4.7 個(gè)百分點(diǎn)。與MobileVLM V2 7B(帶 AvgPool)相比,性能提升主要來自 TextVQA 任務(wù)分?jǐn)?shù)的提高,這是一個(gè) OCR 任務(wù),這項(xiàng)任務(wù)包含許多小物體,因此 token 數(shù)減少可能是有害的,本文作者將持續(xù)關(guān)注如何在未來的工作中有效利用高分辨率輸入的問題。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

3. NVIDIA Jetson Orin上的運(yùn)行延遲

在 Jetson Orin 平臺(tái)上, MobileVLM V2 在相同參數(shù)規(guī)模下展現(xiàn)了比其他模型更低的推理延遲。如表 5 所示,MobileVLM V2 具有最快的推理速度,這歸功于更加輕量化的投影網(wǎng)絡(luò)設(shè)計(jì):將原始的 576 個(gè)視覺提示 token 數(shù)優(yōu)化為 144 個(gè),同時(shí)在平均準(zhǔn)確率上的表現(xiàn)保持不變甚至更好。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

四、消融實(shí)驗(yàn)

1. 數(shù)據(jù)規(guī)模的影響

如表 6 所示,第一行代表 MobileVLM 1.7B 的基線。本文用 ShareGPT4V 數(shù)據(jù)集替換了預(yù)訓(xùn)練數(shù)據(jù)集,并將指令調(diào)優(yōu)數(shù)據(jù)集規(guī)模擴(kuò)展到 240 萬圖文對(duì),訓(xùn)練策略和模型架構(gòu)與基線保持一致。

在 GQA、SQA 和 TextVQA 上的性能提升表明,模型在認(rèn)知和對(duì)話方面的能力在數(shù)據(jù)增強(qiáng)后有所提高。然而,在更高質(zhì)量數(shù)據(jù)的配置下,保持原始訓(xùn)練策略不能充分利用數(shù)據(jù)優(yōu)勢,因此模型在 MME 和 MMBench 上的性能下降。

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

2. 訓(xùn)練策略的影響

基于對(duì)訓(xùn)練數(shù)據(jù)規(guī)模影線的觀察,本文進(jìn)一步探索了更合理的訓(xùn)練策略。在增強(qiáng)數(shù)據(jù)和小參數(shù)量 VLMs 的設(shè)置下,在全部階段對(duì)語言模型進(jìn)行訓(xùn)練能夠?qū)崿F(xiàn)更高效的學(xué)習(xí)。因此,本文選擇同時(shí)對(duì)投影網(wǎng)絡(luò)和語言模型進(jìn)行微調(diào)。比較結(jié)果顯示在表 6 的第二行和第三行,可以看到,這種訓(xùn)練設(shè)置使模型在大多數(shù) VLM 基準(zhǔn)測試中都實(shí)現(xiàn)了全面的性能提升,平均準(zhǔn)確率提高了 2%。

3. 投影網(wǎng)絡(luò)的影響

端側(cè)實(shí)時(shí)運(yùn)行、3B媲美7B!美團(tuán)、浙大等提出MobileVLM V2:更快、更強(qiáng)的端側(cè)視覺語言模型-AI.x社區(qū)

表 7 的第一行和第二行顯示,MobileVLM 提出的 LDPv1 在減少了 75% 的 token 數(shù)(從 576 減少到 144)的情況下,幾乎保持性能不變?;谛绿岢龅臄?shù)據(jù)配置和訓(xùn)練策略,上述相應(yīng)的架構(gòu)分別能夠?qū)崿F(xiàn)平均 5.4 和 4.5 的性能提升(見表 7 的第三行和第四行)。

然而,當(dāng)嘗試?yán)^續(xù)探索視覺和語言特征更好的對(duì)齊方法時(shí),本文觀察到增加可學(xué)習(xí)參數(shù)的數(shù)量容易導(dǎo)致訓(xùn)練過程陷入優(yōu)化困境,從而導(dǎo)致整體特征對(duì)齊效果的下降。

基于這一現(xiàn)象,本文首先用一個(gè)非常簡單的無參數(shù)操作,即 2×2 平均池化,替換了 LDPv1 中的 [DW^kPW] 塊,發(fā)現(xiàn)可以獲得平均 0.4 的性能提升(見表7的第五行)。

其次,為了使對(duì)齊的視覺特征具有更強(qiáng)的位置信息,本文使用可學(xué)習(xí)的位置編碼對(duì)位置信息進(jìn)行增強(qiáng),取得了 0.5 的性能提升。PEG 的位置編碼是動(dòng)態(tài)生成的,并且取決于輸入 token 的局部鄰域,受其啟發(fā),本文隨后用 PEG 層替換了可學(xué)習(xí)的 PE,以獲得更好的增強(qiáng)特征。表7的第7行顯示,這種設(shè)計(jì)帶來了 0.5 的平均性能改提升。

值得一提的是,在 MobileVLM V2 1.7B 中應(yīng)用的 PEG 層只包含 0.02M(2048×3×3)參數(shù),與 MobileVLM 中的 [DW^PW] 塊相比,可學(xué)習(xí)參數(shù)的數(shù)量減少了近 630 倍(從 12.64M 減少到 0.02M),但總體性能提高了 1.4,這證明了本文投影網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的有效性。

結(jié)論

本文提出了一系列基于 MobileVLM 的高效視覺-語言模型,稱為 MobileVLM V2。本文深入探索了數(shù)據(jù)配比、訓(xùn)練策略、以及模態(tài)對(duì)齊網(wǎng)絡(luò)的設(shè)計(jì),以在小參數(shù)量 VLM 模型的設(shè)置下提高整體性能。

在與 LLaVA-v1.5 相當(dāng)?shù)挠?xùn)練成本下,本文的方法在精度和實(shí)時(shí)推理性能方面達(dá)到了當(dāng)前針對(duì)真實(shí)的應(yīng)用環(huán)境的最優(yōu)綜合性能。在性能相當(dāng)?shù)那疤嵯?,本文的模型在推理?yōu)勢方面超越了許多更大的模型,這為在資源有限的場景中應(yīng)用先進(jìn)的 AI 技術(shù)提供了有效的方案。

本文轉(zhuǎn)載自PaperWeekly

原文鏈接:??https://mp.weixin.qq.com/s/WPLWmxkjlc6_2sn8ToHBqg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦