自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源

發(fā)布于 2024-4-22 12:48
瀏覽
0收藏

引言

近年來,多模態(tài)大型語言模型(MLLM)在各個(gè)領(lǐng)域的應(yīng)用取得了顯著的成功。然而,作為許多下游任務(wù)的基礎(chǔ)模型,當(dāng)前的 MLLM 由眾所周知的 Transformer 網(wǎng)絡(luò)構(gòu)成,這種網(wǎng)絡(luò)具有較低效的二次計(jì)算復(fù)雜度。為了提高這類基礎(chǔ)模型的效率,大量的實(shí)驗(yàn)表明:(1)Cobra 與當(dāng)前計(jì)算效率高的最先進(jìn)方法(例如,LLaVA-Phi,TinyLLaVA 和 MobileVLM v2)具有極具競爭力的性能,并且由于 Cobra 的線性序列建模,其速度更快。(2)有趣的是,封閉集挑戰(zhàn)性預(yù)測基準(zhǔn)的結(jié)果顯示,Cobra 在克服視覺錯(cuò)覺和空間關(guān)系判斷方面表現(xiàn)良好。(3)值得注意的是,Cobra 甚至在參數(shù)數(shù)量只有 LLaVA 的 43% 左右的情況下,也取得了與 LLaVA 相當(dāng)?shù)男阅堋?/p>


大語言模型(LLMs)受限于僅通過語言進(jìn)行交互,限制了它們處理更多樣化任務(wù)的適應(yīng)性。多模態(tài)理解對于增強(qiáng)模型有效應(yīng)對現(xiàn)實(shí)世界挑戰(zhàn)的能力至關(guān)重要。因此,研究人員正在積極努力擴(kuò)展大型語言模型,以納入多模態(tài)信息處理能力。視覺 - 語言模型(VLMs)如 GPT-4、LLaMA-Adapter 和 LLaVA 已經(jīng)被開發(fā)出來,以增強(qiáng) LLMs 的視覺理解能力。


然而,先前的研究主要嘗試以類似的方法獲得高效的 VLMs,即在保持基于注意力的 Transformer 結(jié)構(gòu)不變的情況下減少基礎(chǔ)語言模型的參數(shù)或視覺 token 的數(shù)量。本文提出了一個(gè)不同的視角:直接采用狀態(tài)空間模型(SSM)作為骨干網(wǎng)絡(luò),得到了一種線性計(jì)算復(fù)雜度的 MLLM。此外,本文還探索和研究了各種模態(tài)融合方案,以創(chuàng)建一個(gè)有效的多模態(tài) Mamba。具體來說,本文采用 Mamba 語言模型作為 VLM 的基礎(chǔ)模型,它已經(jīng)顯示出可以與 Transformer 語言模型競爭的性能,但推理效率更高。測試顯示 Cobra 的推理性能比同參數(shù)量級的 MobileVLM v2 3B 和 TinyLLaVA 3B 快 3 倍至 4 倍。即使與參數(shù)數(shù)量更多的 LLaVA v1.5 模型(7B 參數(shù))相比,Cobra 仍然可以在參數(shù)數(shù)量約為其 43% 的情況下在幾個(gè)基準(zhǔn)測試上實(shí)現(xiàn)可以匹配的性能。


首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源-AI.x社區(qū)

圖 Cobra 和 LLaVA v1.5 7B 在生成速度上的 Demo


本文的主要貢獻(xiàn)如下:


  1. 調(diào)查了現(xiàn)有的多模態(tài)大型語言模型(MLLMs)通常依賴于 Transformer 網(wǎng)絡(luò),這表現(xiàn)出二次方的計(jì)算復(fù)雜度。為了解決這種低效問題,本文引入了 Cobra,一個(gè)新穎的具有線性計(jì)算復(fù)雜度的 MLLM。
  2. 深入探討了各種模態(tài)融合方案,以優(yōu)化 Mamba 語言模型中視覺和語言信息的整合。通過實(shí)驗(yàn),本文探索了不同融合策略的有效性,確定了產(chǎn)生最有效多模態(tài)表示的方法。
  3. 進(jìn)行了廣泛的實(shí)驗(yàn),評估 Cobra 與旨在提高基礎(chǔ) MLLM 計(jì)算效率的并行研究的性能。值得注意的是,Cobra 甚至在參數(shù)更少的情況下實(shí)現(xiàn)了與 LLaVA 相當(dāng)?shù)男阅?,突顯了其效率。


首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源-AI.x社區(qū)


  • 原文鏈接:https://arxiv.org/pdf/2403.14520v2.pdf
  • 項(xiàng)目鏈接:https://sites.google.com/view/cobravlm/
  • 論文標(biāo)題:Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference

方法介紹

模型架構(gòu)


Cobra 采用了經(jīng)典的視覺編碼器、連接兩個(gè)模態(tài)的投影器和 LLM 語言主干組成的 VLM 結(jié)構(gòu)。LLM 主干部分采用了 2.8B 參數(shù)預(yù)訓(xùn)練的 Mamba 語言模型,該模型在 600B token 數(shù)量的 SlimPajama 數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練并經(jīng)過了對話數(shù)據(jù)的指令微調(diào)。


首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源-AI.x社區(qū)

圖 Cobra 網(wǎng)絡(luò)結(jié)構(gòu)圖


與 LLaVA 等工作不同的是,Cobra 采用了 DINOv2 和 SigLIP 融合的視覺表征,通過將兩個(gè)視覺編碼器的輸出拼接在一起送入投影器,模型能夠更好的捕捉到 SigLIP 帶來的高層次的語義特征和 DINOv2 提取的低層次的細(xì)粒度圖像特征。


訓(xùn)練方案


最近的研究表明,對于基于 LLaVA 的現(xiàn)有訓(xùn)練范式(即,只訓(xùn)練投影層的預(yù)對齊階段和 LLM 骨干的微調(diào)階段各一次),預(yù)對齊階段可能是不必要的,而且微調(diào)后的模型仍處于欠擬合狀態(tài)。因此,Cobra 舍棄了預(yù)對齊階段,直接對整個(gè) LLM 語言主干和投影器進(jìn)行微調(diào)。這個(gè)微調(diào)過程在一個(gè)組合數(shù)據(jù)集上隨機(jī)抽樣進(jìn)行兩個(gè)周期,該數(shù)據(jù)集包括:


  1. 在 LLaVA v1.5 中使用的混合數(shù)據(jù)集,其中包含總計(jì) 655K 視覺多輪對話,包括學(xué)術(shù) VQA 樣本,以及 LLaVA-Instruct 中的視覺指令調(diào)優(yōu)數(shù)據(jù)和 ShareGPT 中的純文本指令調(diào)優(yōu)數(shù)據(jù)。
  2. LVIS-Instruct-4V,其中包含 220K 張帶有視覺對齊和上下文感知指令的圖片,這些指令由 GPT-4V 生成。
  3. LRV-Instruct,這是一個(gè)包含 400K 視覺指令數(shù)據(jù)集,覆蓋了 16 個(gè)視覺語言任務(wù),目的是減輕幻覺現(xiàn)象。


整個(gè)數(shù)據(jù)集大約包含 120 萬張圖片和相應(yīng)的多輪對話數(shù)據(jù),以及純文本對話數(shù)據(jù)。

實(shí)驗(yàn)

定量實(shí)驗(yàn)


實(shí)驗(yàn)部分,本文對提出的 Cobra 模型和開源的 SOTA VLM 模型在基礎(chǔ) benchmark 上進(jìn)行了比較,并對比了與同量級基于 Transformer 架構(gòu)的 VLM 模型的回答速度。


首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源-AI.x社區(qū)

圖 生成速度和性能對比圖


同時(shí),Cobra 也與更多的模型在 VQA-v2,GQA,VizWiz,TextVQA 四個(gè)開放 VQA 任務(wù)以及 VSR,POPE 兩個(gè)閉集預(yù)測任務(wù),共 6 個(gè) benchmark 上進(jìn)行了分?jǐn)?shù)對比。


首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源-AI.x社區(qū)

圖 在 Benchmark 上和其他開源模型的對比


定性試驗(yàn)


此外 Cobra 也給出了兩個(gè) VQA 示例以定性說明 Cobra 在物體的空間關(guān)系認(rèn)知和減輕模型幻覺兩個(gè)能力上的優(yōu)越性。


首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源-AI.x社區(qū)

圖 Cobra 和其他基線模型在物體空間關(guān)系判斷的示例


首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源-AI.x社區(qū)

圖 Cobra 和其他基線模型在關(guān)于視覺錯(cuò)覺現(xiàn)象的示例


在示例中,LLaVA v1.5 和 MobileVLM 均給出了錯(cuò)誤答案,而 Cobra 則在兩個(gè)問題上都做出了準(zhǔn)確的描述,尤其在第二個(gè)實(shí)例中,Cobra 準(zhǔn)確的識別出了圖片是來自于機(jī)器人的仿真環(huán)境。


消融實(shí)驗(yàn)


本文從性能和生成速度這兩個(gè)維度對 Cobra 采取的方案進(jìn)行了消融研究。實(shí)驗(yàn)方案分別對投影器、視覺編碼器、LLM 語言主干進(jìn)行了消融實(shí)驗(yàn)。 


首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源-AI.x社區(qū)

圖 消融實(shí)驗(yàn)的性能對比圖


投影器部分的消融實(shí)驗(yàn)結(jié)果顯示,本文采取的 MLP 投影器在效果上顯著優(yōu)于致力于減少視覺 token 數(shù)量以提升運(yùn)算速度的 LDP 模塊,同時(shí),由于 Cobra 處理序列的速度和運(yùn)算復(fù)雜度均優(yōu)于 Transformer,在生成速度上 LDP 模塊并沒有明顯優(yōu)勢,因此在 Mamba 類模型中使用通過犧牲精度減少視覺 token 數(shù)量的采樣器可能是不必要的。


首個(gè)基于Mamba的MLLM來了!模型權(quán)重、訓(xùn)練代碼等已全部開源-AI.x社區(qū)

圖 Cobra 和其他模型在生成速度上的數(shù)值對比


視覺編碼器部分的消融結(jié)果表明,DINOv2 特征的融合有效的提升了 Cobra 的性能。而在語言主干的實(shí)驗(yàn)中,未經(jīng)過指令微調(diào)的 Mamba 語言模型在開放問答的測試中完全無法給出合理的答案,而經(jīng)過微調(diào)的 Mamba 語言模型則可以在各類任務(wù)上達(dá)到可觀的表現(xiàn)。

結(jié)論

本文提出了 Cobra,它解決了現(xiàn)有依賴于具有二次計(jì)算復(fù)雜度的 Transformer 網(wǎng)絡(luò)的多模態(tài)大型語言模型的效率瓶頸。本文探索了具有線性計(jì)算復(fù)雜度的語言模型與多模態(tài)輸入的結(jié)合。在融合視覺和語言信息方面,本文通過對不同模態(tài)融合方案的深入研究,成功優(yōu)化了 Mamba 語言模型的內(nèi)部信息整合,實(shí)現(xiàn)了更有效的多模態(tài)表征。實(shí)驗(yàn)表明,Cobra 不僅顯著提高了計(jì)算效率,而且在性能上與先進(jìn)模型如 LLaVA 相當(dāng),尤其在克服視覺幻覺和空間關(guān)系判斷方面表現(xiàn)出色。它甚至顯著減少了參數(shù)的數(shù)量。這為未來在需要高頻處理視覺信息的環(huán)境中部署高性能 AI 模型,如基于視覺的機(jī)器人反饋控制,開辟了新的可能性。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/KuuNTL_jBRsyhub5_6aXpQ??

標(biāo)簽
已于2024-4-22 12:49:00修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦