達(dá)摩院貓頭鷹mPLUG-Owl亮相:模塊化多模態(tài)大模型,追趕GPT-4多模態(tài)能力
純文本大模型方興未艾,多模態(tài)領(lǐng)域也開始涌現(xiàn)出多模態(tài)大模型工作,地表最強(qiáng)的 GPT-4 具備讀圖的多模態(tài)能力,但是遲遲未向公眾開放體驗(yàn),于是乎研究社區(qū)開始在這個(gè)方向上發(fā)力研究并開源。MiniGPT-4 和 LLaVA 問世不久,阿里達(dá)摩院便推出 mPLUG-Owl ,一個(gè)基于模塊化實(shí)現(xiàn)的多模態(tài)大模型。
mPLUG-Owl 是阿?巴巴達(dá)摩院 mPLUG 系列的最新工作,延續(xù)了 mPLUG 系列的模塊化訓(xùn)練思想,把 LLM 升級為一個(gè)多模態(tài)大模型。在 mPLUG 系列工作中,之前的 E2E-VLP 、mPLUG 、mPLUG-2 分別被 ACL2021 、EMNLP2022、ICML2023 錄用,其中 mPLUG 工作在 VQA 榜單首超人類的成績。
今天要介紹的是 mPLUG-Owl,該工作不僅通過大量 cases 展示出優(yōu)秀的多模態(tài)能力,還第一次針對視覺相關(guān)的指令理解提出一個(gè)全?的測試集 OwlEval,通過人工評測對比了已有模型,包括 LLaVA 、MiniGPT-4 、BLIP-2 以及系統(tǒng)類 MM-REACT 等工作,實(shí)驗(yàn)結(jié)果表明 mPLUG-Owl 展示出更優(yōu)的多模態(tài)能力,尤其在多模態(tài)指令理解能力、多輪對話能力、知識(shí)推理能力等方?表現(xiàn)突出
論文鏈接:https://arxiv.org/abs/2304.14178
代碼鏈接:https://github.com/X-PLUG/mPLUG-Owl
ModelScope體驗(yàn)地址:
https://modelscope.cn/studios/damo/mPLUG-Owl/summary
HuggingFace體驗(yàn)地址:
https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
多模態(tài)能力展示
我們把 mPLUG-Owl 與現(xiàn)有工作進(jìn)行對比來感受一下 mPLUG-Owl 的多模態(tài)效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了 cherry pick 問題。
下圖 6 展示了 mPLUG-Owl 很強(qiáng)的多輪對話能力。
從圖 7 中可以發(fā)現(xiàn), mPLUG-Owl 具有很強(qiáng)的推理能力。
如圖 9 展示了一些笑話解釋例?。
在該工作中,除了評測對比外,該研究團(tuán)隊(duì)還觀察到 mPLUG-Owl 初顯一些意想不到的能力,比如多圖關(guān)聯(lián)、多語?、文字識(shí)別和文檔理解等能力。
如圖 10 所示,雖然在訓(xùn)練階段并沒有進(jìn)行多圖關(guān)聯(lián)數(shù)據(jù)的訓(xùn)練,mPLUG-Owl 展現(xiàn)出了一定的多圖關(guān)聯(lián)能力。
如圖 11 所示,盡管 mPLUG-Owl 在訓(xùn)練階段僅使用了英文數(shù)據(jù),但其展現(xiàn)出了有趣的多語?能力。這可能是因?yàn)?mPLUG-Owl 中的語?模型使用了 LLaMA,從而出現(xiàn)了這一現(xiàn)象。
盡管 mPLUG-Owl 沒有在帶有標(biāo)注的文檔數(shù)據(jù)上進(jìn)行訓(xùn)練,但其仍然展現(xiàn)出了一定的文字識(shí)別和文檔理解能力,測試結(jié)果如圖 12 所示。
方法介紹
該工作提出的 mPLUG-Owl,其整體架構(gòu)如圖 2 所示。
模型結(jié)構(gòu):它由視覺基礎(chǔ)模塊
(開源的 ViT-L)、視覺抽象模塊
以及預(yù)訓(xùn)練語?模型
( LLaMA-7B) 組成。視覺抽象模塊將較?的、細(xì)粒度的圖像特征概括為少量可學(xué)習(xí)的 Token,從而實(shí)現(xiàn)對視覺信息的?效建模。?成的視覺 Token 與文本查詢一起輸?到語?模型中,以?成相應(yīng)的回復(fù)。
模型訓(xùn)練:采用兩階段的訓(xùn)練方式
第一階段:主要目的也是先學(xué)習(xí)視覺和語?模態(tài)間的對?。不同于先前的工作, mPLUG-Owl 提出凍住視覺基礎(chǔ)模塊會(huì)限制模型關(guān)聯(lián)視覺知識(shí)和文本知識(shí)的能力。 因此 mPLUG-Owl 在第一階段只凍住 LLM 的參數(shù),采用 LAION-400M, COYO-700M, CC 以及 MSCOCO 訓(xùn)練視覺基礎(chǔ)模塊和視覺摘要模塊。
第?階段:延續(xù) mPLUG 和 mPLUG-2 中不同模態(tài)混合訓(xùn)練對彼此有收益的發(fā)現(xiàn),Owl 在第?階段的指令微調(diào)訓(xùn)練中也同時(shí)采用了純文本的指令數(shù)據(jù) (52kfrom Alpaca+90k from Vicuna+50k from Baize) 和多模態(tài)的指令數(shù)據(jù) (150k from LLaVA)。作者通過詳細(xì)的消融實(shí)驗(yàn)驗(yàn)證了引?純文本指令微調(diào)在指令理解等方?帶來的收益。第?階段中視覺基礎(chǔ)模塊、視覺摘要模塊和原始 LLM 的參數(shù)都被凍住,參考 LoRA,只在 LLM 引?少量參數(shù)的 adapter 結(jié)構(gòu)用于指令微調(diào)。
實(shí)驗(yàn)結(jié)果
SOTA 對比
為了比較不同模型的多模態(tài)能力,該工作構(gòu)建一個(gè)多模態(tài)指令評測集 OwlEval。由于?前并沒有合適的自動(dòng)化指標(biāo),參考 Self-Intruct 對模型的回復(fù)進(jìn)行人工評測,打分規(guī)則為:A="正確且令人滿意";B="有一些不完美,但可以接受";C="理解了指令但是回復(fù)存在明顯錯(cuò)誤";D="完全不相關(guān)或不正確的回復(fù)"。
對比結(jié)果如下圖 3 所示,實(shí)驗(yàn)證明 Owl 在視覺相關(guān)的指令回復(fù)任務(wù)上優(yōu)于已有的 OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。
多維度能力對比
多模態(tài)指令回復(fù)任務(wù)中牽扯到多種能力,例如指令理解、視覺理解、圖?上文字理解以及推理等。為了細(xì)粒度地探究模型在不同能力上的?平,本文進(jìn)一步定義了多模態(tài)場景中的 6 種主要的能力,并對 OwlEval 每個(gè)測試指令人工標(biāo)注了相關(guān)的能力要求以及模型的回復(fù)中體現(xiàn)了哪些能力。
結(jié)果如下表格 6 所示,在該部分實(shí)驗(yàn),作者既進(jìn)行了 Owl 的消融實(shí)驗(yàn),驗(yàn)證了訓(xùn)練策略和多模態(tài)指令微調(diào)數(shù)據(jù)的有效性,也和上一個(gè)實(shí)驗(yàn)中表現(xiàn)最佳的 baseline— MiniGPT4 進(jìn)行了對比,結(jié)果顯示 Owl 在各個(gè)能力方?都優(yōu)于 MiniGPT4。