自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

達(dá)摩院貓頭鷹mPLUG-Owl亮相:模塊化多模態(tài)大模型,追趕GPT-4多模態(tài)能力

人工智能 新聞
阿里達(dá)摩院便推出 mPLUG-Owl ,一個(gè)基于模塊化實(shí)現(xiàn)的多模態(tài)大模型。

純文本大模型方興未艾,多模態(tài)領(lǐng)域也開始涌現(xiàn)出多模態(tài)大模型工作,地表最強(qiáng)的 GPT-4 具備讀圖的多模態(tài)能力,但是遲遲未向公眾開放體驗(yàn),于是乎研究社區(qū)開始在這個(gè)方向上發(fā)力研究并開源。MiniGPT-4 和 LLaVA 問世不久,阿里達(dá)摩院便推出 mPLUG-Owl ,一個(gè)基于模塊化實(shí)現(xiàn)的多模態(tài)大模型。

mPLUG-Owl 是阿?巴巴達(dá)摩院 mPLUG 系列的最新工作,延續(xù)了 mPLUG 系列的模塊化訓(xùn)練思想,把 LLM 升級為一個(gè)多模態(tài)大模型。在 mPLUG 系列工作中,之前的 E2E-VLP 、mPLUG 、mPLUG-2 分別被 ACL2021 、EMNLP2022、ICML2023 錄用,其中 mPLUG 工作在 VQA 榜單首超人類的成績。

今天要介紹的是 mPLUG-Owl,該工作不僅通過大量 cases 展示出優(yōu)秀的多模態(tài)能力,還第一次針對視覺相關(guān)的指令理解提出一個(gè)全?的測試集 OwlEval,通過人工評測對比了已有模型,包括 LLaVA 、MiniGPT-4 、BLIP-2 以及系統(tǒng)類 MM-REACT 等工作,實(shí)驗(yàn)結(jié)果表明 mPLUG-Owl 展示出更優(yōu)的多模態(tài)能力,尤其在多模態(tài)指令理解能力、多輪對話能力、知識(shí)推理能力等方?表現(xiàn)突出

圖片

論文鏈接:https://arxiv.org/abs/2304.14178

代碼鏈接:https://github.com/X-PLUG/mPLUG-Owl

ModelScope體驗(yàn)地址:

https://modelscope.cn/studios/damo/mPLUG-Owl/summary

HuggingFace體驗(yàn)地址:

https://huggingface.co/spaces/MAGAer13/mPLUG-Owl

多模態(tài)能力展示

我們把 mPLUG-Owl 與現(xiàn)有工作進(jìn)行對比來感受一下 mPLUG-Owl 的多模態(tài)效果,值得一提的是,該工作中評比的測試樣例基本上都來自已有工作,避免了 cherry pick 問題。

下圖 6 展示了 mPLUG-Owl 很強(qiáng)的多輪對話能力。

圖片

從圖 7 中可以發(fā)現(xiàn),  mPLUG-Owl 具有很強(qiáng)的推理能力。

圖片

如圖 9 展示了一些笑話解釋例?。

圖片

在該工作中,除了評測對比外,該研究團(tuán)隊(duì)還觀察到 mPLUG-Owl 初顯一些意想不到的能力,比如多圖關(guān)聯(lián)、多語?、文字識(shí)別和文檔理解等能力。

如圖 10 所示,雖然在訓(xùn)練階段并沒有進(jìn)行多圖關(guān)聯(lián)數(shù)據(jù)的訓(xùn)練,mPLUG-Owl 展現(xiàn)出了一定的多圖關(guān)聯(lián)能力。

圖片

如圖 11 所示,盡管 mPLUG-Owl 在訓(xùn)練階段僅使用了英文數(shù)據(jù),但其展現(xiàn)出了有趣的多語?能力。這可能是因?yàn)?mPLUG-Owl 中的語?模型使用了 LLaMA,從而出現(xiàn)了這一現(xiàn)象。

圖片

盡管 mPLUG-Owl 沒有在帶有標(biāo)注的文檔數(shù)據(jù)上進(jìn)行訓(xùn)練,但其仍然展現(xiàn)出了一定的文字識(shí)別和文檔理解能力,測試結(jié)果如圖 12 所示。

圖片

方法介紹

該工作提出的 mPLUG-Owl,其整體架構(gòu)如圖 2 所示。

圖片

模型結(jié)構(gòu):它由視覺基礎(chǔ)模塊

圖片

(開源的 ViT-L)、視覺抽象模塊

圖片

以及預(yù)訓(xùn)練語?模型

圖片

( LLaMA-7B) 組成。視覺抽象模塊將較?的、細(xì)粒度的圖像特征概括為少量可學(xué)習(xí)的 Token,從而實(shí)現(xiàn)對視覺信息的?效建模。?成的視覺 Token 與文本查詢一起輸?到語?模型中,以?成相應(yīng)的回復(fù)。

模型訓(xùn)練:采用兩階段的訓(xùn)練方式

第一階段:主要目的也是先學(xué)習(xí)視覺和語?模態(tài)間的對?。不同于先前的工作,  mPLUG-Owl 提出凍住視覺基礎(chǔ)模塊會(huì)限制模型關(guān)聯(lián)視覺知識(shí)和文本知識(shí)的能力。  因此 mPLUG-Owl 在第一階段只凍住 LLM 的參數(shù),采用 LAION-400M,  COYO-700M,  CC 以及 MSCOCO 訓(xùn)練視覺基礎(chǔ)模塊和視覺摘要模塊。

第?階段:延續(xù) mPLUG 和 mPLUG-2 中不同模態(tài)混合訓(xùn)練對彼此有收益的發(fā)現(xiàn),Owl 在第?階段的指令微調(diào)訓(xùn)練中也同時(shí)采用了純文本的指令數(shù)據(jù) (52kfrom Alpaca+90k from Vicuna+50k from Baize) 和多模態(tài)的指令數(shù)據(jù) (150k from LLaVA)。作者通過詳細(xì)的消融實(shí)驗(yàn)驗(yàn)證了引?純文本指令微調(diào)在指令理解等方?帶來的收益。第?階段中視覺基礎(chǔ)模塊、視覺摘要模塊和原始 LLM 的參數(shù)都被凍住,參考 LoRA,只在 LLM 引?少量參數(shù)的 adapter 結(jié)構(gòu)用于指令微調(diào)。

實(shí)驗(yàn)結(jié)果

SOTA 對比

為了比較不同模型的多模態(tài)能力,該工作構(gòu)建一個(gè)多模態(tài)指令評測集 OwlEval。由于?前并沒有合適的自動(dòng)化指標(biāo),參考 Self-Intruct 對模型的回復(fù)進(jìn)行人工評測,打分規(guī)則為:A="正確且令人滿意";B="有一些不完美,但可以接受";C="理解了指令但是回復(fù)存在明顯錯(cuò)誤";D="完全不相關(guān)或不正確的回復(fù)"。

對比結(jié)果如下圖 3 所示,實(shí)驗(yàn)證明 Owl 在視覺相關(guān)的指令回復(fù)任務(wù)上優(yōu)于已有的 OpenFlamingo 、BLIP-2 、LLaVA、MiniGPT-4。

圖片

多維度能力對比

多模態(tài)指令回復(fù)任務(wù)中牽扯到多種能力,例如指令理解、視覺理解、圖?上文字理解以及推理等。為了細(xì)粒度地探究模型在不同能力上的?平,本文進(jìn)一步定義了多模態(tài)場景中的 6 種主要的能力,并對 OwlEval 每個(gè)測試指令人工標(biāo)注了相關(guān)的能力要求以及模型的回復(fù)中體現(xiàn)了哪些能力。

結(jié)果如下表格 6 所示,在該部分實(shí)驗(yàn),作者既進(jìn)行了 Owl 的消融實(shí)驗(yàn),驗(yàn)證了訓(xùn)練策略和多模態(tài)指令微調(diào)數(shù)據(jù)的有效性,也和上一個(gè)實(shí)驗(yàn)中表現(xiàn)最佳的 baseline— MiniGPT4 進(jìn)行了對比,結(jié)果顯示 Owl 在各個(gè)能力方?都優(yōu)于 MiniGPT4。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-05-30 10:23:45

模型研究

2023-08-14 07:20:10

2024-08-19 13:35:09

2024-08-08 13:04:28

2023-09-19 13:48:31

AI數(shù)據(jù)

2025-01-08 08:21:16

2023-12-23 23:35:13

語言視覺

2024-03-01 11:58:26

MLLMs大語言模型人工智能

2023-07-23 18:55:20

ChatGPTGPT-4

2023-03-21 15:23:52

模型測試

2023-04-28 15:27:06

微軟模型

2023-03-10 13:30:01

微軟人工智能

2024-11-13 09:39:13

2024-12-18 18:57:58

2023-05-15 12:14:02

ChatGPT語音模型

2023-07-05 09:57:11

2023-03-10 13:03:09

人工智能模型

2023-06-02 13:39:00

GPT-3開源GPU
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)