GitHub斬獲2.2k星！多模態(tài)大語言模型首篇綜述，論文列表實時更新

作者：新智元 2023-07-04 12:57:57

MLLM在具體的子方向上也都只進行了初步探索，比如M-ICL目前仍然缺乏對樣本選取以及排序的深入研究。

近來，多模態(tài)大語言模型（Multimodal Large Language Model，MLLM）受到廣泛關(guān)注，成為一個新興的研究熱點。

MLLM通常以大語言模型（Large Language Model，LLM）為基礎(chǔ)，融入其它非文本的模態(tài)信息，完成各種多模態(tài)任務。

圖片

相比于常規(guī)的多模態(tài)模型，MLLM涌現(xiàn)出一些令人驚嘆的新能力，例如基于圖片進行詩文創(chuàng)作和OCR-Free的數(shù)學推理等。這些強大的能力顯示MLLM有望成為實現(xiàn)通用人工智能的一種途徑。

為此，來自中科大、騰訊等機構(gòu)的研究人員深入探討了MLLM的研究進展并發(fā)表了該領(lǐng)域的首篇綜述《A Survey on Multimodal Large Language Models》：

圖片

論文鏈接：https://arxiv.org/pdf/2306.13549.pdf

圖片

項目鏈接（實時更新最新論文）：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

研究人員將MLLM定義為「由LLM擴展而來的具有接收與推理多模態(tài)信息能力的模型」，該類模型相較于熱門的單模態(tài)LLM具有以下的優(yōu)勢:

1. 更符合人類認知世界的習慣。人類具有多種感官來接受多種模態(tài)信息，這些信息通常是互為補充、協(xié)同作用的。因此，使用多模態(tài)信息一般可以更好地認知與完成任務。

2. 更加強大與用戶友好的接口。通過支持多模態(tài)輸入，用戶可以通過更加靈活的方式輸入與傳達信息。

3. 更廣泛的任務支持。LLM通常只能完成純文本相關(guān)的任務，而MLLM通過多模態(tài)可以額外完成更多任務，如圖片描述和視覺知識問答等。

該綜述主要圍繞MLLM的三個關(guān)鍵技術(shù)以及一個應用展開，包括:

1. 多模態(tài)指令微調(diào)(Multimodal Instruction Tuning，M-IT)

2. 多模態(tài)上下文學習(Multimodal In-Context Learning，M-ICL)

3. 多模態(tài)思維鏈(Multimodal Chain of Thought，M-CoT)

4. LLM輔助的視覺推理(LLM-Aided Visual Reasoning，LAVR)

前三項技術(shù)構(gòu)成了MLLM的基礎(chǔ)，而最后一個是以LLM為核心的多模態(tài)系統(tǒng)。

三項技術(shù)作為LLM的代表性能力在NLP領(lǐng)域已有廣泛研究，但擴展到多模態(tài)領(lǐng)域時會出現(xiàn)許多新的特點與挑戰(zhàn)。

LLM輔助的視覺推理系統(tǒng)涉及幾種典型的設(shè)計思路，即將LLM作為控制器、決策器或語義修飾器。

CVPR 2023最佳論文Visual Programming [1]即采用了將LLM作為控制器的設(shè)計思路。本文將對前述的幾個方面以及相關(guān)挑戰(zhàn)做簡單的概覽，更豐富的內(nèi)容請參考原文。

多模態(tài)指令微調(diào) M-IT

指令（Instruction）指的是對任務的描述，多模態(tài)指令微調(diào)是一種通過指令格式的數(shù)據(jù)（Instruction-formatted data）來微調(diào)預訓練的MLLM的技術(shù)。

通過該技術(shù)，MLLM可以跟隨新的指令泛化到未見過的任務上，提升zero-shot性能。多模態(tài)的指令格式如下所示：

圖1.M-IT格式

多模態(tài)指令數(shù)據(jù)的基本形式可以概括為（指令，多模態(tài)輸入，回答）三元組。指令的設(shè)計可以分為手工設(shè)計與GPT輔助設(shè)計這兩種方式。

前者指的是人工為每種任務設(shè)計一系列指令模板，比如對于傳統(tǒng)的視覺問答任務，指令可以設(shè)計為「<image> What is the answer to the question? {question}」，其中<image>和{question}（對應著圖1中的<text>）為原有視覺問答任務中的圖像和問題。

另一種GPT輔助設(shè)計的方式是通過手工設(shè)計少量樣例來Prompt GPT生成更豐富的指令。

對于多模態(tài)指令微調(diào)，研究人員從數(shù)據(jù)、模態(tài)橋接（Modality Bridging）和評測三個方面對現(xiàn)有工作進行了總結(jié)，如下圖所示：

圖2.M-IT總結(jié)

多模態(tài)上下文學習 M-ICL

多模態(tài)上下文學習指的是給定少量樣例作為Prompt輸入，激發(fā)模型潛在的能力并規(guī)范化模型的輸出。其樣例如下圖所示：

圖3.M-CoT樣例

目前以Flamingo[2]為代表的M-ICL相關(guān)的研究工作還比較少。

LLM通常不需要專門的訓練即可擁有ICL能力，但現(xiàn)階段的MLLM還比較依賴訓練，并且仍缺乏對樣例選擇和樣例順序等方面的深入研究。

多模態(tài)思維鏈 M-CoT

多模態(tài)思維鏈通過顯示地逐步推理（給出中間的推理步驟）來獲得多模態(tài)任務的答案。相比于直接輸出答案，M-CoT在較為復雜的推理任務上能夠取得更好的表現(xiàn)。

研究人員從模態(tài)橋接（Modality Bridging）、學習范式、思維鏈配置以及生成模式這四個方面總結(jié)了當前的研究：

圖4. M-CoT總結(jié)

目前M-CoT的研究也較少，仍處在初步探索階段。

LLM輔助的視覺推理 LAVR

這類工作利用LLM強大的內(nèi)嵌知識與能力以及其他工具，設(shè)計各種視覺推理系統(tǒng)。

相比于傳統(tǒng)視覺推理模型，這些工作具有以下的好的特性:

（1）強大的零/少樣本泛化能力

（2）具備新的能力，這些系統(tǒng)能夠執(zhí)行更加復雜的任務，如解讀梗圖的深層含義

（3）更好的互動性與可控性

研究人員從訓練范式、LLM扮演的角色以及評測三個部分總結(jié)了當前的進展：

圖5.LAVR總結(jié)

挑戰(zhàn)和未來方向

目前來看，MLLM的發(fā)展還處于起步階段，無論是相關(guān)技術(shù)還是具體應用都還存在著許多挑戰(zhàn)與可研究的問題，可以總結(jié)為以下幾點:

1. 現(xiàn)有MLLM的感知能力受限，導致獲取的視覺信息不完整或者有誤，并進一步使得后續(xù)的推理出錯。這可能是因為現(xiàn)有模型在信息容量和計算負擔之間的妥協(xié)造成的。

2. MLLM的推理鏈較為脆弱。表現(xiàn)為即使是做簡單的多模態(tài)推理問題，模型有時仍會因為推理鏈條斷裂導致輸出錯誤答案。

3. MLLM的指令服從能力需要進一步提升。表現(xiàn)為在進行指令微調(diào)后，即使是較為簡單的指令，部分MLLM仍然無法輸出預期的答案。

4. 物體幻視問題普遍存在。表現(xiàn)為MLLM輸出的回復與圖片的內(nèi)容不相符，出現(xiàn)了編造物體等現(xiàn)象，影響了MLLM的可靠性。

5. 高效參數(shù)訓練。由于MLLM的模型容量很大，在計算資源受限的條件下，高效參數(shù)訓練有望能夠解鎖更多MLLM的能力。

上述前四點問題在與本文同系列的論文（https://arxiv.org/pdf/2306.13394.pdf）中有非常詳細的評測和討論，歡迎大家閱讀。

除了上述問題外，MLLM在具體的子方向上也都只進行了初步探索，比如M-ICL目前仍然缺乏對樣本選取以及排序的深入研究。

參考資料：

[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023

[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019

責任編輯：武曉燕來源：新智元

多模態(tài)語言模型