自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

「多模態(tài)LLM」最新介紹!數(shù)據(jù)、論文集直接打包帶走

人工智能 新聞
全面了解多模態(tài)大語言模型,首個(gè)跟蹤MLLM進(jìn)展的論文集合發(fā)布。

圖片

進(jìn)展跟蹤鏈接(Awesome-MLLM,實(shí)時(shí)更新):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

近年來,大型語言模型Large Language Models(LLM)的研究取得了顯著的進(jìn)展(例如GPT-3,LLaMa,ChatGPT,GPT-4),這些模型在各項(xiàng)自然語言處理(NLP)任務(wù)上展現(xiàn)了出色的性能。

通過在海量數(shù)據(jù)上預(yù)訓(xùn)練,LLM獲得了豐富的知識(shí)以及強(qiáng)大的推理能力。只需要輸入一些用戶指令,這些模型就可以解析指令、進(jìn)行推理并給出符合用戶預(yù)期的回答。

LLM具有的一些典型能力包括:

  • · 執(zhí)行訓(xùn)練時(shí)未見過的新任務(wù);
  • · 通過少量樣例完成新任務(wù);
  • · 通過推理鏈條執(zhí)行復(fù)雜的推理任務(wù);
  • · 協(xié)調(diào)各種模型與工具完成復(fù)合任務(wù)。

這些能力背后蘊(yùn)含著眾多關(guān)鍵思想和技術(shù),包括指令微調(diào)(Instruction Tuning),上下文學(xué)習(xí)(In-Context Learning)和思維鏈(Chain of Thought)等。

多模態(tài)大型語言模型

盡管大語言模型在NLP領(lǐng)域取得了長足的發(fā)展,相應(yīng)的模型與技術(shù)在多模態(tài)領(lǐng)域則較少探索,且傳統(tǒng)視覺-語言模型仍存在著泛化性不足以及缺乏推理能力等局限。

為此,近期眾多學(xué)者將注意力轉(zhuǎn)向一個(gè)新興的方向:多模態(tài)大型語言模型Multimodal Large Language Models(MLLM)。

其主要思想是以LLM作為「大腦」對(duì)輸入的多模態(tài)信息進(jìn)行整合、推理、分析和決斷,從而完成人類交付的任務(wù)。

圖片

從發(fā)展通用人工智能的視角看,相比于LLM,MLLM又向前邁進(jìn)了一步,且具有以下優(yōu)點(diǎn):

· 更符合人類認(rèn)知世界的習(xí)慣。人類具有多種感官,接受多種模態(tài)信息,這些信息常常是互補(bǔ)的、協(xié)同作用的。因此,使用多模態(tài)信息一般可以更好地認(rèn)知與完成復(fù)雜任務(wù);

· 更加強(qiáng)大與用戶友好(User-Friendly)的接口。通過支持多模態(tài)輸入,用戶可以通過更加靈活的方式傳達(dá)信息;

· 更廣泛的任務(wù)支持。LLM通常只能完成NLP相關(guān)任務(wù),而MLLM通過接入多模態(tài)可以完成更多任務(wù)。

從系統(tǒng)設(shè)計(jì)的角度來看,MLLM可以分為兩類:

· LLM作為推理器的、支持多模態(tài)輸入的認(rèn)知推理系統(tǒng);

· LLM作為規(guī)劃器/調(diào)度器/決策器的多工具協(xié)作系統(tǒng)。

前者一般通過可訓(xùn)練的多模態(tài)轉(zhuǎn)換接口將多模態(tài)信息轉(zhuǎn)化為LLM可以直接接收、處理的形態(tài),使LLM可以基于這些多模態(tài)信息以及用戶指令進(jìn)行認(rèn)知與推理。

后者通常以LLM作為規(guī)劃器/調(diào)度器/決策器[1],將用戶交付的復(fù)雜任務(wù)分解為更簡單的子任務(wù),并派發(fā)給合適的模型/工具,最后整合結(jié)果并輸出。

我們采取另一種視角,聚焦于MLLM背后的關(guān)鍵技術(shù)與實(shí)現(xiàn)方式,對(duì)相關(guān)工作進(jìn)行了調(diào)研與總結(jié),將MLLM劃分為以下幾類:

· 多模態(tài)指令微調(diào)(Multimodal Instruction Tuning)

· 多模態(tài)上下文學(xué)習(xí)(Multimodal In-Context Learning)

· 多模態(tài)思維鏈(Multimodal Chain-of-Thought)

· LLM輔助的視覺推理(LLM-Aided Visual Reasoning)

下面我們將對(duì)這幾類工作進(jìn)行簡要介紹。

多模態(tài)指令微調(diào)(Multimodal Instruction Tuning)

多模態(tài)指令微調(diào)的基本做法是使用統(tǒng)一的模板將各類數(shù)據(jù)統(tǒng)一起來,并以指令的形式描述任務(wù)需求,形成多模態(tài)指令數(shù)據(jù),再使用這種數(shù)據(jù)去微調(diào)MLLM。

由于訓(xùn)練與測試時(shí)的指令形式具有一致性,LLM可以憑借其強(qiáng)大的語義理解和推理能力,更靈活地泛化到其他任務(wù),獲得強(qiáng)大的零樣本學(xué)習(xí)能力。

多模態(tài)指令數(shù)據(jù)的基本形式可以概括為(指令,多模態(tài)輸入,回答)三元組。

一種直觀的獲得這種數(shù)據(jù)的方式是改造基準(zhǔn)(Benchmark)數(shù)據(jù)集,我們以圖像描述(Image Captioning)為例,如下圖1所示:

圖片

圖1. 多模態(tài)指令數(shù)據(jù)示例

原本的Caption數(shù)據(jù)樣本包括一張圖片和一段文字描述(Ground Truth),這種數(shù)據(jù)-GT的配對(duì)數(shù)據(jù)自然構(gòu)成了指令數(shù)據(jù)的多模態(tài)輸入和回答部分。

指令部分則為相應(yīng)任務(wù)的描述,一般由人工編寫或者調(diào)用GPT生成。

在進(jìn)行多模態(tài)指令微調(diào)時(shí),MLLM轉(zhuǎn)化多模態(tài)輸入并送入LLM中,LLM基于多模態(tài)信息與指令文本預(yù)測答案。

多模態(tài)上下文學(xué)習(xí)(Multimodal In-Context Learning)

多模態(tài)上下文學(xué)習(xí)的核心思想是從類比中學(xué)習(xí)。比如,我們在學(xué)習(xí)時(shí)一般接觸到的形式如下:

圖片

通過學(xué)習(xí)例題,我們在遇到新的問題時(shí),可以通過類比例題學(xué)習(xí)基本思想與方法,從而解決新的問題。

此外,例題還能規(guī)范我們的回答格式,更有利于得到正確的、符合預(yù)期要求的答案。

如下圖2所示,通過樣例讓模型預(yù)測3x7的計(jì)算結(jié)果。

圖片

圖2. 多模態(tài)上下文數(shù)據(jù)示例,通過樣例讓模型預(yù)測3x7的計(jì)算結(jié)果

多模態(tài)思維鏈(Multimodal Chain-of-Thought)

思維鏈即一系列中間推理步驟[2]。多模態(tài)思維鏈的基本思想是使模型學(xué)會(huì)逐步輸出中間步驟,最后推理出最終答案,如下圖3所示:

圖片

圖3. 多模態(tài)思維鏈數(shù)據(jù)示例

相比于直接輸出答案的方式,思維鏈:

· 更符合人類推理習(xí)慣:基于之前的推理步驟與結(jié)果,逐步導(dǎo)向最終答案;

· 適用于復(fù)雜的推理任務(wù),將復(fù)雜問題分步求解,提高回答的準(zhǔn)確性。

LLM輔助的視覺推理(LLM-Aided Visual Reasoning)

利用LLM作為決策與推理機(jī)構(gòu),調(diào)用各種多模態(tài)模型和工具并整合輸出,得到最后的答案。根據(jù)完成任務(wù)的方式一般可分為單輪模型與多輪模型。

單輪模型的基本思想是由LLM作為規(guī)劃器、調(diào)度器和決策器協(xié)調(diào)各個(gè)模型/工具完成任務(wù),一般需要完成以下職能[1]:

· 規(guī)劃器:將復(fù)雜任務(wù)分解為可解的子任務(wù);

· 調(diào)度器:將子任務(wù)派發(fā)給合適的模型/工具;

· 決策器:管理子任務(wù)執(zhí)行順序,整合子任務(wù)結(jié)果得到最終答案。

多輪模型基于迭代的思想,不斷積累視覺認(rèn)知,直到足夠自信得到最終答案。在這個(gè)過程中,LLM需要整合之前的步驟 (提出的問題與已獲得的視覺認(rèn)知信息),判斷是否可以輸出最終答案[3]。

相關(guān)論文詳見:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

圖片

圖片

圖片

圖片

圖片

圖片

圖片

圖片


責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2014-07-22 13:30:10

大數(shù)據(jù)

2025-01-08 08:21:16

2024-12-18 18:57:58

2017-01-10 14:10:16

大數(shù)據(jù)數(shù)據(jù)可視化工具

2018-08-29 10:25:57

Linux虛擬機(jī)Windows

2024-01-11 16:24:12

人工智能RAG

2024-08-08 13:04:28

2021-03-19 08:52:28

驗(yàn)證碼短信安全漏洞

2024-06-28 18:18:22

2024-12-16 07:00:00

2023-04-13 15:25:14

模型

2024-05-15 10:15:00

自動(dòng)駕駛模型

2023-12-25 09:07:50

AI人工智能Ferret

2024-12-17 08:05:34

大型語言模型MetaAILLM

2023-11-29 15:00:00

數(shù)據(jù)訓(xùn)練

2023-03-03 17:00:00

部署Linux內(nèi)核

2025-04-22 07:00:00

2023-05-22 09:22:41

論文CV

2024-12-17 12:08:21

IAA多模態(tài)LLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)