自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="vpxov"></tr>

<blockquote id="vpxov"><i id="vpxov"></i></blockquote>

<cite id="vpxov"><rp id="vpxov"></rp></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

融合語言模型的多模態(tài)大模型研究

發(fā)布于 2025-4-8 00:32

瀏覽

0收藏

近年來，大語言模型（Large language model, LLM）取得了顯著進展。以ChatGPT為代表的LLM在自然語言任務(wù)上展現(xiàn)出驚人的智能涌現(xiàn)能力。盡管LLM在很多推理任務(wù)上表現(xiàn)出前所未有的接近人類的性能，但是單純的LLM只能處理文本類任務(wù)。與此同時，在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練的視覺基礎(chǔ)模型也在快速發(fā)展。盡管在視覺領(lǐng)域還沒有出現(xiàn)“ChatGPT時刻”，但是預(yù)訓(xùn)練視覺基礎(chǔ)模型已經(jīng)可以在很多真實視覺場景、數(shù)據(jù)集上表現(xiàn)出優(yōu)秀的零樣本、少樣本性能。如何將兩者在各自領(lǐng)域的優(yōu)秀性能結(jié)合起來，實現(xiàn)在視覺-語言領(lǐng)域具有推理能力的通用大模型是當(dāng)前一個熱門研究課題。

1.模型介紹

GPT-4在技術(shù)報告中展示了驚艷的多模態(tài)能力，如圖1、2、3所示。但是GPT-4還沒開放多模態(tài)能力的接口。很多研究者已經(jīng)基于開源LLM進行了相關(guān)的研究，力圖達到GPT-4展示的強大多模態(tài)性能。

下面以發(fā)布時間為順序，介紹主流的融合LLM的多模態(tài)模型各自的一些特點，以此窺見此類技術(shù)的發(fā)展趨勢。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖1 讓GPT-4描述圖中有趣的地方

GPT-4可以識別出VGA接口和lightning接口，而且判斷出VGA接口與手機是不匹配的。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖2 GPT-4GPT-4既可以識別出熨燙衣服，也能夠識別出租車在行駛，最終識別出這兩個場景出現(xiàn)在一個畫面中是不正常的。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖3 GPT-4推理能力

GPT-4在這個畫面的識別中展現(xiàn)出了較為強大的推理能力GPT-4指出這張圖中的主體是按照世界地圖形狀擺放的雞塊。而文字部分的描述是“從太空俯視地球的照片”。這種文字和圖片內(nèi)容的反差形成了一個幽默的笑話。BLIP2[1]是較早提出“LLM + 視覺編碼器“這種多模態(tài)模型構(gòu)想的工作，整體結(jié)構(gòu)如圖5。這個工作主要提出了Q-former這個跨視覺語言模態(tài)的連接結(jié)構(gòu)。如圖4所示，Q-former結(jié)構(gòu)設(shè)計包括了 image-text matching, image-grounded text generation, image-text contrastive learning。這些對齊語言和視覺特征的設(shè)計主要來源于BLIP1[2]工作。BLIP2中使用的image encoder是ViT-L/g。BLIP2原文中使用的LLM是OPT和FlanT5語言模型，這些模型在語言生成方面的能力不是特別強。BLIP2的預(yù)訓(xùn)練分為兩階段，第一階段Q-former與一個凍結(jié)參數(shù)的image encoder訓(xùn)練，學(xué)習(xí)視覺語言表征；第二階段Q-former與凍結(jié)的LLM訓(xùn)練，學(xué)習(xí)視覺到文本的生成能力。在進行一些下游任務(wù)，如image caption，visual question answering（VQA），BLIP2模型仍需要微調(diào)Q-former和image-encoder的模型權(quán)重。BLIP2模型的一個缺陷是，沒有in context learning能力，上下文關(guān)聯(lián)對話能力較差。作者認(rèn)為原因是BLIP2的訓(xùn)練數(shù)據(jù)是單對的圖文對，數(shù)據(jù)本身就缺少多輪對話相關(guān)性。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖4 Q-former結(jié)構(gòu)

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖5 Q-former兩階段預(yù)訓(xùn)練

MiniGPT-4是作者場景復(fù)現(xiàn)GPT-4強大的多模態(tài)能力提出的工作。MiniGPT-4將Q-former & ViT視為一個參數(shù)凍結(jié)的整體。LLM也保持參數(shù)凍結(jié)。如圖所示，MiniGPT-4通過一個線性層來跨模態(tài)連接這兩個部分。Mini-GPT4使用語言生成能力較強的Vicuna模型（基于開源LLaMA模型構(gòu)建）作為LLM，生成文本質(zhì)量進一步提高。MiniGPT-4性能表現(xiàn)的提高也得益于訓(xùn)練數(shù)據(jù)的質(zhì)量。作者表示只使用來自公開數(shù)據(jù)集的圖文對數(shù)據(jù)是無法訓(xùn)練出優(yōu)秀的多模態(tài)語言模型的。MiniGPT-4使用了3500對高質(zhì)量圖文數(shù)據(jù)對模型進行微調(diào)。MiniGPT-4模型的訓(xùn)練分為兩階段，第一階段是在大量圖文對數(shù)據(jù)集上預(yù)訓(xùn)練，獲得視覺語言對齊能力。第二階段是在高質(zhì)量圖文數(shù)據(jù)上微調(diào)以獲得較強的對話能力。這種兩階段的訓(xùn)練方法也成為了未來一些工作的主流訓(xùn)練范式。MiniGPT-4使用的3500對高質(zhì)量數(shù)據(jù)集是來源于作者使用第一階段預(yù)訓(xùn)練完成的模型，通過提示工程的方法為每張圖片生成長度更長，描述信息更加豐富、細節(jié)的文本。這些文本通常具有很多噪聲和內(nèi)容錯誤，作者利用ChatGPT對第一階段的生成文本進行再優(yōu)化。MiniGPT4這個工作進一步說明了數(shù)據(jù)質(zhì)量對于模型對話能力的重要性。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖6 MiniGPT-4模型結(jié)構(gòu)

微軟團隊在MiniGPT-4發(fā)布相近的時間點提出了LLaVA模型這篇工作。兩篇工作都提升了多模態(tài)語言模型在復(fù)雜對話方面的能力，具有一定相似性，實現(xiàn)技術(shù)方案各有特點。LLaVA使用線性層連接連接image encoder的視覺特征和語言指令，共同送入到LLM的輸入。LLaVA沒有保留Q-former這種比較重型的結(jié)構(gòu)，直接使用線性層連接視覺語言模態(tài)，第一次將跨模態(tài)連接結(jié)構(gòu)簡化至這個程度。LLaVA模型的訓(xùn)練也分為兩個階段。第一階段使用圖文對數(shù)據(jù)進行訓(xùn)練，這一階段是為了對齊視覺和圖像特征，這個階段視覺編碼器和LLM的參數(shù)均凍結(jié)，僅訓(xùn)練連接層。第二階段使用多輪對話圖文數(shù)據(jù)進行訓(xùn)練，在這個階段訓(xùn)練連接層和LLM的參數(shù)。LLaVA在多模態(tài)推理評測數(shù)據(jù)集Science QA上達到了最高水平。LLaVA強大的性能來自于作者構(gòu)造的一套指令跟隨數(shù)據(jù)集（instruction-following）。與MiniGPT-4主要利用一階段訓(xùn)練模型進行微調(diào)數(shù)據(jù)生成，還需要進行文本噪聲、錯誤后處理不同，LLaVA調(diào)用GPT-4接口，結(jié)合人類標(biāo)注的圖文信息，進行高質(zhì)量的多輪對話圖文數(shù)據(jù)生成。作者將這個高質(zhì)量圖文對話數(shù)據(jù)集命名為LLaVA-150K并且開源。LLaVA-150K包含了基于圖像信息構(gòu)造的“對話、細節(jié)描述、復(fù)雜推理”三種類型的文本內(nèi)容。

融合語言模型的多模態(tài)大模型研究-AI.x社區(qū)

▲ 圖7 InstructBLIP使用的多種數(shù)據(jù)集及其任務(wù)類型

BLIP2團隊后來推出了InstructBLIP這個工作[3]，通過指令微調(diào)的方式解決BLIP2模型的一些缺陷。相比BLIP2，InstructBLIP已經(jīng)具有較強的多輪對話能力。InstructBLIP復(fù)用了BLIP2的模型架構(gòu)，即模型由LLM，visual encoder，Q-former組成。相比BLIP2，InstructBLIP使用了較新的T5、Vicuna語言模型。在指令微調(diào)過程中，模型中的視覺編碼器和LLM參數(shù)凍結(jié)，只訓(xùn)練Q-former參數(shù)。InstructBLIP使用的數(shù)據(jù)類型非常廣泛，一共包括11個任務(wù)場景、26個數(shù)據(jù)集（圖7）。這些數(shù)據(jù)集包含的內(nèi)容特別廣，經(jīng)過微調(diào)訓(xùn)練后，InstructBLIP可以回答單選、多選、短答案、長答案等多種形式的類型問題。

2.總結(jié)

從以上這些融合了LLM的多模態(tài)模型，我們可以得到一些發(fā)現(xiàn)。這些工作主要都是集中在23年，可能是受GPT4所展示的多模態(tài)能力的啟發(fā)。目前融合LLM和視覺模型的方式還相對簡單粗暴，但是已經(jīng)展現(xiàn)出了優(yōu)秀的效果，未來多模態(tài)通用模型可能成為人工智能的下一個發(fā)展目標(biāo)。視覺研究者和語言大模型研究者的研究范式呈現(xiàn)出越來越相近的趨勢。

參考文獻

[1] J. Li, D. Li, S. Savarese, and S. Hoi, “BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models.” arXiv, May 01, 2023. doi: 10.48550/arXiv.2301.12597.

[2] J. Li, D. Li, C. Xiong, and S. Hoi, “BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation.” arXiv, Feb. 15, 2022. doi: 10.48550/arXiv.2201.12086.

[3] W. Dai et al., “InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning.” arXiv, May 10, 2023. doi: 10.48550/arXiv.2305.06500.

本文轉(zhuǎn)載自??AI遇見云???，作者：張燚鈞

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

《多模態(tài)大語言模型綜述》重大升級

angel ? 3556瀏覽 ? 0回復(fù)
多模態(tài)視覺-語言大模型的架構(gòu)演進

angel ? 4216瀏覽 ? 0回復(fù)
【LLM】對大語言模型微調(diào)優(yōu)化的研究

sbf_2000 ? 3464瀏覽 ? 0回復(fù)
多模態(tài)大型語言模型（MLLM）綜述

AIRoobt ? 5145瀏覽 ? 0回復(fù)
多模態(tài)思維鏈推理在語言模型中的應(yīng)用

AIRoobt ? 4114瀏覽 ? 0回復(fù)
什么是多模態(tài)大模型？為什么需要多模態(tài)大模型？

AI探索時代 ? 4437瀏覽 ? 0回復(fù)
多模態(tài)大模型之模態(tài)融合的注意點及難點

AI探索時代 ? 4994瀏覽 ? 0回復(fù)
多模態(tài)與偽多模態(tài)大模型

AI探索時代 ? 2154瀏覽 ? 0回復(fù)
多模態(tài)大模型中，多模態(tài)融合后怎樣知道最終結(jié)果受哪種模態(tài)影響更大？

shizhi02 ? 1887瀏覽 ? 0回復(fù)
多模態(tài)大模型：基礎(chǔ)架構(gòu)

魯班模錘1 ? 2098瀏覽 ? 0回復(fù)
Cephalo：專門用于仿生設(shè)計的多模態(tài)視覺大型語言模型

魯班模錘1 ? 2804瀏覽 ? 0回復(fù)
什么是多模態(tài)AI 如何融合和對齊？

數(shù)字化助推器 ? 4720瀏覽 ? 0回復(fù)
多模態(tài)RAG-ColPali：使用視覺語言模型實現(xiàn)高效的文檔檢索

大模型自然語言處理 ? 2369瀏覽 ? 0回復(fù)
多模態(tài)語言模型實戰(zhàn)之音樂轉(zhuǎn)錄

51CTO內(nèi)容精選 ? 2357瀏覽 ? 0回復(fù)
融合、集成與協(xié)作！大語言模型時代的協(xié)作策略綜述

AIRoobt ? 2987瀏覽 ? 0回復(fù)
多模態(tài)大語言模型的空間智能探秘：突破與挑戰(zhàn)

十一月雨_55 ? 1994瀏覽 ? 0回復(fù)
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 1940瀏覽 ? 0回復(fù)
基于多模態(tài)大語言模型的上下文目標(biāo)檢測

AIRoobt ? 1841瀏覽 ? 0回復(fù)
2025年最值得關(guān)注的十大多模態(tài)大語言模型！

Halo咯咯 ? 1658瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

揭秘Google A2A協(xié)議：原理、應(yīng)用與未來 8h前發(fā)布
身份證識別服務(wù)性能優(yōu)化實踐 2025-03-13 07:05:57發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：身份證識別服務(wù)性能優(yōu)化實踐

下一篇：揭秘Google A2A協(xié)議：原理、應(yīng)用與未來

社區(qū)精華內(nèi)容

目錄