自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)大模型技術方向和應用場景

人工智能
多模態(tài)大模型(Multimodal Large Language Models,MLLM)是一種結合了大型語言模型(LLM)和大型視覺模型(LVM)的深度學習模型,它們能夠處理和理解多種類型的數據,如文本、圖像和音頻,從而在跨模態(tài)任務中展現出卓越的性能。

多模態(tài)大模型(Multimodal Large Language Models,MLLM)是一種結合了大型語言模型(LLM)和大型視覺模型(LVM)的深度學習模型,它們能夠處理和理解多種類型的數據,如文本、圖像和音頻,從而在跨模態(tài)任務中展現出卓越的性能。

核心特點

對于多模態(tài)輸入-文本輸出的典型 MLLM,其架構一般包括編碼器、連接器以及 LLM。如要支持更多模態(tài)的輸出(如圖片、音頻、視頻),一般需要額外接入生成器,如下圖所示:

MLLM 架構圖MLLM 架構圖

模態(tài)編碼器負責將原始的信息(如圖片)編碼成特征,連接器則進一步將特征處理成LLM 易于理解的形式,即視覺 Token。LLM 則作為“大腦”綜合這些信息進行理解和推理,生成回答。目前,三者的參數量并不等同,以 Qwen-VL[1]為例,LLM 作為“大腦”參數量為 7.7B,約占總參數量的 80.2%,視覺編碼器次之(1.9B,約占 19.7%),而連接器參數量僅有 0.08B。

對于視覺編碼器而言,增大輸入圖片的分辨率是提升性能的有效方法。一種方式是直接提升分辨率,這種情況下需要放開視覺編碼器進行訓練以適應更高的分辨率,如 Qwen-VL[1]等。另一種方式是將大分辨率圖片切分成多個子圖,每個子圖以低分辨率送入視覺編碼器中,這樣可以間接提升輸入的分辨率,如 Monkey[2]等工作。

對于預訓練的 LLM,常用的包括 LLaMA[3]系列、Qwen[4]系列和 InternLM[5]系列等,前者主要支持英文,而后兩者中英雙語支持得更好。就性能影響而言,加大 LLM 的參數量可以帶來顯著的性能增益,如 LLaVA-NeXT[6]等工作在 7B/13B/34B 的 LLM 上進行實驗,發(fā)現提升LLM 大小可以帶來各 benchmark 上的顯著提升,在 34B 的模型上更涌現出 zero-shot 的中文能力。除了直接增大 LLM 參數量,近期火熱的 MoE 架構則提供了更高效實現的可能性,即通過稀疏計算的方式,在不增大實際計算參數量的前提下提高總的模型參數量。

相對前兩者來說,連接器的重要性略低。例如,MM1[7]通過實驗發(fā)現,連接器的類型不如視覺 token 數量(決定之后 LLM 可用的視覺信息)及圖片的分辨率(決定視覺編碼器的輸入信息量)重要。

數據與訓練

MLLM 的訓練大致可以劃分為預訓練階段、指令微調階段和對齊微調階段。預訓練階段主要通過大量配對數據將圖片信息對齊到 LLM 的表征空間,即讓 LLM 讀懂視覺 Token。指令微調階段則通過多樣化的各種類型的任務數據提升模型在下游任務上的性能,以及模型理解和服從指令的能力。對齊微調階段一般使用強化學習技術使模型對齊人類價值觀或某些特定需求(如更少幻覺)。

影響對齊的效果。后來的工作則探索使用更干凈、文本內容更豐富的數據做對齊。由于數據規(guī)模受限,其包含的世界知識也是有限的,比如是否能夠識別出圖像中的建筑為廣州塔。此類世界知識通常儲備于大規(guī)模的粗粒度圖文對中。

第二階段的微調數據一方面可以來源于各種任務的數據,如 VQA 數據、OCR 數據等,也可以來源于 GPT-4V 生成的數據,如問答對。雖然后者一般能夠生成更復雜、更多樣化的指令數據,但這種方式也顯著地增加了成本。值得一提的是,第二階段的訓練中一般還會混合部分純文本的對話數據,這類數據可以視為正則化的手段,保留 LLM 原有的能力與內嵌知識。

第三階段的數據主要是針對于回答的偏好數據。這類數據通常由人工標注收集,因而成本較高。近期出現一些工作使用自動化的方法對來自不同模型的回復進行偏好排序,如 Silkie[9]通過調用 GPT-4V 來收集偏好數據。

1. 模態(tài)融合:MLLM通過融合不同模態(tài)的數據,如圖像和文本,增強了模型對信息的理解和處理能力。
2. 跨模態(tài)表示學習:MLLM學習跨模態(tài)數據之間的關聯,實現更深層次的語義理解。
3. 端到端訓練:MLLM通過模態(tài)對齊技術,實現了不同模態(tài)間的有效整合。

技術方向技術方向

多模態(tài)幻覺的研究主要關注模型生成的回答與圖片內容不符的問題。視覺和文本本質上是異構的信息,完全對齊兩者本身就具有相當大的挑戰(zhàn)。增大圖像分辨率和提升訓練數據質量是降低多模態(tài)幻覺的兩種最直觀的方式,此外我們仍然需要在原理上探索多模態(tài)幻覺的成因和解法。例如,當前的視覺信息的 Token 化方法、多模態(tài)對齊的范式、多模態(tài)數據和 LLM 存儲知識的沖突等對多模態(tài)幻覺的影響仍需深入研究。

多模態(tài)上下文學習技術為少樣本學習方法,旨在使用少量的問答樣例提示模型,提升模型的few-shot 性能。提升性能的關鍵在于讓模型有效地關注上下文,并將內在的問題模式泛化到新的問題上。以 Flamingo[10]為代表的工作通過在圖文交錯的數據上訓練來提升模型關注上下文的能力。目前對于多模態(tài)上下文學習的研究還比較初步,有待進一步探索。

多模態(tài)思維鏈的基本思想是通過將復雜的問題分解為較簡單的子問題,然后分別解決并匯總。相較于純文本的推理,多模態(tài)的推理涉及更多的信息來源和更復雜的邏輯關系,因此要復雜得多。當前該方面的工作也比較少。

LLM 輔助的視覺推理方法探索如何利用 LLM 強大的內嵌知識與能力,并借助其他工具,設計各種視覺推理系統(tǒng),解決各種現實問題。相比于通過端到端訓練獲得單一模型,這類方法一般關注如何通過免訓練的方式擴展和加強 LLM 的能力,從而構建一個綜合性的系統(tǒng)。

應用場景應用場景

多模態(tài)大模型作為人工智能領域的重要研究方向之一,通過模態(tài)融合和跨模態(tài)表示學習技術,能夠更好地處理和理解跨模態(tài)數據,為人工智能領域的發(fā)展帶來新的機遇和挑戰(zhàn)。隨著技術的不斷成熟和應用場景的不斷拓展,多模態(tài)大模型將在各個領域發(fā)揮越來越重要的作用。

1.多模態(tài)情感分析:結合文本、圖像、音頻等多種模態(tài)的數據進行情感分析,例如識別社交媒體上用戶的情緒狀態(tài)。

2.多模態(tài)問答系統(tǒng):利用文本、圖像等多種數據模態(tài)來回答用戶提出的問題,例如結合圖像和文本來回答關于特定場景的問題。

3.跨模態(tài)推薦系統(tǒng):結合用戶的文本描述、點擊行為、圖像偏好等多種數據模態(tài)來進行個性化推薦,提高推薦系統(tǒng)的準確性和用戶體驗。

4.多模態(tài)翻譯:結合文本和圖像等多種數據模態(tài)進行跨語言翻譯,例如將圖像中的文字翻譯成其他語言。

5.智能輔助:多模態(tài)大模型還可以用于智能輔助領域,例如輔助盲人識別周圍環(huán)境的圖像信息、識別聲音中的指令等。

6.辦公自動化:在辦公領域,多模態(tài)大模型可以應用于智能文檔處理、會議記錄、語音助手等,通過自然語言理解和生成技術,輔助用戶完成復雜的辦公任務。、

7.電子商務:在電商領域,多模態(tài)大模型可用于商品推薦、智能客服、虛擬試衣等場景,通過分析用戶的購物歷史和偏好,為用戶提供個性化的購物體驗。

8.娛樂產業(yè):多模態(tài)大模型在娛樂產業(yè)中的應用包括游戲設計、虛擬偶像、電影制作等,通過生成高質量的圖像和視頻內容,為娛樂產業(yè)帶來全新的創(chuàng)作方式和商業(yè)模式。

9.教育領域:在教育領域,多模態(tài)大模型可用于智能輔導、在線課堂、虛擬實驗室等場景,提供個性化的學習資源和互動體驗,幫助學生更好地掌握知識和技能。

10.醫(yī)療健康:在醫(yī)療健康領域,多模態(tài)大模型可用于醫(yī)療影像分析、疾病診斷、藥物研發(fā)等場景,通過處理和分析大量的醫(yī)療數據,為醫(yī)生提供更準確的診斷建議和治療方案。

挑戰(zhàn)和未來方向

針對 MLLM 的研究現狀,我們進行了深入思考,將挑戰(zhàn)與可能的未來發(fā)展方向總結如下:

  • 現有 MLLM 處理多模態(tài)長上下文的能力有限,導致模型在長視頻理解、圖文交錯內容理解等任務中面臨巨大挑戰(zhàn)。以 Gemini 1.5 Pro 為代表的 MLLM 正在掀起長視頻理解的浪潮,而多模態(tài)圖文交錯閱讀理解(即長文檔中既有圖像也有文本)則相對空白,很可能會成為接下來的研究熱點。
  • MLLM 服從復雜指令的能力不足。例如,GPT-4V 可以理解復雜的指令來生成問答對甚至包含推理信息,但其他模型這方面的能力則明顯不足,仍有較大的提升空間。
  • MLLM 的上下文學習和思維鏈研究依然處于初步階段,相關的能力也較弱,亟需相關底層機制以及能力提升的研究探索。
  • 開發(fā)基于 MLLM 的智能體是一個研究熱點。要實現這類應用,需要全面提升模型的感知、推理和規(guī)劃能力。
  • 安全問題。MLLM 容易受設計的惡意攻擊影響,生成有偏的或不良的回答。該方面的相關研究也仍然欠缺。
  • 目前 MLLM 在訓練時通常都會解凍 LLM,雖然在訓練過程中也會加入部分單模態(tài)的文本訓練數據,但大規(guī)模的多模態(tài)和單模態(tài)數據共同訓練時究竟對彼此互有增益還是互相損害仍然缺乏系統(tǒng)深入的研究。
責任編輯:華軒 來源: 數字化助推器
相關推薦

2025-03-06 07:28:31

DeepSeek大模型人工智能

2025-01-08 08:21:16

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2023-08-14 07:20:10

2024-03-15 15:27:13

華為

2019-04-10 15:43:12

SDN場景網絡架構

2020-02-12 14:42:00

GPU技術關鍵參數應用場景

2019-12-30 10:40:31

GPU技術應用

2024-05-10 06:59:06

2024-11-13 09:39:13

2024-12-18 18:57:58

2024-12-12 00:25:09

2014-12-30 10:36:25

2024-09-25 14:53:00

2018-11-09 10:52:03

HBase應用場景

2012-07-12 09:41:42

2023-09-13 23:15:08

物聯網應用物聯網

2024-09-19 08:08:25

點贊
收藏

51CTO技術棧公眾號