自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="jkq6b"></pre>

<dfn id="jkq6b"><delect id="jkq6b"></delect></dfn>

<rt id="jkq6b"><fieldset id="jkq6b"></fieldset></rt>

<abbr id="jkq6b"><button id="jkq6b"></button></abbr>

<var id="jkq6b"></var>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Encoder-free無編碼器多模態(tài)大模型EVEv2模型架構(gòu)、訓(xùn)練方法淺嘗

作者：余俊暉 2025-04-28 02:03:00

基于視覺編碼器的MLLM的基本構(gòu)成：MLLM通常由預(yù)訓(xùn)練的模態(tài)編碼器、預(yù)訓(xùn)練的LLM和一個連接它們的模態(tài)接口三個模塊組成。模態(tài)編碼器(如：CLIP-ViT視覺編碼器、Whisper音頻編碼器等)將原始信息（如圖像或音頻）壓縮成更緊湊的表示。

基于視覺編碼器的MLLM的基本構(gòu)成：MLLM通常由預(yù)訓(xùn)練的模態(tài)編碼器、預(yù)訓(xùn)練的LLM和一個連接它們的模態(tài)接口三個模塊組成。模態(tài)編碼器(如：CLIP-ViT視覺編碼器、Whisper音頻編碼器等)將原始信息（如圖像或音頻）壓縮成更緊湊的表示。預(yù)訓(xùn)練的LLM則負(fù)責(zé)理解和推理處理過的信號。模態(tài)接口用于對齊不同的模態(tài)，實現(xiàn)異構(gòu)模態(tài)表征空間的語義對齊。下面這張圖概括的比較好。

基于視覺編碼器的MLLM的基本構(gòu)成

上述工作都是基于視覺編碼器的多模態(tài)大模型，下面來看一個Encoder-free VLMs（無視覺編碼器的多模態(tài)大模型）的思路，供參考。

模型架構(gòu)

圖片

視覺和文本編碼

多模態(tài)編碼：為了在視覺和文本之間建立有效的交互，提出了一個分而治之的設(shè)計，通過引入模態(tài)感知組件來顯式解耦關(guān)鍵模塊。包括獨(dú)立的注意力矩陣（查詢、鍵和值）、歸一化層和前饋模塊，每個都有不同的參數(shù)，以適應(yīng)不同模態(tài)的需求。

分而治設(shè)計

通過分而治之的架構(gòu)設(shè)計，EVEv2.0能夠有效地減少模態(tài)間的干擾，提高模型的訓(xùn)練效率和性能。

使用多頭自注意力（Multi-Head Self-Attention, ATTN）來跨所有模態(tài)進(jìn)行建模，以在統(tǒng)一特征空間中模擬跨模態(tài)關(guān)系。公式如下：

通過完全解耦架構(gòu)，最小化表示空間中的干擾。每個Transformer塊的總體操作定義如下：

這種設(shè)計允許在保持預(yù)訓(xùn)練知識的同時，獨(dú)立地進(jìn)行單模態(tài)編碼和跨模態(tài)對應(yīng)，從而實現(xiàn)靈活的建模模式，以理解和推理多模態(tài)信息。

視覺特征與語言輸入的融合方式

從代碼上看，融合時，會遍歷輸入序列中的每個樣本，根據(jù) IMAGE_TOKEN_INDEX 確定圖像特征的插入位置。將語言輸入的嵌入和圖像特征按順序拼接在一起，形成新的輸入嵌入 new_input_embeds，同時更新標(biāo)簽 new_labels 和視覺標(biāo)記掩碼 visual_token_mask。

https://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.py

https://github.com/baaivision/EVE/blob/main/EVEv2/eve/model/eve_arch.py

訓(xùn)練方式

訓(xùn)練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓(xùn)練圖像塊嵌入層，以在不同模態(tài)間建立初始對齊。之后，我們僅更新大型語言模型（LLM）內(nèi)的視覺層，逐步增強(qiáng)視覺感知能力。值得注意的是，我們將圖像分辨率從 800×800 逐步提高到 1600×1600，并保持原始圖像的寬高比。最后，我們通過問答（QA）和指令數(shù)據(jù)對整個模型進(jìn)行訓(xùn)練，以加強(qiáng)跨模態(tài)對應(yīng)和復(fù)雜理解能力。

訓(xùn)練流程概述。PEL/WEL 表示圖像塊/單詞嵌入層。我們首先訓(xùn)練圖像塊嵌入層，以在不同模態(tài)間建立初始對齊。之后，我們僅更新大型語言模型（LLM）內(nèi)的視覺層，逐步增強(qiáng)視覺感知能力。值得注意的是，我們將圖像分辨率從 800×800 逐步提高到 1600×1600，并保持原始圖像的寬高比。最后，我們通過問答（QA）和指令數(shù)據(jù)對整個模型進(jìn)行訓(xùn)練，以加強(qiáng)跨模態(tài)對應(yīng)和復(fù)雜理解能力。

訓(xùn)練過程分為四個連續(xù)階段。訓(xùn)練數(shù)據(jù)包括公開可用的圖像數(shù)據(jù)集，以及表 1 中的各種問答（QA）數(shù)據(jù)集和多模態(tài)對話數(shù)據(jù)。

圖片

第2.2階段和第3階段的訓(xùn)練數(shù)據(jù)集詳細(xì)信息，用于微調(diào)E VEv2.0，F(xiàn)L表示過濾后的訓(xùn)練數(shù)據(jù)集

階段1：DenseFusion++

DenseFusion++：通過大規(guī)模的合成數(shù)據(jù)來增強(qiáng)模型的視覺感知能力。使用LLaVA-1.6（7B）為基礎(chǔ)，結(jié)合多個視覺專家（如標(biāo)簽、檢測、OCR等）來學(xué)習(xí)GPT-4V的融合策略。通過這種方式，可以在不依賴高質(zhì)量標(biāo)注的情況下，擴(kuò)展合成數(shù)據(jù)的規(guī)模，從而提高訓(xùn)練效率。

階段2：LLM引導(dǎo)的對齊

凍結(jié)大型語言模型（LLM）的權(quán)重，僅訓(xùn)練patch嵌入層。使用公開的網(wǎng)頁數(shù)據(jù)進(jìn)行訓(xùn)練，以防止模型崩潰并加速后續(xù)階段的收斂。通過這種方式，確保模型在初始階段能夠快速對齊視覺和語言信息。

階段3：視覺感知學(xué)習(xí)和視覺-文本完全對齊

視覺感知學(xué)習(xí)（Vision Perception Learning）：加載LLM的權(quán)重并初始化LLM內(nèi)部的視覺層。僅訓(xùn)練patch嵌入層和視覺層，而凍結(jié)Qwen2.5模型，以便在大規(guī)模合成數(shù)據(jù)上進(jìn)行視覺表示的學(xué)習(xí)。通過逐步增加數(shù)據(jù)量和圖像分辨率，促進(jìn)視覺感知能力的提升。
視覺-文本完全對齊（Vision-Text Fully-aligning）：更新整個模型架構(gòu)以進(jìn)一步改善圖像-文本的關(guān)聯(lián)。使用多樣化的指令數(shù)據(jù)集進(jìn)行訓(xùn)練，以增強(qiáng)模型的視覺感知能力和視覺-語言對齊。通過這種方式，確保模型在處理復(fù)雜的多模態(tài)任務(wù)時能夠表現(xiàn)出色。

階段4：監(jiān)督微調(diào)

進(jìn)一步優(yōu)化模型以理解復(fù)雜的指令和對話模式。使用高質(zhì)量的指令數(shù)據(jù)集進(jìn)行訓(xùn)練，以提高模型在實際應(yīng)用中的表現(xiàn)。通過這種方式，確保模型能夠處理各種真實世界的應(yīng)用場景。

實驗效果

參考文獻(xiàn)：EVEv2: Improved Baselines for Encoder-Free Vision-Language Models，https://arxiv.org/pdf/2502.06788

責(zé)任編輯：武曉燕來源：大模型自然語言處理

多模態(tài)大模型 EVEv2

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<s id="fejdf"><li id="fejdf"><acronym id="fejdf"></acronym></li></s>