自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="laqiv"><p id="laqiv"></p></sub>

<style id="laqiv"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-1-9 16:03

瀏覽

0收藏

LLaVA

LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）-AI.x社區(qū)

模型架構(gòu)目標(biāo)是結(jié)合預(yù)訓(xùn)練LLM和視覺模型的能力，llava使用Vicuna作為的LLM （語言解碼器），CLIP作為視覺編碼器。

視覺編碼器：使用預(yù)訓(xùn)練的CLIP視覺編碼器ViT-L/14來提取圖像特征。該編碼器提供視覺特征。
線性層：使用一個(gè)簡單的線性層將圖像特征轉(zhuǎn)換為語言嵌入空間。應(yīng)用一個(gè)可訓(xùn)練的投影矩陣 W 將 Z_v轉(zhuǎn)換為語言嵌入標(biāo)記 H_v，其維度與語言模型中的詞嵌入空間相同：
序列生成：通過這種方式，得到了一個(gè)視覺標(biāo)記序列 H_v。該投影方案是輕量級的。
指令跟隨：對于每個(gè)圖像 X_v，生成多輪對話數(shù)據(jù)，其中 T 是總輪數(shù)。將它們組織成一個(gè)序列，所有答案被視為助手的響應(yīng)，第 t 輪的指令 X_^tinstruct為：
訓(xùn)練目標(biāo)：訓(xùn)練的目標(biāo)是最大似然概率，就是每一步token預(yù)測的最大概率乘積，X_a是答案、X_v是圖像、X_instruct是指令，θ是每個(gè)階段可訓(xùn)練的參數(shù)。：

訓(xùn)練過程分兩階段：

階段1：特征對齊預(yù)訓(xùn)練：從CC3M中篩選出595K圖像-文本對。這些對通過簡單的擴(kuò)展方法轉(zhuǎn)換為指令跟隨數(shù)據(jù)。每個(gè)樣本可以被視為單輪對話。在訓(xùn)練中，保持視覺編碼器和LLM權(quán)重凍結(jié)，并最大化訓(xùn)練目標(biāo)中的似然，其中可訓(xùn)練參數(shù) θ=W（投影矩陣）。
階段2：端到端微調(diào)：始終保持視覺編碼器權(quán)重凍結(jié)，并繼續(xù)更新LLaVA中的投影層和LLM的預(yù)訓(xùn)練權(quán)重；即可訓(xùn)練參數(shù)為 θ = { W, ? }。使用對話、詳細(xì)描述和復(fù)雜推理數(shù)據(jù)。

LLaVA 1.5

LLaVA1.5是LLaVA改進(jìn)版本，主要在網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)集規(guī)模上進(jìn)行改進(jìn)。

LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）-AI.x社區(qū)

LLaVA 1.5模型結(jié)構(gòu)還是之前的llava模型結(jié)構(gòu)，但是做了一些小修改：

將視覺-語言連接器由線性投影修改成一個(gè)兩層的mlp（前期文章的NVLM-D也是兩層的mlp鏈接視覺-語言模型）；
將224分辨率的視覺編碼器修改為336pix的視覺編碼器(帶有MLP投影的CLIP-ViT-L-336px)。其余還是llava的模型結(jié)構(gòu)。

另外，LLaVA 1.5在sft數(shù)據(jù)、相應(yīng)格式上做了些改進(jìn)，有興趣看看原文。LLaVA 1.5還引入了高分辨率輸入，這種方法允許模型擴(kuò)展到任意分辨率，同時(shí)保持?jǐn)?shù)據(jù)效率。

LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）-AI.x社區(qū)

LLaVA-1.5-HD。通過將圖像分割成網(wǎng)格并獨(dú)立編碼，對LLaVA-1.5進(jìn)行更高分辨率的縮放。這使得模型能夠縮放到任何分辨率，而無需對ViT執(zhí)行位置嵌入插值。還拼接下采樣圖像的特征，以向LLM提供全局上下文。

LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）-AI.x社區(qū)

LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）-AI.x社區(qū)

當(dāng)將圖像分辨率擴(kuò)展到448×448時(shí)，LLaVA-1.5-HD在所有基準(zhǔn)測試上的整體性能進(jìn)一步提高，特別是在需要圖像細(xì)節(jié)感知任務(wù)上。

LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）-AI.x社區(qū)

LLaVA 1.5 致力于解決的主要問題為：怎樣在受控的環(huán)境下設(shè)計(jì)多模態(tài)大模型（MLLM），以及如何在 LLaVA 框架內(nèi)進(jìn)行視覺指令的調(diào)優(yōu)工作。確切而言，其研究重點(diǎn)聚焦于通過簡易的調(diào)整來優(yōu)化 LLaVA 的性能表現(xiàn)，進(jìn)而令其在多項(xiàng)基準(zhǔn)測試中取得最先進(jìn)的成果。

LLaVA-NeXT（LLaVA-1.6）

與LLaVA-1.5相比，LLaVA-NeXT有幾個(gè)改進(jìn)：

將輸入圖像分辨率提高到 4 倍像素。這使其能夠掌握更多視覺細(xì)節(jié)。它支持三種寬高比，最高分辨率為 672x672、336x1344、1344x336。
通過改進(jìn)的視覺指令調(diào)整數(shù)據(jù)混合，實(shí)現(xiàn)更好的視覺推理和 OCR 能力。
更好的視覺對話，適用于更多場景，涵蓋不同的應(yīng)用。更好的世界知識和邏輯推理。
使用SGLang進(jìn)行高效部署和推理。
語言模型側(cè)：使用更大更強(qiáng)的LLM來提升多模態(tài)能力：基于最新的LLaMA3 8B、Qwen-1.5 72B 和Qwen-1.5 110B，LLaVA-NeXT可以繼承更好的視覺世界知識和邏輯推理能力。

LLaVA-NeXT(Video)

相比LLaVA-NeXT改進(jìn)點(diǎn)：

1.使用 AnyRes 實(shí)現(xiàn)零樣本視頻表示能力： AnyRes 技術(shù)可以自然地將高分辨率圖像表示為經(jīng)過預(yù)先訓(xùn)練的 VIT 能夠消化的多個(gè)圖像，并將它們形成一個(gè)串聯(lián)序列。該技術(shù)可以自然推廣到表示視頻（由多個(gè)幀組成），從而使僅經(jīng)過圖像訓(xùn)練的 LLaVA-Next 模型在視頻任務(wù)上表現(xiàn)出色。值得注意的是，這是 LMM 首次展示出強(qiáng)大的零樣本模態(tài)遷移能力。
AnyRes：從多塊到多幀：LLaVA-NeXT 中引入的AnyRes算法在處理任何高分辨率圖像時(shí)實(shí)現(xiàn)了性能效率和操作成本之間的最佳平衡。它將圖像分割成具有各種配置的子圖像網(wǎng)格，例如 {2x2, 1x{2,3,4}, {2,3,4}x1}。

LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）-AI.x社區(qū)

說明 AnyRes 將一組圖像消化為一系列連接的視覺標(biāo)記，從而實(shí)現(xiàn)統(tǒng)一的圖像和視頻輸入，這自然支持從多圖像到多幀的演變只需進(jìn)行細(xì)微調(diào)整，LLaVA-NeXT 便可以處理以 {1xN} 網(wǎng)格排列的N 個(gè)視頻幀。假設(shè)每幀包含 24x24 個(gè)標(biāo)記，則視頻的總標(biāo)記數(shù)將為 24x24xN。但是，考慮到 LLM 的“max_token_length”限制為 4096，確保 24x24xN + 文本標(biāo)記數(shù) < 4096 以避免無意義的輸出至關(guān)重要。這需要在每幀的標(biāo)記數(shù)和總幀數(shù)之間進(jìn)行仔細(xì)的平衡。例如，應(yīng)用步幅為 2 的空間池化可將每幀的標(biāo)記數(shù)從 24x24 減少到 12x12，最多可容納 16 幀。我們的研究結(jié)果表明，在 16 幀中配置 12x12 個(gè)標(biāo)記可獲得最佳性能。但是，16 幀可能不足以捕捉大多數(shù)視頻的精髓。接下來，我們重點(diǎn)關(guān)注如何讓 LLaVA-NeXT 處理更多幀。

2.具有長度泛化的推理可改善較長視頻的性能。線性縮放技術(shù)可實(shí)現(xiàn)長度泛化，從而使 LLaVA-NeXT 能夠有效處理超出 LLM 的“max_token_length”限制的長視頻。
長度泛化：從多幀到長視頻：受到 LLM 中處理長序列的最新進(jìn)展的啟發(fā)，例如在旋轉(zhuǎn)位置嵌入 (RoPE) 中實(shí)現(xiàn)線性縮放，我們在 LLaVA-NeXT 中應(yīng)用了類似的縮放方法。例如，通過引入縮放因子 2，我們有效地將模型的“max_token_length”容量翻倍，使其能夠處理最多 8192 個(gè) token 的序列。借助這種技術(shù)，LLaVA-NeXT 可以處理最多 56 幀，每幀 token 數(shù)為 12x12，大大擴(kuò)展了模型在分析較長視頻序列方面的適用性。

LLaVA系列算法架構(gòu)演進(jìn)：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）-AI.x社區(qū)

長度泛化的說明，用于處理具有更多幀的長序列，其中推理中的序列長度可能比訓(xùn)練中的序列長度更長。這種線性縮放的調(diào)整不僅有利于處理更多幀，而且為 LLaVA-NeXT 在綜合視頻分析中的應(yīng)用開辟了新的途徑，為該領(lǐng)域的未來研究樹立了先例。

3.強(qiáng)大的視頻理解能力。（1）LLaVA-Next-Image結(jié)合了上述兩種技術(shù)，與針對視頻進(jìn)行調(diào)整的開源 LMM 相比，其零樣本性能更出色。（2）LLaVA-Next-Video是對視頻數(shù)據(jù)進(jìn)行進(jìn)一步監(jiān)督微調(diào) (SFT) 的 LLaVA-Next-Image，與 LLaVA-Next-Image 相比，其視頻理解能力更佳。（3）LLaVA-Next-Video-DPO使用直接偏好優(yōu)化 (DPO) 將模型響應(yīng)與 AI 反饋對齊，性能顯著提升。
LLaVA-Next-Video-DPO（AI反饋直接偏好優(yōu)化）：基于人類反饋的強(qiáng)化學(xué)習(xí) (RLHF) 的最新進(jìn)展有效地指導(dǎo)LLMs生成更誠實(shí)、有用且無害的內(nèi)容。它們在多式聯(lián)運(yùn)環(huán)境中的有效性仍然有限。關(guān)鍵的障礙在于（1）開發(fā)一個(gè)強(qiáng)大的獎(jiǎng)勵(lì)系統(tǒng)，能夠區(qū)分偏好的響應(yīng)和不太偏好的響應(yīng)，以及（2）從人類那里獲取高質(zhì)量的偏好數(shù)據(jù)既昂貴又費(fèi)力，特別是對于多幀的視頻輸入。作為一種經(jīng)濟(jì)高效的替代方案，我們最近的研究 LLaVA-Hound考慮了使用LLM獎(jiǎng)勵(lì)的人工智能反饋。DPO 用于基于LLM生成的偏好數(shù)據(jù)來訓(xùn)練 LMM，其中視頻以其詳細(xì)的字幕作為支持證據(jù)。按照相同的方法，基于更強(qiáng)的 SFT LMM LLaVA-NeXT-Video 探索 DPO，從而形成最終模型 LLaVA-NeXT-Video-DPO。

4.使用SGLang進(jìn)行高效部署和推理。它使視頻任務(wù)的推理速度提高了 5 倍，從而實(shí)現(xiàn)了更具可擴(kuò)展性的服務(wù)，例如百萬級視頻重新字幕。

參考文獻(xiàn)

Visual Instruction Tuning，https://arxiv.org/pdf/2304.08485
Improved Baselines with Visual Instruction Tuning，https://arxiv.org/pdf/2310.03744
LLaVA-NeXT: Improved reasoning, OCR, and world knowledge，https://llava-vl.github.io/blog/2024-01-30-llava-next
A Strong Zero-shot Video Understanding Model，https://llava-vl.github.io/blog/2024-04-30-llava-next-video

本文轉(zhuǎn)載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/QwPwsw03d1yTpI607ligiw??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯(lián)合NUS提出LLaVA-UHD

輕薄滴假象 ? 2164瀏覽 ? 0回復(fù)
直擊 Google Cloud Next 2024 大會(huì)更多細(xì)節(jié)，不只Gemini 1.5 Pro ！

51CTO技術(shù)棧 ? 4305瀏覽 ? 0回復(fù)
多模態(tài)視覺-語言大模型的架構(gòu)演進(jìn)

angel ? 4216瀏覽 ? 0回復(fù)
next-token被淘汰！Meta實(shí)測「多token」訓(xùn)練方法，推理提速3倍，性能大漲10%+

duhorse ? 2880瀏覽 ? 0回復(fù)
Next-Level Agents：釋放動(dòng)態(tài)上下文（Dynamic Context）的巨大潛力

Baihai_IDP ? 3209瀏覽 ? 0回復(fù)
序列建模中Next Item Prediction的代表性工作

海因斯DK ? 3614瀏覽 ? 0回復(fù)
AI大模型技術(shù)的四大核心架構(gòu)演進(jìn)之路

AIGC觀察者 ? 3264瀏覽 ? 0回復(fù)
電子科大、同濟(jì)大學(xué)、新加坡國立大學(xué)等發(fā)表的Math-LLaVA：引導(dǎo)多模態(tài)大語言模型的數(shù)學(xué)推理能力

sbf_2000 ? 4450瀏覽 ? 0回復(fù)
AI架構(gòu)系列：去其形而留其意

魯班模錘1 ? 2020瀏覽 ? 0回復(fù)
LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 2293瀏覽 ? 0回復(fù)
LLaVA-o1：第一個(gè)能夠進(jìn)行自發(fā)、系統(tǒng)推理的視覺語言模型，類似于 GPT-o1

Halo咯咯 ? 2342瀏覽 ? 0回復(fù)
從 Llama 1 到 3.1：Llama 模型架構(gòu)演進(jìn)詳解

Baihai_IDP ? 3897瀏覽 ? 0回復(fù)
微軟開源小模型Phi系列：技術(shù)演進(jìn)、能力突破與未來展望

上堵吟1 ? 2721瀏覽 ? 0回復(fù)
Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語言處理 ? 2742瀏覽 ? 0回復(fù)
AI架構(gòu)系列：picoLLM 大模型的量化魔術(shù)師

魯班模錘1 ? 960瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計(jì)演進(jìn)：從 Local MCP Server 到 Remote MCP Server 開源架構(gòu)設(shè)計(jì)實(shí)現(xiàn)

玄姐聊AGI ? 3507瀏覽 ? 0回復(fù)
MCP 架構(gòu)設(shè)計(jì)剖析：從 Service Mesh 演進(jìn)到 Agentic Mesh

玄姐聊AGI ? 2023瀏覽 ? 0回復(fù)
從 MCP 到 A2A，AI Agent 應(yīng)用架構(gòu)設(shè)計(jì)演進(jìn)之路

玄姐聊AGI ? 941瀏覽 ? 0回復(fù)
多模態(tài)大模型大比拼：CLIP、BLIP 系列、LLaVA、miniGPT4 誰更勝一籌？

智駐未來 ? 433瀏覽 ? 0回復(fù)

大模型自然語言處理

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： PPTAgent：PPT自動(dòng)生成Agent框架

下一篇： Reyes：一個(gè)從0到1開始訓(xùn)練的多模態(tài)大模型（技術(shù)報(bào)告）

社區(qū)精華內(nèi)容

目錄