自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細節(jié) 原創(chuàng)

發(fā)布于 2025-3-12 12:28
瀏覽
0收藏

文章提出:傳統(tǒng)的 MLLMs 中,文本嵌入是從 LLM 的嵌入查找表中索引得到的,而視覺嵌入是由視覺編碼器(如:ViT)直接生成的連續(xù)向量。這種差異導(dǎo)致在視覺和文本信息融合時存在挑戰(zhàn)。

與傳統(tǒng)的MLLM不同,Ovis 通過在視覺編碼器的過程中引入一個額外的視覺嵌入查找表來解決這個問題。這種方法使得視覺嵌入的生成過程與文本嵌入類似。

多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細節(jié)-AI.x社區(qū)

效果

核心創(chuàng)新

從下面模型結(jié)構(gòu)代碼可以看到,Ovis和傳統(tǒng)的LLava架構(gòu)其實差不多,最大的區(qū)別就是LLava使用MLP,Ovis使用“視覺詞匯”。

多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細節(jié)-AI.x社區(qū)

模型結(jié)構(gòu)代碼

Ovis 的核心創(chuàng)新在于其視覺嵌入表的引入:

多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細節(jié)-AI.x社區(qū)

  1. 圖(a):基于連接器的MLLM:傳統(tǒng)多模態(tài)模型(如LLava)的典型架構(gòu),連接器通常是一個MLP,其作用是將視覺特征投影到與文本嵌入相同的維度空間中。
  2. 圖(b):Ovis的結(jié)構(gòu)化嵌入對齊:視覺編碼器的輸出不再直接通過MLP投影,而是送入一個視覺嵌入表(Visual Embedding Table)。這個表是一個可學(xué)習(xí)的結(jié)構(gòu),類似于文本嵌入。表。
  • 視覺編碼器:圖像首先被視覺編碼器(如 ViT)處理,分為多個patches,每個patch生成一個連續(xù)的特征向量。
  • 視覺嵌入表:不同于傳統(tǒng)方法直接通過 MLP 投影,Ovis 在視覺編碼器后整合了一個可學(xué)習(xí)的視覺嵌入表。每個圖像patch的特征向量用于多次索引該表,生成最終的視覺嵌入。為了使視覺和文本嵌入具有兼容的形狀,視覺嵌入表的維度設(shè)置為與文本嵌入表相同。

多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細節(jié)-AI.x社區(qū)

視覺嵌入表實現(xiàn)過程

  • 嵌入對齊:視覺嵌入表的引入使得視覺嵌入的生成方式與文本嵌入類似。文本嵌入通常通過查找表為每個token分配一個嵌入向量,而 Ovis 通過視覺嵌入表為視覺patch生成結(jié)構(gòu)化的嵌入,實現(xiàn)了兩者的對齊。

訓(xùn)練方法

訓(xùn)練分為三個階段:

階段 1:初始化訓(xùn)練

在這個階段,凍結(jié) LLM 和視覺編碼器的大部分參數(shù),僅隨機初始化視覺編碼器的最后一塊參數(shù)。使用視覺描述數(shù)據(jù)集(如 COYO)來訓(xùn)練這些新初始化的參數(shù),以及 Ovis 的投影矩陣  和視覺嵌入表 。

階段 2:擴展訓(xùn)練

在這個階段,解凍 Ovis 的投影矩陣  和視覺嵌入表 ,并繼續(xù)訓(xùn)練視覺編碼器的所有參數(shù)。使用視覺描述數(shù)據(jù)集(如 ShareGPT4V-Pretrain)進行訓(xùn)練。這個階段的目標是進一步優(yōu)化視覺嵌入的生成。

階段 3:多模態(tài)指令學(xué)習(xí)

在前兩個階段的基礎(chǔ)上,解凍 LLM 模塊,并在多模態(tài)指令數(shù)據(jù)集(如 LLaVA-Finetune)上訓(xùn)練整個模型。這個階段的目的是賦予 Ovis 跟隨多模態(tài)指令的能力。

訓(xùn)練超參數(shù)設(shè)置:

多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細節(jié)-AI.x社區(qū)

訓(xùn)練數(shù)據(jù)集

多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細節(jié)-AI.x社區(qū)

多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細節(jié)-AI.x社區(qū)

多模態(tài)大模型Ovis核心技術(shù)點、訓(xùn)練方法、數(shù)據(jù)細節(jié)-AI.x社區(qū)

參考文獻:Ovis: Structural Embedding Alignment for Multimodal Large Language Model,https://arxiv.org/abs/2405.20797


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/IMhx1_b6mTnughMTzw5zrA???


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦