2024年以來(lái),學(xué)術(shù)和產(chǎn)業(yè)界的那些SOTA多模態(tài)大模型的架構(gòu)演進(jìn)之路 精華
作者:Dreamweaver(已授權(quán)轉(zhuǎn)載) 編輯:AI生成未來(lái)
鏈接:https://zhuanlan.zhihu.com/p/706145455
本文是《多模態(tài)視覺(jué)-語(yǔ)言大模型的架構(gòu)演進(jìn)》的續(xù)篇,聚焦2024年以來(lái)學(xué)術(shù)界和產(chǎn)業(yè)界的SOTA多模態(tài)大模型 (Multimodal Large Language Models, MLLM),分享架構(gòu)設(shè)計(jì)中的深刻見(jiàn)解與最佳實(shí)踐。我們會(huì)發(fā)現(xiàn),最新流行的MLLM架構(gòu)大多采用類LLaVA的ViT+MLP+LLM范式。得益于LLaVA的精簡(jiǎn)設(shè)計(jì)、數(shù)據(jù)和訓(xùn)練高效性、更強(qiáng)的baseline性能,LLaVA架構(gòu)建立起了良好的應(yīng)用生態(tài)。國(guó)內(nèi)也涌現(xiàn)出了高質(zhì)量的MLLM,InternVL拉近了開源模型與GPT-4V的差距,具備4K高分辨率處理能力,而MiniCPM-V實(shí)現(xiàn)了高效端側(cè)部署,讓小模型也能抗衡頂尖的閉源模型。最新的Cambrian-1則是鼓勵(lì)研究者跳出當(dāng)前MLLM的思維定式,不斷探索視覺(jué)表征更多的可能性。通往AGI有多條路徑,而原生的多模態(tài)大模型則是必經(jīng)之路。
本文重點(diǎn)介紹LLaVA-NeXT、InternVL、MiniCPM-V系列,以及以視覺(jué)為中心的Cambrian-1,簡(jiǎn)單介紹VILA1.5和CogVLM2。截止2024.06,持續(xù)更新ing... 干貨很多,歡迎大家多多點(diǎn)贊、收藏、討論!相對(duì)較早的MLLM詳見(jiàn)我的上篇文章:
??多模態(tài)視覺(jué)-語(yǔ)言大模型的架構(gòu)演進(jìn)???(???https://zhuanlan.zhihu.com/p/693885420???)
LLaVA-NeXT系列
LLaVA-1.5
23年10月,LLaVA-1.5發(fā)布,通過(guò)在視覺(jué)和語(yǔ)言模態(tài)間添加簡(jiǎn)單的MLP層實(shí)現(xiàn)了訓(xùn)練樣本高效性,為多模態(tài)大模型在低數(shù)據(jù)業(yè)務(wù)場(chǎng)景的落地提供了可能。
[2310.03744] Improved Baselines with Visual Instruction Tuning[1]
LLaVA-NeXT
24年1月,LLaVA-NeXT(1.6)發(fā)布,在1.5的基礎(chǔ)上保持了精簡(jiǎn)的設(shè)計(jì)和數(shù)據(jù)高效性,支持更高的分辨率、更強(qiáng)的視覺(jué)推理和OCR能力、更廣泛場(chǎng)景的視覺(jué)對(duì)話。模型分為兩階段訓(xùn)練:階段1預(yù)訓(xùn)練只訓(xùn)練連接層,階段2指令微調(diào)訓(xùn)練整個(gè)模型。
LLaVA-NeXT: Improved reasoning, OCR, and world knowledge[2]
- 動(dòng)態(tài)高分辨率AnyRes:如上圖,為了讓模型能感知高分辨率圖像的復(fù)雜細(xì)節(jié),對(duì)圖像進(jìn)行網(wǎng)格劃分。比如,對(duì)于672x672的圖像,一方面按2x2的網(wǎng)格切分為4張336px的輸入圖像送給ViT編碼成特征,另一方面將圖像直接resize到336px進(jìn)行編碼,最后將兩部分特征合并輸入到LLM中,這樣模型具備了全局和局部的視覺(jué)推理能力。
- 指令數(shù)據(jù)混合:一方面保證指令數(shù)據(jù)具有高質(zhì)量、多樣性,反映真實(shí)場(chǎng)景的廣泛用戶意圖;另一方面,補(bǔ)充文檔和表格數(shù)據(jù),提升模型的OCR和圖表理解能力。
- 擴(kuò)大LLM尺寸:考慮了7B、13B、34B的LLM。
24年5月,團(tuán)隊(duì)發(fā)布基于更強(qiáng)LLM的LLaVA-NeXT版本,支持LLaMA3(8B)和Qwen1.5(72B/110B)。更大的LLM提供更好的視覺(jué)世界知識(shí)和邏輯推理能力,最大的模型接近GPT-4V的性能,同時(shí)保證了訓(xùn)練高效性。
LLaVA-NeXT: Stronger LLMs Supercharge Multimodal Capabilities in the Wild[3]
LLaVA-NeXT-Video
24年4月,LLaVA-NeXT-Video發(fā)布,展現(xiàn)出強(qiáng)大的zero-shot視頻理解能力。LLaVA-NeXT中的高分辨率圖像動(dòng)態(tài)劃分可以很自然地遷移到視頻模態(tài)用來(lái)表示視頻的多幀,使得只在圖文模態(tài)上訓(xùn)練的LLaVA-NeXT能在視頻任務(wù)上泛化。此外,推理時(shí)的長(zhǎng)度泛化用于有效處理超出LLM最大長(zhǎng)度的長(zhǎng)視頻輸入?;贚LaVA-NeXT-Image模型,作者發(fā)布了在視頻數(shù)據(jù)上監(jiān)督微調(diào)的LLaVA-NeXT-Video,以及在AI反饋的監(jiān)督下使用DPO偏好對(duì)齊的LLaVA-NeXT-Video-DPO。使用SGLang部署和推理,支持可擴(kuò)展的大規(guī)模視頻推理??梢韵氲剑@有助于海量視頻的高效文本標(biāo)注,催生了未來(lái)更強(qiáng)大視頻生成模型。
LLaVA-NeXT: A Strong Zero-shot Video Understanding Model[4]
- AnyRes:可以將N幀視頻看作{1xN}的網(wǎng)格,而LLM的最大長(zhǎng)度限制了可以處理的幀數(shù),很自然地會(huì)考慮對(duì)圖像進(jìn)行下采樣減少每幀token數(shù),但作者發(fā)現(xiàn)為保證效果仍只能處理16幀。
- 長(zhǎng)度泛化:基于LLM的長(zhǎng)度外推技術(shù)(RoPE的線性擴(kuò)展),推理時(shí)擴(kuò)展2倍,從之前的16幀擴(kuò)展到56幀,大大提升了模型分析長(zhǎng)視頻序列的能力。
- 基于LLM反饋的DPO偏好優(yōu)化:偏好數(shù)據(jù)由LLM生成,視頻表示為詳細(xì)的說(shuō)明文字,帶來(lái)了很大的性能增益。
- 對(duì)于視頻數(shù)據(jù)的微調(diào),作者進(jìn)行了ablation study:(1) 在LLaVA-NeXT圖像級(jí)指令微調(diào)后,繼續(xù)在視頻級(jí)指令上增量微調(diào);(2) 在LLaVA-NeXT圖像級(jí)預(yù)訓(xùn)練后,在圖像級(jí)和視頻級(jí)數(shù)據(jù)聯(lián)合微調(diào),每個(gè)batch數(shù)據(jù)包含一種類型或者混合兩種類型,實(shí)驗(yàn)表明混合圖像和視頻模態(tài)數(shù)據(jù)效果最佳。
指令微調(diào)Ablation Study
團(tuán)隊(duì)還分享了視覺(jué)指令微調(diào)過(guò)程中除數(shù)據(jù)之外的因素的ablation study,從模型架構(gòu)、視覺(jué)表征、訓(xùn)練策略角度進(jìn)行分析。
LLaVA-NeXT: What Else Influences Visual Instruction Tuning Beyond Data?[5]
- 模型架構(gòu):擴(kuò)展LLM比擴(kuò)展視覺(jué)編碼器更有效,視覺(jué)輸入配置(分辨率、token數(shù))比視覺(jué)編碼器大小更關(guān)鍵。
- 學(xué)習(xí)率:為了訓(xùn)練更穩(wěn)定,視覺(jué)編碼器的學(xué)習(xí)率通常應(yīng)該比LLM學(xué)習(xí)率小10倍~5倍,更大的LLM需要更小的學(xué)習(xí)率,盡量避免loss跑飛。
- 視覺(jué)編碼器:相較于模型大小,基于分辨率、token數(shù)的視覺(jué)特征支持編碼更多的視覺(jué)細(xì)節(jié),預(yù)訓(xùn)練數(shù)據(jù)支持編碼更多的視覺(jué)知識(shí),作用更重要。
- 視覺(jué)表征:分辨率、特征空間視覺(jué)token數(shù)都重要,相對(duì)來(lái)說(shuō)擴(kuò)展分辨率更有效,建議使用AnyRes時(shí)下采樣。
- 對(duì)于更高分辨率圖像或者更長(zhǎng)的視頻,AnyRes需要更多的格子。比如,對(duì)于超過(guò)768x768的圖像,以前的方案首先resize到768x768會(huì)導(dǎo)致細(xì)節(jié)丟失。這里考慮劃分成更多的格子,然后對(duì)編碼的特征進(jìn)行雙線性插值(下采樣)到更小的特征,以防止視覺(jué)token數(shù)過(guò)多。
- 訓(xùn)練策略:在互聯(lián)網(wǎng)級(jí)低質(zhì)數(shù)據(jù)上大規(guī)模預(yù)訓(xùn)練后,指令微調(diào)前,增加一個(gè)階段,使用一些高質(zhì)量合成數(shù)據(jù)增強(qiáng)知識(shí)。
LLaVA-NeXT-Interleave
24年6月,LLaVA-NeXT-Interleave發(fā)布,提出圖文交錯(cuò)格式可以作為通用模版統(tǒng)一不同的視覺(jué)模態(tài),比如單圖像(multi-patch)、多圖像(multi-image)、視頻(multi-frame)、3D(multi-view)。在保證LLaVA-NeXT單圖像輸入的性能下,可以提高其它模態(tài)任務(wù)的性能,而且在不同模態(tài)任務(wù)上具有初步的遷移能力。這種大一統(tǒng)的模型支持更廣泛真實(shí)場(chǎng)景的應(yīng)用,比如多頁(yè)P(yáng)PT的總結(jié)和問(wèn)答、生成圖像編輯的提示詞、多文檔的匯總和比較。
LLaVA-NeXT: Tackling Multi-image, Video, and 3D in Large Multimodal Models[6]
作者在訓(xùn)練策略上進(jìn)行了ablation study:
- 從LLaVA-NeXT單圖像模型繼續(xù)訓(xùn)練,從stage2單圖像指令微調(diào)后的模型開始訓(xùn)練效果更好,可以繼承單圖像任務(wù)的指令遵循能力。
- 兩種組織格式:將所有圖像token放在最前面,在文本中使用特殊token指代圖像 (in-the-front),將圖像token放在其原來(lái)的位置,與文本交錯(cuò) (interleaved)。實(shí)驗(yàn)表明,在訓(xùn)練階段混合兩種格式有助于在推理階段這兩種格式都取得更好的性能。
InternVL系列
InternVL-1.0
23年12月,上海AI Lab @OpenGVLab發(fā)布InternVL。該工作在模態(tài)對(duì)齊中視覺(jué)編碼器和LLM之間在參數(shù)規(guī)模和特征表征能力上存在較大的差距,自然地提出擴(kuò)大視覺(jué)端的參數(shù)量到6B (InternViT-6B),然后使用不同質(zhì)量的圖文數(shù)據(jù)逐漸與LLM對(duì)齊。此外,連接層的參數(shù)量也擴(kuò)大了,類似Q-Former,這里設(shè)計(jì)了一個(gè)8B的語(yǔ)言中間件QLLaMA,使用Chinese-LLaMA的參數(shù)初始化增強(qiáng)其跨語(yǔ)言理解能力,新增96個(gè)可學(xué)習(xí)query token和cross-attention層 (1B),實(shí)現(xiàn)視覺(jué)和語(yǔ)言模態(tài)進(jìn)一步對(duì)齊。
[2312.14238] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks[7]
下圖是InternVL的三階段漸進(jìn)式訓(xùn)練策略,訓(xùn)練數(shù)據(jù)質(zhì)量逐漸提高,最開始使用大規(guī)模有噪的圖文對(duì)進(jìn)行對(duì)比預(yù)訓(xùn)練 (類似CLIP),接著加入凍結(jié)參數(shù)的QLLaMA連接件,只學(xué)習(xí)cross-attention,使用圖文匹配/對(duì)比/生成loss (類似BLIP),最后引入LLM進(jìn)行監(jiān)督微調(diào),賦予多模態(tài)對(duì)話和問(wèn)答能力。
InternVL訓(xùn)練的多階段性賦予其內(nèi)在的多功能性,通過(guò)靈活組合不同模塊,可以支持各種視覺(jué)-語(yǔ)言任務(wù),如下圖。
這里值得討論的一個(gè)點(diǎn)在于,InternVL為了讓視覺(jué)端和語(yǔ)言端參數(shù)量平衡,對(duì)視覺(jué)端和連接層都進(jìn)行了scale up。一個(gè)很自然的問(wèn)題是,視覺(jué)端真的需要這么heavy的參數(shù)量嗎?因?yàn)楫?dāng)前最新的LLaVA-NeXT仍然使用約300M的ViT和輕量的MLP連接層,僅通過(guò)擴(kuò)展LLM提升多模態(tài)任務(wù)性能。我的個(gè)人拙見(jiàn)是,視覺(jué)理解包括感知和推理,感知部分可能并不需要那么大的參數(shù)量,而推理部分作用于high-level的視覺(jué)特征,通過(guò)微調(diào)LLM賦予其理解推理視覺(jué)模態(tài)的能力,所以為了性能、效率和穩(wěn)定性的平衡,似乎這里scale up必要性不是很強(qiáng),當(dāng)然這里值得深入實(shí)驗(yàn)的驗(yàn)證和討論??吹竭@篇論文中的圖,讓我想到了22年Google的Coca論文,作者把文本解碼器按層對(duì)半劃開,淺層一半用于文本單模態(tài),深層一半用于圖文多模態(tài),可以看到下圖視覺(jué)端參數(shù)量占比也相當(dāng)高。
[2205.01917] CoCa: Contrastive Captioners are Image-Text Foundation Models(https://arxiv.org/abs/2205.01917)
InternVL-1.5
24年4月,InternVL-1.5發(fā)布,綜合性能更強(qiáng),且支持推理時(shí)高達(dá)4K的分辨率。
[2404.16821] How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites[8]
上圖為模型整體架構(gòu),采用了類LLaVA的ViT+MLP+LLM范式,結(jié)合了增強(qiáng)的InternViT-6B-448px-V1.5和中英雙語(yǔ)InternLM2-Chat-20B,總體參數(shù)約26B。相比于InternVL-1.0,在輸入端支持了動(dòng)態(tài)高分辨率,連接層改為輕量的MLP,使用pixel shuffle操作將輸出的視覺(jué)token數(shù)減為1/4。訓(xùn)練分為兩階段,預(yù)訓(xùn)練階段訓(xùn)練InternViT和MLP映射,隨后微調(diào)整個(gè)模型。
- 這里不再使用Q-Former作為連接層的原因,可以參考作者 @Weiyun 大佬的回答:多模態(tài)大語(yǔ)言模型(MLLM)為什么最近的工作中用BLIP2中Q-Former結(jié)構(gòu)的變少了?- Weiyun的回答[9],大致意思是說(shuō)相比于MLP,Q-Former參數(shù)量大收斂更慢,數(shù)據(jù)量小的場(chǎng)景無(wú)法達(dá)到LLaVA-1.5這樣的性能,而且提高數(shù)據(jù)量和計(jì)算量,Q-Former也沒(méi)有明顯的性能優(yōu)勢(shì)。
- 這里的pixel shuffle操作來(lái)源于16年的一篇論文[10],本質(zhì)是對(duì)特征元素進(jìn)行重排列,將的特征變換為,對(duì)特征進(jìn)行了空間維度的上采樣,但通道維度縮小為原來(lái)的。這里輸出的視覺(jué)token數(shù)可以理解為通道數(shù),主要目的是通過(guò)提升特征維度換取更少的token數(shù),從而可以支持更高的圖像分辨率。這樣,448x448的輸入圖像,patch size=14,總共有32x32=1024個(gè)token,設(shè)置上采樣系數(shù)r=2,則該圖像可以表示為256個(gè)token。
接著我們來(lái)看InternVL-1.5的三個(gè)重要改進(jìn):
- InternViT增強(qiáng):V1.2版本去掉了模型的最后3層,將分辨率擴(kuò)展為固定448x448,而V1.5進(jìn)一步擴(kuò)展為動(dòng)態(tài)448x448,即每張訓(xùn)練圖像可分塊,每塊大小為448x448,支持1~12個(gè)塊。此外,還增強(qiáng)了數(shù)據(jù)規(guī)模、質(zhì)量和多樣性,提高了OCR和高分辨率處理能力。
- 動(dòng)態(tài)高分辨率:基于圖像的分辨率和縱橫比,將圖像切分為448x448的分塊,訓(xùn)練階段最多12塊,測(cè)試階段可以外推到40塊,即4K分辨率,這樣模型訓(xùn)練和推理能適應(yīng)多種分辨率和縱橫比,避免了強(qiáng)行resize帶來(lái)的失真和細(xì)節(jié)丟失。如下圖,具體來(lái)說(shuō),對(duì)于一張800x1300的圖像,從預(yù)定義的縱橫比中匹配一個(gè)最接近的縱橫比2:3,然后將圖像resize到896x1344,并切分為多個(gè)448x448的圖像塊,再添加一個(gè)縮略視圖 (直接resize到448x448) 用于圖像全局理解。
- 高質(zhì)量中英雙語(yǔ)數(shù)據(jù)集:包含自然場(chǎng)景、圖表、文檔、對(duì)話等多樣化的數(shù)據(jù),借助LLM實(shí)現(xiàn)數(shù)據(jù)集英文到中文的轉(zhuǎn)換。
此外,翻譯的prompt值得我們學(xué)習(xí):
System:
You are a translator proficient in English and {language}. Your task is to translate the following English text into {language}, focusing on a natural and fluent result that avoids “translationese.” Please consider these points:
1. Keep proper nouns, brands, and geographical names in English.
2. Retain technical terms or jargon in English, but feel free to explain in {language} if necessary.
3. Use {language} idiomatic expressions for English idioms or proverbs to ensure cultural relevance.
4. Ensure quotes or direct speech sound natural in {language}, maintaining the original’s tone.
5. For acronyms, provide the full form in {language} with the English acronym in parentheses.
User:
Text for translation: {text}
Assistant:
{translation results}
作者在ablation study部分研究了更大的LLM是否需要更大的視覺(jué)編碼器,實(shí)際上是針對(duì)我們上面對(duì)InternVL-1.0視覺(jué)端參數(shù)量的問(wèn)題的實(shí)驗(yàn)。實(shí)驗(yàn)對(duì)比了LLaVA-NeXT和InternVL-1.2,兩者都使用34B的LLM,在盡量保證對(duì)比公平的條件下,實(shí)驗(yàn)證明更大的視覺(jué)模型能提供模型解決多模態(tài)任務(wù)的整體性能(不過(guò)原論文好像沒(méi)有給具體數(shù)據(jù)?)。團(tuán)隊(duì)后續(xù)也發(fā)布了蒸餾版的視覺(jué)模型InternViT-300M-448px[11],與LLaVA-NeXT的視覺(jué)端保持了同等規(guī)模。
MiniCPM-V系列
MiniCPM-V[12]是 @面壁智能 發(fā)布的一系列支持高效端側(cè)部署的多模態(tài)LLM。
MiniCPM-V 2.0
24年4月,MiniCPM-V 2.0發(fā)布,僅有2.8B參數(shù),整體性能超過(guò)了Yi-VL 34B、CogVLM-Chat 17B、Qwen-VL-Chat 10B等更大的開源模型,OCR能力突出,支持中英雙語(yǔ)對(duì)話,部分指標(biāo)接近Gemini Pro。
視覺(jué)編碼器使用SigLIP SO400M/14-384px[13],LLM使用MiniCPM-2.4B[14],連接層使用Flamingo[15]中的Perceiver Resampler (類似Q-Former使用可學(xué)習(xí)query提取顯著視覺(jué)信息,但不以輸入文本為條件)?;谧匝械腞LHF-V[16]實(shí)現(xiàn)可信行為對(duì)齊,在緩解多模態(tài)幻覺(jué)問(wèn)題上接近GPT-4V?;谧匝械腖LaVA-UHD支持高達(dá)1344x1344的分辨率和任意縱橫比輸入?;谧匝械腣isCPM[17]實(shí)現(xiàn)跨語(yǔ)言的多模態(tài)能力泛化,進(jìn)而有良好的中英雙語(yǔ)能力。此外,該模型在端側(cè)部署內(nèi)存開銷較小、速度較快,即便是處理高分辨率的圖像。官方還提供了安卓端部署的mlc-MiniCPM[18]示例。
MiniCPM-Llama3-V 2.5
24年5月,MiniCPM-Llama3-V 2.5發(fā)布,總共8B參數(shù),整體性能超過(guò)了GPT-4V-1106、Gemini Pro、Qwen-VL-Max、Claude 3等閉源模型,OCR和指令遵循能力進(jìn)一步增強(qiáng) (增強(qiáng)了全文本OCR提取、表格到Markdown轉(zhuǎn)換等功能),支持超過(guò)30種語(yǔ)言對(duì)話,在量化、編譯優(yōu)化、高效推理等加持下,同樣可以在端側(cè)高效部署。
在MiniCPM-V 2.0基礎(chǔ)上,LLM替換為L(zhǎng)lama3-8B-Instruct,基于更新的RLAIF-V進(jìn)一步降低幻覺(jué)率。當(dāng)前,官方支持了llama.cpp和ollama的高效CPU推理、GGUF 16-bit量化、LoRA微調(diào)等實(shí)用功能。
VILA1.5
24年5月,NVIDIA發(fā)布VILA1.5[19],提供視頻理解能力,開源了3B/8B/13B/40B的模型,位于當(dāng)前開源榜單MMMU和Video-MME前列。VILA詳見(jiàn)我的上篇文章,這里簡(jiǎn)單回顧一下:VILA在大規(guī)模交錯(cuò)圖文數(shù)據(jù)上預(yù)訓(xùn)練,從而具有多圖理解能力,作者通過(guò)實(shí)驗(yàn)發(fā)現(xiàn):(1) 圖文交錯(cuò)排布比較關(guān)鍵;(2) 交錯(cuò)圖文預(yù)訓(xùn)練過(guò)程中微調(diào)LLM能賦予其上下文學(xué)習(xí)的能力;(3) 混合只有文本的指令數(shù)據(jù)有助于提升性能;(4) 壓縮視覺(jué)token可以擴(kuò)展視頻幀數(shù)。
CogVLM2
24年5月,智譜 @GLM大模型 發(fā)布CogVLM2[20],隨后發(fā)布了GLM-4V。CogVLM2基于Llama3-8B-Instruct,支持8K上下文、1344x1344分辨率、中英雙語(yǔ)對(duì)話。GLM-4V-9B替換為GLM-4-9B語(yǔ)言模型,采取同樣的數(shù)據(jù)和訓(xùn)練策略,去除CogVLM原有的視覺(jué)專家,將模型大小減為13B。CogVLM和CogAgent詳見(jiàn)我的上篇文章。
Cambrian-1
24年6月,LeCun&謝賽寧團(tuán)隊(duì)發(fā)布Cambrian-1,關(guān)注以視覺(jué)為中心的多模態(tài)LLM,開源了8B/13B/34B的模型。當(dāng)前多模態(tài)LLM仍存在較大的視覺(jué)缺陷,需要增強(qiáng)視覺(jué)表征以更好地和語(yǔ)言模態(tài)交互,賦予模型在真實(shí)場(chǎng)景更強(qiáng)的感知定位能力。這項(xiàng)研究的一大意義在于影響多模態(tài)LLM的工作開始重視視覺(jué)表征質(zhì)量的提升,而非一直scale up LLM。
[2406.16860] Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs[21]
如上圖,該工作圍繞多模態(tài)LLM的5個(gè)核心設(shè)計(jì)要素展開研究,分別是:視覺(jué)表征、連接器設(shè)計(jì)、指令微調(diào)數(shù)據(jù)、指令微調(diào)策略、評(píng)估基準(zhǔn)。
1.視覺(jué)表征
作者評(píng)估了多種視覺(jué)編碼器及其組合,下圖表明以語(yǔ)言監(jiān)督的CLIP模型優(yōu)勢(shì)較強(qiáng),但自監(jiān)督方法在提供充足數(shù)據(jù)和適當(dāng)微調(diào)的情況下性能也能接近。而且,結(jié)合多種類型的視覺(jué)編碼器有助于提升多模態(tài)LLM的性能,尤其是以視覺(jué)為中心的任務(wù)。注意到,高分辨率的編碼器大大增強(qiáng)了圖表和以視覺(jué)為中心任務(wù)的性能,而基于ConvNet的架構(gòu)適合處理這類任務(wù)。
- 連接器設(shè)計(jì)
提出Spatial Vision Aggregator (SVA),一個(gè)動(dòng)態(tài)的、具備空間感知的連接器,以將 (來(lái)自多個(gè)視覺(jué)編碼器的) 視覺(jué)特征與LLM深度融合。如下圖,該方法設(shè)置一些可學(xué)習(xí)的latent query tokens,通過(guò)cross-attention與多個(gè)視覺(jué)特征交互 (視覺(jué)特征作為key/value)。SVA的設(shè)計(jì)有兩點(diǎn)要素:(1) 通過(guò)顯式定義每個(gè)query token對(duì)應(yīng)的視覺(jué)特征圖子區(qū)域,引入空間inductive bias,便于模型在處理視覺(jué)信息時(shí)保留對(duì)空間結(jié)構(gòu)的理解,更準(zhǔn)確地定位和整合局部特征;(2) 在LLM的多層聚合視覺(jué)特征,讓模型在不同層級(jí)特征上反復(fù)利用視覺(jué)信息,增強(qiáng)模型對(duì)視覺(jué)內(nèi)容的深入推理能力。該方法可以有效減少需要的視覺(jué)token數(shù),例如相比于Mini-Gemini和LLaVA-NeXT,Cambrian-1的視覺(jué)token數(shù)是其20%。
- 指令微調(diào)數(shù)據(jù)
作者發(fā)布了指令微調(diào)數(shù)據(jù)集Cambrian-10M,綜合了OCR、通用VQA、純語(yǔ)言等指令數(shù)據(jù),還篩選了質(zhì)量更高的7M版本。不同類型的視覺(jué)指令數(shù)據(jù)能賦予模型不同的能力,因此數(shù)據(jù)配比的平衡性也很關(guān)鍵,實(shí)驗(yàn)結(jié)果表明,平衡OCR、通用數(shù)據(jù)和語(yǔ)言數(shù)據(jù)的比例很重要。此外,在實(shí)驗(yàn)中作者發(fā)現(xiàn),訓(xùn)練好的多模態(tài)LLM可能在基準(zhǔn)測(cè)試上指標(biāo)表現(xiàn)好,但實(shí)際對(duì)話能力弱,回復(fù)簡(jiǎn)短。因此,作者在訓(xùn)練期間引入了額外的系統(tǒng)提示,鼓勵(lì)模型輸出更長(zhǎng)的回答和思維鏈推理,增強(qiáng)數(shù)學(xué)推理等任務(wù)的表現(xiàn)。
- 指令微調(diào)策略
作者遵循LLaVA的兩階段訓(xùn)練策略,先使用適配數(shù)據(jù)只微調(diào)中間的MLP連接層,再打開LLM和連接器微調(diào)。結(jié)果表明,第一階段對(duì)連接器的預(yù)訓(xùn)練可以提高性能,而使用更多的適配數(shù)據(jù)可以進(jìn)一步增強(qiáng)。此外,作者對(duì)比了是否微調(diào)視覺(jué)編碼器帶來(lái)的性能影響,表明微調(diào)視覺(jué)編碼器能增強(qiáng)性能,尤其對(duì)自監(jiān)督預(yù)訓(xùn)練的視覺(jué)編碼器 (如DINO v2、MoCo v3、MAE等),在以視覺(jué)為中心的測(cè)試上提升明顯。
- 以視覺(jué)為中心的基準(zhǔn)CV-Bench
現(xiàn)有多數(shù)benchmark無(wú)法正確評(píng)估模型的視覺(jué)感知定位能力,而且相應(yīng)的樣本數(shù)量有限。CV-Bench重新利用現(xiàn)有視覺(jué)benchmark中的樣本,包含2638個(gè)以視覺(jué)為中心的VQA問(wèn)題,涉及2D的空間位置關(guān)系和物體計(jì)數(shù)、3D的深度次序和相對(duì)距離。
最后,讓我們共同期待我國(guó)的AGI基礎(chǔ)模型不斷取得新的突破,引領(lǐng)世界潮流!
本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Dreamweaver
