自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

多模態(tài)大模型:基礎(chǔ)架構(gòu) 原創(chuàng)

發(fā)布于 2024-10-29 12:36
瀏覽
0收藏

大模型技術(shù)論文不斷,每個(gè)月總會(huì)新增上千篇。本專欄精選論文重點(diǎn)解讀,主題還是圍繞著行業(yè)實(shí)踐和工程量產(chǎn)。若在某個(gè)環(huán)節(jié)出現(xiàn)卡點(diǎn),可以回到大模型必備腔調(diào)或者LLM背后的基礎(chǔ)模型重新閱讀。而最新科技(Mamba,xLSTM,KAN)則提供了大模型領(lǐng)域最新技術(shù)跟蹤。若對于具身智能感興趣的請移步具身智能專欄。技術(shù)宅麻煩死磕AI架構(gòu)設(shè)計(jì)。當(dāng)然最重要的是訂閱“魯班模錘”。

多模態(tài)大型語言模型(MLLM)是人工智能領(lǐng)域的前沿創(chuàng)新,它結(jié)合了語言和視覺模型的功能,可以處理復(fù)雜的任務(wù),如視覺問答和圖像字幕。這些模型利用大規(guī)模預(yù)訓(xùn)練,集成了多種數(shù)據(jù)模態(tài),以顯著提高其在各種應(yīng)用程序中的性能。

1.架構(gòu)概覽

較為常見的MLLM框架可以分為三個(gè)主要模塊:接收且有效編碼的多模態(tài)編碼器、多模態(tài)之間數(shù)據(jù)對齊的投影器、和接收對齊信號并執(zhí)行推理的大語言模型。當(dāng)然各種項(xiàng)目總有自己的差異化設(shè)計(jì),例如Chameleon或者Octo。<可以隨鏈接查看!>

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

MLLM的主要的優(yōu)化方向,在于處理高分辨率圖像、壓縮視覺標(biāo)記(token)、多模態(tài)對齊、高效結(jié)構(gòu)和利用緊湊語言模型等。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

上圖是一些MLLM的部分例子,將其中的基座LLM、視覺編碼器、圖像分辨率和投影器列具出來。

2.視覺編碼器

來看看視覺編碼器,與主流MLLM實(shí)踐一致,基本上都是選擇CLIP<鏈接查看詳情!>的預(yù)訓(xùn)練模型。這種方法有助于更好地對齊視覺和文本輸入的特征空間。視覺編碼器在MLLM參數(shù)中所占比例相對較小,因此與語言模型相比,輕量級優(yōu)化不是剛需。

單一的編碼器肯定無法在不同的任務(wù)中始終表現(xiàn)出色,將各種偏差的數(shù)據(jù)編碼器進(jìn)行聯(lián)動(dòng)則能夠產(chǎn)生令人驚訝的相似結(jié)果。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)


BRAVE的深度消融實(shí)驗(yàn)證明了上述的結(jié)論。BRAVE按順序連接了K個(gè)不同視覺編碼器的特征(上圖左)。之后這些串聯(lián)特征被MEQ-Former進(jìn)一步提煉(上圖右)。


多個(gè)視覺編碼器的確有助于捕捉廣泛的視覺表征,從而增強(qiáng)模型對視覺數(shù)據(jù)的理解。Cobra將DINOv2和SigLIP集成為其視覺主干,其原理是將DINOv2的低級空間特征與 SigLIP提供的語義屬性相結(jié)合將提高后續(xù)任務(wù)的性能。SPHINX-X采用兩個(gè)視覺編碼器DINOv2和CLIP-ConvNeXt。

鑒于這些基礎(chǔ)模型已經(jīng)通過不同的學(xué)習(xí)方法(自監(jiān)督與弱監(jiān)督)和網(wǎng)絡(luò)架構(gòu)(ViT與 CNN)進(jìn)行預(yù)訓(xùn)練,應(yīng)該能夠提供互補(bǔ)和復(fù)雜的視覺表征。

這些術(shù)語將在后續(xù)的文章中逐一講解!可以關(guān)注“具身智能”專欄!

輕量級視覺編碼器Vision Transformer架構(gòu)在實(shí)際應(yīng)用中由于硬件和環(huán)境限制而面臨挑戰(zhàn)。ViTamin代表一種輕量級視覺模型,專門針對視覺和語言模型量身定制。依照下圖所示,通過兩層的MBC外加一層的注意力塊完成視覺編碼,然后和文本一起進(jìn)行對比學(xué)習(xí)。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

值得一提,ViTamin-XL的參數(shù)數(shù)量只有436M,卻達(dá)到了ImageNet zero-shot 82.9%的準(zhǔn)確率,超過了EVA-E的準(zhǔn)確率82.0%。要知道EVA-E的參數(shù)數(shù)量為4.4B。

3.視覺投影器

視覺投影器的目的在于將視覺嵌入(Visual embeddings)等輸入映射到文本空間(Text Embeddings)中。換句話說也就是將不同模態(tài)進(jìn)行對齊。

1)投影,相信讀者最直觀的就是線性投影儀或多層感知器(MLP)來實(shí)現(xiàn),可以理解就是最普通的神經(jīng)網(wǎng)絡(luò)。比如幾層的神經(jīng)網(wǎng)與非線性激活函數(shù)組合而成。

2)部分的投影基于注意力機(jī)制。BLIP2引入Q-Former,這是一種輕量級轉(zhuǎn)換器,它使用一組可學(xué)習(xí)的查詢向量從凍結(jié)的視覺模型中提取視覺特征。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

Q-former基于對比學(xué)習(xí)進(jìn)行訓(xùn)練,上圖右側(cè)展示了由Flamingo提出的感知重采樣器(Perceiver Resampler)考慮在交叉注意力中使用earned Queries(上圖彩色序列塊)作為Q,而圖像特征展開與Q連接起來,在交叉注意力中充當(dāng)K和V。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

上圖為BLIP-2的第二階段架構(gòu),通過這種方式,在Learned Queries的相應(yīng)位置的轉(zhuǎn)換器輸出被作為視覺特征的聚合表示,從而將可變長度的視頻幀特征標(biāo)準(zhǔn)化為固定大小的特征。

3)部分的投影基于CNN。MobileVLMv2提出了LDPv2,這是一種新的投影。由三部分組成:特征轉(zhuǎn)換、Token壓縮和位置信息增強(qiáng)。通過使用逐點(diǎn)卷積層、平均池化和具有跳躍連接的PEG模塊,LDPv2實(shí)現(xiàn)了更高的效率,與原始LDP相比,參數(shù)減少了99.8%,處理速度略快。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

4)最后還有基于大名鼎鼎的Mamba,VL-Mamba在其視覺語言投影儀中實(shí)現(xiàn)了2D視覺選擇性掃描(VSS)技術(shù),促進(jìn)了不同學(xué)習(xí)方法的融合。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

5)和所有武功都有最后一式一樣,投影可以采用混合架構(gòu)。Honeybee提出了兩種視覺投影儀的組合,即C-Abstractor和D-Abstractor,它們遵循兩個(gè)主要設(shè)計(jì)原則:(i)在視覺Token數(shù)量生成方面提供適應(yīng)性,以及(ii)有效地維護(hù)本地上下文。下圖詳細(xì)的展示了Honeybee的投影混合架構(gòu):

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

C-Abstractor,或卷積抽象器,專注于通過采用卷積架構(gòu)來熟練地對局部上下文進(jìn)行建模。該結(jié)構(gòu)由L個(gè)ResNet塊組成,然后緊接著是額外的L個(gè)ResNet塊,這有助于將視覺特征抽象為任意平方數(shù)量的視覺標(biāo)記。而D-Abstractor是基于Deformable注意力的Abstractor。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

4.視覺Token壓縮

MLLM在需要復(fù)雜識別的任務(wù)中面臨著相當(dāng)大的挑戰(zhàn),尤其是帶有OCR的場景。盡管提高圖像分辨率可以解決,然而增加視覺Token的數(shù)量給MLLM帶來了巨大的計(jì)算負(fù)擔(dān),這主要是由于Transformer架構(gòu)中計(jì)算成本與輸入Token數(shù)量呈二次比例,因此如何優(yōu)化則成為這個(gè)領(lǐng)域很熱門的主題。

直接使用高分辨率視覺編碼器進(jìn)行細(xì)粒度感知的成本高,并且不符合實(shí)際使用要求。為了讓MLLM能夠感知細(xì)節(jié)且實(shí)現(xiàn)低分辨率的編碼能力,一般會(huì)利用全局視圖進(jìn)行圖片規(guī)模的壓縮以及通過拆分衍生局部的圖像塊(Patch)。

LLaVA-UHD提出了一種圖像模塊化策略,將原生分辨率的圖像劃分為更小的可變大小切片,以實(shí)現(xiàn)高效和可擴(kuò)展的編碼。注意下圖左側(cè),這個(gè)框架自動(dòng)的選擇最優(yōu)的切分方案。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

此外,InternLM-XComposer2-4KHD 引入了一種通過自動(dòng)布局排列動(dòng)態(tài)調(diào)整分辨率的策略,不僅可以保持圖像的原始縱橫比,還可以自適應(yīng)地改變Patch布局和計(jì)數(shù),從而提高圖像信息提取的效率。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

通過對不同分辨率的圖像實(shí)施自適應(yīng)輸入策略,可以在感知能力和效率之間實(shí)現(xiàn)平衡。如上圖所示,說白了就是將原圖壓縮和切塊一起進(jìn)行編碼。

Mini-Gemini由兩個(gè)編碼器組成,一個(gè)用于高分辨率圖像,另一個(gè)用于低分辨率視覺嵌入。它提出了patch的信息挖掘,它使用低分辨率的視覺嵌入作為查詢,通過交叉注意力從高分辨率候選者那里檢索相關(guān)的視覺線索。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

Scaling on Scales表明,多尺度較小模型的學(xué)習(xí)能力與較大模型相當(dāng),并且預(yù)訓(xùn)練較小的模型可以在MLLM基準(zhǔn)測試上匹配甚至超過較大模型的優(yōu)勢,同時(shí)計(jì)算效率更高。

多模態(tài)大模型:基礎(chǔ)架構(gòu)-AI.x社區(qū)

S2-Wrapper是一種簡單的機(jī)制,它可以以無參數(shù)的方式將任何預(yù)訓(xùn)練的視覺模型擴(kuò)展到多個(gè)圖像尺度。以ViT-B為例,S2-Wrapper將輸入圖像插值到不同的尺度(例如2242和4482),然后將每個(gè)尺度分割成幾個(gè)與默認(rèn)輸入大小相同的子圖像(4482→4×2242)。對于每個(gè)尺度,所有子圖像都被輸入到同一個(gè)模型中,輸出(例如4×162)被合并到整個(gè)圖像的特征圖中(322)。不同尺度的特征圖被平均池化到原始空間大?。?62)并連接在一起。最終的多尺度特征具有與單尺度特征相同的空間形狀,但有更高維度(例如1536 vs 768)。

5.小結(jié)

MLLM的主要問題是資源需求,訓(xùn)練這些模型需要大量的計(jì)算資源,通常只有擁有大量預(yù)算的大型企業(yè)才能使用。例如,在 NVIDIA A100 GPU上訓(xùn)練像MiniGPT-v2這樣的模型需要超過800個(gè)GPU小時(shí),這對于許多學(xué)術(shù)研究人員和小公司來說成本是巨大的。此外,推理的高計(jì)算成本進(jìn)一步加劇了這個(gè)問題,使得在邊緣計(jì)算等資源受限的環(huán)境中部署這些模型變得困頓。OpenAI的GPT-4V和谷歌的Gemini等模型通過大規(guī)模預(yù)訓(xùn)練取得了顯著的性能,但它們的計(jì)算需求限制了它們的使用。

目前應(yīng)對這些挑戰(zhàn)的方法集中在優(yōu)化MLLM的效率上,需要MLLM采用多種創(chuàng)新技術(shù)來解決資源消耗問題。其中包括引入更輕的架構(gòu),旨在降低參數(shù)和計(jì)算復(fù)雜性。例如,MobileVLM和LLaVA-Phi等模型使用視覺Token壓縮和高效的視覺語言投影器來提高效率。

通過采用Token壓縮和輕量級模型結(jié)構(gòu),這些模型實(shí)現(xiàn)了計(jì)算效率的顯著提高,并拓寬了其應(yīng)用范圍。例如,與以前的型號相比,LLaVA-UHD支持處理分辨率高達(dá)6倍的圖像,只需94%的計(jì)算量。這使得在學(xué)術(shù)環(huán)境中訓(xùn)練這些模型成為可能,一些模型只需23小時(shí)即可使用8個(gè)A100 GPU進(jìn)行訓(xùn)練。值得一提的是,這些效率的提高不是以犧牲性能為代價(jià)的。

本文轉(zhuǎn)載自 ??魯班模錘??,作者: 龐德公

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2024-11-4 11:15:43修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦